このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240120となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 総合衛星地上ネットワークにおけるセキュリティ感性タスクオフロード
Security-Sensitive Task Offloading in Integrated Satellite-Terrestrial Networks ( http://arxiv.org/abs/2404.15278v1 ) ライセンス: Link先を確認 | Wenjun Lan, Kongyang Chen, Jiannong Cao, Yikai Li, Ning Li, Qi Chen, Yuvraj Sahni, | (参考訳) 第6世代(6G)通信技術の急速な発展に伴い,グローバル通信ネットワークは包括的かつシームレスな網羅的目標に向かっている。
特に、低軌道衛星(LEO)は衛星通信ネットワークの重要な構成要素となっている。
LEO衛星の出現は、新しい計算資源である「textit{LEO satellite edge}」をもたらし、地上ユーザー(GU)が計算タスクをリソース豊富なLEO衛星エッジにオフロードできるようにする。
しかし、既存のLEO衛星オフロードソリューションは主にシステム性能の最適化に重点を置いており、タスクオフロード時の悪意ある衛星攻撃の潜在的な問題を無視している。
本稿では,衛星・地上ネットワーク(ISTN)構造におけるLEO衛星エッジの展開を提案する。
本研究では,タスク割り当ておよびタスクオフロード順序問題を協調最適化問題としてモデル化し,タスクオフロード遅延,エネルギー消費,攻撃回数の最小化と信頼性制約を満たす。
この目的を達成するために,タスクオフロード処理をマルコフ決定プロセス(MDP)としてモデル化し,PPOに基づくセキュリティに敏感なタスクオフロード戦略最適化アルゴリズムを提案する。
実験結果から,本アルゴリズムは,他のベンチマーク手法よりも性能的に優れていることが示された。
With the rapid development of sixth-generation (6G) communication technology, global communication networks are moving towards the goal of comprehensive and seamless coverage. In particular, low earth orbit (LEO) satellites have become a critical component of satellite communication networks. The emergence of LEO satellites has brought about new computational resources known as the \textit{LEO satellite edge}, enabling ground users (GU) to offload computing tasks to the resource-rich LEO satellite edge. However, existing LEO satellite computational offloading solutions primarily focus on optimizing system performance, neglecting the potential issue of malicious satellite attacks during task offloading. In this paper, we propose the deployment of LEO satellite edge in an integrated satellite-terrestrial networks (ISTN) structure to support \textit{security-sensitive computing task offloading}. We model the task allocation and offloading order problem as a joint optimization problem to minimize task offloading delay, energy consumption, and the number of attacks while satisfying reliability constraints. To achieve this objective, we model the task offloading process as a Markov decision process (MDP) and propose a security-sensitive task offloading strategy optimization algorithm based on proximal policy optimization (PPO). Experimental results demonstrate that our algorithm significantly outperforms other benchmark methods in terms of performance. | 翻訳日:2024-07-01 11:58:46 公開日:2024-01-20 |
# IoTネットワークにおけるマルウェア伝播の最適制御
Optimal Control of Malware Propagation in IoT Networks ( http://arxiv.org/abs/2401.11076v1 ) ライセンス: Link先を確認 | Mousa Tayseer Jafar, Lu-Xing Yang, Gang Li, Xiaofan Yang, | (参考訳) 近年、IoT(Internet of Things)デバイスが急速に普及し、これらのデバイスをターゲットにしたサイバー攻撃が急増している。
最近のデータによると、このような攻撃の数は100%以上増加しており、これらの脅威を緩和するための堅牢なサイバーセキュリティ対策が緊急に必要であることを示している。
さらに、IoTネットワークの侵入に成功すれば、サイバー攻撃がネットワーク全体にマルウェアを広げ始めます。
しかし、この攻撃を緩和するためには、すぐに新しいパッチを適用する必要がある。
実際には、新たなパッチの準備と適用に必要な時間は、サイバー攻撃の性質によって大きく異なる可能性がある。
本稿では,スマートホームのIoTネットワークにまたがる感染デバイス数の最小化と,マルウェアの伝播による影響を最小化する最適制御戦略を定式化することにより,新たなパッチ適用前のサイバー攻撃を緩和する方法の課題に対処する。
制限された環境に対する即時応答状態で、新規なノードベース疫学モデル、感染率が高く、感染率が低く、最初に回復し、回復完了(SI_HI_LR_FR_C)を確立する。
その後、高い感染率と低い感染率の両方を用いたIoTデバイスに対するマルウェアの影響を分析する。
最後に、主な結果を説明するために、スマートホームにおけるIoTネットワークの現実シナリオのシミュレーションに加えて、いくつかの数値解析を行い、実験に使用するデータセットを構築した。
The rapid proliferation of Internet of Things (IoT) devices in recent years has resulted in a significant surge in the number of cyber-attacks targeting these devices. Recent data indicates that the number of such attacks has increased by over 100 percent, highlighting the urgent need for robust cybersecurity measures to mitigate these threats. In addition, a cyber-attack will begin to spread malware across the network once it has successfully compromised an IoT network. However, to mitigate this attack, a new patch must be applied immediately. In reality, the time required to prepare and apply the new patch can vary significantly depending on the nature of the cyber-attack. In this paper, we address the issue of how to mitigate cyber-attacks before the new patch is applied by formulating an optimal control strategy that reduces the impact of malware propagation and minimise the number of infected devices across IoT networks in the smart home. A novel node-based epidemiological model susceptible, infected high, infected low, recover first, and recover complete(SI_HI_LR_FR_C) is established with immediate response state for the restricted environment. After that, the impact of malware on IoT devices using both high and low infected rates will be analyzed. Finally, to illustrate the main results, several numerical analyses are carried out in addition to simulate the real-world scenario of IoT networks in the smart home, we built a dataset to be used in the experiments. | 翻訳日:2024-03-18 08:36:55 公開日:2024-01-20 |
# 時間的相関の下での個人化軌跡の識別による保護
Protecting Personalized Trajectory with Differential Privacy under Temporal Correlations ( http://arxiv.org/abs/2401.11225v1 ) ライセンス: Link先を確認 | Mingge Cao, Haopeng Zhu, Minghui Min, Yulu Li, Shiyin Li, Hongliang Zhang, Zhu Han, | (参考訳) 車両用アドホックネットワーク(VANET)における位置情報ベースのサービス(LBS)は、多くの利便性を提供する。
しかし、LBSの広範な使用は、異なる場所間の時間的相関を利用して個人情報を抽出するため、ユーザのトラジェクトリのプライバシに関する懸念を提起する。
さらに、ユーザーは時間や場所によって異なるプライバシー要件を持つ。
これらの課題に対処するために、パーソナライズされた軌道プライバシー保護機構(PTPPM)を提案する。
このメカニズムは、まず軌道位置間の時間的相関を利用して、瞬時に設定できる位置を決定する。
ヒルベルト曲線に基づく最小距離探索アルゴリズムを用いて,各位置の保護位置集合(PLS)を同定する。
このアプローチには、ジオ識別可能性と歪みプライバシーの相補的な特徴が組み込まれている。
我々は位置摂動のための新しいPermute-and-Flip機構を提案し、データ公開プライバシー保護における初期応用を位置摂動機構にマッピングした。
このメカニズムは、プライバシとQoS(Quality of Service)のバランスを改善しつつ、摂動距離を小さくした偽の場所を生成する。
シミュレーションの結果,ユーザのQoS要件を満たしながら,プライバシー保護の強化によって,我々のメカニズムがベンチマークより優れていることが示された。
Location-based services (LBSs) in vehicular ad hoc networks (VANETs) offer users numerous conveniences. However, the extensive use of LBSs raises concerns about the privacy of users' trajectories, as adversaries can exploit temporal correlations between different locations to extract personal information. Additionally, users have varying privacy requirements depending on the time and location. To address these issues, this paper proposes a personalized trajectory privacy protection mechanism (PTPPM). This mechanism first uses the temporal correlation between trajectory locations to determine the possible location set for each time instant. We identify a protection location set (PLS) for each location by employing the Hilbert curve-based minimum distance search algorithm. This approach incorporates the complementary features of geo-indistinguishability and distortion privacy. We put forth a novel Permute-and-Flip mechanism for location perturbation, which maps its initial application in data publishing privacy protection to a location perturbation mechanism. This mechanism generates fake locations with smaller perturbation distances while improving the balance between privacy and quality of service (QoS). Simulation results show that our mechanism outperforms the benchmark by providing enhanced privacy protection while meeting user's QoS requirements. | 翻訳日:2024-03-18 08:36:55 公開日:2024-01-20 |
# サイバーセキュリティトレーニングをナビゲートする - 総合的なレビュー
Navigating Cybersecurity Training: A Comprehensive Review ( http://arxiv.org/abs/2401.11326v1 ) ライセンス: Link先を確認 | Saif Al-Dean Qawasmeh, Ali Abdullah S. AlQahtani, Muhammad Khurram Khan, | (参考訳) サイバーセキュリティのダイナミックな領域では、サイバー脅威に対する防御を強化するために、意識トレーニングが不可欠である。
本調査では,従来型,技術ベース,イノベーティブな戦略を分析し,サイバーセキュリティ意識の訓練方法について検討する。
それぞれの手法の原則、有効性、制約を評価し、それらの長所と短所を強調する比較分析を示す。
この研究はまた、人工知能や拡張現実のような新興トレンドを調査し、サイバーセキュリティトレーニングの将来への影響について論じている。
さらに、実際のケーススタディから洞察を得て、実装上の課題に対処し、解決策を提案する。
目標は、サイバーセキュリティ意識トレーニングの現在の状況に対する理解を深め、実践者と学者の両方に貴重な視点を提供することである。
In the dynamic realm of cybersecurity, awareness training is crucial for strengthening defenses against cyber threats. This survey examines a spectrum of cybersecurity awareness training methods, analyzing traditional, technology-based, and innovative strategies. It evaluates the principles, efficacy, and constraints of each method, presenting a comparative analysis that highlights their pros and cons. The study also investigates emerging trends like artificial intelligence and extended reality, discussing their prospective influence on the future of cybersecurity training. Additionally, it addresses implementation challenges and proposes solutions, drawing on insights from real-world case studies. The goal is to bolster the understanding of cybersecurity awareness training's current landscape, offering valuable perspectives for both practitioners and scholars. | 翻訳日:2024-03-18 08:36:55 公開日:2024-01-20 |
# マルチチェーンベースのマーケットプレースアーキテクチャ
A Multichain based marketplace Architecture ( http://arxiv.org/abs/2402.06636v1 ) ライセンス: Link先を確認 | Muhammad Shoaib Farooq, Hamza Jamil, Hafiz Sohail Riaz, | (参考訳) ]マルチチェーン非偽造トークン(NFT)マーケットプレイスは、ユーザがクロスコミュニケーションブリッジを使用して複数のブロックチェーンネットワーク上でNFTを購入し、販売し、取引できる分散プラットフォームである。
これまでのNTTマーケットプレースは、外部プラットフォームを必要とせずに、NFTを同じブロックチェーンネットワーク上で購入、販売、取引する単一チェーンをベースとしていた。
単一チェーンベースのマーケットプレースは、パフォーマンス、スケーラビリティ、柔軟性、トランザクションスループットの制限など、多くの問題に直面している。
まず、NFTマルチチェーンアーキテクチャの概要を概観し、単一チェーンアーキテクチャの課題を克服するために、NFTマーケットプレースの設計と実装フェーズの課題と機会を探る。
NFTマルチチェーンマーケットプレースアーキテクチャには、互いに通信するさまざまなブロックチェーンネットワークが含まれている。
第二に、複数のブロックチェーンネットワークが階層構造で相互に接続され、相互運用性、セキュリティ、スケーラビリティ、ユーザ導入に関連する重要な課題を識別するマルチブロックチェーンアーキテクチャを参照して、サイドチェーンと相互作用するメインチェーンの概念について論じる。
最後に、複数のブロックチェーンネットワークとマーケットプレースによるメリットを活用して、これらの重要な課題を克服する、マルチチェーンNTTマーケットプレースのための、新しいアーキテクチャを提案しました。
さらに、提案されたアーキテクチャはケーススタディを通じて評価され、複数のブロックチェーンネットワークにわたる効率的でセキュアなトランザクションをサポートする能力を示し、NTTやマーケットプレースの将来の動向を強調し、テクノロジに関する包括的な議論を行う。
]A multichain non-fungible tokens (NFTs) marketplace is a decentralized platform where users can buy, sell, and trade NFTs across multiple blockchain networks by using cross communication bridge. In past most of NFT marketplace was based on singlechain in which NFTs have been bought, sold, and traded on a same blockchain network without the need for any external platform. The singlechain based marketplace have faced number of issues such as performance, scalability, flexibility and limited transaction throughput consequently long confirmation times and high transaction fees during high network usage. Firstly, this paper provides the comprehensive overview about NFT Multichain architecture and explore the challenges and opportunities of designing and implementation phase of multichain NFT marketplace to overcome the issue of single chain-based architecture. NFT multichain marketplace architecture includes different blockchain networks that communicate with each other. Secondly, this paper discusses the concept of mainchain interacting with sidechains which refers to multi blockchain architecture where multiple blockchain networks are connected to each other in a hierarchical structure and identifies key challenges related to interoperability, security, scalability, and user adoption. Finally, we proposed a novel architecture for a multichain NFT marketplace, which leverages the benefits of multiple blockchain networks and marketplaces to overcome these key challenges. Moreover, proposed architecture is evaluated through a case study, demonstrating its ability to support efficient and secure transactions across multiple blockchain networks and highlighting the future trends NFTs and marketplaces and comprehensive discussion about the technology. | 翻訳日:2024-03-18 07:38:15 公開日:2024-01-20 |
# 大きな(そして深い)因子モデル Large (and Deep) Factor Models ( http://arxiv.org/abs/2402.06635v1 ) ライセンス: Link先を確認 | Bryan Kelly, Boris Kuznetsov, Semyon Malamud, Teng Andrea Xu | (参考訳) 我々は、ポートフォリオ最適化のためにDeep Learningの背後にあるブラックボックスを開き、SDF(Stochastic Discount Factor)のシャープ比を最大化するために訓練された十分に広く任意のディープニューラルネットワーク(DNN)が、多くの非線形特性を使用する線形因子価格モデル(LFM: linear factor pricing model)と等価であることを証明した。
これらの特性の性質は、明示的で扱いやすい方法でdnnのアーキテクチャに依存する。
これにより、エンドツーエンドでトレーニングされたDNNベースのSDFを、初めてクローズドな形式で引き出すことができる。
LFMを実証的に評価し,各種アーキテクチャ選択がSDF性能に与える影響を示す。
十分なデータがあれば、DNN-SDFのサンプル外性能はNNの深さで増加し、約100の隠蔽層で飽和している。 We open up the black box behind Deep Learning for portfolio optimization and prove that a sufficiently wide and arbitrarily deep neural network (DNN) trained to maximize the Sharpe ratio of the Stochastic Discount Factor (SDF) is equivalent to a large factor model (LFM): A linear factor pricing model that uses many non-linear characteristics. The nature of these characteristics depends on the architecture of the DNN in an explicit, tractable fashion. This makes it possible to derive end-to-end trained DNN-based SDFs in closed form for the first time. We evaluate LFMs empirically and show how various architectural choices impact SDF performance. We document the virtue of depth complexity: With enough data, the out-of-sample performance of DNN-SDF is increasing in the NN depth, saturating at huge depths of around 100 hidden layers. | 翻訳日:2024-02-18 14:09:31 公開日:2024-01-20 |
# 人工知能と宇宙空間統合ネットワークの相互作用について:サーベイ On the Interplay of Artificial Intelligence and Space-Air-Ground Integrated Networks: A Survey ( http://arxiv.org/abs/2402.00881v1 ) ライセンス: Link先を確認 | Adilya Bakambekova, Nour Kouzayha and Tareq Al-Naffouri | (参考訳) 宇宙・地上統合ネットワーク (sagins, space-air-ground integrated network, sagins) は、地上無線システムと宇宙・航空ネットワークを一体化したものである。
SAGINは、様々なアプリケーションやサービスに多大な利益をもたらすだけでなく、小さな町や鉱業地のような遠隔地や、飛行機や海上のユースケースのような地上インフラが到達できない地域への高速ブロードバンド網の拡大を計画している。
しかし、電力とストレージ資源の制限や、地上ネットワークの設計によってもたらされたその他の制約により、SAGINは、想定された要件を満たすようにインテリジェントに設定され、制御されなければならない。
一方、人工知能(AI)も6Gの重要な実現手段である。
大量のデータが利用できるため、aiは現在の無線ネットワークと将来の無線ネットワークの差し迫った課題に対処するために活用されている。
AIの追加と意思決定と予測手順の促進により、SAGINは周囲環境に効果的に適応し、さまざまなメトリクスのパフォーマンスを向上させることができる。
本研究では,AIを活用したSAGINにおける最先端研究の概観を提供することで,AIとSAGINの相互作用を解明することを目的とする。
具体的には、SAGINにおけるAIの潜在的な応用について概観する。
また、AIの採用におけるオープンな問題についても取り上げ、AI開発におけるSAGINsの貢献の詳細について述べる。
最後に,既存の研究の限界を強調し,今後の研究方向性について概説する。 Space-Air-Ground Integrated Networks (SAGINs), which incorporate space and aerial networks with terrestrial wireless systems, are vital enablers of the emerging sixth-generation (6G) wireless networks. Besides bringing significant benefits to various applications and services, SAGINs are envisioned to extend high-speed broadband coverage to remote areas, such as small towns or mining sites, or areas where terrestrial infrastructure cannot reach, such as airplanes or maritime use cases. However, due to the limited power and storage resources, as well as other constraints introduced by the design of terrestrial networks, SAGINs must be intelligently configured and controlled to satisfy the envisioned requirements. Meanwhile, Artificial Intelligence (AI) is another critical enabler of 6G. Due to massive amounts of available data, AI has been leveraged to address pressing challenges of current and future wireless networks. By adding AI and facilitating the decision-making and prediction procedures, SAGINs can effectively adapt to their surrounding environment, thus enhancing the performance of various metrics. In this work, we aim to investigate the interplay of AI and SAGINs by providing a holistic overview of state-of-the-art research in AI-enabled SAGINs. Specifically, we present a comprehensive overview of some potential applications of AI in SAGINs. We also cover open issues in employing AI and detail the contributions of SAGINs in the development of AI. Finally, we highlight some limitations of the existing research works and outline potential future research directions. | 翻訳日:2024-02-11 17:44:34 公開日:2024-01-20 |
# StickerConv:スクラッチからマルチモーダル共感応答を生成する StickerConv: Generating Multimodal Empathetic Responses from Scratch ( http://arxiv.org/abs/2402.01679v1 ) ライセンス: Link先を確認 | Yiqun Zhang, Fanheng Kong, Peidong Wang, Shuang Sun, Lingshuai Wang, Shi Feng, Daling Wang, Yifei Zhang, Kaisong Song | (参考訳) ステッカーは、オンラインインタラクションにおける共感的コミュニケーションの強化として広く認識されているが、現在の共感的対話研究では未熟である。
本稿では,人間行動とステッカー使用を現実的にシミュレートし,マルチモーダルな共感コミュニケーションを促進するためのエージェントである stickerconv (agent4sc) について紹介する。
この基盤を基盤として,12.9Kの対話セッション,5.8Kのユニークなステッカー,および2Kの多様な会話シナリオを含む,マルチモーダルな共感的対話データセットであるStickerConvを開発した。
このデータセットの豊かさを活用するために,llmに基づく包括的共感評価指標によって補完されるマルチモーダル共感応答生成モデルであるステッカー(peg)の知覚と生成を提案する。
本研究は,pegsが文脈的に関連し,感情的に共振するマルチモーダル共感反応を発生させる効果を示し,よりニュアンス的で魅力的な共感対話システムの発展に寄与することを示す。
私たちのプロジェクトページはhttps://neu-datamining.github.io/stickerconvで閲覧できます。 Stickers, while widely recognized for enhancing empathetic communication in online interactions, remain underexplored in current empathetic dialogue research. In this paper, we introduce the Agent for StickerConv (Agent4SC), which uses collaborative agent interactions to realistically simulate human behavior with sticker usage, thereby enhancing multimodal empathetic communication. Building on this foundation, we develop a multimodal empathetic dialogue dataset, StickerConv, which includes 12.9K dialogue sessions, 5.8K unique stickers, and 2K diverse conversational scenarios, specifically designs to augment the generation of empathetic responses in a multimodal context. To leverage the richness of this dataset, we propose PErceive and Generate Stickers (PEGS), a multimodal empathetic response generation model, complemented by a comprehensive set of empathy evaluation metrics based on LLM. Our experiments demonstrate PEGS's effectiveness in generating contextually relevant and emotionally resonant multimodal empathetic responses, contributing to the advancement of more nuanced and engaging empathetic dialogue systems. Our project page is available at https://neu-datamining.github.io/StickerConv . | 翻訳日:2024-02-11 16:51:03 公開日:2024-01-20 |
# incoprorating extensional and intensional knowledge によるオントロジーの埋め込み Embedding Ontologies via Incoprorating Extensional and Intensional Knowledge ( http://arxiv.org/abs/2402.01677v1 ) ライセンス: Link先を確認 | Keyu Wang, Guilin Qi, Jiaoyan Chen, Tianxing Wu | (参考訳) オントロジーはドメイン内の豊富な知識を含み、拡張的知識と拡張的知識の2つのカテゴリに分けられる。
拡張的知識(extensional knowledge)は、オントロジーの特定の概念に属する具体的なインスタンスに関する情報を提供するが、インテンテンション的知識は、概念間の固有の性質、特性、意味的関連を詳述する。
しかし、既存のオントロジー埋め込みアプローチは、拡張的知識と集約的知識の両方を同時に考慮することができない。
本稿では,拡張空間と拡張空間という2つの空間におけるオントロジーを表現することで,eike (extensional and intensional knowledge embedded) と呼ばれる新しいオントロジー埋め込み手法を提案する。
eikeはオントロジーにインスタンス、概念、それらの関係を組み込むための統一的なフレームワークを提示し、拡張的知識のモデル化に幾何学ベースの手法と、構造情報とテキスト情報の両方をキャプチャできるインテンテンション的知識のモデル化に事前学習された言語モデルを適用する。
実験結果から、EIKEは3つのデータセットにおいて3つの分類とリンク予測の両方において最先端の手法を大幅に上回っており、EIKEがドメインのより包括的で代表的な視点を提供することを示している。 Ontologies contain rich knowledge within domain, which can be divided into two categories, namely extensional knowledge and intensional knowledge. Extensional knowledge provides information about the concrete instances that belong to specific concepts in the ontology, while intensional knowledge details inherent properties, characteristics, and semantic associations among concepts. However, existing ontology embedding approaches fail to take both extensional knowledge and intensional knowledge into fine consideration simultaneously. In this paper, we propose a novel ontology embedding approach named EIKE (Extensional and Intensional Knowledge Embedding) by representing ontologies in two spaces, called extensional space and intensional space. EIKE presents a unified framework for embedding instances, concepts and their relations in an ontology, applying a geometry-based method to model extensional knowledge and a pretrained language model to model intensional knowledge, which can capture both structure information and textual information. Experimental results show that EIKE significantly outperforms state-of-the-art methods in three datasets for both triple classification and link prediction, indicating that EIKE provides a more comprehensive and representative perspective of the domain. | 翻訳日:2024-02-11 16:50:41 公開日:2024-01-20 |
# lmuformer:低複雑さで強力なspikingモデルとレジェンドメモリユニット LMUFormer: Low Complexity Yet Powerful Spiking Model With Legendre Memory Units ( http://arxiv.org/abs/2402.04882v1 ) ライセンス: Link先を確認 | Zeyu Liu, Gourav Datta, Anni Li, Peter Anthony Beerel | (参考訳) トランスフォーマーモデルは、多くのアプリケーションにおいて高い精度を示してきたが、複雑さが高く、シーケンシャルな処理能力に欠けており、デバイスがリソースに制約のあるエッジにある多くのストリーミングアプリケーションには不適当である。
そのため、多くの研究者がトランスフォーマーモデルをRNNモジュールとして再構成し、明示的な状態で自己注意計算を変更することを提案した。
しかし、これらのアプローチは、しばしば大きなパフォーマンス劣化を引き起こす。
最終的な目標は,並列トレーニング,ストリーミングと低コスト推論,SOTAパフォーマンスという,次のような特性を持つモデルを開発することです。
本稿では,この目標を達成するための新しい方向性を提案する。
逐次処理能力を維持しながら,再帰モデルへのアーキテクチャ変更がTransformerモデルへのパフォーマンス向上にどのように役立つかを示す。
具体的には、近年のシーケンス学習におけるレジェンダメモリユニット(LMU)の成功に触発されて、LMUを畳み込みパッチ埋め込みと畳み込みチャネルミキサーで強化するLMUFormerを提案する。
さらに,このアーキテクチャをスパイクバージョンとして,パッチ埋め込みモジュールとチャネルミキサーモジュール内の状態の利点を生かすとともに,計算の複雑さを低減した。
アーキテクチャを複数のシーケンスデータセットで評価した。
SCv2データセット上のANNドメイン内のSOTAトランスフォーマーベースモデルと比較して、LMUFormerは、パラメータの53倍の大幅な削減とFLOPの65倍のデクリメントを必要としながら、同等のパフォーマンスを示す。
さらに, 実時間データ処理におけるモデルの習熟度から, 非連続的な性能低下を招きながら, シーケンス長の32.03%削減を実現することができる。
私たちのコードはhttps://github.com/zeyuliu1037/LMUFormer.gitで公開されています。 Transformer models have demonstrated high accuracy in numerous applications but have high complexity and lack sequential processing capability making them ill-suited for many streaming applications at the edge where devices are heavily resource-constrained. Thus motivated, many researchers have proposed reformulating the transformer models as RNN modules which modify the self-attention computation with explicit states. However, these approaches often incur significant performance degradation. The ultimate goal is to develop a model that has the following properties: parallel training, streaming and low-cost inference, and SOTA performance. In this paper, we propose a new direction to achieve this goal. We show how architectural modifications to a recurrent model can help push its performance toward Transformer models while retaining its sequential processing capability. Specifically, inspired by the recent success of Legendre Memory Units (LMU) in sequence learning tasks, we propose LMUFormer, which augments the LMU with convolutional patch embedding and convolutional channel mixer. Moreover, we present a spiking version of this architecture, which introduces the benefit of states within the patch embedding and channel mixer modules while simultaneously reducing the computing complexity. We evaluated our architectures on multiple sequence datasets. In comparison to SOTA transformer-based models within the ANN domain on the SCv2 dataset, our LMUFormer demonstrates comparable performance while necessitating a remarkable 53 times reduction in parameters and a substantial 65 times decrement in FLOPs. Additionally, owing to our model's proficiency in real-time data processing, we can achieve a 32.03% reduction in sequence length, all while incurring an inconsequential decline in performance. Our code is publicly available at https://github.com/zeyuliu1037/LMUFormer.git. | 翻訳日:2024-02-11 15:13:05 公開日:2024-01-20 |
# 機械学習のためのクラウドとモバイルの融合 Combining Cloud and Mobile Computing for Machine Learning ( http://arxiv.org/abs/2402.04880v1 ) ライセンス: Link先を確認 | Ruiqi Xu and Tianchi Zhang contributed equally to this work | (参考訳) モバイルデバイスのコンピューティング能力は増大しているが、機械学習モデルのサイズも拡大している。
この傾向は、メモリ容量やバッテリー寿命などの制限により、モバイルデバイスに問題を引き起こす。
ChatGPTやMidjourneyといった多くのサービスがクラウド上ですべての推論を実行していますが、柔軟できめ細かいタスク分散の方が望ましいと考えています。
本研究では,データ転送を最小化しつつ,計算量の多いモデルをオフロードする方法で,モバイルデバイスとクラウド間の計算を分割し,ユーザエクスペリエンスを向上させるためのソリューションとしてモデルセグメンテーションを検討する。
この部門は、ユーザの待ち時間を短縮するだけでなく、クラウドのワークロードを最適化するために微調整することもできる。
そこで我々は,ネットワーク品質,クライアントデバイス能力,ジョブ要求に関する情報を収集するスケジューラを設計し,クラウドが実行すべき作業を減らすとともに,デバイス全体の一貫したパフォーマンスを実現するための意思決定を行う。 Although the computing power of mobile devices is increasing, machine learning models are also growing in size. This trend creates problems for mobile devices due to limitations like their memory capacity and battery life. While many services, like ChatGPT and Midjourney, run all the inferences in the cloud, we believe a flexible and fine-grained task distribution is more desirable. In this work, we consider model segmentation as a solution to improving the user experience, dividing the computation between mobile devices and the cloud in a way that offloads the compute-heavy portion of the model while minimizing the data transfer required. We show that the division not only reduces the wait time for users but can also be fine-tuned to optimize the workloads of the cloud. To achieve that, we design a scheduler that collects information about network quality, client device capability, and job requirements, making decisions to achieve consistent performance across a range of devices while reducing the work the cloud needs to perform. | 翻訳日:2024-02-11 15:12:34 公開日:2024-01-20 |
# Aprendizado de m'aquina aplicado na eletroqu\'imica Aprendizado de m\'aquina aplicado na eletroqu\'imica ( http://arxiv.org/abs/2401.14413v1 ) ライセンス: Link先を確認 | Carlos Eduardo do Egito Ara\'ujo and L\'ivia F. Sgobbi and Iwens Gervasio Sene Jr and Sergio Teixeira de Carvalho | (参考訳) この系統的なレビューは、様々な電気化学的応用における分析物の同定と定量化に機械学習技術を用いて分析することに焦点を当て、文献で利用可能な応用を提示する。
機械学習は、様々なアナライトを含むプロセスの分析と理解を促進するツールである。
電気化学バイオセンサーでは、医療診断の精度を高め、信頼性の高いバイオマーカーや病原体の同定を改善する。
複雑な化学物質の分類、環境モニタリング、低コストセンサーの使用、ポータブルデバイスやウェアラブルシステムなどに効果的に利用することができる。
現在、いくつかの分析は手作業で行われており、この分野の専門家の専門知識が必要であり、その結果の一般化を妨げる。
人工知能技術の進歩を踏まえ,本研究は,人工知能技術の応用に関する文献を体系的にレビューすることを提案する。
機械学習技術、具体的には教師あり学習を用いた電気化学的問題に対処する一連の論文が特定されている。 This systematic review focuses on analyzing the use of machine learning techniques for identifying and quantifying analytes in various electrochemical applications, presenting the available applications in the literature. Machine learning is a tool that can facilitate the analysis and enhance the understanding of processes involving various analytes. In electrochemical biosensors, it increases the precision of medical diagnostics, improving the identification of biomarkers and pathogens with high reliability. It can be effectively used for the classification of complex chemical products; in environmental monitoring, using low-cost sensors; in portable devices and wearable systems; among others. Currently, the analysis of some analytes is still performed manually, requiring the expertise of a specialist in the field and thus hindering the generalization of results. In light of the advancements in artificial intelligence today, this work proposes to carry out a systematic review of the literature on the applications of artificial intelligence techniques. A set of articles has been identified that address electrochemical problems using machine learning techniques, more specifically, supervised learning. | 翻訳日:2024-02-04 05:42:01 公開日:2024-01-20 |
# Covid-19関連紙の情報検索・抽出ツール An Information Retrieval and Extraction Tool for Covid-19 Related Papers ( http://arxiv.org/abs/2401.16430v1 ) ライセンス: Link先を確認 | Marcos V. L. Pivetta | (参考訳) 背景:新型コロナウイルスのパンデミックは世界中の医療システムに深刻な影響を与えている。
その批判的な性質と、この問題に対する対策を開発する個人や組織の関心の高まりは、科学雑誌に新しい研究が急増した。
Objetive: COVID-19 Open Research Dataset (CORD-19) に適用される情報検索(IR)と抽出(IE)の側面を取り入れたツールの開発を試みた。
本論文の主な焦点は、研究者に新型コロナウイルス関連論文のより優れた検索ツールを提供することであり、参照論文の発見とテキスト中の高照度関連エンティティの検索を支援することである。
方法: CORD-19における全英抽象論のトピックである研究の側面に基づいて,LDA(Latent Dirichlet Allocation)をモデル化した。
各抽象概念の関連エンティティを抽出し、対応するUMLS概念と関連づけた。
正規表現とk-nearest neighborsアルゴリズムは関連する論文のランク付けに用いられた。
結果: CORD-19 論文のトピックベース検索を自動化し,研究者を支援する可能性を示した。
それにもかかわらず、より微調整されたトピックモデリングパラメータと研究アスペクト分類器モデルの精度が向上すると、より正確で信頼性の高いツールが生まれる可能性がある。
結論: 研究者が関連するcovid-19文書を見つけるのに役立つ、新しい自動化ツールの必要性を強調し、それらに含まれる有用な情報を自動的に抽出する。
私たちの研究は、さまざまなアルゴリズムとモデルを組み合わせることで、新型コロナウイルス(COVID-19)の紙データを閲覧する新たな方法が生まれることを示唆しています。 Background: The COVID-19 pandemic has caused severe impacts on health systems worldwide. Its critical nature and the increased interest of individuals and organizations to develop countermeasures to the problem has led to a surge of new studies in scientific journals. Objetive: We sought to develop a tool that incorporates, in a novel way, aspects of Information Retrieval (IR) and Extraction (IE) applied to the COVID-19 Open Research Dataset (CORD-19). The main focus of this paper is to provide researchers with a better search tool for COVID-19 related papers, helping them find reference papers and hightlight relevant entities in text. Method: We applied Latent Dirichlet Allocation (LDA) to model, based on research aspects, the topics of all English abstracts in CORD-19. Relevant named entities of each abstract were extracted and linked to the corresponding UMLS concept. Regular expressions and the K-Nearest Neighbors algorithm were used to rank relevant papers. Results: Our tool has shown the potential to assist researchers by automating a topic-based search of CORD-19 papers. Nonetheless, we identified that more fine-tuned topic modeling parameters and increased accuracy of the research aspect classifier model could lead to a more accurate and reliable tool. Conclusion: We emphasize the need of new automated tools to help researchers find relevant COVID-19 documents, in addition to automatically extracting useful information contained in them. Our work suggests that combining different algorithms and models could lead to new ways of browsing COVID-19 paper data. | 翻訳日:2024-02-04 05:36:27 公開日:2024-01-20 |
# 因果ベイズネットワークと知識グラフを用いた生産における対話的かつインテリジェントなルート原因分析 Interactive and Intelligent Root Cause Analysis in Manufacturing with Causal Bayesian Networks and Knowledge Graphs ( http://arxiv.org/abs/2402.00043v1 ) ライセンス: Link先を確認 | Christoph Wehner, Maximilian Kertel, Judith Wewerka | (参考訳) 電気自動車の製造における根本原因分析(rca)は、故障原因を特定するプロセスである。
伝統的に、RCAはプロセス専門家の知識に頼って手動で行われる。
一方、センサーネットワークは製造過程でかなりの量のデータを収集する。
このデータをRCAに使用すれば、より効率的になります。
しかし、Causal Bayesian Networksのような純粋にデータ駆動の手法は、膨大な量の因果関係(CERs)のため、大規模で現実的な製造プロセスへのスケーリングに問題がある。
さらに、純粋にデータ駆動型メソッドは、既に知られているcersを除外したり、スプリアスcersを学ぶ可能性を秘めている。
本論文は,電気自動車製造プロセスのエキスパート知識とデータ駆動機械学習手法を組み合わせた,インタラクティブでインテリジェントなRCAツールを提案する。
Causal Bayesian Networkを学習しながら、製造プロセスの大規模知識グラフを推論する。
さらに、対話型ユーザインタフェースにより、知識グラフに情報を追加・削除することで、プロセスのエキスパートが根本原因グラフにフィードバックを与えることができる。
対話的でインテリジェントなrcaツールは、スプリアスcersの数を減らしつつ、因果ベイズネットワークの学習時間を短縮する。
このように、インタラクティブでインテリジェントなRCAツールは、エキスパートと機械学習メソッドの間のフィードバックループを閉じる。 Root Cause Analysis (RCA) in the manufacturing of electric vehicles is the process of identifying fault causes. Traditionally, the RCA is conducted manually, relying on process expert knowledge. Meanwhile, sensor networks collect significant amounts of data in the manufacturing process. Using this data for RCA makes it more efficient. However, purely data-driven methods like Causal Bayesian Networks have problems scaling to large-scale, real-world manufacturing processes due to the vast amount of potential cause-effect relationships (CERs). Furthermore, purely data-driven methods have the potential to leave out already known CERs or to learn spurious CERs. The paper contributes by proposing an interactive and intelligent RCA tool that combines expert knowledge of an electric vehicle manufacturing process and a data-driven machine learning method. It uses reasoning over a large-scale Knowledge Graph of the manufacturing process while learning a Causal Bayesian Network. In addition, an Interactive User Interface enables a process expert to give feedback to the root cause graph by adding and removing information to the Knowledge Graph. The interactive and intelligent RCA tool reduces the learning time of the Causal Bayesian Network while decreasing the number of spurious CERs. Thus, the interactive and intelligent RCA tool closes the feedback loop between expert and machine learning method. | 翻訳日:2024-02-04 05:10:18 公開日:2024-01-20 |
# マルコフ決定過程を用いた産業機械の最適タスク割り当てと予測メンテナンス Optimized Task Assignment and Predictive Maintenance for Industrial Machines using Markov Decision Process ( http://arxiv.org/abs/2402.00042v1 ) ライセンス: Link先を確認 | Ali Nasir, Samir Mekid, Zaid Sawlan, Omar Alsawafy | (参考訳) 本稿では,タスク割り当てと条件に基づく機械の健康維持のための分散意思決定手法について考察する。
本手法では,タスク割り当てと健康管理意思決定エージェント間の情報共有について検討する。
マルコフ決定過程に基づく意思決定エージェントの設計を提案する。
マルコフ決定プロセスに基づくアプローチを使う主な利点は、意思決定プロセスに不確実性が組み入れられることである。
本論文は, 実用的実行戦略とともに, 詳細な数学的モデルを提供する。
提案手法の有効性と実用性を実証するために,オープンソースミル加工機械ツール劣化データに基づく詳細な数値ケーススタディを含む。
本研究は,提案手法がコストパラメータの選択に関して柔軟性を提供し,意思決定方針のオフライン計算と分析を可能にすることを示す。
これらの特徴は、人工知能を用いた提案モデルに付随するコストパラメータの学習における将来の取り組みの創出と機会である。 This paper considers a distributed decision-making approach for manufacturing task assignment and condition-based machine health maintenance. Our approach considers information sharing between the task assignment and health management decision-making agents. We propose the design of the decision-making agents based on Markov decision processes. The key advantage of using a Markov decision process-based approach is the incorporation of uncertainty involved in the decision-making process. The paper provides detailed mathematical models along with the associated practical execution strategy. In order to demonstrate the effectiveness and practical applicability of our proposed approach, we have included a detailed numerical case study that is based on open source milling machine tool degradation data. Our case study indicates that the proposed approach offers flexibility in terms of the selection of cost parameters and it allows for offline computation and analysis of the decision-making policy. These features create and opportunity for the future work on learning of the cost parameters associated with our proposed model using artificial intelligence. | 翻訳日:2024-02-04 05:09:59 公開日:2024-01-20 |
# 時間窓を用いた大規模車両経路問題の時空間クラスタリング Spatial-temporal-demand clustering for solving large-scale vehicle routing problems with time windows ( http://arxiv.org/abs/2402.00041v1 ) ライセンス: Link先を確認 | Christoph Kerscher and Stefan Minner | (参考訳) いくつかのメタヒューリスティックは分解と刈り取り戦略を用いて、車両経路問題(vrp)の大規模インスタンスを解決する。
これらの複雑さ低減技術は、しばしば単純で問題固有のルールに依存します。
しかし、利用可能なデータの増加とコンピュータハードウェアの進歩により、機械学習(ML)を使用してソリューションアルゴリズムのスケーラビリティを向上させるデータベースのアプローチが可能になる。
本稿では,クラスタリングを用いて顧客をグループ化するDRIフレームワークを提案する。
その類似度指標は、顧客の空間的、時間的、需要データを含み、問題の客観的機能と制約を反映して定式化される。
結果として生じるサブルーチン問題は、任意の適切なアルゴリズムを用いて独立に解決できる。
解決された部分問題に対してpruned local search (ls) を適用し,全体の解法を改善した。
プルーニングは、分解段階で得られた顧客の類似性情報に基づいている。
本研究では,既存のクラスタリングアルゴリズムをパラメータ化して比較し,DRIをVidalらのHybrid Genetic Search (HGS)と比較した(2013)。
その結果,データに基づくアプローチは,ユーザの空間情報のみに基づく古典的クラスタファースト,ルート秒アプローチよりも優れていた。
新たに導入された類似度メトリックは、別個のVRPを形成し、改善フェーズにおけるLS移動の選択を改善する。
したがって、DRIは既存のメタヒューリスティックスをスケールし、複雑さを効率的に減らし、大規模VRPにおいてより高速な高品質のソリューションを実現する。
さらに、DRIは、顧客の位置や要求の分散、補給所の位置、異なる時間窓のシナリオなど、様々なソリューション手法やVRP特性に容易に適応でき、ルーティング問題を解決するための一般化可能なアプローチとなる。 Several metaheuristics use decomposition and pruning strategies to solve large-scale instances of the vehicle routing problem (VRP). Those complexity reduction techniques often rely on simple, problem-specific rules. However, the growth in available data and advances in computer hardware enable data-based approaches that use machine learning (ML) to improve scalability of solution algorithms. We propose a decompose-route-improve (DRI) framework that groups customers using clustering. Its similarity metric incorporates customers' spatial, temporal, and demand data and is formulated to reflect the problem's objective function and constraints. The resulting sub-routing problems can independently be solved using any suitable algorithm. We apply pruned local search (LS) between solved subproblems to improve the overall solution. Pruning is based on customers' similarity information obtained in the decomposition phase. In a computational study, we parameterize and compare existing clustering algorithms and benchmark the DRI against the Hybrid Genetic Search (HGS) of Vidal et al. (2013). Results show that our data-based approach outperforms classic cluster-first, route-second approaches solely based on customers' spatial information. The newly introduced similarity metric forms separate sub-VRPs and improves the selection of LS moves in the improvement phase. Thus, the DRI scales existing metaheuristics to achieve high-quality solutions faster for large-scale VRPs by efficiently reducing complexity. Further, the DRI can be easily adapted to various solution methods and VRP characteristics, such as distribution of customer locations and demands, depot location, and different time window scenarios, making it a generalizable approach to solving routing problems. | 翻訳日:2024-02-04 05:09:47 公開日:2024-01-20 |
# マルチモーダル基礎モデルを用いたロバストなマルチモーダル学習に向けて Toward Robust Multimodal Learning using Multimodal Foundational Models ( http://arxiv.org/abs/2401.13697v1 ) ライセンス: Link先を確認 | Xianbing Zhao, Soujanya Poria, Xuejiao Li, Yixin Chen, Buzhou Tang | (参考訳) 既存のマルチモーダル感情分析タスクは、トレーニングとテストセットが完全なマルチモーダルデータであるという仮定に大きく依存しているが、この仮定は保持が難しい。
したがって、ランダムにモダリティが欠けているシナリオでは、堅牢なマルチモーダルモデルが好まれる。
近年、クリップベースのマルチモーダル基礎モデルは、画像とテキストペアのクロスモーダルセマンティクスを学習することで、多数のマルチモーダルタスクにおいて印象的なパフォーマンスを示しているが、マルチモーダル基礎モデルは、モダリティの欠如を伴うシナリオに直接対処できない。
この問題を軽減するため,マルチモーダル基礎モデルを用いたロバスト・マルチモーダル学習に向けて,TRMLというシンプルで効果的なフレームワークを提案する。
TRMLは、生成した仮想モダリティを使用して、欠落したモダリティを置き換え、生成したモダリティと欠落したモダリティの間に意味空間を整列させる。
具体的には、仮想モダリサイトを生成し、欠落したモダリティーを置き換えるためのモダリティー推論モジュールを設計する。
またセマンティックマッチング学習モジュールを設計し、セマンティック空間の生成とモダリティの欠如を協調する。
完全モダリティ(complete modality, 完全モダリティ)のプロンプトの下では, 整列したクロスモダリティ空間を利用して, 欠落モダリティの意味を捉える。
CMU-MOSI、CMU-MOSEI、MELDという3つのマルチモーダル感情分析ベンチマークデータセットに対するアプローチの優位性を示す実験を行った。 Existing multimodal sentiment analysis tasks are highly rely on the assumption that the training and test sets are complete multimodal data, while this assumption can be difficult to hold: the multimodal data are often incomplete in real-world scenarios. Therefore, a robust multimodal model in scenarios with randomly missing modalities is highly preferred. Recently, CLIP-based multimodal foundational models have demonstrated impressive performance on numerous multimodal tasks by learning the aligned cross-modal semantics of image and text pairs, but the multimodal foundational models are also unable to directly address scenarios involving modality absence. To alleviate this issue, we propose a simple and effective framework, namely TRML, Toward Robust Multimodal Learning using Multimodal Foundational Models. TRML employs generated virtual modalities to replace missing modalities, and aligns the semantic spaces between the generated and missing modalities. Concretely, we design a missing modality inference module to generate virtual modaliites and replace missing modalities. We also design a semantic matching learning module to align semantic spaces generated and missing modalities. Under the prompt of complete modality, our model captures the semantics of missing modalities by leveraging the aligned cross-modal semantic space. Experiments demonstrate the superiority of our approach on three multimodal sentiment analysis benchmark datasets, CMU-MOSI, CMU-MOSEI, and MELD. | 翻訳日:2024-01-28 15:33:33 公開日:2024-01-20 |
# ドメイン特化医療における大規模言語モデルの評価と改善:DocOAを用いた関節症治療 Evaluating and Enhancing Large Language Models Performance in Domain-specific Medicine: Osteoarthritis Management with DocOA ( http://arxiv.org/abs/2401.12998v1 ) ライセンス: Link先を確認 | Xi Chen, MingKe You, Li Wang, WeiZhi Liu, Yu Fu, Jie Xu, Shaoting Zhang, Gang Chen, Jian Li | (参考訳) ドメイン特化医学、特に変形性関節症(oa)のような複雑な疾患の管理における大言語モデル(llm)の有効性はほとんど未解明である。
本研究は, 変形性膝関節症(OA)管理を事例として, 特定の領域におけるLSMの臨床能力の評価と向上に焦点を当てた。
ドメイン固有の知識から実世界の臨床シナリオにおける臨床応用まで,領域固有のベンチマークフレームワークを開発した。
検索拡張生成(RAG)と命令プロンプトを統合したOA管理に適した特殊なLLMであるDocOAを開発した。
GPT-3.5, GPT-4, 特殊アシスタントDocOAの性能を客観的および人的評価を用いて比較した。
その結果, GPT-3.5 や GPT-4 のような一般 LLM は OA 管理の専門領域, 特にパーソナライズされた治療勧告にはあまり効果が認められなかった。
しかしDocOAは大幅に改善された。
本研究は, LLMの領域固有の能力を多面的に評価し, 臨床領域における一般化LDMの限界を強調し, ドメイン固有の医療LSMを開発するための適切なアプローチの可能性を示す新しいベンチマークフレームワークを提案する。 The efficacy of large language models (LLMs) in domain-specific medicine, particularly for managing complex diseases such as osteoarthritis (OA), remains largely unexplored. This study focused on evaluating and enhancing the clinical capabilities of LLMs in specific domains, using osteoarthritis (OA) management as a case study. A domain specific benchmark framework was developed, which evaluate LLMs across a spectrum from domain-specific knowledge to clinical applications in real-world clinical scenarios. DocOA, a specialized LLM tailored for OA management that integrates retrieval-augmented generation (RAG) and instruction prompts, was developed. The study compared the performance of GPT-3.5, GPT-4, and a specialized assistant, DocOA, using objective and human evaluations. Results showed that general LLMs like GPT-3.5 and GPT-4 were less effective in the specialized domain of OA management, particularly in providing personalized treatment recommendations. However, DocOA showed significant improvements. This study introduces a novel benchmark framework which assesses the domain-specific abilities of LLMs in multiple aspects, highlights the limitations of generalized LLMs in clinical contexts, and demonstrates the potential of tailored approaches for developing domain-specific medical LLMs. | 翻訳日:2024-01-25 16:44:10 公開日:2024-01-20 |
# Prompt to Transfer: Prompt Learningによる交通信号制御のためのSim-to-Real Transfer Prompt to Transfer: Sim-to-Real Transfer for Traffic Signal Control with Prompt Learning ( http://arxiv.org/abs/2308.14284v6 ) ライセンス: Link先を確認 | Longchao Da, Minquan Gao, Hao Mei, Hua Wei | (参考訳) 交通信号制御(TSC)の課題に対して,効率的な輸送と渋滞の軽減を目的とした多くの解決策が提案されている。
近年,シミュレータの試行錯誤による強化学習 (Reinforcement Learning, RL) 手法によって有望な結果が得られ,都市での混雑頭痛の解決に自信が持たれている。
しかし、シミュレータ訓練されたポリシーが現実世界にデプロイされる際には、まだパフォーマンスのギャップが残っている。
この問題は主に、トレーニングシミュレータと実環境とのシステムの動的差異によって引き起こされる。
大規模言語モデル(LLM)は大量知識に基づいて訓練されており、驚くべき推論能力を備えていることが判明した。
本研究では,llmを利用して,プロンプトベースの接地行動変換によるシステムダイナミクスの理解とプロファイルを行う。
クローズプロンプトテンプレートを受信し、アクセス可能なコンテキストに基づいて回答を入力し、事前学習したLCMの推論能力を利用して、気象条件、交通状況、道路タイプが交通力学にどのように影響するかを理解し、これを認識し、現実的なダイナミクスに基づいてポリシーのアクションを取り込み、グラウンドドするので、エージェントはより現実的なポリシーを学ぶのに役立つ。
我々はDQNを用いてシミュレーションから現実(シミュレート・トゥ・リアル)までの性能ギャップを緩和するPromptGATの有効性を示す実験を行った。 Numerous solutions are proposed for the Traffic Signal Control (TSC) tasks aiming to provide efficient transportation and mitigate congestion waste. In recent, promising results have been attained by Reinforcement Learning (RL) methods through trial and error in simulators, bringing confidence in solving cities' congestion headaches. However, there still exist performance gaps when simulator-trained policies are deployed to the real world. This issue is mainly introduced by the system dynamic difference between the training simulator and the real-world environments. The Large Language Models (LLMs) are trained on mass knowledge and proved to be equipped with astonishing inference abilities. In this work, we leverage LLMs to understand and profile the system dynamics by a prompt-based grounded action transformation. Accepting the cloze prompt template, and then filling in the answer based on accessible context, the pre-trained LLM's inference ability is exploited and applied to understand how weather conditions, traffic states, and road types influence traffic dynamics, being aware of this, the policies' action is taken and grounded based on realistic dynamics, thus help the agent learn a more realistic policy. We conduct experiments using DQN to show the effectiveness of the proposed PromptGAT's ability in mitigating the performance gap from simulation to reality (sim-to-real). | 翻訳日:2024-01-24 19:18:13 公開日:2024-01-20 |
# 量子格子ボルツマン法による量子資源削減のための2回路的アプローチ A two-circuit approach to reducing quantum resources for the quantum lattice Boltzmann method ( http://arxiv.org/abs/2401.12248v1 ) ライセンス: Link先を確認 | Sriharsha Kocherla, Austin Adams, Zhixin Song, Alexander Alexeev, Spencer H. Bryngelson | (参考訳) 計算流体力学(cfd)シミュレーションは、古典的コンピュータに大きな計算負荷を伴います。
現在、これらのシミュレーションには最大数兆のグリッドポイントと数百万のタイムステップが必要である。
コストを削減するため、量子コンピュータのような新しいアーキテクチャは、適切な計算において本質的により効率的である。
cfd問題を解決する現在の量子アルゴリズムは、単一の量子回路と、場合によっては格子ベースの方法を用いる。
本稿では,量子格子ボルツマン法(QLBM)を用いた新しい多重回路アルゴリズムを提案する。
我々が定式化した2回路アルゴリズムは、既存のqlbm回路に比べてcnotゲートが著しく減少するナビエ・ストークス方程式を解く。
この問題は、2d navier-stokes方程式のストリーム関数-渦性定式化としてキャストされ、2d lid駆動キャビティ流れで検証および検証される。
ストリーム関数と渦度を分離した回路を用いることで,CNOTが35%,ゲート深さが16%減少し,CNOTが顕著に減少した。
この戦略は、回路が同時に動作できるという追加の利点があり、ゲート深度を半減させる。
この研究は、微分方程式に基づく科学的関心問題を解くための実用的な量子回路へのステップとして意図されている。 Computational fluid dynamics (CFD) simulations often entail a large computational burden on classical computers. At present, these simulations can require up to trillions of grid points and millions of time steps. To reduce costs, novel architectures like quantum computers may be intrinsically more efficient at the appropriate computation. Current quantum algorithms for solving CFD problems use a single quantum circuit and, in some cases, lattice-based methods. We introduce the a novel multiple circuits algorithm that makes use of a quantum lattice Boltzmann method (QLBM). The two-circuit algorithm we form solves the Navier-Stokes equations with a marked reduction in CNOT gates compared to existing QLBM circuits. The problem is cast as a stream function--vorticity formulation of the 2D Navier-Stokes equations and verified and tested on a 2D lid-driven cavity flow. We show that using separate circuits for the stream function and vorticity lead to a marked CNOT reduction: 35% in total CNOT count and 16% in combined gate depth. This strategy has the additional benefit of the circuits being able to run concurrently, further halving the seen gate depth. This work is intended as a step towards practical quantum circuits for solving differential equation-based problems of scientific interest. | 翻訳日:2024-01-24 18:08:51 公開日:2024-01-20 |
# eコマースにおけるテキストベースのチャットボットに対する消費者の反応を探る:タスク複雑性とチャットボットの開示の役割 Exploring consumers response to text-based chatbots in e-commerce: The moderating role of task complexity and chatbot disclosure ( http://arxiv.org/abs/2401.12247v1 ) ライセンス: Link先を確認 | Xusen Cheng, Ying Bao, Alex Zarifis, Wankun Gong and Jian Mou | (参考訳) 人工知能ベースのチャットボットは、前例のないビジネスの可能性をもたらした。
本研究は,電子商取引におけるテキストベースのチャットボットに対する消費者の信頼と応答を探究することを目的としている。
本研究は,299の回答を得た調査手法について検討した。
本研究は仮説の検証に通常最小二乗回帰を用いた。
まず、チャットボットの共感と友好性の両方に対する消費者の認識は、それに対する信頼に正の影響を与えます。
第二に、タスクの複雑さは、友人関係と消費者信頼の関係を負に抑えます。
第3に、テキストベースのチャットボットの開示は共感と消費者信頼の関係を否定的に抑制する一方で、友人関係と消費者信頼の関係を肯定的に抑制する。
第4に、チャットボットに対する消費者の信頼は、チャットボットへの信頼を高め、将来の対話におけるチャットボットに対する抵抗を減少させる。
本研究は,刺激生物応答の枠組みを取り入れ,テキストベースのチャットボットに対する消費者の認識と反応に関する重要な知見を提供する。
この研究の結果は、テキストベースのチャットボットに対する消費者のポジティブな反応を増す可能性も示唆している。
現存する研究は、自動ボット属性が消費者の知覚に及ぼす影響を調査している。
しかし、これらの効果の境界条件はほとんど無視されている。
この研究は、チャットボットに対する消費者の反応を深く理解するための最初の試みの1つだ。 Artificial intelligence based chatbots have brought unprecedented business potential. This study aims to explore consumers trust and response to a text-based chatbot in ecommerce, involving the moderating effects of task complexity and chatbot identity disclosure. A survey method with 299 useable responses was conducted in this research. This study adopted the ordinary least squares regression to test the hypotheses. First, the consumers perception of both the empathy and friendliness of the chatbot positively impacts their trust in it. Second, task complexity negatively moderates the relationship between friendliness and consumers trust. Third, disclosure of the text based chatbot negatively moderates the relationship between empathy and consumers trust, while it positively moderates the relationship between friendliness and consumers trust. Fourth, consumers trust in the chatbot increases their reliance on the chatbot and decreases their resistance to the chatbot in future interactions. Adopting the stimulus organism response framework, this study provides important insights on consumers perception and response to the text-based chatbot. The findings of this research also make suggestions that can increase consumers positive responses to text based chatbots. Extant studies have investigated the effects of automated bots attributes on consumers perceptions. However, the boundary conditions of these effects are largely ignored. This research is one of the first attempts to provide a deep understanding of consumers responses to a chatbot. | 翻訳日:2024-01-24 18:08:30 公開日:2024-01-20 |
# Orion-14B: オープンソースの多言語大言語モデル Orion-14B: Open-source Multilingual Large Language Models ( http://arxiv.org/abs/2401.12246v1 ) ライセンス: Link先を確認 | Du Chen, Yi Huang, Xiaopu Li, Yongqiang Li, Yongqiang Liu, Haihui Pan, Leichao Xu, Dacheng Zhang, Zhipeng Zhang, Kun Han | (参考訳) 本研究では,140億パラメータを持つ多言語大言語モデルの集まりである orion-14b を紹介する。
英語,中国語,日本語,韓国語,その他の言語のテキストから抽出した,2.5兆トークンの多様なコーパス上で基礎モデルをトレーニングするために,データスケジューリング手法を用いる。
さらに、会話アプリケーションや他の特定のユースケースに適した一連のモデルを微調整しました。
評価の結果,Orion-14Bは様々なタスクにおいて最先端の性能を達成できた。
orion-14bモデルファミリとその関連コードをhttps://github.com/orionstarai/orionで公開しています。 In this study, we introduce Orion-14B, a collection of multilingual large language models with 14 billion parameters. We utilize a data scheduling approach to train a foundational model on a diverse corpus of 2.5 trillion tokens, sourced from texts in English, Chinese, Japanese, Korean, and other languages. Additionally, we fine-tuned a series of models tailored for conversational applications and other specific use cases. Our evaluation results demonstrate that Orion-14B achieves state-of-the-art performance across a broad spectrum of tasks. We make the Orion-14B model family and its associated code publicly accessible https://github.com/OrionStarAI/Orion, aiming to inspire future research and practical applications in the field. | 翻訳日:2024-01-24 18:08:07 公開日:2024-01-20 |
# 拡散モデルのための大規模強化学習 Large-scale Reinforcement Learning for Diffusion Models ( http://arxiv.org/abs/2401.12244v1 ) ライセンス: Link先を確認 | Yinan Zhang, Eric Tzeng, Yilun Du, Dmitry Kislyuk | (参考訳) テキスト・ツー・イメージ拡散モデル(Text-to-image diffusion model)は、高品質な画像生成能力を示す深層生成モデルのクラスである。
しかしながら、これらのモデルは、webスケールのテキストイメージトレーニングペアから生じる暗黙のバイアスに影響を受けやすく、私たちが気にしているイメージの側面を不正確にモデル化する可能性がある。
これは、人間の倫理や嗜好に合致しない、最適でないサンプル、モデルバイアス、イメージをもたらす可能性がある。
本稿では,人間の好み,構成性,公平性といった多様な報酬関数のセットをまたいで強化学習(rl)を用いた拡散モデルを改善するためのスケーラブルなアルゴリズムを提案する。
提案手法は, 拡散モデルと人間の嗜好を整合させる既存の手法を実質的に上回っている。
さらに,これが事前学習された安定拡散(SD)モデルを大幅に改善し,ヒトが好むサンプルの80.3%をベースSDモデルから生成すると同時に,生成したサンプルの組成と多様性を同時に改善する方法について述べる。 Text-to-image diffusion models are a class of deep generative models that have demonstrated an impressive capacity for high-quality image generation. However, these models are susceptible to implicit biases that arise from web-scale text-image training pairs and may inaccurately model aspects of images we care about. This can result in suboptimal samples, model bias, and images that do not align with human ethics and preferences. In this paper, we present an effective scalable algorithm to improve diffusion models using Reinforcement Learning (RL) across a diverse set of reward functions, such as human preference, compositionality, and fairness over millions of images. We illustrate how our approach substantially outperforms existing methods for aligning diffusion models with human preferences. We further illustrate how this substantially improves pretrained Stable Diffusion (SD) models, generating samples that are preferred by humans 80.3% of the time over those from the base SD model while simultaneously improving both the composition and diversity of generated samples. | 翻訳日:2024-01-24 18:07:49 公開日:2024-01-20 |
# 制約生成ポリシー最適化(CGPO):混合離散連続型MDPにおけるポリシー最適化のための非線形計画法 Constraint-Generation Policy Optimization (CGPO): Nonlinear Programming for Policy Optimization in Mixed Discrete-Continuous MDPs ( http://arxiv.org/abs/2401.12243v1 ) ライセンス: Link先を確認 | Michael Gimelfarb, Ayal Taitler, Scott Sanner | (参考訳) 離散連続マルコフ決定過程(DC-MDP)のコンパクトかつ解釈可能なポリシークラスにおけるポリシーパラメータを最適化するための制約生成ポリシー最適化(CGPO)を提案する。
CGPOは、表現力のある非線形力学を持つ多くのDC-MDPに対して、無限の範囲の初期状態に対して有界なポリシーエラーを保証するだけでなく、ゼロエラーで終了する場合に最適なポリシーを導出することができる。
さらに、CGPOは、最悪の状態軌跡を生成して、政策上の欠陥を診断し、最適な行動の反実的な説明を提供する。
このような結果を得るために、CGPOは定義された表現度クラス内のポリシーを最適化する二段階混合整数非線形最適化フレームワークを提案し、最悪の状態軌跡を逆向きに生成する最適制約生成手法に還元する。
さらに、現代的な非線形オプティマイザを利用することで、CGPOは最適性ギャップの保証を境界とした解を得ることができる。
我々は、(適用可能な)明示的な限界化や偶然の制約を通じて確率的遷移を処理し、高い確率性ポリシーのパフォーマンスを保証する。
また,政策,報酬,トランジションダイナミクスの異なる表現性クラスに関連する計算の複雑さを理解するためのロードマップも提示する。
在庫管理,貯水池システム管理,物理制御など,多様な分野におけるCGPOの適用性について実験的に検証した。
要約すると、構造化された、コンパクトで、説明可能なポリシーを境界性能保証付きで導き出すためのソリューションを提供し、最悪のシナリオ生成と対実的なポリシー診断を可能にする。 We propose Constraint-Generation Policy Optimization (CGPO) for optimizing policy parameters within compact and interpretable policy classes for mixed discrete-continuous Markov Decision Processes (DC-MDPs). CGPO is not only able to provide bounded policy error guarantees over an infinite range of initial states for many DC-MDPs with expressive nonlinear dynamics, but it can also provably derive optimal policies in cases where it terminates with zero error. Furthermore, CGPO can generate worst-case state trajectories to diagnose policy deficiencies and provide counterfactual explanations of optimal actions. To achieve such results, CGPO proposes a bi-level mixed-integer nonlinear optimization framework for optimizing policies within defined expressivity classes (i.e. piecewise (non)-linear) and reduces it to an optimal constraint generation methodology that adversarially generates worst-case state trajectories. Furthermore, leveraging modern nonlinear optimizers, CGPO can obtain solutions with bounded optimality gap guarantees. We handle stochastic transitions through explicit marginalization (where applicable) or chance-constraints, providing high-probability policy performance guarantees. We also present a road-map for understanding the computational complexities associated with different expressivity classes of policy, reward, and transition dynamics. We experimentally demonstrate the applicability of CGPO in diverse domains, including inventory control, management of a system of water reservoirs, and physics control. In summary, we provide a solution for deriving structured, compact, and explainable policies with bounded performance guarantees, enabling worst-case scenario generation and counterfactual policy diagnostics. | 翻訳日:2024-01-24 18:07:31 公開日:2024-01-20 |
# BadChain: 大きな言語モデルのためのバックドアチェーンプロンプト BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models ( http://arxiv.org/abs/2401.12242v1 ) ライセンス: Link先を確認 | Zhen Xiang, Fengqing Jiang, Zidi Xiong, Bhaskar Ramasubramanian, Radha Poovendran, Bo Li | (参考訳) 大規模言語モデル(LLM)は、特に体系的な推論プロセスを必要とするタスクに対処する場合、COT(チェーン・オブ・シント)プロンプトの恩恵を受けることが示されている。
一方、cotプロンプトはバックドア攻撃という形で新たな脆弱性を提起する。モデルでは、推論中に特定のバックドアトリガー条件下で意図しない悪意のあるコンテンツを出力する。
従来のバックドア攻撃の方法は、バックドアされたインスタンスでトレーニングデータセットを汚染するか、デプロイ中にモデルパラメータを直接操作する。
しかし、これらのアプローチは一般的にAPIアクセスを介して動作する商用LLMには実用的ではない。
本稿では,トレーニングデータセットやモデルパラメータへのアクセスを必要とせず,計算オーバーヘッドの少ないcotプロンプトを用いた,llmに対する最初のバックドア攻撃であるbadchainを提案する。
BadChainは、モデル出力の推論ステップのシーケンスにバックドア推論ステップを挿入し、クエリプロンプトにバックドアトリガーが存在する場合に最終応答を変更することで、LCMの固有の推論機能を活用する。
実験では、4つのLCM(Llama2, GPT-3.5, PaLM2, GPT-4)と6つの複雑なベンチマークタスクの2つのCOT戦略に対するBadChainの有効性を示す。
さらに,強い推論能力を有するLCMはBadChainに対する感受性が高く,GPT-4の6つのベンチマークタスクの平均攻撃成功率は97.0%であった。
最後に,シャッフルに基づく2つの防御方法を提案し,バッドチェーンに対する全体的な非効率性を示す。
したがって、BadChainはLLMに対する深刻な脅威であり、堅牢で効果的な将来の防衛を開発するための緊急性を強調している。 Large language models (LLMs) are shown to benefit from chain-of-thought (COT) prompting, particularly when tackling tasks that require systematic reasoning processes. On the other hand, COT prompting also poses new vulnerabilities in the form of backdoor attacks, wherein the model will output unintended malicious content under specific backdoor-triggered conditions during inference. Traditional methods for launching backdoor attacks involve either contaminating the training dataset with backdoored instances or directly manipulating the model parameters during deployment. However, these approaches are not practical for commercial LLMs that typically operate via API access. In this paper, we propose BadChain, the first backdoor attack against LLMs employing COT prompting, which does not require access to the training dataset or model parameters and imposes low computational overhead. BadChain leverages the inherent reasoning capabilities of LLMs by inserting a backdoor reasoning step into the sequence of reasoning steps of the model output, thereby altering the final response when a backdoor trigger exists in the query prompt. Empirically, we show the effectiveness of BadChain for two COT strategies across four LLMs (Llama2, GPT-3.5, PaLM2, and GPT-4) and six complex benchmark tasks encompassing arithmetic, commonsense, and symbolic reasoning. Moreover, we show that LLMs endowed with stronger reasoning capabilities exhibit higher susceptibility to BadChain, exemplified by a high average attack success rate of 97.0% across the six benchmark tasks on GPT-4. Finally, we propose two defenses based on shuffling and demonstrate their overall ineffectiveness against BadChain. Therefore, BadChain remains a severe threat to LLMs, underscoring the urgency for the development of robust and effective future defenses. | 翻訳日:2024-01-24 18:07:01 公開日:2024-01-20 |
# スパースニュートンイテレーションによるシンクホーンアルゴリズムの高速化 Accelerating Sinkhorn Algorithm with Sparse Newton Iterations ( http://arxiv.org/abs/2401.12253v1 ) ライセンス: Link先を確認 | Xun Tang, Michael Shavlovsky, Holakou Rahmanian, Elisa Tardini, Kiran Koshy Thekumparampil, Tesi Xiao, Lexing Ying | (参考訳) 統計分布間の最適な輸送距離を計算することは機械学習の基本的なタスクである。
最近の顕著な進歩の1つはエントロピー正則化とシンクホーンアルゴリズムであり、これは行列スケーリングのみを利用し、ニア線形ランタイムで近似された解を保証する。
Sinkhornアルゴリズムの成功にもかかわらず、収束に必要なイテレーションが多すぎる可能性があるため、実行は遅くなる可能性がある。
超指数収束を実現するために,マトリクススケーリングステップの早期停止とニュートン型サブルーチンを特徴とする第2段を導入することで,シンクホーンアルゴリズムの拡張であるsns(singhorn-newton-sparse)を提案する。
シンクホーンアルゴリズムが凹リアプノフポテンシャルを最大化する変分的視点を採用することにより、ポテンシャル関数のヘッセン行列がおよそスパースであることを示す。
ヘッセンのスパーシフィケーションは、シンクホーンのアルゴリズムと同じ、高速な$O(n^2)$/iteration複雑性をもたらす。
合計反復数に関して、SNSアルゴリズムは、経験的分布間の最適な移動や、ワッサーシュタイン$W_1, W_2$の離散密度距離の計算を含む、幅広い実践事例において、桁違いに高速に収束する。
経験的性能は、ヘッセン行列の近似スパース性に厳密な束縛によって裏付けられる。 Computing the optimal transport distance between statistical distributions is a fundamental task in machine learning. One remarkable recent advancement is entropic regularization and the Sinkhorn algorithm, which utilizes only matrix scaling and guarantees an approximated solution with near-linear runtime. Despite the success of the Sinkhorn algorithm, its runtime may still be slow due to the potentially large number of iterations needed for convergence. To achieve possibly super-exponential convergence, we present Sinkhorn-Newton-Sparse (SNS), an extension to the Sinkhorn algorithm, by introducing early stopping for the matrix scaling steps and a second stage featuring a Newton-type subroutine. Adopting the variational viewpoint that the Sinkhorn algorithm maximizes a concave Lyapunov potential, we offer the insight that the Hessian matrix of the potential function is approximately sparse. Sparsification of the Hessian results in a fast $O(n^2)$ per-iteration complexity, the same as the Sinkhorn algorithm. In terms of total iteration count, we observe that the SNS algorithm converges orders of magnitude faster across a wide range of practical cases, including optimal transportation between empirical distributions and calculating the Wasserstein $W_1, W_2$ distance of discretized densities. The empirical performance is corroborated by a rigorous bound on the approximate sparsity of the Hessian matrix. | 翻訳日:2024-01-24 17:53:13 公開日:2024-01-20 |
# 非対称カーネルの拡散表現 Diffusion Representation for Asymmetric Kernels ( http://arxiv.org/abs/2401.12251v1 ) ライセンス: Link先を確認 | Alvaro Almeida Gomez, Antonio Silva Neto, Jorge zubelli | (参考訳) 拡散写像形式を非対称カーネルによって誘導されるデータセットに拡張する。
その結果, 解析的な収束結果が証明され, 次元還元を行うアルゴリズムが提案されている。
本研究では,その幾何学構造が非対称核によって誘導されるデータセットについて検討する。
我々はこの幾何を表現するために事前座標系を用い、したがってデータセットの次元性を減少させる計算複雑性を向上させることができる。
フーリエ基底のテンソル積に接続された座標系を用いて拡散写像によって得られる基底幾何学構造を表現することにより、データセットの次元性を低減し、2次元高速フーリエ変換アルゴリズム(2次元FFT)によって提供されるスピードアップを利用する。
その結果を他の固有値展開で得られた結果と比較し、アルゴリズムの効率を合成データとともに検証し、気候変動研究を含む実際のデータと比較した。 We extend the diffusion-map formalism to data sets that are induced by asymmetric kernels. Analytical convergence results of the resulting expansion are proved, and an algorithm is proposed to perform the dimensional reduction. In this work we study data sets in which its geometry structure is induced by an asymmetric kernel. We use a priori coordinate system to represent this geometry and, thus, be able to improve the computational complexity of reducing the dimensionality of data sets. A coordinate system connected to the tensor product of Fourier basis is used to represent the underlying geometric structure obtained by the diffusion-map, thus reducing the dimensionality of the data set and making use of the speedup provided by the two-dimensional Fast Fourier Transform algorithm (2-D FFT). We compare our results with those obtained by other eigenvalue expansions, and verify the efficiency of the algorithms with synthetic data, as well as with real data from applications including climate change studies. | 翻訳日:2024-01-24 17:52:48 公開日:2024-01-20 |
# 真のランダム性は存在するか?
統計的ランダム性によるIBM量子コンピュータの効率検証 Does True Randomness Exist? Efficacy Testing IBM Quantum Computers via Statistical Randomness ( http://arxiv.org/abs/2401.12250v1 ) ライセンス: Link先を確認 | Owen Root, Maria Becker | (参考訳) 確率論的性質のような量子力学の基本原理は、量子コンピュータが擬似ランダム数しか生成できない古典的コンピュータとは対照的に、統計的にランダムな数を生成する理論的能力を可能にする。
この量子コンピュータの能力には様々な応用があり、その1つは量子コンピュータ自体の有効性をテストする方法の基礎を提供するものである。
そこで本研究では,9つのIBM量子コンピュータシステムの有効性について検討する。
テスト方法は4つの異なる量子乱数生成アルゴリズムと18の統計テストのバッテリを用いた。
1つの量子コンピュータとアルゴリズムの組み合わせのみが統計的にランダムであることが判明し、テスト手法のパワーと、これらのコンピュータが理論的なポテンシャルに到達するためにはさらなる作業が必要であることを示した。 The fundamental principles of quantum mechanics, such as its probabilistic nature, allow for the theoretical ability of quantum computers to generate statistically random numbers, as opposed to classical computers which are only able to generate pseudo-random numbers. This ability of quantum computers has a variety of applications, one of which provides the basis for a method of efficacy testing Quantum Computers themselves. We introduce this testing method and utilize it to investigate the efficacy of nine IBM Quantum Computer systems. The testing method utilized four different quantum random number generator algorithms and a battery of eighteen statistical tests. Only a single quantum computer-algorithm combination was found to be statistically random, demonstrating the power of the testing method as well as indicating that further work is needed for these computers to reach their theoretical potential. | 翻訳日:2024-01-24 17:52:33 公開日:2024-01-20 |
# 量子ウォークによるリーマン仮説の類似 An analogue of the Riemann Hypothesis via quantum walks ( http://arxiv.org/abs/2204.00765v3 ) ライセンス: Link先を確認 | Norio Konno | (参考訳) 我々は、Konno-Sato定理の助けを借りて、グラフ上の量子ウォークに基づく有名なリーマン仮説の類似性を考える。
さらに、完全、周期、およびスターグラフのいくつかの例を示す。 We consider an analogue of the well-known Riemann Hypothesis based on quantum walks on graphs with the help of the Konno-Sato theorem. Furthermore, we give some examples for complete, cycle, and star graphs. | 翻訳日:2024-01-24 00:41:56 公開日:2024-01-20 |
# Concordance Index decomposition: 生存予測モデルのより深い理解のための尺度 The Concordance Index decomposition: A measure for a deeper understanding of survival prediction models ( http://arxiv.org/abs/2203.00144v3 ) ライセンス: Link先を確認 | Abdallah Alabdallah, Mattias Ohlsson, Sepideh Pashami, Thorsteinn R\"ognvaldsson | (参考訳) Concordance Index (C-index) は、予測モデルの性能を評価するためにサバイバル分析で一般的に用いられる指標である。
本稿では,c-indexを2種類の重み付き調和平均に分解する方法を提案する。1つは観測事象を他の観測事象と比較し,もう1つは観測事象を検閲事例と比較した場合の重み付き調和平均である。
この分解により、異なる生存予測法間の相対的な強度と弱さのよりきめ細かな解析が可能となる。
この分解の有用性は,本論文で提案する新しい変分生成ニューラルネットワークベース法(surved)とともに,古典的モデルと最先端手法とのベンチマーク比較により実証された。
モデルのパフォーマンスは、検閲のレベルが異なる4つの公開データセットを用いて評価される。
C-インデックス分解と合成検閲を用いて、ディープラーニングモデルは、観測された事象を他のモデルよりも効果的に利用することを示す。
これにより、安定したCインデックスを異なる検閲レベルに保つことができる。
このような深層学習とは対照的に、従来の機械学習モデルは、イベントと他のイベントとのランキングを改善することができないため、検閲レベルが低下すると劣化する。 The Concordance Index (C-index) is a commonly used metric in Survival Analysis for evaluating the performance of a prediction model. In this paper, we propose a decomposition of the C-index into a weighted harmonic mean of two quantities: one for ranking observed events versus other observed events, and the other for ranking observed events versus censored cases. This decomposition enables a finer-grained analysis of the relative strengths and weaknesses between different survival prediction methods. The usefulness of this decomposition is demonstrated through benchmark comparisons against classical models and state-of-the-art methods, together with the new variational generative neural-network-based method (SurVED) proposed in this paper. The performance of the models is assessed using four publicly available datasets with varying levels of censoring. Using the C-index decomposition and synthetic censoring, the analysis shows that deep learning models utilize the observed events more effectively than other models. This allows them to keep a stable C-index in different censoring levels. In contrast to such deep learning methods, classical machine learning models deteriorate when the censoring level decreases due to their inability to improve on ranking the events versus other events. | 翻訳日:2024-01-24 00:40:43 公開日:2024-01-20 |
# マルコフ確率場に対する高次元推論とFDR制御 High-dimensional Inference and FDR Control for Simulated Markov Random Fields ( http://arxiv.org/abs/2202.05612v3 ) ライセンス: Link先を確認 | Haoyu Wei, Xiaoyu Lei, Yixin Han, Huiming Zhang | (参考訳) 応答変数に関連する重要な特徴を特定することは、様々な科学領域における基本的な課題である。
本稿では,高次元環境におけるマルコフ確率場の統計的推論について検討する。
本稿では,Markov Chain Monte Carlo Maximum Likelihood Estimation (MCMC-MLE) に基づく弾性ネット正規化手法を提案する。
MCMC法では, 軽度条件下では, MCMC-MLE法は$\ell_{1}$-consistencyを実現する。
本研究では,その漸近的正規性と一段階推定器のそれと関連する信頼区間を両立させた相関スコアテストを提案する。
さらに,p値とe値の両方に対する漸近的行動を通じて,偽発見率制御手順を2つ構築する。
総合数値シミュレーションにより提案手法の理論的妥当性が検証された。 Identifying important features linked to a response variable is a fundamental task in various scientific domains. This article explores statistical inference for simulated Markov random fields in high-dimensional settings. We introduce a methodology based on Markov Chain Monte Carlo Maximum Likelihood Estimation (MCMC-MLE) with Elastic-net regularization. Under mild conditions on the MCMC method, our penalized MCMC-MLE method achieves $\ell_{1}$-consistency. We propose a decorrelated score test, establishing both its asymptotic normality and that of a one-step estimator, along with the associated confidence interval. Furthermore, we construct two false discovery rate control procedures via the asymptotic behaviors for both p-values and e-values. Comprehensive numerical simulations confirm the theoretical validity of the proposed methods. | 翻訳日:2024-01-24 00:40:04 公開日:2024-01-20 |
# DASVDD: 異常検出のためのDeep Autoencoding Support Vector Data Descriptor DASVDD: Deep Autoencoding Support Vector Data Descriptor for Anomaly Detection ( http://arxiv.org/abs/2106.05410v4 ) ライセンス: Link先を確認 | Hadi Hojjati, Narges Armanfard | (参考訳) 半教師付き異常検出は、通常のデータに基づいて訓練されたモデルを用いて、通常のサンプルから異常を検出することを目的としている。
近年のディープラーニングの進歩により、研究者は効率的な深部異常検出法を考案した。
既存の研究では、ニューラルネットワークを使ってデータをより情報的な表現にマッピングし、異常検出アルゴリズムを適用している。
本稿では,自動エンコーダのパラメータを協調的に学習し,その潜在表現上で囲む超球の体積を最小化する手法であるdasvddを提案する。
本稿では,オートエンコーダの再構成誤差と,潜在表現における囲む超球の中心からの距離を組み合わせた異常スコアを提案する。
この異常スコアの最小化は、トレーニング中の正規クラスの基本的な分布を学ぶのに役立つ。
DASVDDモデルは、全ての入力を潜在表現の定数点にマッピングする自明な解に収束しないので、DASVDDが共通の超球崩壊問題に悩まされないことを保証する。
いくつかのベンチマークデータセットにおける実験的評価により、提案手法は、異なる異常クラスにわたる堅牢なパフォーマンスを維持しつつ、一般的に使用される最先端異常検出アルゴリズムよりも優れていることが示された。 Semi-supervised anomaly detection aims to detect anomalies from normal samples using a model that is trained on normal data. With recent advancements in deep learning, researchers have designed efficient deep anomaly detection methods. Existing works commonly use neural networks to map the data into a more informative representation and then apply an anomaly detection algorithm. In this paper, we propose a method, DASVDD, that jointly learns the parameters of an autoencoder while minimizing the volume of an enclosing hyper-sphere on its latent representation. We propose an anomaly score which is a combination of autoencoder's reconstruction error and the distance from the center of the enclosing hypersphere in the latent representation. Minimizing this anomaly score aids us in learning the underlying distribution of the normal class during training. Including the reconstruction error in the anomaly score ensures that DASVDD does not suffer from the common hypersphere collapse issue since the DASVDD model does not converge to the trivial solution of mapping all inputs to a constant point in the latent representation. Experimental evaluations on several benchmark datasets show that the proposed method outperforms the commonly used state-of-the-art anomaly detection algorithms while maintaining robust performance across different anomaly classes. | 翻訳日:2024-01-24 00:37:35 公開日:2024-01-20 |
# Knapsacks を用いた MNL-Bandit 近似アルゴリズム MNL-Bandit with Knapsacks: a near-optimal algorithm ( http://arxiv.org/abs/2106.01135v3 ) ライセンス: Link先を確認 | Abdellah Aznag, Vineet Goyal and Noemie Perivier | (参考訳) 販売者がN$の代替品の在庫を固定し、T$の期間に順次届く未知の需要に直面している場合の動的品揃え選択問題を考える。
各期間において、売り手は顧客に提供する製品(最大で1ドル)の品揃えを決定する必要がある。
顧客の応答は、パラメータ$v$を持つ未知の多項ロジットモデル(mnl)に従っている。
売り手の目標は、N$の商品の固定初期在庫から予想される総売上を最大化することである。
我々は、$\tilde o\big(k \sqrt{kn t}\big(\sqrt{v_{\text{max}}} + \frac{1}{q_{\text{min}}}\text{opt}\big)\big)$という後悔を達成するポリシーを与える。
特に、当社のポリシーは、大発明でほぼ最適に近い$\tilde o(\sqrt{t})$ regretを達成する。
当社のポリシーは,インベントリ制約のない mnl-bandit の [1] に対する ucb ベースのアプローチを基盤とし,$\tilde o(\sqrt{t})$ regret bound を維持しながら,扱いやすい近似を示す指数関数サイズの lp を通じて在庫制約に対処する。 We consider a dynamic assortment selection problem where a seller has a fixed inventory of $N$ substitutable products and faces an unknown demand that arrives sequentially over $T$ periods. In each period, the seller needs to decide on the assortment of products (of cardinality at most $K$) to offer to the customers. The customer's response follows an unknown multinomial logit model (MNL) with parameters $v$. The goal of the seller is to maximize the total expected revenue given the fixed initial inventory of $N$ products. We give a policy that achieves a regret of $\tilde O\Big(K \sqrt{KN T}\Big(\sqrt{v_{\text{max}}} + \frac{1}{q_{\text{min}}}\text{OPT}\Big)\Big)$, where $v_{\text{max}}\leq 1$ is the maximum utility for any product and $q_{\text{min}}$ the minimum inventory level, under a mild assumption on the model parameters. In particular, our policy achieves a near-optimal $\tilde O(\sqrt{T})$ regret in a large-inventory setting. Our policy builds upon the UCB-based approach for MNL-bandit without inventory constraints in [1] and addresses the inventory constraints through an exponentially sized LP for which we present a tractable approximation while keeping the $\tilde O(\sqrt{T})$ regret bound. | 翻訳日:2024-01-24 00:36:54 公開日:2024-01-20 |
# 重力ホログラフィーにおける量子力学の破壊 Breakdown of quantum mechanics in gravitational holography ( http://arxiv.org/abs/2208.01019v2 ) ライセンス: Link先を確認 | Abram Akal | (参考訳) ホログラフィック原理により、重力領域に割り当てられた情報内容は、その低次元境界によって処理される。
この原理に適合する例として、ads/cft対応は超弦理論におけるd-ブレーンの存在に依存する。
ブラックホールの相補性はホログラフィと必然的に関連付けられ、崩壊した純粋な状態に関連する情報は近地平線領域に反映される。
しかし、もしそうなら、外から見たブラックホールを一元的に進化させるメカニズムを理解することは不可欠である。
ここでは、ブラックホールの量子雰囲気を保存する情報は、その水平線上に隠された変数から出現し、標準量子論の確率論的記述を超える必要があると論じる。
AdS/CFT では、半古典的部分代数の完備境界代数への完備化は、ヒルベルト空間構造に近い創発性にまで遡る必要があることを意味する。
今回の研究は、時空の地平線が一般に、量子力学における長い推測オントロジーの復元に重要な役割を果たしていることを示唆している。 According to the holographic principle, the information content assigned to a gravitational region is processed by its lower dimensional boundary. As an example setup compatible with this principle, the AdS/CFT correspondence relies on the existence of D-branes in superstring theory. Black hole complementarity is inevitably linked to holography and states that information associated with the collapsed pure state is reflected in the near horizon region. Yet, if this is so, it is indispensable to understand the mechanism that makes black holes viewed from the outside evolve unitarily. We here argue that the information preserving quantum atmosphere of the black hole emerges from hidden variables on its horizon which would necessitate going beyond a probabilistic description within standard quantum theory. In AdS/CFT, this would mean that the completion of the semiclassical subalgebra to the complete boundary algebra has to be traced back to the emergent near horizon Hilbert space structure. The present investigations suggest that spacetime horizons, in general, may play a crucial role in restoring a long speculated ontology in quantum mechanics. | 翻訳日:2024-01-24 00:30:00 公開日:2024-01-20 |
# pst: 植込み段階におけるナマメの3次元点雲の植物分節変圧器 PST: Plant segmentation transformer for 3D point clouds of rapeseed plants at the podding stage ( http://arxiv.org/abs/2206.13082v3 ) ライセンス: Link先を確認 | Ruiming Du, Zhihong Ma, Pengyao Xie, Yong He, Haiyan Cen | (参考訳) 植物表現には, 高精度な形態特性を得るための植物点雲の分別が不可欠である。
ディープラーニングの急速な発展により、植物点雲のセグメンテーションの研究が盛んに進んでいるが、これまでの研究では、単純な植物器官のセグメンテーションに限定されたハードボクセル化またはダウンサンプリングベースの手法に重点が置かれていた。
複雑な植物点雲の空間分解能の高いセグメンテーションは依然として困難である。
本研究では,高空間分解能のハンドヘルドレーザスキャン(HLS)により得られたラピス植物点群群を,目的とする主形質として特徴付けることができる,深層学習ネットワーク植物区分変換器(PST)を提案する。
PSTは以下の通りである。
(i)動ボクセル特徴エンコーダ(dvfe)であって、点特徴を生の空間分解能で集約したもの
(ii)デュアルウィンドウは、コンテキスト情報をキャプチャするために注意ブロックを設定します。
(iii)最終密点特徴写像を得るための密特徴伝播モジュール。
その結果, PST と PST-PointGroup (PG) はセマンティックおよびインスタンスセグメンテーションタスクにおいて優れた性能を示した。
意味セグメンテーションでは、平均iou、平均リコール、平均f1-score、pstの全体的な精度は93.96%、97.29%、976.52%、96.88%、97.07%で、7.62%、3.28%、4.8%、4.25%、および3.88%改善した。
例えば、PST-PGは89.51%、89.85%、88.83%、mCov、mWCov、mPerc90、mRec90で82.53%に達し、2.93%、2.21%、.99%、および5.9%の改善を達成した。
本研究は,深層学習に基づくポイントクラウド分割法が,複雑な形態的特徴を持つ密接なプラントポイント雲を解消する大きな可能性を持っていることを証明している。 Segmentation of plant point clouds to obtain high-precise morphological traits is essential for plant phenotyping. Although the fast development of deep learning has boosted much research on segmentation of plant point clouds, previous studies mainly focus on the hard voxelization-based or down-sampling-based methods, which are limited to segmenting simple plant organs. Segmentation of complex plant point clouds with a high spatial resolution still remains challenging. In this study, we proposed a deep learning network plant segmentation transformer (PST) to achieve the semantic and instance segmentation of rapeseed plants point clouds acquired by handheld laser scanning (HLS) with the high spatial resolution, which can characterize the tiny siliques as the main traits targeted. PST is composed of: (i) a dynamic voxel feature encoder (DVFE) to aggregate the point features with the raw spatial resolution; (ii) the dual window sets attention blocks to capture the contextual information; and (iii) a dense feature propagation module to obtain the final dense point feature map. The results proved that PST and PST-PointGroup (PG) achieved superior performance in semantic and instance segmentation tasks. For the semantic segmentation, the mean IoU, mean Precision, mean Recall, mean F1-score, and overall accuracy of PST were 93.96%, 97.29%, 96.52%, 96.88%, and 97.07%, achieving an improvement of 7.62%, 3.28%, 4.8%, 4.25%, and 3.88% compared to the second-best state-of-the-art network PAConv. For instance segmentation, PST-PG reached 89.51%, 89.85%, 88.83% and 82.53% in mCov, mWCov, mPerc90, and mRec90, achieving an improvement of 2.93%, 2.21%, 1.99%, and 5.9% compared to the original PG. This study proves that the deep-learning-based point cloud segmentation method has a great potential for resolving dense plant point clouds with complex morphological traits. | 翻訳日:2024-01-24 00:28:22 公開日:2024-01-20 |
# 自己監視型異常検出:調査と展望 Self-Supervised Anomaly Detection: A Survey and Outlook ( http://arxiv.org/abs/2205.05173v4 ) ライセンス: Link先を確認 | Hadi Hojjati, Thi Kieu Khanh Ho, Narges Armanfard | (参考訳) 異常検出(AD)は、通常の行動から逸脱するパターンや事象を特定することによって、サイバーセキュリティ、金融、医療など様々な領域において重要な役割を果たす。
近年,深層学習モデルの顕著な成長により,この分野において大きな進歩を遂げている。
特に、自己教師付き学習の出現は、既存の最先端のアプローチをかなりの差で上回る新しい広告アルゴリズムの開発を促した。
本稿では,自己監督型異常検出における現在の手法を概観する。
標準手法の技術的詳細を説明し,その強みと欠点について考察する。
また,これらのモデルの性能を,他の最先端の異常検出モデルと比較した。
最後に、より効率的かつ効率的なアルゴリズムの開発や、これらの手法をマルチモーダル学習などの他の関連分野と統合することを含む、自己教師付き異常検出の今後の方向性について論じる。 Anomaly detection (AD) plays a crucial role in various domains, including cybersecurity, finance, and healthcare, by identifying patterns or events that deviate from normal behaviour. In recent years, significant progress has been made in this field due to the remarkable growth of deep learning models. Notably, the advent of self-supervised learning has sparked the development of novel AD algorithms that outperform the existing state-of-the-art approaches by a considerable margin. This paper aims to provide a comprehensive review of the current methodologies in self-supervised anomaly detection. We present technical details of the standard methods and discuss their strengths and drawbacks. We also compare the performance of these models against each other and other state-of-the-art anomaly detection models. Finally, the paper concludes with a discussion of future directions for self-supervised anomaly detection, including the development of more effective and efficient algorithms and the integration of these techniques with other related fields, such as multi-modal learning. | 翻訳日:2024-01-24 00:25:35 公開日:2024-01-20 |
# 資源効率の良い量子ネットワークのための量子セマンティック通信 Quantum Semantic Communications for Resource-Efficient Quantum Networking ( http://arxiv.org/abs/2205.02422v2 ) ライセンス: Link先を確認 | Mahdi Chehimi, Christina Chaccour, Christo Kurisummoottil Thomas, Walid Saad | (参考訳) 量子通信ネットワーク(QCN)はセキュアな情報伝送に量子力学を利用するが、脆弱で高価なフォトニックな量子リソースに依存しているため、QCNのリソース最適化は困難である。
古典的データの直接量子埋め込みを盲目的に圧縮する従来のQCNの作業とは異なり、この書簡では量子機械学習と量子意味表現の進歩を利用して、古典的データから関連する情報のみを量子通信とセマンティックフィデリティ測定で量子チャネル上で正確に通信する最小の高次元量子状態に抽出し、埋め込む新しい量子意味通信(QSC)フレームワークを提案する。
シミュレーションの結果,提案手法は意味に依存しないQCN方式と比較して,必要な量子通信資源の約50~75%削減を実現し,高い量子セマンティック忠実度を実現していることがわかった。 Quantum communication networks (QCNs) utilize quantum mechanics for secure information transmission, but the reliance on fragile and expensive photonic quantum resources renders QCN resource optimization challenging. Unlike prior QCN works that relied on blindly compressing direct quantum embeddings of classical data, this letter proposes a novel quantum semantic communications (QSC) framework exploiting advancements in quantum machine learning and quantum semantic representations to extracts and embed only the relevant information from classical data into minimal high-dimensional quantum states that are accurately communicated over quantum channels with quantum communication and semantic fidelity measures. Simulation results indicate that, compared to semantic-agnostic QCN schemes, the proposed framework achieves approximately 50-75% reduction in quantum communication resources needed, while achieving a higher quantum semantic fidelity. | 翻訳日:2024-01-24 00:25:19 公開日:2024-01-20 |
# テンソルPCAにおける統計計算トレードオフと通信複雑度による関連問題 Statistical-Computational Trade-offs in Tensor PCA and Related Problems via Communication Complexity ( http://arxiv.org/abs/2204.07526v2 ) ライセンス: Link先を確認 | Rishabh Dudeja and Daniel Hsu | (参考訳) テンソルpca(tensor pca)は、モンタナリとリチャードが高次モーメントテンソルから未知のパラメータを推定する計算の難しさを研究するために導入した定式化された統計推論問題である。
行列と異なり、Tensor PCAは統計計算のギャップ、すなわち、問題は情報理論的に解けるが計算的に難しいと推測されるサンプルサイズ状態を示す。
本稿では,通信複雑性を用いたテンソルpcaのメモリ有界アルゴリズムの実行時の計算下限を導出する。
これらの下位境界は、データサンプルのパス数、サンプルサイズ、テンソルPCAの解決に成功するアルゴリズムに必要なメモリ間のトレードオフを規定している。
下限は多項式時間アルゴリズムを除外しないが、勾配降下やパワー法のような多くのよく使われるアルゴリズムは、サンプルサイズが十分でない場合、イテレーション数が高くなければならないことを暗示している。
低次モーメントテンソルが未知のパラメータに関する情報を持たない統計量推定問題である非ガウス成分分析において、同様の下限が得られる。
最後に、テンソルPCAの非対称変種と関連する統計的推定問題に対して、より強い下界を求める。
これらの結果は、多くの推定者が興味のあるパラメータの有効次元よりもはるかに大きいメモリ状態を使用する理由を説明する。 Tensor PCA is a stylized statistical inference problem introduced by Montanari and Richard to study the computational difficulty of estimating an unknown parameter from higher-order moment tensors. Unlike its matrix counterpart, Tensor PCA exhibits a statistical-computational gap, i.e., a sample size regime where the problem is information-theoretically solvable but conjectured to be computationally hard. This paper derives computational lower bounds on the run-time of memory bounded algorithms for Tensor PCA using communication complexity. These lower bounds specify a trade-off among the number of passes through the data sample, the sample size, and the memory required by any algorithm that successfully solves Tensor PCA. While the lower bounds do not rule out polynomial-time algorithms, they do imply that many commonly-used algorithms, such as gradient descent and power method, must have a higher iteration count when the sample size is not large enough. Similar lower bounds are obtained for Non-Gaussian Component Analysis, a family of statistical estimation problems in which low-order moment tensors carry no information about the unknown parameter. Finally, stronger lower bounds are obtained for an asymmetric variant of Tensor PCA and related statistical estimation problems. These results explain why many estimators for these problems use a memory state that is significantly larger than the effective dimensionality of the parameter of interest. | 翻訳日:2024-01-24 00:24:59 公開日:2024-01-20 |
# インフレのクリロフ複雑性 Inflationary Krylov complexity ( http://arxiv.org/abs/2401.09307v2 ) ライセンス: Link先を確認 | Tao Li and Lei-Hua Liu | (参考訳) 本研究では,インフレーションにおける変形分散関係に対する曲率摂動のクリロフ複雑性を体系的に検討した。
多くの量子重力フレームワークはこの種の分散関係を修正できるため、我々の分析は弦宇宙論、ループ重力、$\it e.t.c$に適用できる。
lanczosアルゴリズムに従い、非常に初期の宇宙は無限多体、最大カオス系であることがわかった。
我々の数値は、標準分散関係のLanczos係数とLyapunov指数が主にスケール係数によって決定されることを示している。
修正された場合については、運動量によってほぼ決定される。
閉系の手法では、水平線が抜ける前にクリロフ複雑性が不規則な振動を示すことが分かる。
修正されたケースは、地平線が存在すればより高速な成長を示す。
開系のアプローチについては、Lanczos係数を$n$(主量子数)に比例させるだけで非常に堅牢な正確な波動関数を構築する。
これに基づいて、Krylov複雑性とKrylovエントロピーは、弱散逸近似の下で閉じた系の場合、十分に回復可能であることを発見し、この分析により、Krylov複雑性の進化は元の状況と変わらないことを示した。
また,インフレーション期は強い消散期であることがわかった。
一方、我々の数値は、クリロフの複雑さがインフレーション期間中に増加することを明らかに示しています。
しかし、小さなスケールでは、地平線が出てからピークとなるだろう。
分析の結果,背景の劇的な変化(インフレーション)がクリロフ複雑性の進化に大きく影響することが明らかとなった。
曲率摂動は量子レベルから古典レベルに遷移する。
このデコヒーレンスがインフレーション中のクリロフの複雑さに大きな影響を与えると期待できる。 In this work, we have systematically investigated the Krylov complexity of curvature perturbation for the modified dispersion relation in inflation. Since many quantum gravitational frameworks could lead to this kind of modified dispersion relation, our analysis could be applied to the string cosmology, loop gravity, $\it e.t.c$. Following the Lanczos algorithm, we find the very early universe is an infinite, many-body, and maximal chaotic system. Our numerics shows that the Lanczos coefficient and Lyapunov index of the standard dispersion relation are mainly determined by the scale factor. As for the modified case, it is nearly determined by the momentum. In a method of the closed system, we discover that the Krylov complexity will show irregular oscillation before the horizon exits. The modified case will present faster growth after the horizon exists. As for the approach of an open system, we construct the exact wave function which is very robust only requiring the Lanczos coefficient proportional to $n$ (main quantum number). Based on it, we find the Krylov complexity and Krylov entropy could nicely recover in the case of a closed system under the weak dissipative approximation, in which our analysis shows that the evolution of Krylov complexity will not be the same with the original situation. We also find the inflationary period is a strong dissipative system. Meanwhile, our numerics clearly shows the Krylov complexity will grow during the whole inflationary period. But for the small scales, there will be a peak after the horizon exits. Our analysis reveals that the dramatic change in background (inflation) will significantly impact the evolution of Krylov complexity. Since the curvature perturbation will transit from the quantum level to the classical level. We could expect that the decoherence will highly impact the Krylov complexity during inflation. | 翻訳日:2024-01-24 00:18:15 公開日:2024-01-20 |
# 分割型市場におけるユーザとクリエーターのマッチング Matching of Users and Creators in Two-Sided Markets with Departures ( http://arxiv.org/abs/2401.00313v3 ) ライセンス: Link先を確認 | Daniel Huttenlocher, Hannah Li, Liang Lyu, Asuman Ozdaglar and James Siderius | (参考訳) ソーシャルメディアサイトを含む今日の多くのオンラインプラットフォームは、コンテンツクリエーターとユーザーを橋渡しする二面市場だ。
プラットフォームレコメンデーションアルゴリズムに関する既存の文献のほとんどは、ユーザの好みと意思決定に重点を置いており、クリエーターのインセンティブを同時に扱うものではない。
コンテンツレコメンデーションのモデルでは,ユーザとクリエーターの双方が十分なエンゲージメントを得られなければ,プラットフォームを永久に離脱できるという新たな性質から,ユーザとコンテンツのマッチングのダイナミクスを明示的に重視する。
私たちのモデルでは、各プレイヤーは、現在のマッチから派生したユーティリティに基づいて各タイムステップに参加することを決定します。
著者の離脱を考慮しないユーザ中心の欲望アルゴリズムは,2面離脱を考慮しながら総エンゲージメントを最大化するアルゴリズムと比較して,任意に総エンゲージメントを低下させる可能性がある。
さらに,ユーザのみ,あるいはクリエーターのみがプラットフォームを離れる場合とは対照的に,任意の定数係数内で最大総エンゲージメントを近似する2面離脱がnpハードであることを証明する。
本稿では,ユーザの好みを軽度に仮定して性能保証を行う2つの実用的なアルゴリズムを提案する。 Many online platforms of today, including social media sites, are two-sided markets bridging content creators and users. Most of the existing literature on platform recommendation algorithms largely focuses on user preferences and decisions, and does not simultaneously address creator incentives. We propose a model of content recommendation that explicitly focuses on the dynamics of user-content matching, with the novel property that both users and creators may leave the platform permanently if they do not experience sufficient engagement. In our model, each player decides to participate at each time step based on utilities derived from the current match: users based on alignment of the recommended content with their preferences, and creators based on their audience size. We show that a user-centric greedy algorithm that does not consider creator departures can result in arbitrarily poor total engagement, relative to an algorithm that maximizes total engagement while accounting for two-sided departures. Moreover, in stark contrast to the case where only users or only creators leave the platform, we prove that with two-sided departures, approximating maximum total engagement within any constant factor is NP-hard. We present two practical algorithms, one with performance guarantees under mild assumptions on user preferences, and another that tends to outperform algorithms that ignore two-sided departures in practice. | 翻訳日:2024-01-24 00:17:31 公開日:2024-01-20 |
# サンプル選択下での異質な処理効果 : ソーシャルメディアの政治的分極効果への応用 Heterogeneous Treatment Effect Bounds under Sample Selection with an Application to the Effects of Social Media on Political Polarization ( http://arxiv.org/abs/2209.04329v4 ) ライセンス: Link先を確認 | Phillip Heiler | (参考訳) 一般サンプル選択モデルにおいて, 結果が観察され, 排他制限がないか否かに影響を及ぼすような不均一因果効果パラメータを推定し, 推定する手法を提案する。
この方法は、ポリシーに関連する事前処理変数の関数として条件効果境界を提供する。
特定されていない条件効果について有効な統計的推測を行うことができる。
我々は,非線形関数形式と高次元共起者に対応可能なフレキシブルデバイアス・ダブル機械学習アプローチを採用している。
推定の容易な高レベル条件、不特定性堅牢な信頼区間、均一な信頼帯域も提供される。
我々は、Facebook上の大規模フィールド実験から、アトリクションを伴う対人ニュース購読に関するデータを再分析する。
本手法は従来の方法に比べて効果範囲がかなり狭く,若年者に対する脱分極効果が示唆される。 We propose a method for estimation and inference for bounds for heterogeneous causal effect parameters in general sample selection models where the treatment can affect whether an outcome is observed and no exclusion restrictions are available. The method provides conditional effect bounds as functions of policy relevant pre-treatment variables. It allows for conducting valid statistical inference on the unidentified conditional effects. We use a flexible debiased/double machine learning approach that can accommodate non-linear functional forms and high-dimensional confounders. Easily verifiable high-level conditions for estimation, misspecification robust confidence intervals, and uniform confidence bands are provided as well. We re-analyze data from a large scale field experiment on Facebook on counter-attitudinal news subscription with attrition. Our method yields substantially tighter effect bounds compared to conventional methods and suggests depolarization effects for younger users. | 翻訳日:2024-01-24 00:12:51 公開日:2024-01-20 |
# 加速度MRIのための高周波空間拡散モデル High-Frequency Space Diffusion Models for Accelerated MRI ( http://arxiv.org/abs/2208.05481v5 ) ライセンス: Link先を確認 | Chentao Cao, Zhuo-Xu Cui, Yue Wang, Shaonan Liu, Taijin Chen, Hairong Zheng, Dong Liang, Yanjie Zhu | (参考訳) 連続確率微分方程式(SDE)を用いた拡散モデルは画像生成において優れた性能を示した。
磁気共鳴(MR)再構成における逆問題の解決に先立って、深い生成物として機能する。
しかしながら、$k$-spaceデータの低周波領域は、通常、高速MRイメージングで完全にサンプリングされるが、既存の拡散モデルは、画像全体または$k$-space全体にわたって実行される。
さらに、既存の拡散モデルは、しばしば収束するために相当な反復を必要とし、結果として時間を要する再構築をもたらす。
これらの課題に対処するため,高周波数空間での拡散過程を考慮したMR再構成に適した新しいSDE(HFS-SDE)を提案する。
このアプローチは、完全サンプリングされた低周波領域における決定性を確保し、逆拡散のサンプリング手順を加速する。
HFS-SDE法は, 従来の並列画像法, 教師付き深層学習, および既存拡散モデルの再現精度, 安定性に優れることを示した。
高速収束特性は理論的および実験的検証によって確認される。
コードとウェイトはhttps://github.com/Aboriginer/HFS-SDE.comで公開されています。 Diffusion models with continuous stochastic differential equations (SDEs) have shown superior performances in image generation. It can serve as a deep generative prior to solving the inverse problem in magnetic resonance (MR) reconstruction. However, low-frequency regions of $k$-space data are typically fully sampled in fast MR imaging, while existing diffusion models are performed throughout the entire image or $k$-space, inevitably introducing uncertainty in the reconstruction of low-frequency regions. Additionally, existing diffusion models often demand substantial iterations to converge, resulting in time-consuming reconstructions. To address these challenges, we propose a novel SDE tailored specifically for MR reconstruction with the diffusion process in high-frequency space (referred to as HFS-SDE). This approach ensures determinism in the fully sampled low-frequency regions and accelerates the sampling procedure of reverse diffusion. Experiments conducted on the publicly available fastMRI dataset demonstrate that the proposed HFS-SDE method outperforms traditional parallel imaging methods, supervised deep learning, and existing diffusion models in terms of reconstruction accuracy and stability. The fast convergence properties are also confirmed through theoretical and experimental validation. Our code and weights are available at https://github.com/Aboriginer/HFS-SDE. | 翻訳日:2024-01-24 00:12:36 公開日:2024-01-20 |
# 共進化による不均一なマルチエージェントゼロショット協調 Heterogeneous Multi-agent Zero-Shot Coordination by Coevolution ( http://arxiv.org/abs/2208.04957v2 ) ライセンス: Link先を確認 | Ke Xue, Yutong Wang, Cong Guan, Lei Yuan, Haobo Fu, Qiang Fu, Chao Qian, Yang Yu | (参考訳) ゼロショット協調(zsc)を実現するエージェントの生成は,協調型マルチエージェント強化学習(marl)における新たな課題である。
近年、ZSCにおいて、トレーニングプロセス中に多様なパートナーにエージェントを露出させることにより、いくつかの研究が進展している。
彼らは通常、パートナーを訓練する際に自己プレイを伴い、タスクが均質であると暗黙的に仮定する。
しかし、多くの実世界のタスクは不均一であり、従って従来の手法は非効率である。
本稿では, 異種ZSC問題を初めて検討し, 3つのサブプロセス(ペアリング, 更新, 選択)を通じてエージェントとパートナーの2つの集団を共進化させる, 共進化に基づく一般的な手法を提案する。
種々の異種タスクに対する実験結果は、異種設定を考える必要性を強調し、提案手法が異種ZSCタスクに対して有望な解であることを示す。 Generating agents that can achieve zero-shot coordination (ZSC) with unseen partners is a new challenge in cooperative multi-agent reinforcement learning (MARL). Recently, some studies have made progress in ZSC by exposing the agents to diverse partners during the training process. They usually involve self-play when training the partners, implicitly assuming that the tasks are homogeneous. However, many real-world tasks are heterogeneous, and hence previous methods may be inefficient. In this paper, we study the heterogeneous ZSC problem for the first time and propose a general method based on coevolution, which coevolves two populations of agents and partners through three sub-processes: pairing, updating and selection. Experimental results on various heterogeneous tasks highlight the necessity of considering the heterogeneous setting and demonstrate that our proposed method is a promising solution for heterogeneous ZSC tasks. | 翻訳日:2024-01-24 00:12:16 公開日:2024-01-20 |
# 2層ネットワークのサンプル複雑性について:Lipschitz vs. Element-Wise Lipschitz Activation On the Sample Complexity of Two-Layer Networks: Lipschitz vs. Element-Wise Lipschitz Activation ( http://arxiv.org/abs/2211.09634v4 ) ライセンス: Link先を確認 | Amit Daniely and Elad Granot | (参考訳) 異なる活性化関数を用いた有界二層ニューラルネットワークのサンプル複雑性について検討する。
特に、クラス $$$ \mathcal{H} = \left\{\textbf{x}\mapsto \langle \textbf{v}, \sigma \circ W\textbf{b} + \textbf{b} \rangle : \textbf{b}\in\mathbb{R}^d, W \in \mathbb{R}^{\mathcal{T}\times d}, \textbf{v} \in \mathbb{R}^{\mathcal{T}}\right\} $$$$$W$と$\textbf{v}$のノルムが$O(1)$で束縛され、$W$W$のフロベニウスノルムはその初期化から$R>$0で束縛される。
すると、$\sigma$ が要素単位であるなら、$\mathcal{h}$ のサンプル複雑性は対数依存性のみを持ち、この複雑性は対数因子まで密接であることが証明される。
さらに、入力次元において指数的となる幅に対して、サンプルの複雑さが線形な非要素的活性化関数が存在するという意味で、$\sigma$の要素ワイド性は、幅に有界な対数依存に必須であることを示す。
上界に対しては、arXiv:1910.05697 により Approximate Description Length (ADL) と呼ばれるノルムベース境界に対する最近のアプローチを用いる。
このアプローチのための新しい技術やツールがさらに開発され、将来的な成果が期待できる。 We investigate the sample complexity of bounded two-layer neural networks using different activation functions. In particular, we consider the class $$ \mathcal{H} = \left\{\textbf{x}\mapsto \langle \textbf{v}, \sigma \circ W\textbf{b} + \textbf{b} \rangle : \textbf{b}\in\mathbb{R}^d, W \in \mathbb{R}^{\mathcal{T}\times d}, \textbf{v} \in \mathbb{R}^{\mathcal{T}}\right\} $$ where the spectral norm of $W$ and $\textbf{v}$ is bounded by $O(1)$, the Frobenius norm of $W$ is bounded from its initialization by $R > 0$, and $\sigma$ is a Lipschitz activation function. We prove that if $\sigma$ is element-wise, then the sample complexity of $\mathcal{H}$ has only logarithmic dependency in width and that this complexity is tight, up to logarithmic factors. We further show that the element-wise property of $\sigma$ is essential for a logarithmic dependency bound in width, in the sense that there exist non-element-wise activation functions whose sample complexity is linear in width, for widths that can be up to exponential in the input dimension. For the upper bound, we use the recent approach for norm-based bounds named Approximate Description Length (ADL) by arXiv:1910.05697. We further develop new techniques and tools for this approach that will hopefully inspire future works. | 翻訳日:2024-01-23 22:27:23 公開日:2024-01-20 |
# ArcAid:図面を用いた考古学的遺物の分析 ArcAid: Analysis of Archaeological Artifacts using Drawings ( http://arxiv.org/abs/2211.09480v3 ) ライセンス: Link先を確認 | Offry Hayon, Stefan M\"unger, Ilan Shimshoni, Ayellet Tal | (参考訳) 考古学はコンピュータビジョンの興味深い分野である。
ラベル付き)データの不足だけでなく、高度に乱雑なデータにも苦しんでいます。
本稿では,考古学的遺物の画像の分類と検索のための新しい半教師付きモデルを提案する。
このモデルはドメイン内に存在するユニークなデータ -- 特殊なアーティストによる手作業による図面 -- を利用する。
これらはトレーニング中に、図面から対応する画像にドメインの知識を暗黙的に転送し、分類結果を改善するために使用される。
分類の仕方を学習しながら、このモデルは、現在手作業で行われている重要なドキュメントタスクであるアーティファクトの図面を生成する方法も学んでいます。
最後に、我々は南レバントのスタンプシールの新しいデータセットを収集しました。
コードとデータセットは公開されています。 Archaeology is an intriguing domain for computer vision. It suffers not only from shortage in (labeled) data, but also from highly-challenging data, which is often extremely abraded and damaged. This paper proposes a novel semi-supervised model for classification and retrieval of images of archaeological artifacts. This model utilizes unique data that exists in the domain -- manual drawings made by special artists. These are used during training to implicitly transfer the domain knowledge from the drawings to their corresponding images, improving their classification results. We show that while learning how to classify, our model also learns how to generate drawings of the artifacts, an important documentation task, which is currently performed manually. Last but not least, we collected a new dataset of stamp-seals of the Southern Levant. Our code and dataset are publicly available. | 翻訳日:2024-01-23 22:26:23 公開日:2024-01-20 |
# 直交多項式近似アルゴリズム(OPAA):確率密度推定のための機能解析的アプローチ Orthogonal Polynomials Approximation Algorithm (OPAA):a functional analytic approach to estimating probability densities ( http://arxiv.org/abs/2211.08594v3 ) ライセンス: Link先を確認 | Lilian W. Bialokozowicz | (参考訳) 関数解析的手法を用いて確率分布を推定する並列化可能なアルゴリズムである新しい直交多項式近似アルゴリズム(opaa)を提案する。第1に,正規化の有無にかかわらず,確率分布の滑らかな関数的推定を求める。第2に,正規化重量の推定を提供し,第3に,その推定値を計算するための新しい計算手法を提案する。
opaa の核成分は、ジョイント分布の平方根を我々の構成物の特殊機能空間へ特殊変換したものである。
この変換を通して、証拠は変換函数の$L^2$ノルムと同一視される。
したがって、この証拠は変換係数の平方の和によって推定できる。
計算は並列化でき、1回のパスで完了する。
opaaは確率密度関数の推定に広く適用することができる。
ベイズ問題では、後部の正規化重量を推定するために応用できるが、これは証拠としても知られ、既存の最適化に基づく方法の代替となる。 We present the new Orthogonal Polynomials Approximation Algorithm (OPAA), a parallelizable algorithm that estimates probability distributions using functional analytic approach: first, it finds a smooth functional estimate of the probability distribution, whether it is normalized or not; second, the algorithm provides an estimate of the normalizing weight; and third, the algorithm proposes a new computation scheme to compute such estimates. A core component of OPAA is a special transform of the square root of the joint distribution into a special functional space of our construct. Through this transform, the evidence is equated with the $L^2$ norm of the transformed function, squared. Hence, the evidence can be estimated by the sum of squares of the transform coefficients. Computations can be parallelized and completed in one pass. OPAA can be applied broadly to the estimation of probability density functions. In Bayesian problems, it can be applied to estimating the normalizing weight of the posterior, which is also known as the evidence, serving as an alternative to existing optimization-based methods. | 翻訳日:2024-01-23 22:25:43 公開日:2024-01-20 |
# 多粒度不確かさ正規化によるテキストフィードバックによる合成画像検索 Composed Image Retrieval with Text Feedback via Multi-grained Uncertainty Regularization ( http://arxiv.org/abs/2211.07394v5 ) ライセンス: Link先を確認 | Yiyang Chen, Zhedong Zheng, Wei Ji, Leigang Qu, Tat-Seng Chua | (参考訳) テキストフィードバックによる合成画像検索について検討した。
ユーザは、粗いフィードバックから細かいフィードバックに移行することで、徐々に関心の対象を探します。
しかし、既存の方法は、訓練中に正のペアと負のペアを利用することで、後者、すなわちきめ細かい検索にのみ焦点を合わせている。
このペアベースのパラダイムは、一対の特定点間の一対一の距離のみを考慮し、一対一の粗い粗い検索プロセスと一致せず、リコール率を損なう。
このギャップを埋めるために,多粒度不確かさを考慮し,粗粒検索と細粒検索を同時にモデル化する統一学習手法を提案する。
提案手法を基盤とするキーアイデアは,データポイントと小変動点,大変動点のマッチングとして,細粒度検索と粗粒度検索を統合することである。
具体的には、不確実性モデリングと不確実性正規化の2つのモジュールを含む。
1)不確実性モデリングは,特徴空間に同一の分散変動を導入することで,多粒度クエリをシミュレートする。
2) 不確実性モデリングに基づいて,変動範囲に応じて一致目標を適応させる不確実性正規化を導入する。
既存手法と比較して, 提案手法では, モデルが早期に潜在的な候補を追い払うことを明示的に防止し, リコール率を向上させる。
fashioniq, fashion200k, shoesの3つのパブリックデータセットにおいて,提案手法はそれぞれ,強いベースラインに対して +4.03%, +3.38%, +2.40% recall@50 の精度を達成している。 We investigate composed image retrieval with text feedback. Users gradually look for the target of interest by moving from coarse to fine-grained feedback. However, existing methods merely focus on the latter, i.e., fine-grained search, by harnessing positive and negative pairs during training. This pair-based paradigm only considers the one-to-one distance between a pair of specific points, which is not aligned with the one-to-many coarse-grained retrieval process and compromises the recall rate. In an attempt to fill this gap, we introduce a unified learning approach to simultaneously modeling the coarse- and fine-grained retrieval by considering the multi-grained uncertainty. The key idea underpinning the proposed method is to integrate fine- and coarse-grained retrieval as matching data points with small and large fluctuations, respectively. Specifically, our method contains two modules: uncertainty modeling and uncertainty regularization. (1) The uncertainty modeling simulates the multi-grained queries by introducing identically distributed fluctuations in the feature space. (2) Based on the uncertainty modeling, we further introduce uncertainty regularization to adapt the matching objective according to the fluctuation range. Compared with existing methods, the proposed strategy explicitly prevents the model from pushing away potential candidates in the early stage, and thus improves the recall rate. On the three public datasets, i.e., FashionIQ, Fashion200k, and Shoes, the proposed method has achieved +4.03%, +3.38%, and +2.40% Recall@50 accuracy over a strong baseline, respectively. | 翻訳日:2024-01-23 22:25:28 公開日:2024-01-20 |
# Qafny: 量子プログラム検証器 Qafny: A Quantum-Program Verifier ( http://arxiv.org/abs/2211.06411v4 ) ライセンス: Link先を確認 | Liyi Li, Mingwei Zhu, Rance Cleaveland, Alexander Nicolellis, Yi Lee, Le Chang, Xiaodi Wu | (参考訳) 量子プログラムの確率的・非決定論的挙動のため、それらの仕様を正しく実装することを保証するために、それらを正式に検証することが非常に望ましい。
しかし、形式的検証も伝統的にかなりの努力を要する。
この課題に対処するために,プログラム検証器Dafnyに基づく自動証明システムであるQafnyを紹介し,量子プログラムの検証を行う。
Qafnyの中核は、量子演算を古典的な分離論理フレームワークでモデル化された古典的な配列演算に変換する型誘導量子証明システムである。
我々は,証明システムの健全性と完全性を証明し,qafnyプログラムと仕様を自動検証目的でdafnyに変換するプロトタイプコンパイラを実装した。
次に,量子ウォークアルゴリズム,グローバーアルゴリズム,ショールアルゴリズムなど,重要な量子アルゴリズムを効率的に検証するqafnyの自動化機能の有用性を示す。 Because of the probabilistic/nondeterministic behavior of quantum programs, it is highly advisable to verify them formally to ensure that they correctly implement their specifications. Formal verification, however, also traditionally requires significant effort. To address this challenge, we present Qafny, an automated proof system based on the program verifier Dafny and designed for verifying quantum programs. At its core, Qafny uses a type-guided quantum proof system that translates quantum operations to classical array operations modeled within a classical separation logic framework. We prove the soundness and completeness of our proof system and implement a prototype compiler that transforms Qafny programs and specifications into Dafny for automated verification purposes. We then illustrate the utility of Qafny's automated capabilities in efficiently verifying important quantum algorithms, including quantum-walk algorithms, Grover's algorithm, and Shor's algorithm. | 翻訳日:2024-01-23 22:24:58 公開日:2024-01-20 |
# esknet-an enhanced adaptive selection kernel convolution for breast tumors segmentation ESKNet-An enhanced adaptive selection kernel convolution for breast tumors segmentation ( http://arxiv.org/abs/2211.02915v2 ) ライセンス: Link先を確認 | Gongping Chen, Lu Zhou, Jianxun Zhang, Xiaotao Yin, Liang Cui, Yu Dai | (参考訳) 乳がんは女性の健康を危険にさらす一般的ながんの1つである。
早期臨床介入と術後経過観察には,正確なターゲット病変の分節が不可欠である。
近年,多くの畳み込みニューラルネットワーク (CNN) が超音波画像から乳腺腫瘍を分離するために提案されている。
しかし, 複雑な超音波像と異型腫瘍の形状と大きさは, 乳腺病変の正確な分画に困難をもたらす。
選択的核畳み込みに動機づけられ,複数の特徴マップ領域表現を統合し,これらの特徴マップ領域の重みをチャネルと空間次元から適応的に再調整する,乳腺腫瘍分割のための選択的核畳み込みの強化について紹介する。
この領域再調整戦略により、ネットワークは高分配領域の特徴に集中し、より有用でない領域の摂動を緩和できる。
最後に、拡張された選択的カーネル畳み込みをu-netに統合し、乳腺腫瘍のロバストな表現を適応的にキャプチャする。
3つの公衆乳房超音波データセットにおける12の最先端ディープラーニングセグメンテーション法を用いた広範囲な実験により,乳房超音波画像におけるより競争力の高いセグメンテーション性能を示す。 Breast cancer is one of the common cancers that endanger the health of women globally. Accurate target lesion segmentation is essential for early clinical intervention and postoperative follow-up. Recently, many convolutional neural networks (CNNs) have been proposed to segment breast tumors from ultrasound images. However, the complex ultrasound pattern and the variable tumor shape and size bring challenges to the accurate segmentation of the breast lesion. Motivated by the selective kernel convolution, we introduce an enhanced selective kernel convolution for breast tumor segmentation, which integrates multiple feature map region representations and adaptively recalibrates the weights of these feature map regions from the channel and spatial dimensions. This region recalibration strategy enables the network to focus more on high-contributing region features and mitigate the perturbation of less useful regions. Finally, the enhanced selective kernel convolution is integrated into U-net with deep supervision constraints to adaptively capture the robust representation of breast tumors. Extensive experiments with twelve state-of-the-art deep learning segmentation methods on three public breast ultrasound datasets demonstrate that our method has a more competitive segmentation performance in breast ultrasound images. | 翻訳日:2024-01-23 22:24:43 公開日:2024-01-20 |
# 比例構造 Proportional structures ( http://arxiv.org/abs/2210.01751v5 ) ライセンス: Link先を確認 | Christian Anti\'c | (参考訳) アナロジカル比例は、人工知能の中核にあるアナログ推論の核心にある$c$が$d$'であるかどうかを、 ``$a$ is to $b$ という形の表現である。
本稿では,20年前Yves Lepageによって始められた,公理的伝統における類比の数学的基礎に寄与する。
このため、比例構造は、適切な公理の組を満たす 4-項類比関係 $a:b::c:d$ が与えられ、異なる種類の比例保存写像とそれらの関係とその性質を研究する。
より広い意味では、この論文は類比の数学的理論へのさらなる一歩である。 Analogical proportions are expressions of the form ``$a$ is to $b$ what $c$ is to $d$'' at the core of analogical reasoning which itself is at the core of artificial intelligence. This paper contributes to the mathematical foundations of analogical proportions in the axiomatic tradition as initiated by Yves Lepage two decades ago. For this we consider proportional structures as sets endowed with a 4-ary analogical proportion relation $a:b::c:d$ satisfying a suitable set of axioms and study different kinds of proportion-preserving mappings and relations and their properties. In a broader sense, this paper is a further step towards a mathematical theory of analogical proportions. | 翻訳日:2024-01-23 22:23:31 公開日:2024-01-20 |
# 連続学習における課題定式化 : 視覚的質問応答を事例として Task Formulation Matters When Learning Continually: A Case Study in Visual Question Answering ( http://arxiv.org/abs/2210.00044v2 ) ライセンス: Link先を確認 | Mavina Nikandrou, Lu Yu, Alessandro Suglia, Ioannis Konstas, Verena Rieser | (参考訳) 継続的学習は、前の知識を忘れずに、一連のタスクで段階的にモデルを訓練することを目的としている。
連続学習はコンピュータビジョンで広く研究されているが、Vision+Languageタスクへの応用は、入力モダリティに応じて複数の方法でパラメータ化できるため、それほど単純ではない。
本稿では,視覚質問応答の性能に異なる設定がどのように影響するかを詳細に検討する。
まず,3つのタスクの定式化を提案し,連続学習アルゴリズムの性能への影響を実証する。
タスクの類似性のいくつかの要因を分解し、タスクの順序に対するパフォーマンスと感度が出力分布のシフトに大きく依存することを示した。
また,事前学習モデルの可能性を調査し,トランスフォーマーモデルのロバスト性と異なる視覚埋め込みとの比較を行った。
最後に,モデル表現を解釈する解析と,その記憶への影響について述べる。
より深い層における視覚的表現の安定化の重要性を強調した。 Continual learning aims to train a model incrementally on a sequence of tasks without forgetting previous knowledge. Although continual learning has been widely studied in computer vision, its application to Vision+Language tasks is not that straightforward, as settings can be parameterized in multiple ways according to their input modalities. In this paper, we present a detailed study of how different settings affect performance for Visual Question Answering. We first propose three plausible task formulations and demonstrate their impact on the performance of continual learning algorithms. We break down several factors of task similarity, showing that performance and sensitivity to task order highly depend on the shift of the output distribution. We also investigate the potential of pretrained models and compare the robustness of transformer models with different visual embeddings. Finally, we provide an analysis interpreting model representations and their impact on forgetting. Our results highlight the importance of stabilizing visual representations in deeper layers. | 翻訳日:2024-01-23 22:23:02 公開日:2024-01-20 |
# Cal-QL: 効率的なオンラインファインチューニングのためのオフラインRL事前トレーニング Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning ( http://arxiv.org/abs/2303.05479v4 ) ライセンス: Link先を確認 | Mitsuhiko Nakamoto, Yuexiang Zhai, Anikait Singh, Max Sobol Mark, Yi Ma, Chelsea Finn, Aviral Kumar, Sergey Levine | (参考訳) オフライン強化学習(rl)の説得力のあるユースケースは、既存のデータセットからのポリシー初期化と、限られたインタラクションによる高速なオンライン微調整だ。
しかし、既存のオフラインrlメソッドは微調整時に振る舞う傾向がある。
本稿では,オフラインデータから効果的な初期化を学習する手法を考案し,高速なオンライン微調整機能を実現する。
本手法は,オフラインデータから学習ポリシーの価値を過小評価すると共に,学習されたQ-値が妥当な規模であるという意味で校正される保守的値関数初期化を学習することにより,これを達成している。
この性質をキャリブレーション(キャリブレーション)と呼び、学習されたポリシーの真値関数に対する下限と、単に振舞いポリシーであるかもしれない他の(最適でない)参照ポリシーの値に対する上限を正式に定義する。
このような校正値関数を学習するオフラインRLアルゴリズムは、オンラインの微調整を効果的に行うことができ、オンラインの微調整におけるオフライン初期化の利点を享受できることを示す。
実際には、Cal-QLは、オフラインのRLのための保守的なQ学習(CQL)の上に、1行のコード変更で実装できる。
経験的に、cal-qlは、本論文で研究した9/11の微調整ベンチマークタスクで最先端のメソッドを上回る。
コードとビデオはhttps://nakamotoo.github.io/Cal-QLで公開されている。 A compelling use case of offline reinforcement learning (RL) is to obtain a policy initialization from existing datasets followed by fast online fine-tuning with limited interaction. However, existing offline RL methods tend to behave poorly during fine-tuning. In this paper, we devise an approach for learning an effective initialization from offline data that also enables fast online fine-tuning capabilities. Our approach, calibrated Q-learning (Cal-QL), accomplishes this by learning a conservative value function initialization that underestimates the value of the learned policy from offline data, while also being calibrated, in the sense that the learned Q-values are at a reasonable scale. We refer to this property as calibration, and define it formally as providing a lower bound on the true value function of the learned policy and an upper bound on the value of some other (suboptimal) reference policy, which may simply be the behavior policy. We show that offline RL algorithms that learn such calibrated value functions lead to effective online fine-tuning, enabling us to take the benefits of offline initializations in online fine-tuning. In practice, Cal-QL can be implemented on top of the conservative Q learning (CQL) for offline RL within a one-line code change. Empirically, Cal-QL outperforms state-of-the-art methods on 9/11 fine-tuning benchmark tasks that we study in this paper. Code and video are available at https://nakamotoo.github.io/Cal-QL | 翻訳日:2024-01-23 22:16:47 公開日:2024-01-20 |
# 生成テキストに対して、nli-ニュートラルテキストは最良のテキストか? For Generated Text, Is NLI-Neutral Text the Best Text? ( http://arxiv.org/abs/2302.08577v3 ) ライセンス: Link先を確認 | Michail Mersinias, Kyle Mahowald | (参考訳) テキスト生成パイプラインに自然言語推論(nli)を組み込んで,学習済みのnliモデルを用いて,生成した文が文に含まれるか,矛盾しているか,あるいはプロンプト文と先行文に中立であるかを評価する。
まず NLI タスクは GPT-3 による生成エラーの予測であることを示す。
GPT-JのためのNLIインフォームド生成手法を開発した。
そして,これらの世代を,エラータイプと全体的な品質に関する人間のアノテーションを用いて評価する。
その結果,nli戦略では,核サンプリング乱数パラメータ値が高い場合にはテキスト生成が改善され,パラメータ値が低い場合には矛盾を最大化する戦略が実際に生産的であることがわかった。
しかし,全体としては,中性クラスを最大化するnli戦略が,パラメータ値によらず,生成テキストの最高品質(バニラ世代よりも優れている)を提供することを示した。 We explore incorporating natural language inference (NLI) into the text generative pipeline by using a pre-trained NLI model to assess whether a generated sentence entails, contradicts, or is neutral to the prompt and preceding text. First, we show that the NLI task is predictive of generation errors made by GPT-3. We use these results to develop an NLI-informed generation procedure for GPT-J. Then, we evaluate these generations by obtaining human annotations on error types and overall quality. We find that an NLI strategy of maximizing entailment improves text generation when the nucleus sampling randomness parameter value is high, while one which maximizes contradiction is in fact productive when the parameter value is low. Overall, though, we demonstrate that an NLI strategy of maximizing the neutral class provides the highest quality of generated text (significantly better than the vanilla generations), regardless of parameter value. | 翻訳日:2024-01-23 22:14:55 公開日:2024-01-20 |
# 量子ジャジンスキー等式の設定における射影仮説 Projection hypothesis in the setting for the quantum Jarzynski equality ( http://arxiv.org/abs/2212.07785v5 ) ライセンス: Link先を確認 | Eiji Konishi | (参考訳) 射影量子計測は現代の量子力学において理論的に受け入れられた過程である。
しかし、その射影仮説は実験的に確立された経験則と見なされている。
本稿では、投射量子測定における射影仮説のハミルトン過程の実現に関する以前の結果と、マクロ量子力学系の質量中心の軌道可観測物の完全な集合を、相互に可換な古典的可観測物の集合に限定することと、イベント読取に必要な作業(すなわち、射影量子測定における情報的過程)に関する以前の結果を組み合わせる。
次に、これら2つの相互独立な量子計測理論結果を同時に試験するための量子熱力学スキームを提案する。 Projective quantum measurement is a theoretically accepted process in modern quantum mechanics. However, its projection hypothesis is widely regarded as an experimentally established empirical law. In this paper, we combine a previous result regarding the realization of a Hamiltonian process of the projection hypothesis in projective quantum measurement, where the complete set of the orbital observables of the center of mass of a macroscopic quantum mechanical system is restricted to a set of mutually commuting classical observables, and a previous result regarding the work required for an event reading (i.e., the informatical process in projective quantum measurement). Then, a quantum thermodynamic scheme is proposed for experimentally testing these two mutually independent theoretical results of projective quantum measurement simultaneously. | 翻訳日:2024-01-23 22:13:15 公開日:2024-01-20 |
# 乳癌画像の深層学習 : 進歩と今後の方向性 Deep Learning in Breast Cancer Imaging: A Decade of Progress and Future Directions ( http://arxiv.org/abs/2304.06662v4 ) ライセンス: Link先を確認 | Luyang Luo, Xi Wang, Yi Lin, Xiaoqi Ma, Andong Tan, Ronald Chan, Varut Vardhanabhuti, Winnie CW Chu, Kwang-Ting Cheng, Hao Chen | (参考訳) 乳がんは2020年以降、世界中のすべての悪性腫瘍の中で最高率に達している。
乳がん患者の早期診断と治療の介入において乳房画像は重要な役割を担っている。
過去10年間で、深層学習は乳がん画像解析の顕著な進歩を示し、乳がん画像の豊富な情報と複雑な文脈を解釈する上で大きな可能性を秘めている。
深層学習技術の急速な進歩と乳癌の重症度の増加を考えると、過去の進歩を要約し、対処すべき今後の課題を特定することが重要である。
本稿では,過去10年間のマンモグラム,超音波,磁気共鳴画像,およびデジタル病理画像について,ディープラーニングを用いた乳癌画像研究の広範なレビューを行う。
画像に基づくスクリーニング,診断,治療反応予測,予後に関する主要な深層学習法と応用について詳述した。
本稿では,本研究の結果から,ディープラーニングを用いた乳がんイメージングにおける今後の研究の課題と可能性について総合的な考察を行う。 Breast cancer has reached the highest incidence rate worldwide among all malignancies since 2020. Breast imaging plays a significant role in early diagnosis and intervention to improve the outcome of breast cancer patients. In the past decade, deep learning has shown remarkable progress in breast cancer imaging analysis, holding great promise in interpreting the rich information and complex context of breast imaging modalities. Considering the rapid improvement in deep learning technology and the increasing severity of breast cancer, it is critical to summarize past progress and identify future challenges to be addressed. This paper provides an extensive review of deep learning-based breast cancer imaging research, covering studies on mammogram, ultrasound, magnetic resonance imaging, and digital pathology images over the past decade. The major deep learning methods and applications on imaging-based screening, diagnosis, treatment response prediction, and prognosis are elaborated and discussed. Drawn from the findings of this survey, we present a comprehensive discussion of the challenges and potential avenues for future research in deep learning-based breast cancer imaging. | 翻訳日:2024-01-23 22:03:43 公開日:2024-01-20 |
# サブガウス内在的モーメントノルムによる密接な非漸近的推論 Tight Non-asymptotic Inference via Sub-Gaussian Intrinsic Moment Norm ( http://arxiv.org/abs/2303.07287v2 ) ライセンス: Link先を確認 | Huiming Zhang, Haoyu Wei, Guang Cheng | (参考訳) 非漸近学習では、ガウス分布の分散型パラメータが最重要である。
しかし、経験的モーメント生成関数(MGF)を用いてこれらのパラメータを直接推定することは不可能である。
これを解決するために、正規化されたモーメント列を最大化することで達成されるガウス以下の固有モーメントノルム (Buldygin and Kozachenko (2000), Theorem 1.3) を用いることを提案する。
重要なことに、提案されたノルムは、MGFの指数モーメント境界を再構築するだけでなく、より厳密な準ガウス濃度の不等式を与える。
実際,有限サンプルサイズのデータがサブガウシアンであるかどうかを,サブガウシアンプロットを用いて直感的に評価する手法を提案する。
固有モーメントノルムは、単純なプラグインアプローチで頑健に推定できる。
理論的な知見は、多腕バンディットシナリオを含む強化学習にも適用できる。 In non-asymptotic learning, variance-type parameters of sub-Gaussian distributions are of paramount importance. However, directly estimating these parameters using the empirical moment generating function (MGF) is infeasible. To address this, we suggest using the sub-Gaussian intrinsic moment norm [Buldygin and Kozachenko (2000), Theorem 1.3] achieved by maximizing a sequence of normalized moments. Significantly, the suggested norm can not only reconstruct the exponential moment bounds of MGFs but also provide tighter sub-Gaussian concentration inequalities. In practice, we provide an intuitive method for assessing whether data with a finite sample size is sub-Gaussian, utilizing the sub-Gaussian plot. The intrinsic moment norm can be robustly estimated via a simple plug-in approach. Our theoretical findings are also applicable to reinforcement learning, including the multi-armed bandit scenario. | 翻訳日:2024-01-23 21:59:57 公開日:2024-01-20 |
# バイオメディカル自然言語処理における大規模言語モデル--ベンチマーク,ベースライン,レコメンデーション Large language models in biomedical natural language processing: benchmarks, baselines, and recommendations ( http://arxiv.org/abs/2305.16326v2 ) ライセンス: Link先を確認 | Qingyu Chen, Jingcheng Du, Yan Hu, Vipina Kuttichi Keloth, Xueqing Peng, Kalpana Raja, Rui Zhang, Zhiyong Lu, Hua Xu | (参考訳) 医学文献は急速に成長しており、手作業による知識の収集が困難になっている。
バイオメディカル自然言語処理(BioNLP)技術は、バイオメディカル文献から情報を自動的に抽出することで、この負担を軽減する。
近年, GPT-3 や GPT-4 などの大規模言語モデル (LLM) が注目されている。
しかし、bionlpタスクの有効性やメソッド開発や下流ユーザへの影響は未検討のままである。
This pilot study (1) establishes the baseline performance of GPT-3 and GPT-4 at both zero-shot and one-shot settings in eight BioNLP datasets across four applications: named entity recognition, relation extraction, multi-label document classification, and semantic similarity and reasoning, (2) examines the errors produced by the LLMs and categorized the errors into three types: missingness, inconsistencies, and unwanted artificial content, and (3) provides suggestions for using LLMs in BioNLP applications.
データセット、ベースライン、結果はhttps://github.com/qingyu-qc/gpt_bionlp_benchmarkでコミュニティに公開しています。 Biomedical literature is growing rapidly, making it challenging to curate and extract knowledge manually. Biomedical natural language processing (BioNLP) techniques that can automatically extract information from biomedical literature help alleviate this burden. Recently, large Language Models (LLMs), such as GPT-3 and GPT-4, have gained significant attention for their impressive performance. However, their effectiveness in BioNLP tasks and impact on method development and downstream users remain understudied. This pilot study (1) establishes the baseline performance of GPT-3 and GPT-4 at both zero-shot and one-shot settings in eight BioNLP datasets across four applications: named entity recognition, relation extraction, multi-label document classification, and semantic similarity and reasoning, (2) examines the errors produced by the LLMs and categorized the errors into three types: missingness, inconsistencies, and unwanted artificial content, and (3) provides suggestions for using LLMs in BioNLP applications. We make the datasets, baselines, and results publicly available to the community via https://github.com/qingyu-qc/gpt_bionlp_benchmark. | 翻訳日:2024-01-23 21:52:10 公開日:2024-01-20 |
# 多様体拡散場 Manifold Diffusion Fields ( http://arxiv.org/abs/2305.15586v2 ) ライセンス: Link先を確認 | Ahmed A. Elhag, Yuyang Wang, Joshua M. Susskind, Miguel Angel Bautista | (参考訳) 非ユークリッド幾何学におけるデータ拡散モデルの学習を解き放つ手法として,manifold Diffusion Fields (MDF)を提案する。
スペクトル幾何解析の知見を活かし、ラプラス・ベルトラミ作用素の固有関数を介して多様体上の内在座標系を定義する。
MDFは複数の入出力対からなる明示的なパラメトリゼーションを用いて関数を表現する。
我々のアプローチは多様体上の連続函数をサンプリングすることができ、多様体の剛および等尺変換に関して不変である。
さらに、MDFは、トレーニング集合が異なる多様体上の関数を含む場合に一般化されることを示す。
気象予知や分子コンフォーメーションといった科学的問題を含む複数のデータセットや多様体に関する実験結果から,MDFは従来の手法よりも多様性と忠実さのよい関数の分布を捉えることができることが示された。 We present Manifold Diffusion Fields (MDF), an approach that unlocks learning of diffusion models of data in general non-Euclidean geometries. Leveraging insights from spectral geometry analysis, we define an intrinsic coordinate system on the manifold via the eigen-functions of the Laplace-Beltrami Operator. MDF represents functions using an explicit parametrization formed by a set of multiple input-output pairs. Our approach allows to sample continuous functions on manifolds and is invariant with respect to rigid and isometric transformations of the manifold. In addition, we show that MDF generalizes to the case where the training set contains functions on different manifolds. Empirical results on multiple datasets and manifolds including challenging scientific problems like weather prediction or molecular conformation show that MDF can capture distributions of such functions with better diversity and fidelity than previous approaches. | 翻訳日:2024-01-23 21:51:55 公開日:2024-01-20 |
# 共有語彙を超えて:多言語機械翻訳のための言語間の表現的単語類似性の向上 Beyond Shared Vocabulary: Increasing Representational Word Similarities across Languages for Multilingual Machine Translation ( http://arxiv.org/abs/2305.14189v3 ) ライセンス: Link先を確認 | Di Wu and Christof Monz | (参考訳) 言語間で共有される語彙の使用は、MNMT(Multilingual Neural Machine Translation)において一般的な慣習である。
その単純な設計に加えて、共有トークンは言語間の類似の意味を参照していると仮定して、ポジティブな知識伝達において重要な役割を果たす。
しかし、単語重なりが小さい場合、特に異なる書き体系のため、転送が抑制される。
本稿では,単語等価クラスによる単語レベルの情報伝達経路を定義し,言語間の単語埋め込みを融合するグラフネットワークに依存する。
我々の実験は我々のアプローチの利点を示しています
1)類似した意味を持つ単語の埋め込みは、言語間で整合性がよい。
2) 高速・低出力MNMTにおいて, BLEUを最大2.3ポイントまで一貫した改善を実現する。
3) 計算コストが制限された場合,1.0 %未満のトレーニング可能なパラメータが要求される一方で,推論時間はベースラインと同一である。
コードベースをコミュニティにリリースします。 Using a vocabulary that is shared across languages is common practice in Multilingual Neural Machine Translation (MNMT). In addition to its simple design, shared tokens play an important role in positive knowledge transfer, assuming that shared tokens refer to similar meanings across languages. However, when word overlap is small, especially due to different writing systems, transfer is inhibited. In this paper, we define word-level information transfer pathways via word equivalence classes and rely on graph networks to fuse word embeddings across languages. Our experiments demonstrate the advantages of our approach: 1) embeddings of words with similar meanings are better aligned across languages, 2) our method achieves consistent BLEU improvements of up to 2.3 points for high- and low-resource MNMT, and 3) less than 1.0\% additional trainable parameters are required with a limited increase in computational costs, while inference time remains identical to the baseline. We release the codebase to the community. | 翻訳日:2024-01-23 21:51:22 公開日:2024-01-20 |
# キラル集積量子光学のためのトポロジーおよび従来のナノフォトニック導波路 Topological and conventional nano-photonic waveguides for chiral integrated quantum optics ( http://arxiv.org/abs/2305.11082v3 ) ライセンス: Link先を確認 | N.J Martin, M. Jalali Mehrabad, X. Chen, R. Dost, E. Nussbaum, D. Hallett, L. Hallacy, A. Foster, E. Clarke, P.K. Patil, S. Hughes, M. Hafezi, A.M Fox, M.S. Skolnick, and L.R. Wilson | (参考訳) 集積量子フォトニクスにおけるキラリティは、量子非線形効果を持つスケーラブルな量子技術を達成するための有望な経路として現れてきた。
ヘリカル光モードを利用するトポロジカル光導波路は、キラル光-マター相互作用を利用する新しいアプローチとして提案されている。
しかし、組み込まれた量子エミッタへのキラル結合の性質と強度に関する不確実性は、これらのシステムのスケーラビリティを妨げている。
本研究では, トポロジカルフォトニック導波路におけるキラルカップリングについて, 実験, 理論的, 数値解析の組み合わせを用いて総合的に検討する。
我々は、いくつかのトポロジカルフォトニック導波路における光物質結合の位置依存性特性を定量的に評価し、それらのキラル量子光学応用のための従来のライン欠陥導波路と比較した。
本研究は、位相フォトニック量子回路におけるキラル光間相互作用の程度と特性に関する重要な知見を提供し、定量的に予測された量子非線形効果のチップ実装への道を開く。 Chirality in integrated quantum photonics has emerged as a promising route towards achieving scalable quantum technologies with quantum nonlinearity effects. Topological photonic waveguides, which utilize helical optical modes, have been proposed as a novel approach to harnessing chiral light-matter interactions on-chip. However, uncertainties remain regarding the nature and strength of the chiral coupling to embedded quantum emitters, hindering the scalability of these systems. In this work, we present a comprehensive investigation of chiral coupling in topological photonic waveguides using a combination of experimental, theoretical, and numerical analyses. We quantitatively characterize the position-dependence nature of the light-matter coupling on several topological photonic waveguides and benchmark their chiral coupling performance against conventional line defect waveguides for chiral quantum optical applications. Our results provide crucial insights into the degree and characteristics of chiral light-matter interactions in topological photonic quantum circuits and pave the way towards the implementation of quantitatively-predicted quantum nonlinear effects on-chip. | 翻訳日:2024-01-23 21:50:47 公開日:2024-01-20 |
# 画像復元問題に対する空間相関による主不確かさの定量化 Principal Uncertainty Quantification with Spatial Correlation for Image Restoration Problems ( http://arxiv.org/abs/2305.10124v3 ) ライセンス: Link先を確認 | Omer Belhasin, Yaniv Romano, Daniel Freedman, Ehud Rivlin, Michael Elad | (参考訳) 近年,画像の逆問題に対する不確かさの定量化が注目されている。
この課題に対する既存のアプローチでは、ピクセル当たりの確率値に基づいて不確かさ領域を定義するが、画像内の空間的相関は無視し、不確実性が誇張される。
本稿では,画像内の空間的関係を考慮した新しい定義とそれに対応する不確かさ領域の解析を行うPUQ(Principal Uncertainity Quantification)を提案する。
近年の生成モデルの進歩を用いて,経験的後方分布の主成分周辺の不確実性間隔を導出し,ユーザ定義の信頼確率による真の未知値の包含を保証する曖昧性領域を形成する。
計算効率と解釈可能性を向上させるため,数個の主方向のみを用いて真の未知値の回復を保証し,より情報に富む不確実性領域を実現する。
提案手法は,画像の着色,超解像,塗布実験により検証され,その有効性はベースライン法との比較により示され,より厳密な不確実性領域を示す。 Uncertainty quantification for inverse problems in imaging has drawn much attention lately. Existing approaches towards this task define uncertainty regions based on probable values per pixel, while ignoring spatial correlations within the image, resulting in an exaggerated volume of uncertainty. In this paper, we propose PUQ (Principal Uncertainty Quantification) -- a novel definition and corresponding analysis of uncertainty regions that takes into account spatial relationships within the image, thus providing reduced volume regions. Using recent advancements in generative models, we derive uncertainty intervals around principal components of the empirical posterior distribution, forming an ambiguity region that guarantees the inclusion of true unseen values with a user-defined confidence probability. To improve computational efficiency and interpretability, we also guarantee the recovery of true unseen values using only a few principal directions, resulting in more informative uncertainty regions. Our approach is verified through experiments on image colorization, super-resolution, and inpainting; its effectiveness is shown through comparison to baseline methods, demonstrating significantly tighter uncertainty regions. | 翻訳日:2024-01-23 21:50:26 公開日:2024-01-20 |
# 深層畳み込みネットワークにおけるインダクティブバイアスの理論解析 Theoretical Analysis of Inductive Biases in Deep Convolutional Networks ( http://arxiv.org/abs/2305.08404v2 ) ライセンス: Link先を確認 | Zihao Wang, Lei Wu | (参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)の誘導バイアスに関する理論的解析を行う。
まず、cnn、すなわち任意の連続関数を近似する能力の普遍性を調べることから始める。
この普遍性を達成するために、深い cnn に対して$\mathcal{o}(\log d)$ の深さが十分であることを証明する。
さらに,CNNによるスパース関数の学習には$\widetilde{\mathcal{O}}(\log^2d)$サンプルしか必要とせず,深部CNNのスパース相関を効率的に捉えることができることを示す。
これらの結果は、ネットワークの深さを増加させる際にマルチチャネルとダウンサンプリングの新たな組み合わせによって実現される。
また,cnnにおける重み共有と局所性の役割についても考察した。
そこで本研究では,CNN,ローカル接続ネットワーク(LCN),完全接続ネットワーク(FCN)の性能を単純な回帰タスクで比較し,LCNを重み付けなしでCNNとみなす。
一方、lcn は ${\omega}(d)$ のサンプルを必要とするが、cnn は$\widetilde{\mathcal{o}}(\log^2d)$ のサンプルしか必要とせず、重量共有の重要な役割を強調している。
一方、FCNは$\Omega(d^2)$サンプルを必要とするのに対し、LCNは$\widetilde{\mathcal{O}}(d)$サンプルしか必要とせず、局所性の重要性を裏付ける。
これらの証明可能な分離は2つのバイアスの違いを定量化し、我々の証明の背後にある大きな観察は、ウェイトシェアリングとローカリティが学習過程において異なる対称性を破ることである。 In this paper, we provide a theoretical analysis of the inductive biases in convolutional neural networks (CNNs). We start by examining the universality of CNNs, i.e., the ability to approximate any continuous functions. We prove that a depth of $\mathcal{O}(\log d)$ suffices for deep CNNs to achieve this universality, where $d$ in the input dimension. Additionally, we establish that learning sparse functions with CNNs requires only $\widetilde{\mathcal{O}}(\log^2d)$ samples, indicating that deep CNNs can efficiently capture {\em long-range} sparse correlations. These results are made possible through a novel combination of the multichanneling and downsampling when increasing the network depth. We also delve into the distinct roles of weight sharing and locality in CNNs. To this end, we compare the performance of CNNs, locally-connected networks (LCNs), and fully-connected networks (FCNs) on a simple regression task, where LCNs can be viewed as CNNs without weight sharing. On the one hand, we prove that LCNs require ${\Omega}(d)$ samples while CNNs need only $\widetilde{\mathcal{O}}(\log^2d)$ samples, highlighting the critical role of weight sharing. On the other hand, we prove that FCNs require $\Omega(d^2)$ samples, whereas LCNs need only $\widetilde{\mathcal{O}}(d)$ samples, underscoring the importance of locality. These provable separations quantify the difference between the two biases, and the major observation behind our proof is that weight sharing and locality break different symmetries in the learning process. | 翻訳日:2024-01-23 21:49:44 公開日:2024-01-20 |
# NeRF-LiDAR:ニューラルネットワークを用いた実効性LiDAR点雲の生成 NeRF-LiDAR: Generating Realistic LiDAR Point Clouds with Neural Radiance Fields ( http://arxiv.org/abs/2304.14811v3 ) ライセンス: Link先を確認 | Junge Zhang, Feihu Zhang, Shaochen Kuang, Li Zhang | (参考訳) 自動運転のトレーニングのためのLiDARポイントクラウドのラベル付けは非常に高価で難しい。
LiDARシミュレーションは、ラベルでリアルなLiDARデータを生成し、より効率的に自動運転アルゴリズムを検証することを目的としている。
近年,3次元シーンを暗黙的に再構成した新しいビュー合成法としてNeRF(Neural Radiance Fields)が提案されている。
実世界の情報を利用して現実のLIDAR点雲を生成する新しいLiDARシミュレーション手法であるNeRF-LIDARを提案する。
既存のLiDARシミュレータとは異なり、自動運転車が収集した実画像とポイントクラウドデータを用いて、3Dシーン表現、ポイントクラウド生成、ラベルレンダリングを学ぶ。
生成したLiDAR点雲上で異なる3次元セグメンテーションモデルをトレーニングすることにより、NeRF-LiDARの有効性を検証する。
トレーニングされたモデルは、実際のLiDARデータでトレーニングされた同じモデルと比較して、同様の精度を達成することができる。
さらに、生成されたデータは事前トレーニングによって精度を高めることができ、実際のラベル付きデータの要求を減らすのに役立つ。 Labeling LiDAR point clouds for training autonomous driving is extremely expensive and difficult. LiDAR simulation aims at generating realistic LiDAR data with labels for training and verifying self-driving algorithms more efficiently. Recently, Neural Radiance Fields (NeRF) have been proposed for novel view synthesis using implicit reconstruction of 3D scenes. Inspired by this, we present NeRF-LIDAR, a novel LiDAR simulation method that leverages real-world information to generate realistic LIDAR point clouds. Different from existing LiDAR simulators, we use real images and point cloud data collected by self-driving cars to learn the 3D scene representation, point cloud generation and label rendering. We verify the effectiveness of our NeRF-LiDAR by training different 3D segmentation models on the generated LiDAR point clouds. It reveals that the trained models are able to achieve similar accuracy when compared with the same model trained on the real LiDAR data. Besides, the generated data is capable of boosting the accuracy through pre-training which helps reduce the requirements of the real labeled data. | 翻訳日:2024-01-23 21:47:55 公開日:2024-01-20 |
# 弱値相関関数:洞察と正確な読み出し戦略 Weak-Valued Correlation Function: Insights and Precise Readout Strategies ( http://arxiv.org/abs/2306.04398v2 ) ライセンス: Link先を確認 | Yuan Feng, Xi Chen, Yongcheng Ding | (参考訳) 量子系の相関関数は、それらの性質を復号し、物理現象に関する洞察を得る上で重要な役割を果たす。
その解釈は時空間の粒子励起の伝播に対応し、相互作用によってシステム情報を記録するという観点で量子弱測定の概念と類似した精神を共有する。
弱相関関数の定義により,弱測定によりデバイス上に記録する基本的な知見と普遍的手法を提案する。
本手法の実現可能性を示すために,摂動量子調和振動子の数値実験を行い,結合強度とアンサンブルコピー数との複雑な相互作用について検討した。
さらに、我々のプロトコルを量子場理論の領域に拡張し、相関関数に関する重要な情報を結合弱値でエンコードする。
この包括的調査が、量子論における相関関数の基本的性質と弱い測定の理解を促進することを願っている。 The correlation function in quantum systems plays a vital role in decoding their properties and gaining insights into physical phenomena. Its interpretation corresponds to the propagation of particle excitations between spacetime, sharing a similar spirit to the idea of quantum weak measurement in terms of recording the system information by interaction. By defining Weak-Valued Correlation Function, we propose the basic insights and the universal methods for recording them on the apparatus through weak measurement. To demonstrate the feasibility of our approach, we perform numerical experiments of perturbed quantum harmonic oscillators, addressing the intricate interplay between the coupling strength and the number of ensemble copies. Additionally, we extend our protocol to the domain of quantum field theory, where joint weak values encode crucial information about the correlation function. Hopefully, this comprehensive investigation could advances our understanding of the fundamental nature of correlation function and weak measurement in quantum theories. | 翻訳日:2024-01-23 21:39:07 公開日:2024-01-20 |
# 知識強化分子表現のための双方向コントラスト学習 Bi-level Contrastive Learning for Knowledge-Enhanced Molecule Representations ( http://arxiv.org/abs/2306.01631v4 ) ライセンス: Link先を確認 | Pengcheng Jiang, Cao Xiao, Tianfan Fu, Jimeng Sun | (参考訳) 分子表現学習は、分子特性や副作用の理解や予測など、下流の様々な応用に不可欠である。
本稿では,個々の分子の2段階構造を考慮に入れて,godeと呼ばれる新しい手法を提案する。
我々は、分子が固有のグラフ構造を持ち、より大きな分子知識グラフのノードであることを認識する。
GODEは、個々の分子のグラフ表現と知識グラフからの多領域生化学的データを統合する。
異なるグラフ構造上の2つのグラフニューラルネットワーク(GNN)と対照的な学習を組み合わせることで、GODEは分子構造を対応する知識グラフサブ構造と融合させる。
この融合により、よりロバストで情報的な表現が得られ、化学情報と生物学的情報の両方を利用して分子特性の予測が促進される。
11の化学特性タスクを微調整した場合、我々のモデルは既存のベンチマークよりも優れており、分類タスクの平均ROC-AUCアップリフトは13.8%、回帰タスクの平均RMSE/MAEエンハンスメントは35.1%である。
印象的なことに、分子特性予測における現在の先行モデルを超え、平均的な進歩は2.1%、回帰タスクは6.4%である。 Molecule representation learning is crucial for various downstream applications, such as understanding and predicting molecular properties and side effects. In this paper, we propose a novel method called GODE, which takes into account the two-level structure of individual molecules. We recognize that molecules have an intrinsic graph structure as well as being a node in a larger molecule knowledge graph. GODE integrates graph representations of individual molecules with multidomain biochemical data from knowledge graphs. By pre-training two graph neural networks (GNNs) on different graph structures, combined with contrastive learning, GODE fuses molecular structures with their corresponding knowledge graph substructures. This fusion results in a more robust and informative representation, which enhances molecular property prediction by harnessing both chemical and biological information. When fine-tuned across 11 chemical property tasks, our model outperforms existing benchmarks, registering an average ROC-AUC uplift of 13.8% for classification tasks and an average RMSE/MAE enhancement of 35.1% for regression tasks. Impressively, it surpasses the current leading model in molecule property predictions with average advancements of 2.1% in classification and 6.4% in regression tasks. | 翻訳日:2024-01-23 21:38:10 公開日:2024-01-20 |
# 収束保証付きフェアネスアウェアフェデレーションミニマックス最適化 Fairness-aware Federated Minimax Optimization with Convergence Guarantee ( http://arxiv.org/abs/2307.04417v2 ) ライセンス: Link先を確認 | Gerry Windiarto Mohamad Dunda and Shenghui Song | (参考訳) federated learning (fl)はそのプライバシー保護機能のためにかなりの注目を集めている。
それでも、ユーザデータ管理の自由の欠如は、モデルが人種や性別などのセンシティブな要因に偏っている、グループフェアネスの問題につながる可能性がある。
そこで本研究では,FLにおけるグループフェアネス問題に明示的に対処するために,拡張ラグランジアン法(FFALM)を用いたフェアフェデレーション平均化アルゴリズムを提案する。
具体的には、トレーニング目標に公正性制約を課し、制約付き最適化問題の最小化を解消する。
すると、ffalm の収束率の理論的上界を導出する。
FFALMの公正性向上効果は,CelebA および UTKFace データセットにおいて,統計的に重大な不均一性の存在下で実証的に示された。 Federated learning (FL) has garnered considerable attention due to its privacy-preserving feature. Nonetheless, the lack of freedom in managing user data can lead to group fairness issues, where models are biased towards sensitive factors such as race or gender. To tackle this issue, this paper proposes a novel algorithm, fair federated averaging with augmented Lagrangian method (FFALM), designed explicitly to address group fairness issues in FL. Specifically, we impose a fairness constraint on the training objective and solve the minimax reformulation of the constrained optimization problem. Then, we derive the theoretical upper bound for the convergence rate of FFALM. The effectiveness of FFALM in improving fairness is shown empirically on CelebA and UTKFace datasets in the presence of severe statistical heterogeneity. | 翻訳日:2024-01-23 21:29:12 公開日:2024-01-20 |
# 2つの非局所$\delta'$相互作用からなる特異な二重井戸を持つ1次元ハミルトニアンの解析 Analysis of a one-dimensional Hamiltonian with a singular double well consisting of two nonlocal $\delta'$ interactions ( http://arxiv.org/abs/2307.03674v4 ) ライセンス: Link先を確認 | Silvestro Fassari, Manuel Gadella, Luis-Miguel Nieto and Fabio Rinaldi | (参考訳) 本論文の目的は, 1次元ハミルトニアンの相互作用項を, 等強度の非局所的, かつ原点に対して対称に位置する2つの非局所的相互作用の和で与える研究である。
このハミルトニアンに対する自己随伴決定を厳密に達成するために、結合定数の {\it renormalisation of the coupling constant} と呼ばれる手順を用いる。
このモデルは相互作用の強さと各相互作用の中心と原点の間の距離という2つのパラメータに依存する。
自己随伴決定が得られれば、エネルギー準位を表す2つの負の固有値からなることを示す離散スペクトルを得る。
これらのエネルギー準位が上記のパラメータに依存することを解析する。
モデルの共鳴の可能性について検討する。
さらに、2つの$\delta'$相互作用のサポート間の距離がなくなると、我々のモデルの限界を詳細に分析する。 The objective of the present paper is the study of a one-dimensional Hamiltonian with the interaction term given by the sum of two nonlocal attractive $\delta'$-interactions of equal strength and symmetrically located with respect to the origin. We use the procedure known as {\it renormalisation of the coupling constant} in order to rigorously achieve a self-adjoint determination for this Hamiltonian. This model depends on two parameters, the interaction strength and the distance between the centre of each interaction and the origin. Once we have the self-adjoint determination, we obtain its discrete spectrum showing that it consists of two negative eigenvalues representing the energy levels. We analyse the dependence of these energy levels on the above-mentioned parameters. We investigate the possible resonances of the model. Furthermore, we analyse in detail the limit of our model as the distance between the supports of the two $\delta'$ interactions vanishes. | 翻訳日:2024-01-23 21:28:43 公開日:2024-01-20 |
# 循環システム工学 Circular Systems Engineering ( http://arxiv.org/abs/2306.17808v3 ) ライセンス: Link先を確認 | Istvan David, Dominik Bork, Gerti Kappel | (参考訳) 現代の技術者システムの価値と妥当性の認識は変化している。
機能的・機能的特性に加えて、現在のシステムもサステナビリティ特性によって評価されている。
次世代のシステムの特徴は、そのポストライフを含む全体的な持続可能性の向上であり、効率的な価値保持メカニズムによって駆動される。
現在のシステムエンジニアリングプラクティスは、これらの野心をサポートするには足りず、適切に修正する必要がある。
本稿では,システムサステナビリティの新たなパラダイムである循環システム工学の概念を導入し,それを実現するための2つの原則,すなわちエンドツーエンドサステナビリティと両パートサステナビリティを定義する。
循環原理の実装と導入につながる典型的な組織進化パターンを概説し、重要な課題と研究の機会を概説する。 The perception of the value and propriety of modern engineered systems is changing. In addition to their functional and extra-functional properties, nowadays' systems are also evaluated by their sustainability properties. The next generation of systems will be characterized by an overall elevated sustainability -- including their post-life, driven by efficient value retention mechanisms. Current systems engineering practices fall short of supporting these ambitions and need to be revised appropriately. In this paper, we introduce the concept of circular systems engineering, a novel paradigm for systems sustainability, and define two principles to successfully implement it: end-to-end sustainability and bipartite sustainability. We outline typical organizational evolution patterns that lead to the implementation and adoption of circularity principles, and outline key challenges and research opportunities. | 翻訳日:2024-01-23 21:27:51 公開日:2024-01-20 |
# Moreau Envelope による二段階プログラムの差分凸変換とアルゴリズム Moreau Envelope Based Difference-of-weakly-Convex Reformulation and Algorithm for Bilevel Programs ( http://arxiv.org/abs/2306.16761v2 ) ライセンス: Link先を確認 | Lucy L. Gao, Jane J. Ye, Haian Yin, Shangzhi Zeng, Jin Zhang | (参考訳) バイレベルプログラミングは、マシンラーニングの中心的関心事であるハイパーパラメータ選択のための貴重なツールとして登場した。
ye et al. (2023) による最近の研究で、2レベルプログラムに対処するためにconvexアルゴリズムの値関数に基づく差分が導入された。
このアプローチは、下層問題と下層変数の両方で凸性を示すシナリオを扱う場合、特に強力である。
そのようなシナリオの例としては、サポートベクターマシンと$\ell_1$と$\ell_2$正規化回帰がある。
本稿では,低レベルプログラムの低レベル変数のみに凸性を求めることにより,アプリケーションの範囲を大幅に拡大する。
本稿では,低レベル問題のモロー包絡に基づく弱凸改革の革新的な単一レベル差を提案する。
Weakly Convex Algorithm (iP-DwCA) の逐次収束近差分法を開発した。
提案したiP-DwCAの有効性を評価するため,シミュレーションデータを用いたカーネル支援ベクトルマシンのハイパーパラメータチューニングを目的とした数値実験を行った。 Bilevel programming has emerged as a valuable tool for hyperparameter selection, a central concern in machine learning. In a recent study by Ye et al. (2023), a value function-based difference of convex algorithm was introduced to address bilevel programs. This approach proves particularly powerful when dealing with scenarios where the lower-level problem exhibits convexity in both the upper-level and lower-level variables. Examples of such scenarios include support vector machines and $\ell_1$ and $\ell_2$ regularized regression. In this paper, we significantly expand the range of applications, now requiring convexity only in the lower-level variables of the lower-level program. We present an innovative single-level difference of weakly convex reformulation based on the Moreau envelope of the lower-level problem. We further develop a sequentially convergent Inexact Proximal Difference of Weakly Convex Algorithm (iP-DwCA). To evaluate the effectiveness of the proposed iP-DwCA, we conduct numerical experiments focused on tuning hyperparameters for kernel support vector machines on simulated data. | 翻訳日:2024-01-23 21:27:19 公開日:2024-01-20 |
# 胸部X線画像による胸部骨折の深部観察学習 Deep Omni-supervised Learning for Rib Fracture Detection from Chest Radiology Images ( http://arxiv.org/abs/2306.13301v2 ) ライセンス: Link先を確認 | Zhizhong Chai, Luyang Luo, Huangjing Lin, Pheng-Ann Heng, and Hao Chen | (参考訳) ディープラーニング(DL)に基づくリブ骨折検出は、死亡の予防と患者の予後改善に重要な役割を果たしている。
通常、DLベースのオブジェクト検出モデルを開発するには、大量のバウンディングボックスアノテーションが必要である。
しかし、医療データの注釈付けは時間と専門知識を要し、大量の細かなアノテーションを得ることは極めて不可能である。
これは、放射線学者のラベル付け負担を軽減するために、ラベル効率の高い検出モデルを開発するために、押し付けの必要性が生じる。
この課題に取り組むために、オブジェクト検出に関する文献は、弱教師付きおよび半教師付きアプローチの増加を目撃しているが、完全なラベル付き、弱ラベル付き、未ラベルの様々な形式のデータを活用する統一されたフレームワークはいまだに欠けている。
本稿では,可能な限り利用可能な監視を活用すべく,新しい全教師付き物体検出ネットワーク orf-netv2 を提案する。
具体的には、特定の種類の監督で訓練された各ブランチに、マルチブランチ全監督検出ヘッドを導入する。
次に,弱ラベルデータと無ラベルデータから柔軟かつ堅牢な学習を可能にするために,協調学習に基づく動的ラベル割当戦略を提案する。
胸部CTおよびX線上の3つの胸骨骨折データセットを用いて, 広範囲な評価を行った。
ORF-Netv2は3つのデータセットでそれぞれ34.7、44.7、19.4のmAPを達成し、それぞれ3.8、4.8、および5.0のmAPによるボックスアノテーションのみを使用するベースライン検出器を上回っている。
さらに、ORF-Netv2は、様々なシナリオにおいて、他の競合するラベル効率の手法よりも一貫して優れており、ラベル効率の高い破壊検出のための有望な枠組みを示している。
コードはhttps://github.com/zhizhongchai/orf-net。 Deep learning (DL)-based rib fracture detection has shown promise of playing an important role in preventing mortality and improving patient outcome. Normally, developing DL-based object detection models requires a huge amount of bounding box annotation. However, annotating medical data is time-consuming and expertise-demanding, making obtaining a large amount of fine-grained annotations extremely infeasible. This poses a pressing need {for} developing label-efficient detection models to alleviate radiologists' labeling burden. To tackle this challenge, the literature on object detection has witnessed an increase of weakly-supervised and semi-supervised approaches, yet still lacks a unified framework that leverages various forms of fully-labeled, weakly-labeled, and unlabeled data. In this paper, we present a novel omni-supervised object detection network, ORF-Netv2, to leverage as much available supervision as possible. Specifically, a multi-branch omni-supervised detection head is introduced with each branch trained with a specific type of supervision. A co-training-based dynamic label assignment strategy is then proposed to enable flexible and robust learning from the weakly-labeled and unlabeled data. Extensive evaluation was conducted for the proposed framework with three rib fracture datasets on both chest CT and X-ray. By leveraging all forms of supervision, ORF-Netv2 achieves mAPs of 34.7, 44.7, and 19.4 on the three datasets, respectively, surpassing the baseline detector which uses only box annotations by mAP gains of 3.8, 4.8, and 5.0, respectively. Furthermore, ORF-Netv2 consistently outperforms other competitive label-efficient methods over various scenarios, showing a promising framework for label-efficient fracture detection. The code is available at: https://github.com/zhizhongchai/ORF-Net. | 翻訳日:2024-01-23 21:26:20 公開日:2024-01-20 |
# 相対論的シナリオにおける量子相補性トレードオフの提示 Unveiling quantum complementarity trade-offs in relativistic scenarios ( http://arxiv.org/abs/2306.08136v2 ) ライセンス: Link先を確認 | Marcos L. W. Basso, Ismael L. Paiva, Pedro R. Dieguez | (参考訳) 補完性は量子理論の基盤であり、様々な量子現象の分析と理解を支援する。
この概念は相対論的レジームの理論研究にも応用されている。
そこで,本研究では,内部スピンを持つ系で走行する2つの一般化遅延干渉計について検討する。
この2つの設定において完全相補関係が実際にどのように適用され、この関係における量、すなわち経路コヒーレンス、フォン・ノイマン予測可能性、エントロピーの間のトレードオフが、任意の時空における特殊および一般時間拡張によってどのように影響を受けるかを示す。
これらの修正は、スピンを系の外部の自由度に結合し、時計として作用するスピンに依存しないウィグナー回転に由来する。
相補性のトレードオフは違っていますが、どちらのアレンジも私たちが披露したように、干渉視認性は同じです。
具体例として、これらの結果のニュートン極限を分析する。 Complementarity is a cornerstone of quantum theory, assisting in the analysis and understanding of various quantum phenomena. This concept has even been assumed in theoretical studies in relativistic regimes. Here, we conduct a study of two generalized delayed-choice interferometers traveled by a system with an internal spin. We show how a complete complementarity relation can be indeed applied in these two setups and how the trade-off between the quantities in this relation, namely, path coherence, von Neumann predictability, and entropy of entanglement, is affected by special and general time dilation in an arbitrary spacetime. These modifications originate from Wigner rotations, which couple the spin to the external degrees of freedom of the system and do not rely on the spin acting as a clock. Despite having different complementarity trade-offs, both arrangements have the same interferometric visibility, as we unveil. To give a concrete example, we analyze the Newtonian limit of these results. | 翻訳日:2024-01-23 21:24:41 公開日:2024-01-20 |
# 効果的なコンテンツ作成に向けたaigc(artificial intelligence generated content)のための意味コミュニケーション Semantic Communications for Artificial Intelligence Generated Content (AIGC) Toward Effective Content Creation ( http://arxiv.org/abs/2308.04942v2 ) ライセンス: Link先を確認 | Guangyuan Liu, Hongyang Du, Dusit Niyato, Jiawen Kang, Zehui Xiong, Dong In Kim, and Xuemin (Sherman) Shen | (参考訳) 人工知能生成コンテンツ(AIGC)サービスは、デジタルコンテンツ作成において大きな可能性を秘めている。
最小限の入力に基づくコンテンツ生成のようなAIGCの特有な能力は、特にセマンティックコミュニケーション(SemCom)との統合において大きな可能性を秘めている。
本稿では,AIGCとSemComの統合のための包括的概念モデルを開発した。
特に、コンテンツ生成レベルがセマンティックレベルの上に導入され、AIGCとSemComが相互に相互作用して有意義で効果的なコンテンツを生成する方法について、明確な概要を提供する。
さらに,aigcサービスに適した意味抽出・評価指標の協調最適化を考慮し,意味情報のエンコーダおよびデコーダとして,aigc技術を用いた新しいフレームワークを提案する。
このフレームワークは、生成されたさまざまなタイプのコンテンツ、必要な品質、使用する意味情報に適応することができる。
深層qネットワーク(dqn)を用いて,最適化問題の実現可能性とその収束特性に関する有用な知見を提供する事例研究を行った。 Artificial Intelligence Generated Content (AIGC) Services have significant potential in digital content creation. The distinctive abilities of AIGC, such as content generation based on minimal input, hold huge potential, especially when integrating with semantic communication (SemCom). In this paper, a novel comprehensive conceptual model for the integration of AIGC and SemCom is developed. Particularly, a content generation level is introduced on top of the semantic level that provides a clear outline of how AIGC and SemCom interact with each other to produce meaningful and effective content. Moreover, a novel framework that employs AIGC technology is proposed as an encoder and decoder for semantic information, considering the joint optimization of semantic extraction and evaluation metrics tailored to AIGC services. The framework can adapt to different types of content generated, the required quality, and the semantic information utilized. By employing a Deep Q Network (DQN), a case study is presented that provides useful insights into the feasibility of the optimization problem and its convergence characteristics. | 翻訳日:2024-01-23 21:17:23 公開日:2024-01-20 |
# 帯域フィードバックによるマルチクラスオンライン学習 Multiclass Online Learnability under Bandit Feedback ( http://arxiv.org/abs/2308.04620v3 ) ライセンス: Link先を確認 | Ananth Raman, Vinod Raman, Unique Subedi, Idan Mehalel, Ambuj Tewari | (参考訳) バンディットフィードバックに基づくオンラインマルチクラス分類について検討する。
ラベル空間が非有界である場合でも、Bandit Littlestone次元の有限性は必要かつ十分であることを示すことにより、Daniely と Helbertal [2013] の結果を拡張した。
また,全情報設定とは異なり,逐次一様収束は必要であるが,オンライン学習能力の確保には不十分であることを示す。
この結果はhanneke, moran, raman, subedi, tewari [2023]の最近の研究を補完するものであり,ラベル空間が無制限であっても,littlestone次元がオンラインのマルチクラス学習性をフル情報環境において特徴付けることを示した。 We study online multiclass classification under bandit feedback. We extend the results of Daniely and Helbertal [2013] by showing that the finiteness of the Bandit Littlestone dimension is necessary and sufficient for bandit online learnability even when the label space is unbounded. Moreover, we show that, unlike the full-information setting, sequential uniform convergence is necessary but not sufficient for bandit online learnability. Our result complements the recent work by Hanneke, Moran, Raman, Subedi, and Tewari [2023] who show that the Littlestone dimension characterizes online multiclass learnability in the full-information setting even when the label space is unbounded. | 翻訳日:2024-01-23 21:17:06 公開日:2024-01-20 |
# Hybrid-SORT: オンラインマルチオブジェクト追跡における弱点 Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking ( http://arxiv.org/abs/2308.00783v2 ) ライセンス: Link先を確認 | Mingzhan Yang, Guangxin Han, Bin Yan, Wenhua Zhang, Jinqing Qi, Huchuan Lu, Dong Wang | (参考訳) Multi-Object Tracking (MOT) は、フレーム間で全ての望ましいオブジェクトを検出し、関連付けることを目的としている。
ほとんどの方法は、強力なインスタンスレベルの識別を示す強い手がかり(空間的および外見的情報)を明示的または暗黙的に活用することで、タスクを達成する。
しかし、オブジェクトの閉塞やクラスタリングが発生すると、オブジェクト間の重なりが高いため、空間情報と外観情報が同時に曖昧になる。
本稿では,この長年にわたるmotの課題を,強い手掛かりを補うために弱い手掛かりを組み込むことにより,効率的かつ効果的に解決できることを実証する。
速度方向とともに,信頼度と高さを潜在的な弱指標として導入する。
優れた性能を保ちながら,本手法はシンプル,オンライン,リアルタイム(SORT)特性を保ち続けている。
また,多様なトラッカとシナリオに対して,プラグアンドプレイとトレーニングフリーの方法で強力な一般化を示す。
提案手法を5種類の代表トラッカーに適用した場合, 重要かつ一貫した改善が見られた。
さらに,本手法では,MOT17,MOT20,特にDanceTrackなどの多種多様なベンチマークにおいて,複雑な動作でインタラクションや重大閉塞が発生する場合の優れた性能を実現する。
コードとモデルはhttps://github.com/ymzis69/hybridsortで入手できる。 Multi-Object Tracking (MOT) aims to detect and associate all desired objects across frames. Most methods accomplish the task by explicitly or implicitly leveraging strong cues (i.e., spatial and appearance information), which exhibit powerful instance-level discrimination. However, when object occlusion and clustering occur, spatial and appearance information will become ambiguous simultaneously due to the high overlap among objects. In this paper, we demonstrate this long-standing challenge in MOT can be efficiently and effectively resolved by incorporating weak cues to compensate for strong cues. Along with velocity direction, we introduce the confidence and height state as potential weak cues. With superior performance, our method still maintains Simple, Online and Real-Time (SORT) characteristics. Also, our method shows strong generalization for diverse trackers and scenarios in a plug-and-play and training-free manner. Significant and consistent improvements are observed when applying our method to 5 different representative trackers. Further, with both strong and weak cues, our method Hybrid-SORT achieves superior performance on diverse benchmarks, including MOT17, MOT20, and especially DanceTrack where interaction and severe occlusion frequently happen with complex motions. The code and models are available at https://github.com/ymzis69/HybridSORT. | 翻訳日:2024-01-23 21:16:08 公開日:2024-01-20 |
# 有限トレース上の過去現在時相プログラム Past-present temporal programs over finite traces ( http://arxiv.org/abs/2307.12620v2 ) ライセンス: Link先を確認 | Pedro Cabalar, Mart\'in Di\'eguez, Fran\c{c}ois Laferri\`ere, Torsten Schaub | (参考訳) 有限トレース上の時間平衡論理(TELf)のような時相論理からの言語構成による解集合プログラミングの拡張は、動的アプリケーションのモデリングのための表現力のある計算フレームワークを提供する。
本稿では,過去と現在へのボディリファレンスを持つ一連の論理プログラミングルールからなる,いわゆる過去現在構文サブクラスについて検討する。
このような制限は、過去が未来から独立したままであることを保証する。
LTLf式を用いて、過去の時間的プログラムの時間的安定モデルを取得することができるように、完了とループの公式の定義を過去の時間的公式の場合に拡張する。 Extensions of Answer Set Programming with language constructs from temporal logics, such as temporal equilibrium logic over finite traces (TELf), provide an expressive computational framework for modeling dynamic applications. In this paper, we study the so-called past-present syntactic subclass, which consists of a set of logic programming rules whose body references to the past and head to the present. Such restriction ensures that the past remains independent of the future, which is the case in most dynamic domains. We extend the definitions of completion and loop formulas to the case of past-present formulas, which allows capturing the temporal stable models of a set of past-present temporal programs by means of an LTLf expression. | 翻訳日:2024-01-23 21:15:09 公開日:2024-01-20 |
# CombinerとHyperCombiner Networks:前立腺癌局所化のための多モードMR画像の組み合わせ規則 Combiner and HyperCombiner Networks: Rules to Combine Multimodality MR Images for Prostate Cancer Localisation ( http://arxiv.org/abs/2307.08279v2 ) ライセンス: Link先を確認 | Wen Yan, Bernard Chiu, Ziyi Shen, Qianye Yang, Tom Syer, Zhe Min, Shonit Punwani, Mark Emberton, David Atkinson, Dean C. Barratt, Yipeng Hu | (参考訳) PI-RADS v2.1のような報告システムを用いて、放射線学者がマルチパラメトリックな前立腺MRIスキャンを読み取る際の特徴の1つは、個々の種類のMRモダリティ、T2重み付け、拡散重み付け、ダイナミックコントラストをスコアし、これらの画像モダリティ特異的スコアを標準化された決定規則を用いて組み合わせて臨床的に重要ながんの可能性を予測することである。
本研究の目的は, 線形混合モデルと非線形積み重ねモデルのいずれかが, 前立腺がんの局所化のためのPI-RADS決定ルールをモデル化するのに十分であることを示す。
第二に、これらの(一般化)線形モデルのパラメータをハイパーパラメータとして提案し、各画像のモダリティを独立に表現する複数のネットワークを、エンドツーエンドのモダリティアンサンブルとは対照的に重み付けする。
HyperCombinerネットワークは、推論中にこれらのハイパーパラメータに条件付け可能な単一のイメージセグメンテーションネットワークをトレーニングするために開発され、効率が大幅に向上する。
マルチパラメトリックMRのラベル付けを自動化した放射線科医を応用した850人の患者データに基づく実験結果から,提案したコンバインダネットワークと,他の一般的なエンドツーエンドネットワークとの比較を行った。
個々の画像モダリティに対する線形重みやオッズ比の観点から、モダリティ結合規則の獲得と解釈の付加的な利点を用いて、モダリティ可用性評価、重要度定量化、ルール発見を含む前立腺がんの分節化に3つの臨床応用が提示される。 One of the distinct characteristics in radiologists' reading of multiparametric prostate MR scans, using reporting systems such as PI-RADS v2.1, is to score individual types of MR modalities, T2-weighted, diffusion-weighted, and dynamic contrast-enhanced, and then combine these image-modality-specific scores using standardised decision rules to predict the likelihood of clinically significant cancer. This work aims to demonstrate that it is feasible for low-dimensional parametric models to model such decision rules in the proposed Combiner networks, without compromising the accuracy of predicting radiologic labels: First, it is shown that either a linear mixture model or a nonlinear stacking model is sufficient to model PI-RADS decision rules for localising prostate cancer. Second, parameters of these (generalised) linear models are proposed as hyperparameters, to weigh multiple networks that independently represent individual image modalities in the Combiner network training, as opposed to end-to-end modality ensemble. A HyperCombiner network is developed to train a single image segmentation network that can be conditioned on these hyperparameters during inference, for much improved efficiency. Experimental results based on data from 850 patients, for the application of automating radiologist labelling multi-parametric MR, compare the proposed combiner networks with other commonly-adopted end-to-end networks. Using the added advantages of obtaining and interpreting the modality combining rules, in terms of the linear weights or odds-ratios on individual image modalities, three clinical applications are presented for prostate cancer segmentation, including modality availability assessment, importance quantification and rule discovery. | 翻訳日:2024-01-23 21:14:25 公開日:2024-01-20 |
# easytpp: テンポラリポイントプロセスのオープンベンチマークに向けて EasyTPP: Towards Open Benchmarking Temporal Point Processes ( http://arxiv.org/abs/2307.08097v2 ) ライセンス: Link先を確認 | Siqiao Xue, Xiaoming Shi, Zhixuan Chu, Yan Wang, Hongyan Hao, Fan Zhou, Caigao Jiang, Chen Pan, James Y. Zhang, Qingsong Wen, Jun Zhou, Hongyuan Mei | (参考訳) 継続的イベントシーケンスは、ヘルスケア、ファイナンス、オンラインショッピング、ソーシャルネットワークなど、現実世界のドメインにおいて重要な役割を果たす。
このようなデータをモデル化するために、時間的ポイントプロセス(TPP)が最も自然で競争的なモデルとして登場し、学術的およびアプリケーション的コミュニティに大きな影響を与えている。
近年、多くの強力なモデルが出現しているが、これらのモデルと将来の研究努力の中心的なベンチマークは存在していない。
この標準化の欠如は、研究者や実践者が手法の比較や結果の再現を妨げ、この分野の進歩を遅らせる可能性がある。
本稿では,イベントシーケンスモデリングの分野で最初の研究資産(データ,モデル,評価プログラム,ドキュメントなど)の中央リポジトリであるeasytppを提案する。
我々のEasyTPPは、この領域にいくつかのユニークな貢献をしている: 既存のデータセットの使用と新しいデータセットの追加を統一したインターフェース、簡単に使用および拡張でき、再現可能な研究を容易にする幅広い評価プログラム、人気のあるニューラルネットワークTPPの実装、複雑なモデルを素早く構築できるモジュールの豊富なライブラリ。
すべてのデータと実装は、 \href{https://github.com/ant-research/EasyTemporalPointProcess}{\textcolor{blue}{Github repository}}で見ることができる。
私たちはこのベンチマークを積極的に維持し、他の研究者や実践者の貢献を歓迎します。
私たちのベンチマークは、この分野における再現可能な研究を促進するのに役立つでしょう。 Continuous-time event sequences play a vital role in real-world domains such as healthcare, finance, online shopping, social networks, and so on. To model such data, temporal point processes (TPPs) have emerged as the most natural and competitive models, making a significant impact in both academic and application communities. Despite the emergence of many powerful models in recent years, there hasn't been a central benchmark for these models and future research endeavors. This lack of standardization impedes researchers and practitioners from comparing methods and reproducing results, potentially slowing down progress in this field. In this paper, we present EasyTPP, the first central repository of research assets (e.g., data, models, evaluation programs, documentations) in the area of event sequence modeling. Our EasyTPP makes several unique contributions to this area: a unified interface of using existing datasets and adding new datasets; a wide range of evaluation programs that are easy to use and extend as well as facilitate reproducible research; implementations of popular neural TPPs, together with a rich library of modules by composing which one could quickly build complex models. All the data and implementation can be found at \href{https://github.com/ant-research/EasyTemporalPointProcess}{\textcolor{blue}{Github repository}}. We will actively maintain this benchmark and welcome contributions from other researchers and practitioners. Our benchmark will help promote reproducible research in this field, thus accelerating research progress as well as making more significant real-world impacts. | 翻訳日:2024-01-23 21:13:47 公開日:2024-01-20 |
# 資源制約下における規範的プロセスモニタリング:強化学習アプローチ Prescriptive Process Monitoring Under Resource Constraints: A Reinforcement Learning Approach ( http://arxiv.org/abs/2307.06564v2 ) ライセンス: Link先を確認 | Mahmoud Shoush and Marlon Dumas | (参考訳) 定型的なプロセス監視手法は,実行時に介入をトリガーすることでビジネスプロセスのパフォーマンスを最適化し,前向きなケース結果の確率を高める。
これらの介入は介入政策に従って引き起こされる。
強化学習は試行錯誤を通じて介入政策を学ぶためのアプローチとして提案されている。
この領域における既存のアプローチは、プロセスの介入を行うのに利用可能なリソースの数は無制限であり、実際には非現実的な仮定である。
本稿では, 資源制約の存在下では, 規範的プロセス監視の分野における重要なジレンマは, その必要性, 時系列, 効果の予測だけでなく, それらの予測の不確実性と資源利用のレベルにも基いて介入を促すことである。
実際、この介入の必要性や効果が極めて不確実な場合、介入に少ないリソースをコミットすると、直感的に最適な介入効果をもたらす可能性がある。
そこで本稿では, 干渉決定に基づく予測の不確実性を検討するために, 整合予測技術を活用した規範的プロセス監視のための強化学習手法を提案する。
実生活データセットを用いた評価は、共形予測を用いた不確かさを明示的にモデル化することで、強化学習エージェントがネット介入率の高いポリシーに収束することを示す。 Prescriptive process monitoring methods seek to optimize the performance of business processes by triggering interventions at runtime, thereby increasing the probability of positive case outcomes. These interventions are triggered according to an intervention policy. Reinforcement learning has been put forward as an approach to learning intervention policies through trial and error. Existing approaches in this space assume that the number of resources available to perform interventions in a process is unlimited, an unrealistic assumption in practice. This paper argues that, in the presence of resource constraints, a key dilemma in the field of prescriptive process monitoring is to trigger interventions based not only on predictions of their necessity, timeliness, or effect but also on the uncertainty of these predictions and the level of resource utilization. Indeed, committing scarce resources to an intervention when the necessity or effects of this intervention are highly uncertain may intuitively lead to suboptimal intervention effects. Accordingly, the paper proposes a reinforcement learning approach for prescriptive process monitoring that leverages conformal prediction techniques to consider the uncertainty of the predictions upon which an intervention decision is based. An evaluation using real-life datasets demonstrates that explicitly modeling uncertainty using conformal predictions helps reinforcement learning agents converge towards policies with higher net intervention gain | 翻訳日:2024-01-23 21:13:22 公開日:2024-01-20 |
# 効率的な抽象化のための誘導バイアスとしてのリレーショナルボトルネック The Relational Bottleneck as an Inductive Bias for Efficient Abstraction ( http://arxiv.org/abs/2309.06629v2 ) ライセンス: Link先を確認 | Taylor W. Webb, Steven M. Frankland, Awni Altabaa, Kamesh Krishnamurthy, Declan Campbell, Jacob Russin, Randall O'Reilly, John Lafferty, Jonathan D. Cohen | (参考訳) 認知科学の中心的な課題は、抽象概念が限られた経験からどのように獲得されるかを説明することである。
この取り組みは、コネクショニストとシンボリック認知モデルの間の二分法という観点からしばしば構成されている。
ここでは、リレーショナルボトルネックと呼ばれる帰納的バイアスを利用して、これらのアプローチの新たな和解を示唆する最近の研究のラインを強調します。
我々は、この手法を用いて抽象概念をデータ効率で誘導するモデル群をレビューし、人間の心と脳における抽象概念の獲得の候補モデルとしての可能性を強調した。 A central challenge for cognitive science is to explain how abstract concepts are acquired from limited experience. This effort has often been framed in terms of a dichotomy between connectionist and symbolic cognitive models. Here, we highlight a recently emerging line of work that suggests a novel reconciliation of these approaches, by exploiting an inductive bias that we term the relational bottleneck. We review a family of models that employ this approach to induce abstractions in a data-efficient manner, emphasizing their potential as candidate models for the acquisition of abstract concepts in the human mind and brain. | 翻訳日:2024-01-23 21:06:47 公開日:2024-01-20 |
# 機械学習に基づくマルチコリニア性解決--四川省の炭素排出量を事例として Multicollinearity Resolution Based on Machine Learning: A Case Study of Carbon Emissions in Sichuan Province ( http://arxiv.org/abs/2309.01115v2 ) ライセンス: Link先を確認 | Xuanming Zhang, Xiaoxue Wang, Yonghang Chen | (参考訳) 本研究は, 行列正規化を用いた46主要四川産業における2000-2019年エネルギー消費データを前処理した。
dbscanクラスタリングは16の機能クラスを客観的にグループ化する。
ペナル化回帰モデルは、複雑なエネルギーデータに適した制御、高次元データ処理、特徴選択の優位性のために適用された。
結果から, 石炭周辺の第2クラスターは, 生産需要により排ガス量が最も高かった。
ガソリンとコークスに焦点をあてたクラスターからの排出も顕著であった。
これに基づいて、クリーンな石炭技術、輸送管理、鉄鋼における石炭-電力交換、産業標準化といった排出削減の提案がなされた。
この研究は、客観的に要因を選択するために教師なし学習を導入し、新しい排出削減経路を探究することを目的とした。
結論として、この研究では、業界グループ化、排出要因の評価、DBSCANやペナル化回帰モデルといったアルゴリズムを用いて意思決定をよりよく知るための科学的削減戦略を提案した。 This study preprocessed 2000-2019 energy consumption data for 46 key Sichuan industries using matrix normalization. DBSCAN clustering identified 16 feature classes to objectively group industries. Penalized regression models were then applied for their advantages in overfitting control, high-dimensional data processing, and feature selection - well-suited for the complex energy data. Results showed the second cluster around coal had highest emissions due to production needs. Emissions from gasoline-focused and coke-focused clusters were also significant. Based on this, emission reduction suggestions included clean coal technologies, transportation management, coal-electricity replacement in steel, and industry standardization. The research introduced unsupervised learning to objectively select factors and aimed to explore new emission reduction avenues. In summary, the study identified industry groupings, assessed emissions drivers, and proposed scientific reduction strategies to better inform decision-making using algorithms like DBSCAN and penalized regression models. | 翻訳日:2024-01-23 21:05:24 公開日:2024-01-20 |
# FwdLLM: 前方勾配を用いた効率的なFedLLM FwdLLM: Efficient FedLLM using Forward Gradient ( http://arxiv.org/abs/2308.13894v2 ) ライセンス: Link先を確認 | Mengwei Xu, Dongqi Cai, Yaozong Wu, Xiang Li, Shangguang Wang | (参考訳) 大規模言語モデル(llm)は、モバイルインテリジェンスの展望を変えつつある。
ユーザデータのプライバシを保存するためのFederated Learning(FL)は、モバイルタスクをダウンストリームする微調整のLLM(FedLLM)によく使用される。
近年,大規模なモデルサイズによって引き起こされるネットワーク問題に対処してきたが,メモリ消費の大幅な増加やモデル収束の鈍化など,モバイルデバイスとの統合に関する重要な課題は実質的に緩和されていない。
これらの課題に対応するために、FwdLLMはFedLLM効率を高めるために設計された革新的なFLプロトコルである。
FwdLLMのキーとなるアイデアは、バックプロパゲーション(BP)なしのトレーニングメソッドを採用することであり、デバイスは ``perturbed inferences''' を実行するだけでよい。
その結果、FwdLLMはより優れたメモリ効率と時間効率を提供する(モバイルNPUと拡張された多数の参加者デバイスによる)。
fwdllmは,(1)bpフリーなトレーニングとパラメータ効率のよいトレーニング手法を組み合わせることで,llm時代のアプローチをスケールアップする上で不可欠な方法である。(2)デバイス間で計算負荷を体系的かつ適応的に割り当て,収束速度と精度の微妙なバランスをとる。(3)モデル収束においてより価値のある摂動予測を識別的にサンプリングする。
5つのLCMと3つのNLPタスクによる総合的な実験は、FwdLLMの最大3桁の高速収束と14.6倍のメモリフットプリントの削減を含む従来の方法に対する大きな利点を示している。
同様に、FwdLLMは、COTSモバイルデバイス上のLLaMAのような10億パラメータのLLMの連合学習の道を開いた。 Large Language Models (LLMs) are transforming the landscape of mobile intelligence. Federated Learning (FL), a method to preserve user data privacy, is often employed in fine-tuning LLMs to downstream mobile tasks, an approach known as FedLLM. Though recent efforts have addressed the network issue induced by the vast model size, they have not practically mitigated vital challenges concerning integration with mobile devices, such as significant memory consumption and sluggish model convergence. In response to these challenges, this work introduces FwdLLM, an innovative FL protocol designed to enhance the FedLLM efficiency. The key idea of FwdLLM to employ backpropagation (BP)-free training methods, requiring devices only to execute ``perturbed inferences''. Consequently, FwdLLM delivers way better memory efficiency and time efficiency (expedited by mobile NPUs and an expanded array of participant devices). FwdLLM centers around three key designs: (1) it combines BP-free training with parameter-efficient training methods, an essential way to scale the approach to the LLM era; (2) it systematically and adaptively allocates computational loads across devices, striking a careful balance between convergence speed and accuracy; (3) it discriminatively samples perturbed predictions that are more valuable to model convergence. Comprehensive experiments with five LLMs and three NLP tasks illustrate FwdLLM's significant advantages over conventional methods, including up to three orders of magnitude faster convergence and a 14.6x reduction in memory footprint. Uniquely, FwdLLM paves the way for federated learning of billion-parameter LLMs such as LLaMA on COTS mobile devices -- a feat previously unattained. | 翻訳日:2024-01-23 21:03:55 公開日:2024-01-20 |
# sgnet: ポイントクラウド登録のための高度幾何ネットワーク SGNet: Salient Geometric Network for Point Cloud Registration ( http://arxiv.org/abs/2309.06207v3 ) ライセンス: Link先を確認 | Qianliang Wu, Yaqing Ding, Lei Luo, Shuo Gu, Chuanwei Zhou, Jin Xie, Jian Yang | (参考訳) ポイントクラウド登録(PCR)はコンピュータビジョンにおいて重要かつ困難なタスクである。
PCRの最大の難しさの1つは、様々なスキャンで一貫した意味的および幾何学的性質を示す有意義な点を特定することである。
従来の手法では、点群全体のパッチブロック間の類似性や、効率的なグローバルな幾何整合性に対する考慮の欠如が原因で、不明瞭なマッチングに遭遇した。
これらの課題に対処するため、我々はいくつかの新しい手法を含む新しい枠組みを提案する。
まず,オブジェクトレベルとパッチレベルのセマンティック情報を組み合わせた意味認識型幾何エンコーダを提案する。
このエンコーダはパッチレベルのスーパーポイントマッチングのあいまいさを低減し、登録リコールを大幅に改善する。
さらに本研究では,本質的な形状のシグネチャを用いて有能な点を同定する事前知識アプローチを導入する。
これにより、シーン内で最も有意義なスーパーポイントと有意義な密度ポイントを抽出できる。
次に,高次幾何学的特徴を符号化する革新的な変換器を提案する。
これらの特徴は、大域的な高次幾何整合性を考慮して、初期重なり合う領域内の有意点を特定するために重要である。
この高次変圧器をさらに最適化するために,アンカーノード選択戦略を導入する。
これらのアンカーノードに基づいてフレーム間三角形や多面体一貫性の特徴をエンコードすることで、高度超点の高次幾何学的特徴を効果的に学習することができる。
これらの高次特徴は密集点に伝播し、シンクホーンマッチングモジュールによってキー対応を識別して登録を成功させる。
3DMatch/3DLoMatchやKITTIといったよく知られたデータセットを用いて実験を行った結果,提案手法の有効性が示された。 Point Cloud Registration (PCR) is a critical and challenging task in computer vision. One of the primary difficulties in PCR is identifying salient and meaningful points that exhibit consistent semantic and geometric properties across different scans. Previous methods have encountered challenges with ambiguous matching due to the similarity among patch blocks throughout the entire point cloud and the lack of consideration for efficient global geometric consistency. To address these issues, we propose a new framework that includes several novel techniques. Firstly, we introduce a semantic-aware geometric encoder that combines object-level and patch-level semantic information. This encoder significantly improves registration recall by reducing ambiguity in patch-level superpoint matching. Additionally, we incorporate a prior knowledge approach that utilizes an intrinsic shape signature to identify salient points. This enables us to extract the most salient super points and meaningful dense points in the scene. Secondly, we introduce an innovative transformer that encodes High-Order (HO) geometric features. These features are crucial for identifying salient points within initial overlap regions while considering global high-order geometric consistency. To optimize this high-order transformer further, we introduce an anchor node selection strategy. By encoding inter-frame triangle or polyhedron consistency features based on these anchor nodes, we can effectively learn high-order geometric features of salient super points. These high-order features are then propagated to dense points and utilized by a Sinkhorn matching module to identify key correspondences for successful registration. In our experiments conducted on well-known datasets such as 3DMatch/3DLoMatch and KITTI, our approach has shown promising results, highlighting the effectiveness of our novel method. | 翻訳日:2024-01-23 20:51:34 公開日:2024-01-20 |
# SEAL: 実世界の超解像の体系的評価のためのフレームワーク SEAL: A Framework for Systematic Evaluation of Real-World Super-Resolution ( http://arxiv.org/abs/2309.03020v2 ) ライセンス: Link先を確認 | Wenlong Zhang, Xiaohui Li, Xiangyu Chen, Yu Qiao, Xiao-Ming Wu and Chao Dong | (参考訳) 実世界の超解像法(Real-SR)は,様々な実世界の画像を扱うことに重点を置いており,近年注目されている。
鍵となるアイデアは、実世界の劣化を模倣するために複雑で高階の分解モデルを使用することである。
彼らは様々なシナリオで印象的な結果を得たが、評価の障害に直面している。
現在、これらの手法は、大きな空間からランダムに選択された少数の分解事例において、平均的な性能によってのみ評価されており、全体的な性能の包括的理解を提供しず、一貫性がなく、誤った結果をもたらすことが多い。
評価の限界を克服するために,実SRを体系的に評価するフレームワークSEALを提案する。
特に,広範囲の劣化空間を集積して代表的な劣化事例を作成し,総合的なテストセットとして機能する。
次に,テストセット上の実SR手法の分散および相対的性能を測定するための粗大な評価プロトコルを提案する。
このプロトコルには、受容率(AR)と相対性能比(RPR)という2つの新しい指標が組み込まれている。
SEALの下では、既存の実SR手法をベンチマークし、その性能に関する新たな観測と洞察を取得し、新しい強力なベースラインを開発する。
我々はSEALを,実SR開発を促進するための総合的な実SR評価プラットフォーム構築に向けた第一歩とみなす。
ソースコードはhttps://github.com/XPixelGroup/SEALで入手できる。 Real-world Super-Resolution (Real-SR) methods focus on dealing with diverse real-world images and have attracted increasing attention in recent years. The key idea is to use a complex and high-order degradation model to mimic real-world degradations. Although they have achieved impressive results in various scenarios, they are faced with the obstacle of evaluation. Currently, these methods are only assessed by their average performance on a small set of degradation cases randomly selected from a large space, which fails to provide a comprehensive understanding of their overall performance and often yields inconsistent and potentially misleading results. To overcome the limitation in evaluation, we propose SEAL, a framework for systematic evaluation of real-SR. In particular, we cluster the extensive degradation space to create a set of representative degradation cases, which serves as a comprehensive test set. Next, we propose a coarse-to-fine evaluation protocol to measure the distributed and relative performance of real-SR methods on the test set. The protocol incorporates two new metrics: acceptance rate (AR) and relative performance ratio (RPR), derived from acceptance and excellence lines. Under SEAL, we benchmark existing real-SR methods, obtain new observations and insights into their performance, and develop a new strong baseline. We consider SEAL as the first step towards creating a comprehensive real-SR evaluation platform, which can promote the development of real-SR. The source code is available at https://github.com/XPixelGroup/SEAL | 翻訳日:2024-01-23 20:49:37 公開日:2024-01-20 |
# EMO: 自動回帰言語モデリングのためのアースモーバー距離最適化 EMO: Earth Mover Distance Optimization for Auto-Regressive Language Modeling ( http://arxiv.org/abs/2310.04691v4 ) ライセンス: Link先を確認 | Siyu Ren, Zhiyong Wu, Kenny Q. Zhu | (参考訳) ニューラル言語モデルは人間のテキストの確率モデルである。
それらは主に、経験的データ分布とモデル分布の間の前方のクロスエントロピーを最小化するmle(maximum likelihood estimation)を使用して訓練される。
しかし、これらのモデルで学習した分布から復号する際には、様々な退化現象が広く見られる。
その結果,(1)リコール優先性(2)負の多様性無知,(3)列車試験ミスマッチによる人間とモデル分布の整合のための距離指標として,前方方向のクロスエントロピーが準最適であることが判明した。
本稿では,自動回帰言語モデリングのための地球間距離最適化(EMO)を提案する。
EMOは、前述の課題に対処するために、地球移動器距離の本質的な性質を生かしている。
直接計算の複雑さが高いため、emoのエンドツーエンドトレーニングを容易にするために、さらに実現可能な上限を導入する。
EMOとMLEを用いて訓練した言語モデルの広範囲な評価を行う。
EMOはドメイン間のMLEよりも一貫して優れた言語モデリング性能を示す。
さらに、EMOは、わずか25,000の文で最小限の微調整を施して、下流のパフォーマンスを向上する。
これは、大規模な事前学習された言語モデルを強化するための軽量キャリブレーション方法としてのemoの膨大な可能性を強調している。 Neural language models are probabilistic models of human text. They are predominantly trained using maximum likelihood estimation (MLE), which is equivalent to minimizing the forward cross-entropy between the empirical data distribution and the model distribution. However, various degeneration phenomena are still widely observed when decoding from the distributions learned by such models. We establish that the forward cross-entropy is suboptimal as a distance metric for aligning human and model distribution due to its (1) recall-prioritization (2) negative diversity ignorance and (3) train-test mismatch. In this paper, we propose Earth Mover Distance Optimization (EMO) for auto-regressive language modeling. EMO capitalizes on the inherent properties of earth mover distance to address the aforementioned challenges. Due to the high complexity of direct computation, we further introduce a feasible upper bound for EMO to ease end-to-end training. Upon extensive evaluation of language models trained using EMO and MLE. We find that EMO demonstrates a consistently better language modeling performance than MLE across domains. Moreover, EMO demonstrates noteworthy enhancements in downstream performance with minimal fine-tuning on merely 25,000 sentences. This highlights the tremendous potential of EMO as a lightweight calibration method for enhancing large-scale pre-trained language models. | 翻訳日:2024-01-23 20:43:14 公開日:2024-01-20 |
# fashionflow: 静的画像からの動的ファッションビデオ合成に拡散モデルを活用する FashionFlow: Leveraging Diffusion Models for Dynamic Fashion Video Synthesis from Static Imagery ( http://arxiv.org/abs/2310.00106v2 ) ライセンス: Link先を確認 | Tasin Islam, Alina Miron, XiaoHui Liu, Yongmin Li | (参考訳) 本研究ではファッションビデオを生成するためにFashionFlowと呼ばれる新しい画像合成装置を提案する。
拡散モデルを利用することで、静止したファッション画像から短いビデオを作成することができる。
提案手法では, 関連成分を拡散モデルと結合させることにより, 条件付き画像に整合した高忠実度映像を作成する。
コンポーネントには、ビデオを効率的に生成するための擬似3D畳み込みレイヤーの使用が含まれる。
VAEとCLIPエンコーダは静止画像から重要な特徴を捉え、グローバルレベルで拡散モデルを条件付ける。
本研究は,様々な角度からモデルのポーズをとり,衣服のフィットと外観を示すファッションビデオの合成に成功したことを実証する。
本研究は,オンラインファッション産業におけるショッピングエクスペリエンスの向上と向上に大きな期待を寄せている。 Our study introduces a new image-to-video generator called FashionFlow to generate fashion videos. By utilising a diffusion model, we are able to create short videos from still fashion images. Our approach involves developing and connecting relevant components with the diffusion model, which results in the creation of high-fidelity videos that are aligned with the conditional image. The components include the use of pseudo-3D convolutional layers to generate videos efficiently. VAE and CLIP encoders capture vital characteristics from still images to condition the diffusion model at a global level. Our research demonstrates a successful synthesis of fashion videos featuring models posing from various angles, showcasing the fit and appearance of the garment. Our findings hold great promise for improving and enhancing the shopping experience for the online fashion industry. | 翻訳日:2024-01-23 20:39:00 公開日:2024-01-20 |
# 画像透かしの適応的攻撃に対するレバレッジ最適化 Leveraging Optimization for Adaptive Attacks on Image Watermarks ( http://arxiv.org/abs/2309.16952v2 ) ライセンス: Link先を確認 | Nils Lukas, Abdulrahman Diaa, Lucas Fenaux, Florian Kerschbaum | (参考訳) 不信なユーザーは画像生成装置を誤用して高品質なディープフェイクを合成し、非倫理的な活動を行うことができる。
ウォーターマーキングは、生成されたコンテンツを隠されたメッセージでマークすることで誤用を検知する。
ウォーターマーキングのコアセキュリティ特性は堅牢性であり、攻撃者は画像品質を著しく劣化させることで検出を回避できる。
堅牢性を評価するには、特定の透かしアルゴリズムに対する適応攻撃を設計する必要がある。
透かしアルゴリズムとその(適応的な)攻撃を評価する場合、適応攻撃が最適な、すなわち最善の攻撃であるかどうかを判断することは困難である。
目的関数を定義し,最適化問題として適応攻撃にアプローチすることで,この問題を解決した。
アダプティブアタックの核となる考え方は、差別化可能で、攻撃パラメータの最適化に使用できるサロゲートキーを作成することで、秘密のウォーターマークキーをローカルに複製することです。
安定拡散モデルでは, 画像品質の劣化を生じさせないまま, 調査した5つの透かし法を全て破壊できることを示す。
攻撃の最適化は効率的で、検出精度を6.3%以下にするために1gpu時間未満で済む。
本研究は,適応的で学習可能な攻撃者に対するより厳密な堅牢性テストの必要性を強調する。 Untrustworthy users can misuse image generators to synthesize high-quality deepfakes and engage in unethical activities. Watermarking deters misuse by marking generated content with a hidden message, enabling its detection using a secret watermarking key. A core security property of watermarking is robustness, which states that an attacker can only evade detection by substantially degrading image quality. Assessing robustness requires designing an adaptive attack for the specific watermarking algorithm. When evaluating watermarking algorithms and their (adaptive) attacks, it is challenging to determine whether an adaptive attack is optimal, i.e., the best possible attack. We solve this problem by defining an objective function and then approach adaptive attacks as an optimization problem. The core idea of our adaptive attacks is to replicate secret watermarking keys locally by creating surrogate keys that are differentiable and can be used to optimize the attack's parameters. We demonstrate for Stable Diffusion models that such an attacker can break all five surveyed watermarking methods at no visible degradation in image quality. Optimizing our attacks is efficient and requires less than 1 GPU hour to reduce the detection accuracy to 6.3% or less. Our findings emphasize the need for more rigorous robustness testing against adaptive, learnable attackers. | 翻訳日:2024-01-23 20:38:47 公開日:2024-01-20 |
# IDEAL: インフルエンス駆動選択アノテーションは、大規模言語モデルにおけるインテクスト学習に役立てる IDEAL: Influence-Driven Selective Annotations Empower In-Context Learners in Large Language Models ( http://arxiv.org/abs/2310.10873v2 ) ライセンス: Link先を確認 | Shaokun Zhang, Xiaobo Xia, Zhaoqing Wang, Ling-Hao Chen, Jiale Liu, Qingyun Wu, Tongliang Liu | (参考訳) インコンテキスト学習は、大規模言語モデルの予測のプロンプトとして、インコンテキストサンプルを利用する有望なパラダイムである。
これらのプロンプトは、強力なパフォーマンスを達成するために重要です。
しかし、多くの注釈付き例からプロンプトをサンプリングする必要があるため、適切なプロンプトを見つけると、アノテーションコストが高くなる可能性がある。
そこで本稿では,アノテーションのコストを最小化し,文脈内例の品質を向上させるためのインフルエンス駆動選択的アノテーション手法を提案する。
本手法の本質は,大規模非ラベルデータプールから重要なサブセットを選択し,それに続くプロンプトのサンプリングに注釈を付けることである。
具体的には、有向グラフはラベルのないデータを表すために最初に構築される。
その後、候補非ラベル部分集合の影響は拡散過程によって定量化される。
ラベルなしデータ選択のための単純で効果的なグリードアルゴリズムを最後に紹介する。
定量化された影響に対して限界ゲインが最大であれば、データを反復的に選択する。
提案手法は,従来の選択アノテーションと比較してエンドツーエンドで機能し,データの多様性と代表性の間の難解なバランスを回避し,理論的支援を享受する。
実験では,提案手法が様々なベンチマークで優れていることを確認し,部分集合選択時の低消費下での性能を向上した。
プロジェクトページはhttps://skzhang1.github.io/ideal/。 In-context learning is a promising paradigm that utilizes in-context examples as prompts for the predictions of large language models. These prompts are crucial for achieving strong performance. However, since the prompts need to be sampled from a large volume of annotated examples, finding the right prompt may result in high annotation costs. To address this challenge, this paper introduces an influence-driven selective annotation method that aims to minimize annotation costs while improving the quality of in-context examples. The essence of our method is to select a pivotal subset from a large-scale unlabeled data pool to annotate for the subsequent sampling of prompts. Specifically, a directed graph is first constructed to represent unlabeled data. Afterward, the influence of candidate unlabeled subsets is quantified with a diffusion process. A simple yet effective greedy algorithm for unlabeled data selection is lastly introduced. It iteratively selects the data if it provides a maximum marginal gain with respect to quantified influence. Compared with previous efforts on selective annotations, our influence-driven method works in an end-to-end manner, avoids an intractable explicit balance between data diversity and representativeness, and enjoys theoretical support. Experiments confirm the superiority of the proposed method on various benchmarks, achieving better performance under lower time consumption during subset selection. The project page is available at https://skzhang1.github.io/IDEAL/. | 翻訳日:2024-01-23 20:27:15 公開日:2024-01-20 |
# 大規模言語モデルによるプログラムポリシーの解釈可能性の評価 Assessing the Interpretability of Programmatic Policies with Large Language Models ( http://arxiv.org/abs/2311.06979v2 ) ライセンス: Link先を確認 | Zahra Bashir, Michael Bowling, Levi H. S. Lelis | (参考訳) ポリシーを符号化するプログラムの合成は、しばしば解釈可能性の約束をもたらすが、このような評価の複雑さのために、これらのポリシーの解釈可能性を評価する体系的な評価は行われなかった。
本稿では,大規模言語モデル(llm)を用いてプログラム政策の解釈可能性を評価する新しい指標を提案する。
我々のメトリクスでは、LLMはプログラムと関連するプログラミング言語の記述の両方を与えられる。
LLMはその後、プログラムの自然言語説明を定式化する。
この説明はその後第二のLSMに送られ、自然言語の説明からプログラムを再構築しようとする。
提案手法は,再構成プログラムとオリジナルとの動作類似度を測定する。
実時間戦略ゲームにおいて,本手法を人為的かつ人工的なプログラムポリシーを用いて検証し,これらのプログラムポリシーの解釈可能性スコアを同一プログラムの難読化バージョンと比較した。
LLMベースの解釈可能性スコアは、より低い解釈可能なプログラムとより高い解釈可能なプログラムを一貫してランク付けします。
これらの結果は, プログラム政策の解釈可能性を評価する上で, 信頼性が高く安価なツールとなりうることを示唆する。 Although the synthesis of programs encoding policies often carries the promise of interpretability, systematic evaluations were never performed to assess the interpretability of these policies, likely because of the complexity of such an evaluation. In this paper, we introduce a novel metric that uses large-language models (LLM) to assess the interpretability of programmatic policies. For our metric, an LLM is given both a program and a description of its associated programming language. The LLM then formulates a natural language explanation of the program. This explanation is subsequently fed into a second LLM, which tries to reconstruct the program from the natural-language explanation. Our metric then measures the behavioral similarity between the reconstructed program and the original. We validate our approach with synthesized and human-crafted programmatic policies for playing a real-time strategy game, comparing the interpretability scores of these programmatic policies to obfuscated versions of the same programs. Our LLM-based interpretability score consistently ranks less interpretable programs lower and more interpretable ones higher. These findings suggest that our metric could serve as a reliable and inexpensive tool for evaluating the interpretability of programmatic policies. | 翻訳日:2024-01-23 20:18:54 公開日:2024-01-20 |
# 形状とファンネル効果を考慮したメディア混合モデリングのためのベイズ法 Bayesian Methods for Media Mix Modelling with shape and funnel effects ( http://arxiv.org/abs/2311.05587v5 ) ライセンス: Link先を確認 | Javier Marin | (参考訳) 近年、生成AIの大きな進歩は、基礎物理学の原理に基づく高度な数学的概念を応用し、人工知能の能力を高める物理にインスパイアされたモデルの重要な役割を強調している。
これらのモデルの中で、拡散方程式に基づくモデルは画像品質を大幅に改善した。
本研究は, 気体の運動論の基礎となるマクスウェル・ボルツマン方程式と, マーケティング・ミックス・モデリング(MMM)応用におけるミカエル・メンテンモデルの可能性を検討することを目的とする。
本稿では,これらの方程式を階層ベイズモデルに組み込んで,消費者行動の分析を行う。
これらの方程式セットは、社会的相互作用や消費者広告的相互作用のような複雑なシステムのランダムなダイナミクスを正確に記述する上で優れている。 In recent years, significant progress in generative AI has highlighted the important role of physics-inspired models that utilize advanced mathematical concepts based on fundamental physics principles to enhance artificial intelligence capabilities. Among these models, those based on diffusion equations have greatly improved image quality. This study aims to explore the potential uses of Maxwell-Boltzmann equation, which forms the basis of the kinetic theory of gases, and the Michaelis-Menten model in Marketing Mix Modelling (MMM) applications. We propose incorporating these equations into Hierarchical Bayesian models to analyse consumer behaviour in the context of advertising. These equation sets excel in accurately describing the random dynamics in complex systems like social interactions and consumer-advertising interactions. | 翻訳日:2024-01-23 20:17:49 公開日:2024-01-20 |
# 画像ベースおよび臨床バイオメディシンにおけるマルチモーダル機械学習:調査と展望 Multimodal Machine Learning in Image-Based and Clinical Biomedicine: Survey and Prospects ( http://arxiv.org/abs/2311.02332v5 ) ライセンス: Link先を確認 | Elisa Warner, Joonsang Lee, William Hsu, Tanveer Syeda-Mahmood, Charles Kahn, Olivier Gevaert and Arvind Rao | (参考訳) 医療人工知能(AI)システムにおける機械学習(ML)の応用は、伝統的な統計手法からディープラーニングモデルの適用の増加へと移行している。
本研究は,マルチモーダルmlの現状を概観し,医療画像解析と臨床意思決定支援システムへの深い影響に注目した。
マルチモーダル表現,融合,翻訳,アライメント,コラーニングの課題とイノベーションを強調し,臨床予測のためのマルチモーダルモデルの変換可能性について検討した。
また、このようなモデルの原則的評価と実践的実装の必要性を強調し、意思決定支援システムと医療提供者と職員のダイナミクスに注意を向ける。
進歩にもかかわらず、多くの生物医学領域におけるデータバイアスや「ビッグデータ」の不足といった課題が続いている。
我々は,マルチモーダルMLモデルのバイオメディカル実践へのシームレスな統合のミッションをさらに進めるための,原則的イノベーションと協調的な取り組みに関する議論を締めくくった。 Machine learning (ML) applications in medical artificial intelligence (AI) systems have shifted from traditional and statistical methods to increasing application of deep learning models. This survey navigates the current landscape of multimodal ML, focusing on its profound impact on medical image analysis and clinical decision support systems. Emphasizing challenges and innovations in addressing multimodal representation, fusion, translation, alignment, and co-learning, the paper explores the transformative potential of multimodal models for clinical predictions. It also highlights the need for principled assessments and practical implementation of such models, bringing attention to the dynamics between decision support systems and healthcare providers and personnel. Despite advancements, challenges such as data biases and the scarcity of "big data" in many biomedical domains persist. We conclude with a discussion on principled innovation and collaborative efforts to further the mission of seamless integration of multimodal ML models into biomedical practice. | 翻訳日:2024-01-23 20:15:56 公開日:2024-01-20 |
# 非現実的データからの学習欠陥予測 Learning Defect Prediction from Unrealistic Data ( http://arxiv.org/abs/2311.00931v2 ) ライセンス: Link先を確認 | Kamel Alrashedy, Vincent J. Hellendoorn, Alessandro Orso | (参考訳) CodeBERTやCodeT5のような事前訓練されたコードのモデルは、コード理解と生成タスクの一般的な選択肢となっている。
このようなモデルは大規模になりがちで、ダウンストリームタスクではめったに利用できないトレーニングデータ量を必要とする。
代わりに、人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
しかし、そのようなデータでトレーニングされたモデルは、実世界のプログラムではパフォーマンスが低くなる一方で、同様のデータでのみうまく機能する傾向がある。
本稿では,この不一致は,実世界のタスク分布からモデルを引き離す散逸するサンプルの存在に起因していると推察する。
そこで本研究では,実世界のデータセットの例と最もよく似た,大規模かつ非現実的なデータセットのサブセットを同定する手法を提案する。
本手法は,神経モデルを用いて実世界および人工プログラムの高次元埋め込みを抽出し,最も近い実世界のサンプルまでの距離に基づいて人工サンプルをスコアリングする。
2つのコード理解タスクにおいて、最も近い、最も類似したサンプルのみをトレーニングし、表現に全く似ていないサンプルを捨てると、2つの人気のある事前訓練されたコードのモデル間で一貫した改善が得られることを示す。
その結果、非現実的なデータセットの代表的なサブセット上でのトレーニングモデルが、ダウンストリームのタスクパフォーマンスを維持しながら、大規模な合成データ生成のパワーを活用できることが分かりました。
最後に、現実世界のアプリケーションにおける脆弱性やバグを予測するためにAIモデルを適用する際の制限を強調します。 Pretrained models of code, such as CodeBERT and CodeT5, have become popular choices for code understanding and generation tasks. Such models tend to be large and require commensurate volumes of training data, which are rarely available for downstream tasks. Instead, it has become popular to train models with far larger but less realistic datasets, such as functions with artificially injected bugs. Models trained on such data, however, tend to only perform well on similar data, while underperforming on real world programs. In this paper, we conjecture that this discrepancy stems from the presence of distracting samples that steer the model away from the real-world task distribution. To investigate this conjecture, we propose an approach for identifying the subsets of these large yet unrealistic datasets that are most similar to examples in real-world datasets based on their learned representations. Our approach extracts high-dimensional embeddings of both real-world and artificial programs using a neural model and scores artificial samples based on their distance to the nearest real-world sample. We show that training on only the nearest, representationally most similar samples while discarding samples that are not at all similar in representations yields consistent improvements across two popular pretrained models of code on two code understanding tasks. Our results are promising, in that they show that training models on a representative subset of an unrealistic dataset can help us harness the power of large-scale synthetic data generation while preserving downstream task performance. Finally, we highlight the limitations of applying AI models for predicting vulnerabilities and bugs in real-world applications | 翻訳日:2024-01-23 20:15:13 公開日:2024-01-20 |
# ユニバーサルバックドア攻撃 Universal Backdoor Attacks ( http://arxiv.org/abs/2312.00157v2 ) ライセンス: Link先を確認 | Benjamin Schneider, Nils Lukas, Florian Kerschbaum | (参考訳) Webスクレイプデータセットは、トレーニング中にディープイメージ分類器のバックドアとして使用できるデータ中毒に弱い。
大きなデータセットでのトレーニングは高価であるため、モデルは一度トレーニングされ、何度も再使用される。
敵の例とは異なり、バックドア攻撃はモデルによって学習されるどのクラスよりも特定のクラスをターゲットにすることが多い。
ナイーブな攻撃構成によって多くのクラスをターゲットにすると、毒物サンプルの数が大幅に増加すると期待できるかもしれない。
あらゆるソースクラスからターゲットクラスへの誤分類を、少量の毒素サンプルの増加で制御できるユニバーサルデータ中毒攻撃が存在する。
私たちのアイデアは、モデルが学習できる特性を持つトリガーを生成することです。
これは、あるクラスからトリガーを学習することで、モデルを他のクラスの学習トリガに対してより脆弱にするものです。
我々は、トレーニングデータセットのわずか0.1%を毒殺しながら、6,000クラスまでのモデルを制御することで、普遍的なバックドア攻撃の有効性と堅牢性を示す。
ソースコードはhttps://github.com/Ben-Schneider-code/Universal-Backdoor-Attacksで公開しています。 Web-scraped datasets are vulnerable to data poisoning, which can be used for backdooring deep image classifiers during training. Since training on large datasets is expensive, a model is trained once and re-used many times. Unlike adversarial examples, backdoor attacks often target specific classes rather than any class learned by the model. One might expect that targeting many classes through a naive composition of attacks vastly increases the number of poison samples. We show this is not necessarily true and more efficient, universal data poisoning attacks exist that allow controlling misclassifications from any source class into any target class with a small increase in poison samples. Our idea is to generate triggers with salient characteristics that the model can learn. The triggers we craft exploit a phenomenon we call inter-class poison transferability, where learning a trigger from one class makes the model more vulnerable to learning triggers for other classes. We demonstrate the effectiveness and robustness of our universal backdoor attacks by controlling models with up to 6,000 classes while poisoning only 0.15% of the training dataset. Our source code is available at https://github.com/Ben-Schneider-code/Universal-Backdoor-Attacks. | 翻訳日:2024-01-23 20:07:26 公開日:2024-01-20 |
# ナイジェリア精神分裂病脳波データセット(NSzED) : アフリカにおけるデータ駆動精神医学 Nigerian Schizophrenia EEG Dataset (NSzED) Towards Data-Driven Psychiatry in Africa ( http://arxiv.org/abs/2311.18484v2 ) ライセンス: Link先を確認 | E.O. Olateju, K.P. Ayodele, S.K. Mosaku | (参考訳) この研究は、統合失調症診断ツールの開発や研究に使用される高品質な脳波データセットの変形を改善するために行われた。
この目的のために、提示されたデータセットは、ナイジェリア起源の西アフリカの被験者の国際10/20システム脳波記録を、安静状態、精神算術タスク実行状態、および、その地域と大陸からの最初の種類の聴覚刺激に受動的に反応しながら含む。
対象は患者と健康管理者に分けられ、mini international schizophrenia interview (mini) で特定された患者37名と健康管理対象22名から記録され、また、the positive and negative symptoms scale (panss) と world health organization disability assessment schedule (whodas) によって評価される。
全ての患者は精神保健病棟の精神分裂病患者、オバフェーム・アウォロー大学教育病院複合病院(OAUTHC, Ile-Ife)医療外来、およびその子会社ウェズリーギルド病院ユニット(OAUTHC, Ilesa)に入院している。
OAUTHCのメンタルヘルス・ウォードとウェズリーギルド病院・ユニットで研究に参加するために志願した学生や臨床医からコントロールが引き出された。
このデータセットはナイジェリアの統合失調症データセット(NSzED)の最初のバージョンであり、脳波信号モダリティを用いて統合失調症の診断と予後を研究する神経科学および計算精神医学研究コミュニティで使用することができる。 This work has been carried out to improve the dearth of high-quality EEG datasets used for schizophrenia diagnostic tools development and studies from populations of developing and underdeveloped regions of the world. To this aim, the presented dataset contains international 10/20 system EEG recordings from West African subjects of Nigerian origin in restful states, mental arithmetic task execution states and while passively reacting to auditory stimuli, the first of its kind from the region and continent. The subjects are divided into patients and healthy controls and recorded from 37 patients and 22 healthy control subjects identified by the Mini International Schizophrenia Interview (MINI) and also assessed by the Positive and Negative Symptoms Scale (PANSS) and the World Health Organization Disability Assessment Schedule (WHODAS). All patients are admitted schizophrenia patients of the Mental Health Ward, Medical Outpatient Department of the Obafemi Awolowo University Teaching Hospital Complex (OAUTHC, Ile-Ife) and its subsidiary Wesley Guild Hospital Unit (OAUTHC, Ilesa). Controls are drawn from students and clinicians who volunteered to participate in the study at the Mental Health Ward of OAUTHC and the Wesley Guild Hospital Unit. This dataset is the first version of the Nigerian schizophrenia dataset (NSzED) and can be used by the neuroscience and computational psychiatry research community studying the diagnosis and prognosis of schizophrenia using the electroencephalogram signal modality. | 翻訳日:2024-01-23 20:06:53 公開日:2024-01-20 |
# 臨界脳仮説によるスパイキングニューラルネットワークの臨界誘導効率向上 Criticality-Guided Efficient Pruning in Spiking Neural Networks Inspired by Critical Brain Hypothesis ( http://arxiv.org/abs/2311.16141v2 ) ライセンス: Link先を確認 | Shuo Chen, Boxiao Liu, Haihang You | (参考訳) スパイキングニューラルネットワーク (SNN) はエネルギー効率と乗算自由特性のために注目されている。
ディープSNNのスケールの継続的な成長は、モデルデプロイメントに課題をもたらす。
ネットワークプルーニングは、ネットワークスケールを圧縮することで、モデルデプロイメントのハードウェアリソース要求を減らす。
しかし、既存のSNNプルーニング手法は、プルーニング繰り返しがSNNのトレーニング困難を増幅するため、高いプルーニングコストと性能損失を引き起こす。
本稿では,神経科学における臨界脳仮説に触発されて,SNNプルーニングのニューロン臨界性に基づく再生機構を提案し,特徴抽出の促進とプルーニングプロセスの促進を図る。
まず,SNNの臨界度に対する低コストな指標を提案する。
次に, プルーニング後のプルーン構造を再ランク付けし, 臨界度の高い構造を再生し, 臨界ネットワークを得る。
本手法は,現行の最先端技術(SOTA)法よりも95.26%のコスト削減を実現している。
さらに,本手法の基盤となるメカニズムについて検討し,潜在的構造を効率的に選択し,一貫した特徴表現を学ぶ。 Spiking Neural Networks (SNNs) have gained considerable attention due to the energy-efficient and multiplication-free characteristics. The continuous growth in scale of deep SNNs poses challenges for model deployment. Network pruning reduces hardware resource requirements of model deployment by compressing the network scale. However, existing SNN pruning methods cause high pruning costs and performance loss because the pruning iterations amplify the training difficulty of SNNs. In this paper, inspired by the critical brain hypothesis in neuroscience, we propose a regeneration mechanism based on the neuron criticality for SNN pruning to enhance feature extraction and accelerate the pruning process. Firstly, we propose a low-cost metric for the criticality in SNNs. Then, we re-rank the pruned structures after pruning and regenerate those with higher criticality to obtain the critical network. Our method achieves higher performance than the current state-of-the-art (SOTA) method with up to 95.26% reduction of pruning cost. Moreover, we investigate the underlying mechanism of our method and find that it efficiently selects potential structures and learns the consistent feature representation. | 翻訳日:2024-01-23 20:05:18 公開日:2024-01-20 |
# カテーテルおよびガイドワイヤセグメンテーションにおける形状感応損失 Shape-Sensitive Loss for Catheter and Guidewire Segmentation ( http://arxiv.org/abs/2311.11205v2 ) ライセンス: Link先を確認 | Chayun Kongtongvattana, Baoru Huang, Jingxuan Kang, Hoan Nguyen, Olajide Olufemi, Anh Nguyen | (参考訳) 本稿では,カテーテルおよびガイドワイヤセグメンテーションのための形状感応損失関数を導入し,それを視覚トランスフォーマーネットワークで活用し,大規模x線画像データセットに新たな最先端結果を確立する。
ネットワーク由来の予測とそれに対応する基底真理を符号付き距離マップに変換し、任意のネットワークが単に全体輪郭ではなく本質的な境界に集中できるようにする。
これらのsdmは視覚トランスフォーマを施し、臨界画像属性をカプセル化した高次元特徴ベクトルを効率的に生成する。
これらの特徴ベクトル間の余弦的類似性を計算することにより、従来の重複度に基づく測度の制限を超えて、画像類似性の微妙な理解が得られる。
提案手法の利点は、スケールや翻訳の不変性から微妙な差異の検出に優れ、画像内の医療機器の正確な位置決めとデライン化を確保することにある。
包括的定量的・質的分析により,既存のベースラインよりも性能が著しく向上し,カテーテルおよびガイドワイヤセグメンテーションを改善するための新しい形状感応損失関数が期待できることが証明された。 We introduce a shape-sensitive loss function for catheter and guidewire segmentation and utilize it in a vision transformer network to establish a new state-of-the-art result on a large-scale X-ray images dataset. We transform network-derived predictions and their corresponding ground truths into signed distance maps, thereby enabling any networks to concentrate on the essential boundaries rather than merely the overall contours. These SDMs are subjected to the vision transformer, efficiently producing high-dimensional feature vectors encapsulating critical image attributes. By computing the cosine similarity between these feature vectors, we gain a nuanced understanding of image similarity that goes beyond the limitations of traditional overlap-based measures. The advantages of our approach are manifold, ranging from scale and translation invariance to superior detection of subtle differences, thus ensuring precise localization and delineation of the medical instruments within the images. Comprehensive quantitative and qualitative analyses substantiate the significant enhancement in performance over existing baselines, demonstrating the promise held by our new shape-sensitive loss function for improving catheter and guidewire segmentation. | 翻訳日:2024-01-23 20:03:54 公開日:2024-01-20 |
# ノイズの存在下でのシャドウトモグラフィの最適回転深さ Optimal twirling depths for shadow tomography in the presence of noise ( http://arxiv.org/abs/2311.10137v2 ) ライセンス: Link先を確認 | Pierre-Gabriel Rozon, Ning Bao and Kartiek Agarwal | (参考訳) 古典的なシャドウプロトコルは、少数の状態コピーと測定値を用いて未知の状態$\rho$のプロパティを推定するための効率的な戦略である。
元々の形式では、いくつかのアンサンブルからのユニタリで状態を回転させ、一定の基底で回転状態を測定する。
近年, 局所特性の計算において, 局所密閉ゲートからなる浅層深度回路から引き出されたユニタリに対して, 局所的(ゼロ深度) あるいは大域的ツイリング(無限深度)アンサンブルに対して, 最適なサンプル複雑性(必要状態のコピー)が著しく達成されることが示されている。
ここでは、サンプルの複雑さをノイズの存在下での回路の深さの関数とみなす。
このノイズは最適なtwirlingアンサンブルを決定する上で重要な意味を持つ。
かなり一般的な条件下では
i) 適切な減衰パラメータ$f$;の非分極ノイズチャネルを使用することにより、任意のシングルサイトノイズを説明できることを示す。
二 任意の作用素及び任意の作用素の局所トワイルリングに最適なトワイルリングを還元する値の計算しきい値$f_{\text{th}}$
iii) $n^{\text{th}}$ order Renyi entropies$n \ge 2$); そして
iv)任意の有限ノイズ強度$f$に対する最適回路深さに有意義な上限$t_{\text{max}}$を与え、すべての演算子と絡み合いエントロピー測定に適用する。
これらの閾値はシャドウトモグラフィを実装するための最適戦略の探索を強く制限し、手元の実験システムに容易に調整できる。 The classical shadows protocol is an efficient strategy for estimating properties of an unknown state $\rho$ using a small number of state copies and measurements. In its original form, it involves twirling the state with unitaries from some ensemble and measuring the twirled state in a fixed basis. It was recently shown that for computing local properties, optimal sample complexity (copies of the state required) is remarkably achieved for unitaries drawn from shallow depth circuits composed of local entangling gates, as opposed to purely local (zero depth) or global twirling (infinite depth) ensembles. Here we consider the sample complexity as a function of the depth of the circuit, in the presence of noise. We find that this noise has important implications for determining the optimal twirling ensemble. Under fairly general conditions, we i) show that any single-site noise can be accounted for using a depolarizing noise channel with an appropriate damping parameter $f$; ii) compute thresholds $f_{\text{th}}$ at which optimal twirling reduces to local twirling for arbitrary operators and iii) $n^{\text{th}}$ order Renyi entropies ($n \ge 2$); and iv) provide a meaningful upper bound $t_{\text{max}}$ on the optimal circuit depth for any finite noise strength $f$, which applies to all operators and entanglement entropy measurements. These thresholds strongly constrain the search for optimal strategies to implement shadow tomography and can be easily tailored to the experimental system at hand. | 翻訳日:2024-01-23 20:03:34 公開日:2024-01-20 |
# システムプロンプトによる自己逆攻撃によるGPT-4Vの脱獄 Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts ( http://arxiv.org/abs/2311.09127v2 ) ライセンス: Link先を確認 | Yuanwei Wu, Xiang Li, Yixin Liu, Pan Zhou and Lichao Sun | (参考訳) 既存のJailbreak Multimodal Large Language Models (MLLMs)の研究は、主にモデル入力における敵の例に焦点を当てている。
研究のギャップを埋めるために、下記の作業を行います。
1) gpt-4vのシステムプロンプトリーク脆弱性を発見する。
慎重に設計した対話を通して,GPT-4Vの内部システムプロンプトの抽出に成功した。
この発見は、MLLMにおける潜在的に悪用可能なセキュリティリスクを示している。
2)取得したシステムプロンプトに基づいて,SASP(Self-Adversarial Attack via System Prompt)と呼ばれる新しいMLLM脱獄攻撃手法を提案する。
gpt-4をレッドチームツールとして利用することで、盗難システムプロンプトを利用したジェイルブレイクプロンプトの可能性を探そうとしている。
さらに, gpt-4の分析に基づいて人間の修正を加えることで, 攻撃成功率をさらに98.7\%に向上させる。
3)システムプロンプトの変更による脱獄攻撃に対する防御効果を評価した。
その結果、適切に設計されたシステムプロンプトはジェイルブレイクの成功率を大幅に削減できることがわかった。
全体として、我々の研究はMLLMセキュリティの強化に関する新たな洞察を提供し、ジェイルブレイクにおけるシステムプロンプトの重要な役割を示している。
この発見を活用すれば、脱獄の成功率を大幅に向上できると同時に、脱獄を防げる可能性がある。 Existing work on jailbreak Multimodal Large Language Models (MLLMs) has focused primarily on adversarial examples in model inputs, with less attention to vulnerabilities, especially in model API. To fill the research gap, we carry out the following work: 1) We discover a system prompt leakage vulnerability in GPT-4V. Through carefully designed dialogue, we successfully extract the internal system prompts of GPT-4V. This finding indicates potential exploitable security risks in MLLMs; 2) Based on the acquired system prompts, we propose a novel MLLM jailbreaking attack method termed SASP (Self-Adversarial Attack via System Prompt). By employing GPT-4 as a red teaming tool against itself, we aim to search for potential jailbreak prompts leveraging stolen system prompts. Furthermore, in pursuit of better performance, we also add human modification based on GPT-4's analysis, which further improves the attack success rate to 98.7\%; 3) We evaluated the effect of modifying system prompts to defend against jailbreaking attacks. Results show that appropriately designed system prompts can significantly reduce jailbreak success rates. Overall, our work provides new insights into enhancing MLLM security, demonstrating the important role of system prompts in jailbreaking. This finding could be leveraged to greatly facilitate jailbreak success rates while also holding the potential for defending against jailbreaks. | 翻訳日:2024-01-23 20:03:02 公開日:2024-01-20 |
# ロバスト目標音声抽出のための自己教師付き遠交表現学習 Self-Supervised Disentangled Representation Learning for Robust Target Speech Extraction ( http://arxiv.org/abs/2312.10305v2 ) ライセンス: Link先を確認 | Zhaoxi Mu, Xinyu Yang, Sining Sun, Qing Yang | (参考訳) 音声信号は、大域的な音響特性と局所的な意味情報の両方を含むため、本質的に複雑である。
しかし、ターゲット音声抽出のタスクでは、話者識別とは無関係な参照音声における大域的・局所的な意味情報の特定の要素は、音声抽出ネットワーク内で話者の混乱を引き起こす可能性がある。
この課題を克服するために,自己教師付き不整合表現学習法を提案する。
提案手法は、参照音声符号化ネットワークとグローバル情報アンタングルネットワークを利用して、2段階のプロセスでこの問題に取り組み、話者識別情報を他の無関係要素から徐々に切り離す。
音声抽出ネットワークを導出するために,不等角話者識別情報のみを用いる。
さらに、適応変調変換器を導入し、混合信号の音響的表現が話者埋め込みによって乱れないようにする。
本コンポーネントは,話者埋め込みを条件情報として組み込むことにより,自然かつ効率的な音声抽出ネットワークのための指導を行う。
実験の結果, 注意深いアプローチの有効性が示され, 話者の混乱の可能性が大幅に低下した。 Speech signals are inherently complex as they encompass both global acoustic characteristics and local semantic information. However, in the task of target speech extraction, certain elements of global and local semantic information in the reference speech, which are irrelevant to speaker identity, can lead to speaker confusion within the speech extraction network. To overcome this challenge, we propose a self-supervised disentangled representation learning method. Our approach tackles this issue through a two-phase process, utilizing a reference speech encoding network and a global information disentanglement network to gradually disentangle the speaker identity information from other irrelevant factors. We exclusively employ the disentangled speaker identity information to guide the speech extraction network. Moreover, we introduce the adaptive modulation Transformer to ensure that the acoustic representation of the mixed signal remains undisturbed by the speaker embeddings. This component incorporates speaker embeddings as conditional information, facilitating natural and efficient guidance for the speech extraction network. Experimental results substantiate the effectiveness of our meticulously crafted approach, showcasing a substantial reduction in the likelihood of speaker confusion. | 翻訳日:2024-01-23 19:54:41 公開日:2024-01-20 |
# dsa transparency database: ソーシャルメディアによる自己報告モデレーション行動の監査 The DSA Transparency Database: Auditing Self-reported Moderation Actions by Social Media ( http://arxiv.org/abs/2312.10269v2 ) ライセンス: Link先を確認 | Amaury Trujillo, Tiziano Fagni, Stefano Cresci | (参考訳) 2023年9月以降、デジタルサービス法(DSA)は大規模なオンラインプラットフォームに対して、欧州連合(EU)内の各モデレーションに関する詳細なデータをDSA透明性データベースに提出するよう義務付けている。
当初から、この中央集権的なデータベースは、現実世界のオンラインモデレーションに関する前例のない、潜在的にユニークなデータとして、学術的な関心を喚起してきた。
ここでは、データベースの最初の100日間にEUで8大ソーシャルメディアプラットフォームが提出した353.12万レコードについて、徹底的に分析する。
具体的には、モデレーションアクションの量、意思決定の根拠、適用制限の種類、モデレーションされたコンテンツの種類、モデレーションアクションの実施と提出のタイムライン、自動化の使用について、プラットフォーム別比較研究を行う。
さらに,データベースの内容とプラットフォーム自身の透明性レポートを体系的に相互チェックする。
私たちの分析によると
(i)プラットフォームは、データベースの哲学と構造に一部だけ固執している。
(ii) データベースの構造は、部分的にプラットフォームレポートのニーズに不適切である。
(iii)プラットフォームは、そのモデレーションアクションに実質的な違いを示した。
(iv)データベースデータの顕著な割合は矛盾している。
(v)プラットフォームX(旧Twitter)が最も矛盾している。
我々の発見は様々な分野の政策立案者や学者に広く影響している。
オンラインプラットフォーム全般の報告ニーズに対応する、将来の規制に関するガイダンスを提供すると同時に、データベース自体の改善と洗練の機会を強調する。 Since September 2023, the Digital Services Act (DSA) obliges large online platforms to submit detailed data on each moderation action they take within the European Union (EU) to the DSA Transparency Database. From its inception, this centralized database has sparked scholarly interest as an unprecedented and potentially unique trove of data on real-world online moderation. Here, we thoroughly analyze all 353.12M records submitted by the eight largest social media platforms in the EU during the first 100 days of the database. Specifically, we conduct a platform-wise comparative study of their: volume of moderation actions, grounds for decision, types of applied restrictions, types of moderated content, timeliness in undertaking and submitting moderation actions, and use of automation. Furthermore, we systematically cross-check the contents of the database with the platforms' own transparency reports. Our analyses reveal that (i) the platforms adhered only in part to the philosophy and structure of the database, (ii) the structure of the database is partially inadequate for the platforms' reporting needs, (iii) the platforms exhibited substantial differences in their moderation actions, (iv) a remarkable fraction of the database data is inconsistent, (v) the platform X (formerly Twitter) presents the most inconsistencies. Our findings have far-reaching implications for policymakers and scholars across diverse disciplines. They offer guidance for future regulations that cater to the reporting needs of online platforms in general, but also highlight opportunities to improve and refine the database itself. | 翻訳日:2024-01-23 19:54:23 公開日:2024-01-20 |
# 産業サイバー物理システムにおける予後と健康管理の基礎モデルに関する研究 Survey on Foundation Models for Prognostics and Health Management in Industrial Cyber-Physical Systems ( http://arxiv.org/abs/2312.06261v3 ) ライセンス: Link先を確認 | Ruonan Liu, Quanhu Zhang, Te Han | (参考訳) 産業サイバー物理システム(ICPS)は、コンピュータ科学、通信技術、工学の分野を統合し、現代の製造業と産業の不可欠な構成要素として登場した。
しかし、ICPSは機器の故障、性能劣化、セキュリティ上の脅威など、長期運用において様々な課題に直面している。
効率的なメンテナンスと管理を実現するため、診断と健康管理(PHM)はICPSにおいて障害予測、健康モニタリング、保守意思決定などの重要なタスクに広く適用されている。
bertやgptのような大規模基礎モデル(lfm)の出現は、ai技術の著しい進歩を意味し、chatgptはこの研究パラダイムにおける顕著な成果であり、一般的な人工知能の可能性を保っている。
データ取得技術とデータ処理能力の継続的な向上を考えると、LCMはICPSのPHMドメインにおいて重要な役割を担うことが期待される。
しかし、現在、ICPSにおけるPHMへのLPMの適用については合意が得られておらず、今後の方向性を解明するために体系的なレビューとロードマップが必要である。
このギャップを埋めるために,本論文は基礎となるモデルの重要な要素と最近の進歩を解明する。icpにおけるphmのグランドモデリングの最新動向の包括的検証と理解は,icpの信頼性,可用性,安全性のさらなる向上を図りつつ,産業分野の意思決定者や研究者に貴重な資料を提供することができる。 Industrial Cyber-Physical Systems (ICPS) integrate the disciplines of computer science, communication technology, and engineering, and have emerged as integral components of contemporary manufacturing and industries. However, ICPS encounters various challenges in long-term operation, including equipment failures, performance degradation, and security threats. To achieve efficient maintenance and management, prognostics and health management (PHM) finds widespread application in ICPS for critical tasks, including failure prediction, health monitoring, and maintenance decision-making. The emergence of large-scale foundation models (LFMs) like BERT and GPT signifies a significant advancement in AI technology, and ChatGPT stands as a remarkable accomplishment within this research paradigm, harboring potential for General Artificial Intelligence. Considering the ongoing enhancement in data acquisition technology and data processing capability, LFMs are anticipated to assume a crucial role in the PHM domain of ICPS. However, at present, a consensus is lacking regarding the application of LFMs to PHM in ICPS, necessitating systematic reviews and roadmaps to elucidate future directions. To bridge this gap, this paper elucidates the key components and recent advances in the underlying model.A comprehensive examination and comprehension of the latest advances in grand modeling for PHM in ICPS can offer valuable references for decision makers and researchers in the industrial field while facilitating further enhancements in the reliability, availability, and safety of ICPS. | 翻訳日:2024-01-23 19:52:34 公開日:2024-01-20 |
# 最適マルチディストリビューション学習 Optimal Multi-Distribution Learning ( http://arxiv.org/abs/2312.05134v2 ) ライセンス: Link先を確認 | Zihan Zhang, Wenhao Zhan, Yuxin Chen, Simon S. Du, Jason D. Lee | (参考訳) 分散学習(mdl、multi-distribution learning)は、k$の異なるデータ分散間で最悪のリスクを最小限に抑える共有モデルを目指しているが、ロバスト性、公平性、マルチグループコラボレーションといった進化する需要に応えて、統一されたフレームワークとして登場した。
データ効率のよいMDLを実現するには、学習プロセス全体を通じて適応サンプリング(オンデマンドサンプリングとも呼ばれる)が必要である。
しかし, 最適標本の複雑性には, 最先端の上限と下限のギャップが存在する。
Vapnik-Chervonenkis (VC) 次元 $d$ の仮説クラスに焦点をあて、最もよく知られた下界と一致する$(d+k)/\varepsilon^2$ (modulo some logarithmic factor) の順にサンプル複雑性を持つ $varepsilon$-optimal randomized hypothesis を生成する新しいアルゴリズムを提案する。
我々のアルゴリズムのアイデアと理論はラデマッハクラスに対応するためにさらに拡張されている。
提案アルゴリズムはオラクル効率が良く、経験的リスク最小化オラクルを通してのみ仮説クラスにアクセスする。
さらにランダム化の必要性を確立し,決定論的仮説のみを許容した場合に,大きなサンプルサイズバリアを明らかにする。
これらの結果は、COLT 2023(Awasthi et al., 2023, Problem 1, 3 and 4)で示された3つのオープンな問題を解決した。 Multi-distribution learning (MDL), which seeks to learn a shared model that minimizes the worst-case risk across $k$ distinct data distributions, has emerged as a unified framework in response to the evolving demand for robustness, fairness, multi-group collaboration, etc. Achieving data-efficient MDL necessitates adaptive sampling, also called on-demand sampling, throughout the learning process. However, there exist substantial gaps between the state-of-the-art upper and lower bounds on the optimal sample complexity. Focusing on a hypothesis class of Vapnik-Chervonenkis (VC) dimension $d$, we propose a novel algorithm that yields an $varepsilon$-optimal randomized hypothesis with a sample complexity on the order of $(d+k)/\varepsilon^2$ (modulo some logarithmic factor), matching the best-known lower bound. Our algorithmic ideas and theory have been further extended to accommodate Rademacher classes. The proposed algorithms are oracle-efficient, which access the hypothesis class solely through an empirical risk minimization oracle. Additionally, we establish the necessity of randomization, unveiling a large sample size barrier when only deterministic hypotheses are permitted. These findings successfully resolve three open problems presented in COLT 2023 (i.e., Awasthi et al., (2023, Problem 1, 3 and 4)). | 翻訳日:2024-01-23 19:51:46 公開日:2024-01-20 |
# Assertion Enhanced Few-Shot Learning:教育説明生成のための大規模言語モデルの指導手法 Assertion Enhanced Few-Shot Learning: Instructive Technique for Large Language Models to Generate Educational Explanations ( http://arxiv.org/abs/2312.03122v3 ) ライセンス: Link先を確認 | Tasmia Shahriar, Kelly Ramos and Noboru Matsuda | (参考訳) 人間の教育者は、学生からの教育的説明を予想し、探究する本質的な能力を有しており、学生がこれらの説明を独立して説明できない場合に、思考を誘発する質問を引き起こす。
我々は,大規模言語モデルの少数ショット学習機能を用いて,インテリジェントチューニングシステムを構築することを目指している。
本研究は, より正確な, 詳細指向の教育説明を生成するための, 新規なプロンプト技術であるAssertion Enhanced Few-Shot Learningを提案する。
我々の中心的な仮説は、教育領域では、数発のデモは必要だが、品質説明生成に十分な条件ではないということである。
本研究は,12人の教員を対象に,従来のFew-Shot Learningとの比較を行った。
その結果,Assertion Enhanced Few-Shot Learning は説明精度を15%向上し,教師が評価した高品質な説明が得られることがわかった。
また,アサーションの影響を判断する定性的なアブレーション研究を行い,関心領域における説明を生み出すための教育者フレンドリな指導ガイドラインを提供する。 Human educators possess an intrinsic ability to anticipate and seek educational explanations from students, which drives them to pose thought-provoking questions when students cannot articulate these explanations independently. We aim to imbue Intelligent Tutoring Systems with this ability using few-shot learning capability of Large Language Models. Our work proposes a novel prompting technique, Assertion Enhanced Few-Shot Learning, to facilitate the generation of accurate, detailed oriented educational explanations. Our central hypothesis is that, in educational domain, few-shot demonstrations are necessary but not a sufficient condition for quality explanation generation. We conducted a study involving 12 in-service teachers, comparing our approach to Traditional Few-Shot Learning. The results show that Assertion Enhanced Few-Shot Learning improves explanation accuracy by 15% and yields higher-quality explanations, as evaluated by teachers. We also conduct a qualitative ablation study to factor the impact of assertions to provide educator-friendly prompting guidelines for generating explanations in their domain of interest. | 翻訳日:2024-01-23 19:50:56 公開日:2024-01-20 |
# GNN2R:知識グラフに関する質問に対する回答 GNN2R: Weakly-Supervised Rationale-Providing Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2312.02317v3 ) ライセンス: Link先を確認 | Ruijie Wang, Luca Rossetto, Michael Cochez, Abraham Bernstein | (参考訳) 知識グラフ (KGs) 上のマルチホップ質問応答 (QA) のほとんどの手法は、通常のユーザがレビューし理解することが難しいKGエンティティのセットなど、説明なしで最終決定的な回答しか提供しない。
この問題は現実世界のシナリオにおけるKGベースのQAの適用を厳しく制限する。
第一に、説明生成の監督として機能するマルチホップ質問の推論連鎖の注釈は、通常不足している。
第二に、説明を生成するために明示的なKGトリプルを回収する必要がある場合、高い効率を維持することは困難である。
本稿では,グラフニューラルネットワークを用いた2段階推論モデル(GNN2R)を提案する。
GNN2Rは、最終回答と推論部分グラフの両方を、質問-最終回答ペアを通して利用できる弱い監督のみを効率的に行うための根拠として提供することができる。
実験において, GNN2Rの詳細な解析を行った。
その結果、生成した説明の有効性、効率、品質の点で、GNN2Rは、この課題に適用可能な既存の最先端手法よりも優れていることが示された。
私たちのコードと事前トレーニングされたモデルは、https://github.com/ruijie-wang-uzh/gnn2rで利用可能です。 Most current methods for multi-hop question answering (QA) over knowledge graphs (KGs) only provide final conclusive answers without explanations, such as a set of KG entities that is difficult for normal users to review and comprehend. This issue severely limits the application of KG-based QA in real-world scenarios. However, it is non-trivial to solve due to two challenges: First, annotations of reasoning chains of multi-hop questions, which could serve as supervision for explanation generation, are usually lacking. Second, it is difficult to maintain high efficiency when explicit KG triples need to be retrieved to generate explanations. In this paper, we propose a novel Graph Neural Network-based Two-Step Reasoning model (GNN2R) to solve this issue. GNN2R can provide both final answers and reasoning subgraphs as a rationale behind final answers efficiently with only weak supervision that is available through question-final answer pairs. We extensively evaluated GNN2R with detailed analyses in experiments. The results demonstrate that, in terms of effectiveness, efficiency, and quality of generated explanations, GNN2R outperforms existing state-of-the-art methods that are applicable to this task. Our code and pre-trained models are available at https://github.com/ruijie-wang-uzh/GNN2R. | 翻訳日:2024-01-23 19:50:36 公開日:2024-01-20 |
# MR-GSM8K:大規模言語モデル評価におけるメタ推論革命 MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation ( http://arxiv.org/abs/2312.17080v2 ) ライセンス: Link先を確認 | Zhongshen Zeng, Pengguang Chen, Shu Liu, Haiyun Jiang, Jiaya Jia | (参考訳) 本稿では,メタ推論への取り組みに挑戦する,大規模言語モデルのための新しい評価パラダイムを提案する。
このアプローチは、従来のエージェントの認知能力を評価するために使用される既存の数学問題解決ベンチマークの重大な欠点に対処する。
我々のパラダイムは、しばしば推論プロセスを見落としている結果指向の評価から、モデル間の認知能力を効果的に区別するより包括的な評価へと焦点を移します。
例えば、我々のベンチマークでは、GPT-4はGPT3-5の5倍の性能を示している。
この新しいパラダイムの意義は、GSM8Kのような現在のベンチマークが、その飽和と様々な推論能力の効果的な分化の欠如のため、LLMの潜在的な認知的欠陥を明らかにする能力にある。
当社の包括的な分析には、オープンソースコミュニティとクローズドソースコミュニティの両方の最先端の数学モデルが含まれており、トレーニングと評価アプローチの根本的な欠陥を明らかにしています。
本稿では,LLMの評価におけるパラダイムシフトを提唱するだけでなく,AI(Artificial General Intelligence, AGI)の軌道に関する議論にも貢献する。
メタ推論評価手法の採用を促進することで,LLMの真の認知能力をより正確に評価することを目指している。 In this work, we introduce a novel evaluation paradigm for Large Language Models, one that challenges them to engage in meta-reasoning. This approach addresses critical shortcomings in existing math problem-solving benchmarks, traditionally used to evaluate the cognitive capabilities of agents. Our paradigm shifts the focus from result-oriented assessments, which often overlook the reasoning process, to a more holistic evaluation that effectively differentiates the cognitive capabilities among models. For example, in our benchmark, GPT-4 demonstrates a performance five times better than GPT3-5. The significance of this new paradigm lies in its ability to reveal potential cognitive deficiencies in LLMs that current benchmarks, such as GSM8K, fail to uncover due to their saturation and lack of effective differentiation among varying reasoning abilities. Our comprehensive analysis includes several state-of-the-art math models from both open-source and closed-source communities, uncovering fundamental deficiencies in their training and evaluation approaches. This paper not only advocates for a paradigm shift in the assessment of LLMs but also contributes to the ongoing discourse on the trajectory towards Artificial General Intelligence (AGI). By promoting the adoption of meta-reasoning evaluation methods similar to ours, we aim to facilitate a more accurate assessment of the true cognitive abilities of LLMs. | 翻訳日:2024-01-23 19:43:34 公開日:2024-01-20 |
# 自動対話評価器としての大規模言語モデルの有効性に関する包括的分析 A Comprehensive Analysis of the Effectiveness of Large Language Models as Automatic Dialogue Evaluators ( http://arxiv.org/abs/2312.15407v2 ) ライセンス: Link先を確認 | Chen Zhang, Luis Fernando D'Haro, Yiming Chen, Malu Zhang, Haizhou Li | (参考訳) 自動評価は対話システム研究の不可欠な側面である。
従来の基準ベースのNLGメトリクスは、一般的に対話評価には適さない。
その結果、最近の研究では、人間の評価によく適合する様々なユニークな基準のない神経メトリクスが示唆されている。
特に大きな言語モデル(LLM)、特にChatGPTのような命令調整型は、人間の裁判官にとって有望な代用であることが示されている。
しかし, メタ評価データセットの数, 評価モード, LLMのカバレッジなどの観点から, LLMを自動対話評価に活用する作業は, 範囲内で限定されている。
したがって、これらのLSMがどれほど効果的かは決定的ではない。
この目的のために,自動対話評価におけるLLMの適用に関する総合的研究を行った。
具体的には,最近出現した30個のLCMの多次元評価能力を,12個のメタ評価データセットを用いて解析する。
さらに,旋回と対話の両レベルで様々な対向摂動を扱う上で,LLMの頑健性について検討する。
最後に,モデルレベルおよび次元レベルのアンサンブルが評価性能に与える影響について検討する。
すべてのリソースはhttps://github.com/e0397123/comp-analysisで入手できる。 Automatic evaluation is an integral aspect of dialogue system research. The traditional reference-based NLG metrics are generally found to be unsuitable for dialogue assessment. Consequently, recent studies have suggested various unique, reference-free neural metrics that better align with human evaluations. Notably among them, large language models (LLMs), particularly the instruction-tuned variants like ChatGPT, are shown to be promising substitutes for human judges. Yet, existing works on utilizing LLMs for automatic dialogue evaluation are limited in their scope in terms of the number of meta-evaluation datasets, mode of evaluation, coverage of LLMs, etc. Hence, it remains inconclusive how effective these LLMs are. To this end, we conduct a comprehensive study on the application of LLMs for automatic dialogue evaluation. Specifically, we analyze the multi-dimensional evaluation capability of 30 recently emerged LLMs at both turn and dialogue levels, using a comprehensive set of 12 meta-evaluation datasets. Additionally, we probe the robustness of the LLMs in handling various adversarial perturbations at both turn and dialogue levels. Finally, we explore how model-level and dimension-level ensembles impact the evaluation performance. All resources are available at https://github.com/e0397123/comp-analysis. | 翻訳日:2024-01-23 19:41:33 公開日:2024-01-20 |
# プロトタイピングAGIのためのユニバーサル知識モデルと認知アーキテクチャ A Universal Knowledge Model and Cognitive Architecture for Prototyping AGI ( http://arxiv.org/abs/2401.06256v2 ) ライセンス: Link先を確認 | Artem Sukhobokov, Evgeny Belousov, Danila Gromozdov, Anna Zenger and Ilya Popov | (参考訳) この記事では、一般人工知能(AGI)を作成するための42の認知アーキテクチャを特定し、AGIに近づくエージェントが持つべき機能ブロックのセットを提案する。
既存のアーキテクチャのどれにも要求されるブロックセットは見つからないため、この記事では、AGIに近づいたインテリジェントシステムのための新しい認知アーキテクチャを提案する。
As one of the key solutions within the framework of the architecture, a universal method of knowledge representation is proposed, which allows combining various non-formalized, partially and fully formalized methods of knowledge representation in a single knowledge base, such as texts in natural languages, images, audio and video recordings, graphs, algorithms, databases, neural networks, knowledge graphs, ontologies, frames, essence-property-relation models, production systems, predicate calculus models, conceptual models, and others.
様々な知識の断片を組み合わせ、構成するために、注釈付きメタグラフの開発のために構築されたアーキグラフモデルを使用する。
開発中の認知アーキテクチャは、機械意識、機械意識、外部環境との相互作用ブロック、ゴール管理ブロック、感情制御システム、社会的相互作用ブロック、リフレクションブロック、倫理ブロック、ワールドビューブロック、学習ブロック、モニタリングブロック、ステートメントと問題解決ブロック、自己組織化とメタ学習ブロックを含む。 The article identified 42 cognitive architectures for creating general artificial intelligence (AGI) and proposed a set of interrelated functional blocks that an agent approaching AGI in its capabilities should possess. Since the required set of blocks is not found in any of the existing architectures, the article proposes a new cognitive architecture for intelligent systems approaching AGI in their capabilities. As one of the key solutions within the framework of the architecture, a universal method of knowledge representation is proposed, which allows combining various non-formalized, partially and fully formalized methods of knowledge representation in a single knowledge base, such as texts in natural languages, images, audio and video recordings, graphs, algorithms, databases, neural networks, knowledge graphs, ontologies, frames, essence-property-relation models, production systems, predicate calculus models, conceptual models, and others. To combine and structure various fragments of knowledge, archigraph models are used, constructed as a development of annotated metagraphs. As components, the cognitive architecture being developed includes machine consciousness, machine subconsciousness, blocks of interaction with the external environment, a goal management block, an emotional control system, a block of social interaction, a block of reflection, an ethics block and a worldview block, a learning block, a monitoring block, blocks of statement and solving problems, self-organization and meta learning block. | 翻訳日:2024-01-23 19:32:16 公開日:2024-01-20 |
# 大規模言語モデルの普遍的脆弱性: コンテキスト内学習バックドア攻撃 Universal Vulnerabilities in Large Language Models: In-context Learning Backdoor Attacks ( http://arxiv.org/abs/2401.05949v3 ) ライセンス: Link先を確認 | Shuai Zhao, Meihuizi Jia, Luu Anh Tuan, Jinming Wen | (参考訳) In-context Learningは、事前学習と微調整のギャップを埋めるパラダイムであり、いくつかのNLPタスク、特に数ショット設定において高い有効性を示している。
従来の微調整法とは異なり、コンテキスト内学習はパラメータを更新することなく、トレーニング済みのモデルを未確認のタスクに適応させる。
広く適用されているにもかかわらず、コンテキスト内学習は悪意のある攻撃に対して脆弱である。
本研究では,このパラダイムに関するセキュリティ上の懸念を提起する。
本研究は,攻撃者がモデルを微調整することなく,デモンストレーションコンテキストを汚染することにより,大規模言語モデルの動作を操作できることを実証する。
具体的には,テキスト内学習に基づく大規模言語モデルを対象とした新たなバックドア攻撃手法ICLAttackを設計した。
本手法は2種類の攻撃を包含する: 毒殺実証例と毒殺プロンプトであり, 事前定義された意図に従ってモデルが振る舞うことができる。
ICLAttackは、バックドアを埋め込むために追加の微調整を必要としないため、モデルの一般性を保っている。
さらに, 毒性例を正しくラベル付けし, 攻撃方法の自然なステルス性を高めた。
1.3bパラメーターから40bパラメーターの範囲の言語モデルにおける広範囲な実験結果から,オプティモデル上の3つのデータセットに対して,平均攻撃成功率95.0%を例に,攻撃手法の有効性を示す。
我々の研究は言語モデルの脆弱性を浮き彫りにしており、この研究がコンテキスト内学習に関連するセキュリティ脅威の認識を高めることを願っている。 In-context learning, a paradigm bridging the gap between pre-training and fine-tuning, has demonstrated high efficacy in several NLP tasks, especially in few-shot settings. Unlike traditional fine-tuning methods, in-context learning adapts pre-trained models to unseen tasks without updating any parameters. Despite being widely applied, in-context learning is vulnerable to malicious attacks. In this work, we raise security concerns regarding this paradigm. Our studies demonstrate that an attacker can manipulate the behavior of large language models by poisoning the demonstration context, without the need for fine-tuning the model. Specifically, we have designed a new backdoor attack method, named ICLAttack, to target large language models based on in-context learning. Our method encompasses two types of attacks: poisoning demonstration examples and poisoning prompts, which can make models behave in accordance with predefined intentions. ICLAttack does not require additional fine-tuning to implant a backdoor, thus preserving the model's generality. Furthermore, the poisoned examples are correctly labeled, enhancing the natural stealth of our attack method. Extensive experimental results across several language models, ranging in size from 1.3B to 40B parameters, demonstrate the effectiveness of our attack method, exemplified by a high average attack success rate of 95.0% across the three datasets on OPT models. Our findings highlight the vulnerabilities of language models, and we hope this work will raise awareness of the possible security threats associated with in-context learning. | 翻訳日:2024-01-23 19:31:34 公開日:2024-01-20 |
# 推論ステップ長が大規模言語モデルに及ぼす影響 The Impact of Reasoning Step Length on Large Language Models ( http://arxiv.org/abs/2401.04925v3 ) ライセンス: Link先を確認 | Mingyu Jin, Qinkai Yu, Dong Shu, Haiyan Zhao, Wenyue Hua, Yanda Meng, Yongfeng Zhang, Mengnan Du | (参考訳) 思考の連鎖(CoT)は、大きな言語モデル(LLM)の推論能力を改善する上で重要である。
しかし, プロンプトにおけるCoTの有効性と推論ステップの長さの相関はよく分かっていない。
これを明らかにするため、我々はいくつかの実験を行い、関係を探究した。
具体的には,他のすべての因子を一定に保ちながら,cot実験における合理的推論ステップを拡張し,圧縮する実験をデザインする。
主な発見は以下のとおりである。
まず,プロンプトに新たな情報を追加することなく,プロンプトにおける推論ステップを延長することで,複数のデータセットにわたるllmsの推論能力が大幅に向上することを示す。
あるいは、キー情報を保存しながらも推論ステップを短縮することは、モデルの推論能力を著しく低下させる。
この発見は、CoTプロンプトにおけるステップ数の重要性を強調し、複雑な問題解決シナリオにおけるLLMのポテンシャルをよりよく活用するための実践的なガイダンスを提供する。
次に,CoTの性能と実演における有理性との関係について検討した。
驚くべきことに、不正確な合理性であっても、推論の必要な長さを維持すると良い結果が得られる。
第三に、より単純なタスクはより少ないステップを必要とするのに対して、複雑なタスクはより長い推論シーケンスから著しく向上する。 Chain of Thought (CoT) is significant in improving the reasoning abilities of large language models (LLMs). However, the correlation between the effectiveness of CoT and the length of reasoning steps in prompts remains largely unknown. To shed light on this, we have conducted several empirical experiments to explore the relations. Specifically, we design experiments that expand and compress the rationale reasoning steps within CoT demonstrations, while keeping all other factors constant. We have the following key findings. First, the results indicate that lengthening the reasoning steps in prompts, even without adding new information into the prompt, considerably enhances LLMs' reasoning abilities across multiple datasets. Alternatively, shortening the reasoning steps, even while preserving the key information, significantly diminishes the reasoning abilities of models. This finding highlights the importance of the number of steps in CoT prompts and provides practical guidance to make better use of LLMs' potential in complex problem-solving scenarios. Second, we also investigated the relationship between the performance of CoT and the rationales used in demonstrations. Surprisingly, the result shows that even incorrect rationales can yield favorable outcomes if they maintain the requisite length of inference. Third, we observed that the advantages of increasing reasoning steps are task-dependent: simpler tasks require fewer steps, whereas complex tasks gain significantly from longer inference sequences. | 翻訳日:2024-01-23 19:31:09 公開日:2024-01-20 |
# 進化する社会規範におけるエージェントアライメント Agent Alignment in Evolving Social Norms ( http://arxiv.org/abs/2401.04620v3 ) ライセンス: Link先を確認 | Shimin Li, Tianxiang Sun, Xipeng Qiu | (参考訳) 大規模言語モデル(LLM)に基づくエージェントは、人間の生産と生活の様々な領域に浸透し、それらを人間の価値と整合させることの重要性を強調している。
AIシステムの現在のアライメントは主に、人間の介入によるLLMの受動的アライメントに焦点を当てている。
しかし, エージェントには環境フィードバックや自己進化といった特性があり, LLMアライメント手法が不十分である。
そこで,我々は,エージェントアライメントを適応テストの生存原理の下で進化と選択のプロセスに変換する進化エージェントという,エージェントの進化とアライメントのための進化フレームワークを提案する。
社会規範が継続的に進化し続ける環境では、現在の社会規範に適合するエージェントは生存と増殖の確率が高くなり、一方で不適切な調整は時間とともに減少する。
社会的規範と整合する多面的な視点からエージェントを評価する実験結果から,進化的エージェントは社会的規範の発達に順応しつつ,その能力を維持しつつ,進化的エージェントが順応することを示す。
各種オープン・クローズド・ソース LLM をエージェントの基礎として実施した有効性試験も,本手法の適用性を実証した。 Agents based on Large Language Models (LLMs) are increasingly permeating various domains of human production and life, highlighting the importance of aligning them with human values. The current alignment of AI systems primarily focuses on passively aligning LLMs through human intervention. However, agents possess characteristics like receiving environmental feedback and self-evolution, rendering the LLM alignment methods inadequate. In response, we propose an evolutionary framework for agent evolution and alignment, named EvolutionaryAgent, which transforms agent alignment into a process of evolution and selection under the principle of survival of the fittest. In an environment where social norms continuously evolve, agents better adapted to the current social norms will have a higher probability of survival and proliferation, while those inadequately aligned dwindle over time. Experimental results assessing the agents from multiple perspectives in aligning with social norms demonstrate that EvolutionaryAgent can align progressively better with the evolving social norms while maintaining its proficiency in general tasks. Effectiveness tests conducted on various open and closed-source LLMs as the foundation for agents also prove the applicability of our approach. | 翻訳日:2024-01-23 19:29:49 公開日:2024-01-20 |
# 政策強化探索による非定常環境における意思決定 Decision Making in Non-Stationary Environments with Policy-Augmented Search ( http://arxiv.org/abs/2401.03197v2 ) ライセンス: Link先を確認 | Ava Pettet, Yunuo Zhang, Baiting Luo, Kyle Wray, Hendrik Baier, Aron Laszka, Abhishek Dubey, Ayan Mukhopadhyay | (参考訳) 不確実性の下での逐次意思決定は多くの重要な問題に存在している。
このような問題に取り組むための一般的なアプローチは、強化学習とオンライン検索(モンテカルロ木探索など)である。
前者は環境(通常は実行前に行われる)と相互作用してポリシーを学ぶが、後者は環境の生成モデルを使用して、決定時に有望な行動軌跡をサンプリングする。
意思決定は、エージェントが動作する環境が時間とともに変化する非定常環境において特に困難である。
一方、環境が変化して再学習が時間と計算量の両方を必要とすると、実行前に学習されたポリシーは停滞する。
一方、オンライン検索は、許可されたランタイムに制限がある場合、最適化されたアクションを返すことができる。
本稿では,従来の政策からの行動価値推定と,環境の最新のモデルを用いたオンライン検索を併用した<textit{Policy-Augmented Monte Carlo tree search} (PA-MCTS)を紹介する。
PA-MCTSが1ステップの最適動作を選択し、PA-MCTSをポリシーとして追従しながら発生した誤差を拘束する条件を示す理論的結果を示す。
別のハイブリッドプランニングアプローチであるAlphaZeroや、OpenAI Gym環境でのDeep Q Learningと比較し、対比します。
実験により,時間制約が制限された非定常条件下では,PA-MCTSはこれらのベースラインよりも優れていた。 Sequential decision-making under uncertainty is present in many important problems. Two popular approaches for tackling such problems are reinforcement learning and online search (e.g., Monte Carlo tree search). While the former learns a policy by interacting with the environment (typically done before execution), the latter uses a generative model of the environment to sample promising action trajectories at decision time. Decision-making is particularly challenging in non-stationary environments, where the environment in which an agent operates can change over time. Both approaches have shortcomings in such settings -- on the one hand, policies learned before execution become stale when the environment changes and relearning takes both time and computational effort. Online search, on the other hand, can return sub-optimal actions when there are limitations on allowed runtime. In this paper, we introduce \textit{Policy-Augmented Monte Carlo tree search} (PA-MCTS), which combines action-value estimates from an out-of-date policy with an online search using an up-to-date model of the environment. We prove theoretical results showing conditions under which PA-MCTS selects the one-step optimal action and also bound the error accrued while following PA-MCTS as a policy. We compare and contrast our approach with AlphaZero, another hybrid planning approach, and Deep Q Learning on several OpenAI Gym environments. Through extensive experiments, we show that under non-stationary settings with limited time constraints, PA-MCTS outperforms these baselines. | 翻訳日:2024-01-23 19:28:57 公開日:2024-01-20 |
# dhgcn: 自己教師付きポイントクラウド学習のための動的ホップグラフ畳み込みネットワーク DHGCN: Dynamic Hop Graph Convolution Network for Self-Supervised Point Cloud Learning ( http://arxiv.org/abs/2401.02610v2 ) ライセンス: Link先を確認 | Jincen Jiang, Lizhi Zhao, Xuequan Lu, Wei Hu, Imran Razzak, Meili Wang | (参考訳) 最近の研究は、グラフ畳み込みネットワーク(gcns)を、分類とセグメンテーションタスクのためのポイントクラウドに拡張しようと試みている。
これらの作業は、より小さな点集合を局所的に作成し、主に点集合間の関係を無視しながらGCNを通して局所的な特徴を抽出することに焦点を当てる。
本稿では,グラフノードとして扱われるボクセル化点部分間の文脈関係を明示的に学習するための動的ホップグラフ畳み込みネットワーク(dhgcn)を提案する。
グラフのホップ距離を定量的に表現できる対側隣接関係に点部間の文脈情報が存在するという直観性に動機づけられ,新しい自己教師付き部分ホップ距離再構成タスクを考案し,新しい損失関数の設計を行い,学習を容易にする。
さらに,学習したホップ距離を重み付けの入力として用いたホップグラフ注意(HGA)を提案する。
最終的に提案されたDHGCNは、ポイントベースのバックボーンネットワークと互換性のあるプラグアンドプレイモジュールである。
異なるバックボーンとタスクに関する総合的な実験は、我々の自己管理手法が最先端のパフォーマンスを達成することを示す。
ソースコードはhttps://github.com/jinec98/dhgcn。 Recent works attempt to extend Graph Convolution Networks (GCNs) to point clouds for classification and segmentation tasks. These works tend to sample and group points to create smaller point sets locally and mainly focus on extracting local features through GCNs, while ignoring the relationship between point sets. In this paper, we propose the Dynamic Hop Graph Convolution Network (DHGCN) for explicitly learning the contextual relationships between the voxelized point parts, which are treated as graph nodes. Motivated by the intuition that the contextual information between point parts lies in the pairwise adjacent relationship, which can be depicted by the hop distance of the graph quantitatively, we devise a novel self-supervised part-level hop distance reconstruction task and design a novel loss function accordingly to facilitate training. In addition, we propose the Hop Graph Attention (HGA), which takes the learned hop distance as input for producing attention weights to allow edge features to contribute distinctively in aggregation. Eventually, the proposed DHGCN is a plug-and-play module that is compatible with point-based backbone networks. Comprehensive experiments on different backbones and tasks demonstrate that our self-supervised method achieves state-of-the-art performance. Our source code is available at: https://github.com/Jinec98/DHGCN. | 翻訳日:2024-01-23 19:28:28 公開日:2024-01-20 |
# 自動計画・スケジューリング(APS)における大規模言語モデル(LLM)の導入の展望 On the Prospects of Incorporating Large Language Models (LLMs) in Automated Planning and Scheduling (APS) ( http://arxiv.org/abs/2401.02500v2 ) ライセンス: Link先を確認 | Vishal Pallagani, Kaushik Roy, Bharath Muppasani, Francesco Fabiano, Andrea Loreggia, Keerthiram Murugesan, Biplav Srivastava, Francesca Rossi, Lior Horesh, Amit Sheth | (参考訳) 自動計画とスケジューリングは、LLMの記述が人気を博している人工知能(AI)の領域の1つである。
本稿では,言語翻訳,計画生成,モデル構築,マルチエージェント計画,インタラクティブ計画,ヒューリスティックス最適化,ツール統合,脳に触発された計画など,計画問題のさまざまな側面にLLMを応用した8つのカテゴリについて検討する。
各カテゴリについて、検討された問題と既存のギャップを明確にする。
我々のレビューから得られた重要な洞察は、LLMの真の可能性は、従来の象徴的プランナーと統合されたときに広がり、有望なニューロシンボリックアプローチに向けられるということである。
このアプローチは、LLMの生成側面と古典的計画手法の精度を効果的に組み合わせる。
既存の文献から洞察を合成することにより、複雑な計画課題に対処するためにこの統合の可能性を明確にする。
我々のゴールは、ICAPSコミュニティがLLMとシンボリックプランナーの補完的な強みを認識し、これらの相乗的能力を活用してより高度でインテリジェントな計画システムを開発するための自動計画の方向性を提唱することである。 Automated Planning and Scheduling is among the growing areas in Artificial Intelligence (AI) where mention of LLMs has gained popularity. Based on a comprehensive review of 126 papers, this paper investigates eight categories based on the unique applications of LLMs in addressing various aspects of planning problems: language translation, plan generation, model construction, multi-agent planning, interactive planning, heuristics optimization, tool integration, and brain-inspired planning. For each category, we articulate the issues considered and existing gaps. A critical insight resulting from our review is that the true potential of LLMs unfolds when they are integrated with traditional symbolic planners, pointing towards a promising neuro-symbolic approach. This approach effectively combines the generative aspects of LLMs with the precision of classical planning methods. By synthesizing insights from existing literature, we underline the potential of this integration to address complex planning challenges. Our goal is to encourage the ICAPS community to recognize the complementary strengths of LLMs and symbolic planners, advocating for a direction in automated planning that leverages these synergistic capabilities to develop more advanced and intelligent planning systems. | 翻訳日:2024-01-23 19:28:05 公開日:2024-01-20 |
# Real3D-Portrait:ワンショットリアルな3Dトーキング・ポートレート合成 Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis ( http://arxiv.org/abs/2401.08503v2 ) ライセンス: Link先を確認 | Zhenhui Ye, Tianyun Zhong, Yi Ren, Jiaqi Yang, Weichuang Li, Jiawei Huang, Ziyue Jiang, Jinzheng He, Rongjie Huang, Jinglin Liu, Chen Zhang, Xiang Yin, Zejun Ma, Zhou Zhao | (参考訳) ワンショットの3Dトーキングポートレート生成は、見えない画像から3Dアバターを再構成し、レファレンスビデオまたはオーディオでアニメーション化し、トーキングポートレートビデオを生成する。
既存の手法では、正確な3dアバター再構成と安定した話し顔アニメーションの目標を同時に達成できない。
また、既存の作品は主に頭部の合成に重点を置いているが、自然の胴体や背景部分を生成してリアルな話し声のポートレートビデオを得ることも重要である。
To address these limitations, we present Real3D-Potrait, a framework that (1) improves the one-shot 3D reconstruction power with a large image-to-plane model that distills 3D prior knowledge from a 3D face generative model; (2) facilitates accurate motion-conditioned animation with an efficient motion adapter; (3) synthesizes realistic video with natural torso movement and switchable background using a head-torso-background super-resolution model; and (4) supports one-shot audio-driven talking face generation with a generalizable audio-to-motion model.
広汎な実験により、Real3D-Portraitは未確認の身元を一般化し、従来の方法と比較してよりリアルな音声肖像画を生成する。
ビデオサンプルとソースコードはhttps://real3dportrait.github.ioで入手できる。 One-shot 3D talking portrait generation aims to reconstruct a 3D avatar from an unseen image, and then animate it with a reference video or audio to generate a talking portrait video. The existing methods fail to simultaneously achieve the goals of accurate 3D avatar reconstruction and stable talking face animation. Besides, while the existing works mainly focus on synthesizing the head part, it is also vital to generate natural torso and background segments to obtain a realistic talking portrait video. To address these limitations, we present Real3D-Potrait, a framework that (1) improves the one-shot 3D reconstruction power with a large image-to-plane model that distills 3D prior knowledge from a 3D face generative model; (2) facilitates accurate motion-conditioned animation with an efficient motion adapter; (3) synthesizes realistic video with natural torso movement and switchable background using a head-torso-background super-resolution model; and (4) supports one-shot audio-driven talking face generation with a generalizable audio-to-motion model. Extensive experiments show that Real3D-Portrait generalizes well to unseen identities and generates more realistic talking portrait videos compared to previous methods. Video samples and source code are available at https://real3dportrait.github.io . | 翻訳日:2024-01-23 19:20:10 公開日:2024-01-20 |
# 対向多面体学習による対向攻撃に対するロバスト性 Robustness Against Adversarial Attacks via Learning Confined Adversarial Polytopes ( http://arxiv.org/abs/2401.07991v2 ) ライセンス: Link先を確認 | Shayan Mohajer Hamidi, Linfeng Ye | (参考訳) 深層ニューラルネットワーク(dnn)は、クリーンサンプルの人間が知覚できない摂動を生成することで欺くことができる。
したがって、敵攻撃に対するDNNの堅牢性を高めることが重要な課題である。
本稿では,クリーンサンプルに追加されるノルム束縛摂動によって到達可能な出力のセットを制限することで,堅牢なDNNの訓練を目指す。
この集合をadversarial polytopeと呼び、各クリーンサンプルはそれぞれのadversarial polytopeを持っている。
実際、全てのサンプルに対する各ポリトープがコンパクトで、DNNの決定境界を交わさない場合、DNNは反対のサンプルに対して堅牢である。
したがって,本アルゴリズムの内的作業は, CAP (textbf{c}onfined \textbf{a}dversarial \textbf{p}olytopes) の学習に基づいている。
実験を徹底的に実施することにより、AutoAttackを含む最先端攻撃に対するモデルの堅牢性を改善するために、既存の対向ロバスト性法よりもCAPの有効性を実証する。 Deep neural networks (DNNs) could be deceived by generating human-imperceptible perturbations of clean samples. Therefore, enhancing the robustness of DNNs against adversarial attacks is a crucial task. In this paper, we aim to train robust DNNs by limiting the set of outputs reachable via a norm-bounded perturbation added to a clean sample. We refer to this set as adversarial polytope, and each clean sample has a respective adversarial polytope. Indeed, if the respective polytopes for all the samples are compact such that they do not intersect the decision boundaries of the DNN, then the DNN is robust against adversarial samples. Hence, the inner-working of our algorithm is based on learning \textbf{c}onfined \textbf{a}dversarial \textbf{p}olytopes (CAP). By conducting a thorough set of experiments, we demonstrate the effectiveness of CAP over existing adversarial robustness methods in improving the robustness of models against state-of-the-art attacks including AutoAttack. | 翻訳日:2024-01-23 19:19:46 公開日:2024-01-20 |
# SPINによる動的知識グラフにおける時相動的アルゴリズムの実装戦略 A Strategy for Implementing description Temporal Dynamic Algorithms in Dynamic Knowledge Graphs by SPIN ( http://arxiv.org/abs/2401.07890v2 ) ライセンス: Link先を確認 | Alireza Shahbazi, Seyyed Ahmad Mirsanei, Malikeh Haj Khan Mirzaye Sarraf and Behrouz Minaei Bidgoli | (参考訳) 行動とプロセスに関する計画と推論は、命題に関する推論に加えて、近年の論理およびコンピュータ科学研究において重要な問題である。
iotやセマンティックwebサービスといった日常生活におけるアクションの広範にわたる利用と、アクション形式における制限と課題は、アクションの表現方法を研究するための2つの要因となります。
2007年以降、静的知識と動的知識の両方を表現するための記述論理(dl)と行動形式を統合するアイデアがいくつかある。
一方、時間は動的状況において重要な要素であり、アクションは時間とともに状態を変える。
本研究では,記述論理(DL)の拡張,時間的形式主義,行動形式主義などの関連する論理構造について検討した。
一方,我々はknowledge and action base (kab) を設計・開発するためのツールについて分析した。
アクションの表現と推論のために、アクションをDL(Dynamic-ALCとその拡張など)に組み込んだ。
我々は,行動予測,計画,満足度,一貫性,実現可能性,実行可能性のチェック,およびKABからのクエリのための用語可能なアルゴリズムを提案する。
このフレームワークのアクションはSPINでモデル化され、状態空間に追加された。
このフレームワークはProt\'eg\'eオントロジーエディタのプラグインとしても実装されている。
過去20年間、様々なアルゴリズムが提案されてきたが、高い計算複雑性のため、動的オントロジーの実装において多くの問題に直面している。
さらに、アクションの効果の不一致を検出するアルゴリズムは明確に述べられていない。
提案手法では,行動とモデル化知識の他の部分との相互作用,および行動の効果間の一貫性をチェックする手法を提案する。
このフレームワークでは、今後の作業で分岐問題をうまく扱うことができる。 Planning and reasoning about actions and processes, in addition to reasoning about propositions, are important issues in recent logical and computer science studies. The widespread use of actions in everyday life such as IoT, semantic web services, etc., and the limitations and issues in the action formalisms are two factors that lead us to study how actions are represented. Since 2007, there have been some ideas to integrate Description Logic (DL) and action formalisms for representing both static and dynamic knowledge. Meanwhile, time is an important factor in dynamic situations, and actions change states over time. In this study, on the one hand, we examined related logical structures such as extensions of description logics (DLs), temporal formalisms, and action formalisms. On the other hand, we analyzed possible tools for designing and developing the Knowledge and Action Base (KAB). For representation and reasoning about actions, we embedded actions into DLs (such as Dynamic-ALC and its extensions). We propose a terminable algorithm for action projection, planning, checking the satisfiability, consistency, realizability, and executability, and also querying from KAB. Actions in this framework were modeled with SPIN and added to state space. This framework has also been implemented as a plugin for the Prot\'eg\'e ontology editor. During the last two decades, various algorithms have been presented, but due to the high computational complexity, we face many problems in implementing dynamic ontologies. In addition, an algorithm to detect the inconsistency of actions' effects was not explicitly stated. In the proposed strategy, the interactions of actions with other parts of modeled knowledge, and a method to check consistency between the effects of actions are presented. With this framework, the ramification problem can be well handled in future works. | 翻訳日:2024-01-23 19:19:28 公開日:2024-01-20 |
# pomdp戦略の説明可能で優れた実行表現の学習 Learning Explainable and Better Performing Representations of POMDP Strategies ( http://arxiv.org/abs/2401.07656v2 ) ライセンス: Link先を確認 | Alexander Bork, Debraj Chakraborty, Kush Grover, Jan Kretinsky, Stefanie Mohr | (参考訳) 部分観測可能なマルコフ決定プロセス(pomdp)の戦略は通常メモリを必要とする。
このメモリを表現する方法のひとつにautomaticaがある。
本稿では,l*-algorithmの修正を用いて,戦略のオートマトン表現を学ぶ手法を提案する。
戦略の表表現と比較すると、結果として生じるオートマトンは劇的に小さくなり、説明もしやすい。
さらに、学習過程において、我々のヒューリスティックスは戦略のパフォーマンスも改善する可能性がある。
オートマトンをPOMDPから直接合成して解決するアプローチとは対照的に,我々のアプローチは比較にならないほどスケーラブルである。 Strategies for partially observable Markov decision processes (POMDP) typically require memory. One way to represent this memory is via automata. We present a method to learn an automaton representation of a strategy using a modification of the L*-algorithm. Compared to the tabular representation of a strategy, the resulting automaton is dramatically smaller and thus also more explainable. Moreover, in the learning process, our heuristics may even improve the strategy's performance. In contrast to approaches that synthesize an automaton directly from the POMDP thereby solving it, our approach is incomparably more scalable. | 翻訳日:2024-01-23 19:19:01 公開日:2024-01-20 |
# ChatGPT for Biology and Medicine: a Complete Review of Biomedical Question Answering Developing ChatGPT for Biology and Medicine: A Complete Review of Biomedical Question Answering ( http://arxiv.org/abs/2401.07510v3 ) ライセンス: Link先を確認 | Qing Li, Lei Li, Yu Li | (参考訳) ChatGPTは、医療診断、治療レコメンデーション、その他の医療支援の提供において、QA(QA)の戦略的青写真を探っている。
これは、自然言語処理(NLP)とマルチモーダルパラダイムによる医療領域データの取り込みの増加によって達成される。
テキスト,画像,ビデオ,その他のモダリティの分布を一般ドメインから医療ドメインに移行することにより,これらの手法は医療ドメイン質問応答(MDQA)の進展を早めた。
人間の自然言語と高度な医学領域知識や専門家の手動アノテーションの間のギャップを橋渡しし、大規模で多様で、バランスのとれない、あるいはラベルのないデータ分析シナリオを医療現場で扱う。
本研究の焦点は, 言語モデルとマルチモーダルパラダイムを医療質問応答に活用することであり, 特定の医学研究要求に対して適切なメカニズムを選択することを目的としている。
視覚的質問応答,イメージキャプション,クロスモーダル検索,レポート要約,生成といったマルチモーダル関連タスクだけでなく,一助詞関連質問応答,読解理解,推論,診断,関係抽出,確率モデリングなどの特殊タスクについても詳細に論じる。
各セクションは、考慮中の各メソッドの複雑な仕様に分解する。
本稿では,一般的なドメインメソッドに対する医学領域探索の構造と進歩について述べ,さまざまなタスクやデータセットにまたがってその応用を強調する。
また、今後の医学領域研究の課題と機会を概説し、この急速に発展する分野における継続的なイノベーションと応用への道を開く。 ChatGPT explores a strategic blueprint of question answering (QA) in delivering medical diagnosis, treatment recommendations, and other healthcare support. This is achieved through the increasing incorporation of medical domain data via natural language processing (NLP) and multimodal paradigms. By transitioning the distribution of text, images, videos, and other modalities from the general domain to the medical domain, these techniques have expedited the progress of medical domain question answering (MDQA). They bridge the gap between human natural language and sophisticated medical domain knowledge or expert manual annotations, handling large-scale, diverse, unbalanced, or even unlabeled data analysis scenarios in medical contexts. Central to our focus is the utilizing of language models and multimodal paradigms for medical question answering, aiming to guide the research community in selecting appropriate mechanisms for their specific medical research requirements. Specialized tasks such as unimodal-related question answering, reading comprehension, reasoning, diagnosis, relation extraction, probability modeling, and others, as well as multimodal-related tasks like vision question answering, image caption, cross-modal retrieval, report summarization, and generation, are discussed in detail. Each section delves into the intricate specifics of the respective method under consideration. This paper highlights the structures and advancements of medical domain explorations against general domain methods, emphasizing their applications across different tasks and datasets. It also outlines current challenges and opportunities for future medical domain research, paving the way for continued innovation and application in this rapidly evolving field. | 翻訳日:2024-01-23 19:18:53 公開日:2024-01-20 |
# 多段拡散モデルを用いた階層型ファッションデザイン Hierarchical Fashion Design with Multi-stage Diffusion Models ( http://arxiv.org/abs/2401.07450v3 ) ライセンス: Link先を確認 | Zhifeng Xie, Hao Li, Huiming Ding, Mengtian Li, Ying Cao | (参考訳) Cross-modal fashion synthesis and editing offer intelligent support to fashion designers by enabling the automatic generation and local modification of design drafts.While current diffusion models demonstrate commendable stability and controllability in image synthesis,they still face significant challenges in generating fashion design from abstract design elements and fine-grained editing.Abstract sensory expressions, \eg office, business, and party, form the high-level design concepts, while measurable aspects like sleeve length, collar type, and pant length are considered the low-level attributes of clothing.Controlling and editing fashion images using lengthy text descriptions poses a difficulty.In this paper, we propose HieraFashDiff,a novel fashion design method using the shared multi-stage diffusion model encompassing high-level design concepts and low-level clothing attributes in a hierarchical structure.Specifically, we categorized the input text into different levels and fed them in different time step to the diffusion model according to the criteria of professional clothing designers.HieraFashDiff allows designers to add low-level attributes after high-level prompts for interactive editing incrementally.In addition, we design a differentiable loss function in the sampling process with a mask to keep non-edit areas.Comprehensive experiments performed on our newly conducted Hierarchical fashion dataset,demonstrate that our proposed method outperforms other state-of-the-art competitors. Cross-modal fashion synthesis and editing offer intelligent support to fashion designers by enabling the automatic generation and local modification of design drafts.While current diffusion models demonstrate commendable stability and controllability in image synthesis,they still face significant challenges in generating fashion design from abstract design elements and fine-grained editing.Abstract sensory expressions, \eg office, business, and party, form the high-level design concepts, while measurable aspects like sleeve length, collar type, and pant length are considered the low-level attributes of clothing.Controlling and editing fashion images using lengthy text descriptions poses a difficulty.In this paper, we propose HieraFashDiff,a novel fashion design method using the shared multi-stage diffusion model encompassing high-level design concepts and low-level clothing attributes in a hierarchical structure.Specifically, we categorized the input text into different levels and fed them in different time step to the diffusion model according to the criteria of professional clothing designers.HieraFashDiff allows designers to add low-level attributes after high-level prompts for interactive editing incrementally.In addition, we design a differentiable loss function in the sampling process with a mask to keep non-edit areas.Comprehensive experiments performed on our newly conducted Hierarchical fashion dataset,demonstrate that our proposed method outperforms other state-of-the-art competitors. | 翻訳日:2024-01-23 19:18:25 公開日:2024-01-20 |
# 最近傍探索に基づく地球モーバー距離の効率的な近似 Efficient approximation of Earth Mover's Distance Based on Nearest Neighbor Search ( http://arxiv.org/abs/2401.07378v2 ) ライセンス: Link先を確認 | Guangyu Meng, Ruyu Zhou, Liu Liu, Peixian Liang, Fang Liu, Danny Chen, Michael Niemier, X.Sharon Hu | (参考訳) Earth Mover's Distance (EMD) は、2つの分布間の重要な類似度尺度であり、コンピュータビジョンやその他の多くのアプリケーションドメインで使用される。
しかし、その正確な計算は計算量とメモリ集約性であり、大規模問題に対するスケーラビリティと適用性を妨げる。
計算コストを削減するために様々な近似EMDアルゴリズムが提案されているが、精度が低下し、追加のメモリ使用量や手動パラメータチューニングが必要になる可能性がある。
本稿では,NNS-EMDという新しい手法を用いて,近縁探索(NNS)を用いてEMDを近似し,高い精度,低時間複雑度,高メモリ効率を実現する。
NNS操作は、NNSイテレーション毎のデータポイント数を削減し、並列処理の機会を提供する。
我々はさらに、大規模なデータセットに特に有益であるGPU上のベクトル化により、NS-EMDを加速する。
我々は,NNS-EMDを画像分類および検索タスクにおける正確なEMDアルゴリズムと最先端の近似EMDアルゴリズムを比較した。
また、NNS-EMDを用いてトランスポートマッピングを計算し、画像間の色移動を実現する。
NNS-EMDは、正確なEMD実装よりも44倍から135倍高速で、既存の近似EMD法よりも精度、スピードアップ、メモリ効率が優れている。 Earth Mover's Distance (EMD) is an important similarity measure between two distributions, used in computer vision and many other application domains. However, its exact calculation is computationally and memory intensive, which hinders its scalability and applicability for large-scale problems. Various approximate EMD algorithms have been proposed to reduce computational costs, but they suffer lower accuracy and may require additional memory usage or manual parameter tuning. In this paper, we present a novel approach, NNS-EMD, to approximate EMD using Nearest Neighbor Search (NNS), in order to achieve high accuracy, low time complexity, and high memory efficiency. The NNS operation reduces the number of data points compared in each NNS iteration and offers opportunities for parallel processing. We further accelerate NNS-EMD via vectorization on GPU, which is especially beneficial for large datasets. We compare NNS-EMD with both the exact EMD and state-of-the-art approximate EMD algorithms on image classification and retrieval tasks. We also apply NNS-EMD to calculate transport mapping and realize color transfer between images. NNS-EMD can be 44x to 135x faster than the exact EMD implementation, and achieves superior accuracy, speedup, and memory efficiency over existing approximate EMD methods. | 翻訳日:2024-01-23 19:17:44 公開日:2024-01-20 |
# 機能レベル脆弱性検出器の手続き間脆弱性に対する有効性について On the Effectiveness of Function-Level Vulnerability Detectors for Inter-Procedural Vulnerabilities ( http://arxiv.org/abs/2401.09767v2 ) ライセンス: Link先を確認 | Zhen Li, Ning Wang, Deqing Zou, Yating Li, Ruqian Zhang, Shouhuai Xu, Chao Zhang, Hai Jin | (参考訳) ソフトウェアの脆弱性は大きなサイバー脅威であり、それらを検出することが重要である。
脆弱性を検出するための重要なアプローチの1つは、プログラム機能全体を処理しながらディープラーニングを使用することである。
しかし、このアプローチの限界は理解されていない。
本稿では,プロセス間脆弱性(inter-procedural vulnerabilities)として知られる1種類の脆弱性を検出する際の限界について検討する。
この目的のために,c/c++オープンソースソフトウェアに基づく最初のプロセス間脆弱性データセット(interpvd)を作成し,vultriggerと呼ばれる関数間の脆弱性トリガーステートメントを識別するツールを提案する。
実験の結果、VulTriggerは脆弱性トリガステートメントとプロセス間脆弱性を効果的に識別できることがわかった。
私たちの発見には
(i)プロセス間脆弱性は、平均2.8層のプロセス間脆弱性と共用する。
(ii) 機能レベルの脆弱性検出装置は,手続き内脆弱性を検知するよりも,プロセス間脆弱性のパッチ対象の機能検出に効果が低い。 Software vulnerabilities are a major cyber threat and it is important to detect them. One important approach to detecting vulnerabilities is to use deep learning while treating a program function as a whole, known as function-level vulnerability detectors. However, the limitation of this approach is not understood. In this paper, we investigate its limitation in detecting one class of vulnerabilities known as inter-procedural vulnerabilities, where the to-be-patched statements and the vulnerability-triggering statements belong to different functions. For this purpose, we create the first Inter-Procedural Vulnerability Dataset (InterPVD) based on C/C++ open-source software, and we propose a tool dubbed VulTrigger for identifying vulnerability-triggering statements across functions. Experimental results show that VulTrigger can effectively identify vulnerability-triggering statements and inter-procedural vulnerabilities. Our findings include: (i) inter-procedural vulnerabilities are prevalent with an average of 2.8 inter-procedural layers; and (ii) function-level vulnerability detectors are much less effective in detecting to-be-patched functions of inter-procedural vulnerabilities than detecting their counterparts of intra-procedural vulnerabilities. | 翻訳日:2024-01-23 19:08:21 公開日:2024-01-20 |
# 機械は色を見る:大きなコーパスで異なる形の人種差別的言論を分類するためのガイドライン Machines Do See Color: A Guideline to Classify Different Forms of Racist Discourse in Large Corpora ( http://arxiv.org/abs/2401.09333v2 ) ライセンス: Link先を確認 | Diana Davila Gordillo, Joan Timoneda, Sebastian Vallejo Vera | (参考訳) テキストで人種差別的言語を識別し分類する現在の手法は、人種差別的言説の過度な形式にのみ焦点をあてる小さなn質的アプローチや大規模nアプローチに依存している。
本稿では、大規模コーパスにおける異なる形態の人種差別的言説を識別し分類するためのステップバイステップの一般化可能なガイドラインを提供する。
このアプローチでは、人種差別とその異なる表現を概念化することから始めます。
次に、これらの人種差別的表現を時間と場所に文脈的に分類し、研究者がそれらの分散形式を識別できるようにする。
最後に,XLM-RoBERTa (XLM-R)を適用し,テキストの最先端文脈理解による教師付きテキスト分類モデルを提案する。
我々の事前学習モデルであるXLM-RとXLM-R-Racismoは、大規模なコーパスにおける人種差別の分類において、他の最先端のアプローチよりも優れていることを示す。
本稿は,2018年から2021年にかけてのエクアドル ind'igena コミュニティに関するツイートのコーパスを用いて,我々のアプローチを説明する。 Current methods to identify and classify racist language in text rely on small-n qualitative approaches or large-n approaches focusing exclusively on overt forms of racist discourse. This article provides a step-by-step generalizable guideline to identify and classify different forms of racist discourse in large corpora. In our approach, we start by conceptualizing racism and its different manifestations. We then contextualize these racist manifestations to the time and place of interest, which allows researchers to identify their discursive form. Finally, we apply XLM-RoBERTa (XLM-R), a cross-lingual model for supervised text classification with a cutting-edge contextual understanding of text. We show that XLM-R and XLM-R-Racismo, our pretrained model, outperform other state-of-the-art approaches in classifying racism in large corpora. We illustrate our approach using a corpus of tweets relating to the Ecuadorian ind\'igena community between 2018 and 2021. | 翻訳日:2024-01-23 19:06:25 公開日:2024-01-20 |
# オープンソースシミュレータとエキスパート軌道を用いた自律カテーテル化 Autonomous Catheterization with Open-source Simulator and Expert Trajectory ( http://arxiv.org/abs/2401.09059v2 ) ライセンス: Link先を確認 | Tudor Jianu, Baoru Huang, Tuan Vo, Minh Nhat Vu, Jingxuan Kang, Hoan Nguyen, Olatunji Omisore, Pierre Berthet-Rayne, Sebastiano Fichera, Anh Nguyen | (参考訳) 血管内ロボットは学術と産業の両方で活発に開発されている。
しかし, 自動カテーテル化への進歩は, クローズドソースシミュレータや物理ファントムの普及によって妨げられることが多い。
さらに、機械学習アルゴリズムを血管内ロボットで訓練するための大規模データセットの取得は、通常、高価な医療手順のために実現不可能である。
本章では,これらの制限に対処する世界初の血管内介入シミュレータであるCathSimを紹介する。
CathSimはリアルタイムのパフォーマンスを強調し、学習アルゴリズムの迅速な開発とテストを可能にする。
実ロボットに対してCathSimを検証し,本シミュレータが実ロボットの動作を模倣できることを示す。
CathSimをベースとして,マルチモーダル・エキスパートナビゲーションネットワークを開発し,下流血管ナビゲーションタスクの有効性を実証する。
集中的な実験結果は、CathSimが自律カテーテル分野の研究を著しく加速する可能性を示唆している。
私たちのプロジェクトはhttps://github.com/airvlab/cathsimで公開されています。 Endovascular robots have been actively developed in both academia and industry. However, progress toward autonomous catheterization is often hampered by the widespread use of closed-source simulators and physical phantoms. Additionally, the acquisition of large-scale datasets for training machine learning algorithms with endovascular robots is usually infeasible due to expensive medical procedures. In this chapter, we introduce CathSim, the first open-source simulator for endovascular intervention to address these limitations. CathSim emphasizes real-time performance to enable rapid development and testing of learning algorithms. We validate CathSim against the real robot and show that our simulator can successfully mimic the behavior of the real robot. Based on CathSim, we develop a multimodal expert navigation network and demonstrate its effectiveness in downstream endovascular navigation tasks. The intensive experimental results suggest that CathSim has the potential to significantly accelerate research in the autonomous catheterization field. Our project is publicly available at https://github.com/airvlab/cathsim. | 翻訳日:2024-01-23 19:05:42 公開日:2024-01-20 |
# 反復質問合成による数学語問題の拡張 Augmenting Math Word Problems via Iterative Question Composing ( http://arxiv.org/abs/2401.09003v2 ) ライセンス: Link先を確認 | Haoxiong Liu, Andrew Chi-Chih Yao | (参考訳) 近年,大規模言語モデル(LLM)の数学的推論能力の向上が進んでいるが,外部ツールを使わずに競合レベルの数学問題を解くことは,オープンソースのLCMでは難しい課題である。
本研究では,Webデータと合成質問応答ペアを組み合わせたMMIQCデータセットを導入し,より優れた数学的推論技術を備えたベースモデルを提案する。
異なるモデルサイズでは、MMIQCで微調整されたモデルは、MATHテストセットの明確なマージンで、一貫してそのモデルより優れている。
特にDeepSeek-67B-MMIQCは41.0%の精度で、以前のオープンソースSOTAよりも4.2%高い。
また,本実験では,改良の大部分は,与えられたシード問題から新たな質問を作成し,別のllmから拒絶サンプリングを行うために,反復的にllmを依頼する新しい拡張法iqc(イテレーティブ・クイック・コンポジション)に起因していることを示す。
MMIQCはhttps://huggingface.co/datasets/Vivacem/MMIQCでリリースされた。 Despite recent progress in improving the mathematical reasoning ability of large language models(LLMs), solving competition-level math problems without the use of external tools remains challenging for open-source LLMs. In this work, we introduce the MMIQC dataset, a mixture of processed web data and synthetic question-response pairs, to equip base models with better mathematical reasoning skills. In different model sizes, the models fine-tuned on MMIQC consistently outperform their counterparts by a clear margin on MATH test set. Notably, DeepSeek-67B-MMIQC achieves a 41.0% accuracy, 4.2% higher than the previous open-source SOTA. Our experiments also show that a large part of the improvement can be attributed to our novel augmentation method IQC(Iterative Question Composing), where we iteratively ask an LLM to compose new questions from the given seed problems and do rejection sampling from another LLM. MMIQC has now been released on https://huggingface.co/datasets/Vivacem/MMIQC. | 翻訳日:2024-01-23 19:05:05 公開日:2024-01-20 |
# segment anythingモデルによる少数ショット意味セグメンテーションの促進 Boosting Few-Shot Semantic Segmentation Via Segment Anything Model ( http://arxiv.org/abs/2401.09826v2 ) ライセンス: Link先を確認 | Chen-Bin Feng, Qi Lai, Kangdao Liu, Houcheng Su, Chi-Man Vong | (参考訳) セマンティックセグメンテーションでは、正確な予測マスクが医療画像解析や画像編集などの下流タスクに不可欠である。
注釈付きデータの欠如により、少数の意味セマンティクスセグメンテーション(fss)は正確な輪郭を持つマスクの予測が不十分である。
近年,大規模な基盤モデルセグメントモデル (SAM) が詳細な特徴の処理に優れていることに気付いた。
SAMにインスパイアされたFSS-SAMは,不正確な輪郭の問題に対処し,FSS法を高速化する。
FSS-SAMはトレーニング不要。
FSSメソッドの処理後ツールとして機能し、予測されたマスクの精度を向上させることができる。
具体的には、FSS法による予測マスクを用いてプロンプトを生成し、SAMを用いて新しいマスクを予測する。
SAMを用いて間違ったマスクの予測を避けるために,予測結果選択(PRS)アルゴリズムを提案する。
このアルゴリズムは誤った予測を著しく減らすことができる。
実験結果から,本手法は定量的および定性的両面において基礎的FSS法よりも優れていることがわかった。 In semantic segmentation, accurate prediction masks are crucial for downstream tasks such as medical image analysis and image editing. Due to the lack of annotated data, few-shot semantic segmentation (FSS) performs poorly in predicting masks with precise contours. Recently, we have noticed that the large foundation model segment anything model (SAM) performs well in processing detailed features. Inspired by SAM, we propose FSS-SAM to boost FSS methods by addressing the issue of inaccurate contour. The FSS-SAM is training-free. It works as a post-processing tool for any FSS methods and can improve the accuracy of predicted masks. Specifically, we use predicted masks from FSS methods to generate prompts and then use SAM to predict new masks. To avoid predicting wrong masks with SAM, we propose a prediction result selection (PRS) algorithm. The algorithm can remarkably decrease wrong predictions. Experiment results on public datasets show that our method is superior to base FSS methods in both quantitative and qualitative aspects. | 翻訳日:2024-01-23 18:51:57 公開日:2024-01-20 |
# HOSC: 意図しない神経表現におけるシャープ特徴保存のための周期的活性化機能 HOSC: A Periodic Activation Function for Preserving Sharp Features in Implicit Neural Representations ( http://arxiv.org/abs/2401.10967v1 ) ライセンス: Link先を確認 | Danzel Serrano, Jakub Szymkowiak, Przemyslaw Musialski | (参考訳) 近年,座標型ニューラルネットワークアーキテクチャを用いた画像やシーン,あるいはジオメトリなどの信号を暗黙的に表現する手法では,アクティベーション関数の選択を利用できない場合が多い。
本稿では,制御可能なシャープネスパラメータを持つ新しい活性化関数であるHyperbolic Oscillation Function (HOSC)を紹介する。
以前のどのアクティベーションとは異なり、hoscは入力信号の突然の変化をより正確に捉えるように特別に設計されており、それゆえ基礎となるデータの鋭く鋭い特徴や鋭い特徴、そしてスムーズな低周波遷移を捉えている。
その単純さとモジュラリティのため、HOSCは、信号の暗黙的な表現方法としてニューラルネットワークを使用する既存のメソッドに容易に組み込むことのできる、プラグアンドプレイ機能を提供している。
我々はHOSCを一般的なタスク群における他の一般的なアクティベーションに対してベンチマークし、得られた表現の質の向上を実証的に示すとともに、HOSCの有効性の背後にある数学的モチベーションを提供し、その限界について議論する。 Recently proposed methods for implicitly representing signals such as images, scenes, or geometries using coordinate-based neural network architectures often do not leverage the choice of activation functions, or do so only to a limited extent. In this paper, we introduce the Hyperbolic Oscillation function (HOSC), a novel activation function with a controllable sharpness parameter. Unlike any previous activations, HOSC has been specifically designed to better capture sudden changes in the input signal, and hence sharp or acute features of the underlying data, as well as smooth low-frequency transitions. Due to its simplicity and modularity, HOSC offers a plug-and-play functionality that can be easily incorporated into any existing method employing a neural network as a way of implicitly representing a signal. We benchmark HOSC against other popular activations in an array of general tasks, empirically showing an improvement in the quality of obtained representations, provide the mathematical motivation behind the efficacy of HOSC, and discuss its limitations. | 翻訳日:2024-01-23 18:42:35 公開日:2024-01-20 |
# 潜在的な脆弱性はソフトウェア脆弱性予測のための隠れジェムか?
実証的研究 Are Latent Vulnerabilities Hidden Gems for Software Vulnerability Prediction? An Empirical Study ( http://arxiv.org/abs/2401.11105v1 ) ライセンス: Link先を確認 | Triet H. M. Le, Xiaoning Du, M. Ali Babar | (参考訳) 関連性の高い高品質なデータ収集は、効果的なソフトウェア脆弱性(sv)予測モデルの開発に不可欠である。
現在のSVデータセットのほとんどは、脆弱な関数や行を抽出するためにSV固定コミットに依存している。
しかし、これらのデータセットは、収集されたsvの導入と修正の間に潜むsvを考慮していない。
SV予測におけるこれらの潜伏SVの有用性についてはほとんど分かっていない。
これらのギャップを埋めるために、一般的に使われている2つのSVデータセットにおける潜在脆弱性関数とその関数レベルおよびラインレベルSV予測への利用について大規模な研究を行う。
最先端のSZZアルゴリズムを利用して、研究データセットで100万以上の潜在脆弱性関数を識別する。
これらの潜在関数は平均4倍のsv数を増加させ、5kの誤ラベル関数を補正できるが、ノイズレベルは約6%である。
ノイズにもかかわらず、最先端のSV予測モデルがそのような潜伏SVの利点を大いに発揮できることを示す。
改善点は、関数レベルのsv予測のパフォーマンス(f1-score)が最大24.5%、脆弱なラインをローカライズする効果が最大67%である。
本研究は,SVデータセットの品質向上と,SV予測タスクの性能向上を目的として,潜伏SVの利用に向けた第一歩を示す。 Collecting relevant and high-quality data is integral to the development of effective Software Vulnerability (SV) prediction models. Most of the current SV datasets rely on SV-fixing commits to extract vulnerable functions and lines. However, none of these datasets have considered latent SVs existing between the introduction and fix of the collected SVs. There is also little known about the usefulness of these latent SVs for SV prediction. To bridge these gaps, we conduct a large-scale study on the latent vulnerable functions in two commonly used SV datasets and their utilization for function-level and line-level SV predictions. Leveraging the state-of-the-art SZZ algorithm, we identify more than 100k latent vulnerable functions in the studied datasets. We find that these latent functions can increase the number of SVs by 4x on average and correct up to 5k mislabeled functions, yet they have a noise level of around 6%. Despite the noise, we show that the state-of-the-art SV prediction model can significantly benefit from such latent SVs. The improvements are up to 24.5% in the performance (F1-Score) of function-level SV predictions and up to 67% in the effectiveness of localizing vulnerable lines. Overall, our study presents the first promising step toward the use of latent SVs to improve the quality of SV datasets and enhance the performance of SV prediction tasks. | 翻訳日:2024-01-23 18:09:10 公開日:2024-01-20 |
# 重み付き近傍アルゴリズムにおける効率的なデータ共有 Efficient Data Shapley for Weighted Nearest Neighbor Algorithms ( http://arxiv.org/abs/2401.11103v1 ) ライセンス: Link先を確認 | Jiachen T. Wang, Prateek Mittal, and Ruoxi Jia | (参考訳) 本研究は,重み付き$k$近傍アルゴリズム (wknn-shapley) に対するデータシェープリーの効率的な計算に関するデータ評価文献のオープン問題に対処することを目的としている。
離散化重み付きハードラベルKNNの精度を実用関数として考慮し、WKNN-Shapleyの計算をカウント問題に再構成し、2次時間アルゴリズムを導入し、既存の文献の最良の結果である$O(N^K)$から顕著に改善したことを示す。
決定論的近似アルゴリズムを開発し,shapley値の重要な公平性を維持しつつ,計算効率をさらに向上させる。
広範な実験を通じて,wknn-shapleyの計算効率とデータ品質の識別における優れた性能を示す。 This work aims to address an open problem in data valuation literature concerning the efficient computation of Data Shapley for weighted $K$ nearest neighbor algorithm (WKNN-Shapley). By considering the accuracy of hard-label KNN with discretized weights as the utility function, we reframe the computation of WKNN-Shapley into a counting problem and introduce a quadratic-time algorithm, presenting a notable improvement from $O(N^K)$, the best result from existing literature. We develop a deterministic approximation algorithm that further improves computational efficiency while maintaining the key fairness properties of the Shapley value. Through extensive experiments, we demonstrate WKNN-Shapley's computational efficiency and its superior performance in discerning data quality compared to its unweighted counterpart. | 翻訳日:2024-01-23 18:08:46 公開日:2024-01-20 |
# レーザダイオードとシリコンフォトニクス集積ハイブリッドチップを用いた小型量子乱数発生器 Compact quantum random number generator based on a laser diode and silicon photonics integrated hybrid chip ( http://arxiv.org/abs/2401.11099v1 ) ライセンス: Link先を確認 | Xuyang Wang, Tao Zheng, Yanxiang Jia, Qianru Zhao, Yu Zhang, Yuqi Shi, Ning Wang, Zhenguo Lu, Jun Zou and Yongmin Li | (参考訳) 本研究では,レーザーダイオードとシリコンフォトニクス集積ハイブリッドチップを用いた小型・低消費電力量子乱数生成器(QRNG)を提案し,実験的に検証した。
ハイブリッドチップのサイズは8.8*2.6*1 mm3であり、エントロピー源の出力は80 mWである。
最適化された1*2マルチモード干渉計構造を用いて、40dB以上の共通モード拒絶比を実現した。
量子-古典的雑音比を最適化する方法を示す。
光電子電流が1マイクロアンペアのときに、高暗電流GeSi光ダイオードの平衡ホモダイン検出器を用いて量子-古典的ノイズ比を約9dBとした。
提案したQRNGは、低消費電力、低ボリューム、低コストで、中程度のMHzランダム数生成速度のシナリオで使用できる可能性がある。 In this study, a compact and low-power-consumption quantum random number generator (QRNG) based on a laser diode and silicon photonics integrated hybrid chip is proposed and verified experimentally. The hybrid chip's size is 8.8*2.6*1 mm3, and the power of entropy source is 80 mW. A common mode rejection ratio greater than 40 dB was achieved using an optimized 1*2 multimode interferometer structure. A method for optimizing the quantum-to-classical noise ratio is presented. A quantum-to-classical noise ratio of approximately 9 dB was achieved when the photoelectron current is 1 microampere using a balance homodyne detector with a high dark current GeSi photodiode. The proposed QRNG has the potential for use in scenarios of moderate MHz random number generation speed, with low power, small volume, and low cost prioritized. | 翻訳日:2024-01-23 18:08:30 公開日:2024-01-20 |
# 量子カーネル強化のためのニューラルオートデザイナ Neural auto-designer for enhanced quantum kernels ( http://arxiv.org/abs/2401.11098v1 ) ライセンス: Link先を確認 | Cong Lei, Yuxuan Du, Peng Mi, Jun Yu, Tongliang Liu | (参考訳) 量子カーネルは、古典的学習者よりも計算上の利点を提供するという大きな約束を持ち、これらのカーネルの有効性は量子的特徴マップの設計と密接に結びついている。
しかし、実世界のデータセット、特に十分な事前情報がない場合に、効果的な量子特徴写像を設計するという課題は、依然として大きな障害である。
本研究では,問題固有の量子特徴マップの設計を自動化したデータ駆動手法を提案する。
提案手法は,近距離量子マシンの量子ビットに制限のある高次元データを処理するための特徴選択手法を利用して,様々な量子カーネルの性能評価を行う。
異なるデータセット上での広範な数値シミュレーションにより,提案手法が従来手法よりも優れていること,特にカーネル集中問題を排除し,特徴マップを予測上の優位性で識別できることを実証した。
我々の研究は、現実世界のタスクを強化するために量子カーネルの可能性を解き放ち、量子機械学習の進歩におけるディープラーニングの実質的な役割を強調している。 Quantum kernels hold great promise for offering computational advantages over classical learners, with the effectiveness of these kernels closely tied to the design of the quantum feature map. However, the challenge of designing effective quantum feature maps for real-world datasets, particularly in the absence of sufficient prior information, remains a significant obstacle. In this study, we present a data-driven approach that automates the design of problem-specific quantum feature maps. Our approach leverages feature-selection techniques to handle high-dimensional data on near-term quantum machines with limited qubits, and incorporates a deep neural predictor to efficiently evaluate the performance of various candidate quantum kernels. Through extensive numerical simulations on different datasets, we demonstrate the superiority of our proposal over prior methods, especially for the capability of eliminating the kernel concentration issue and identifying the feature map with prediction advantages. Our work not only unlocks the potential of quantum kernels for enhancing real-world tasks but also highlights the substantial role of deep learning in advancing quantum machine learning. | 翻訳日:2024-01-23 18:08:15 公開日:2024-01-20 |
# TypeDance:パーソナライズドジェネレーションによる画像からのセマンティックタイポグラフィログの作成 TypeDance: Creating Semantic Typographic Logos from Image through Personalized Generation ( http://arxiv.org/abs/2401.11094v1 ) ライセンス: Link先を確認 | Shishi Xiao, Liangwei Wang, Xiaojuan Ma, Wei Zeng | (参考訳) セマンティック・タイポグラフィーのロゴは、文字とイメージを調和してブレンドし、意味的な概念を表現する。
空間組成と形状置換を用いた従来の手法は、幾何学的に異なる書体と意味論のシームレスな空間融合を実現するための矛盾する要件によって妨げられる。
最近の進歩により、セマンティックタイポグラフィーのai生成は可能になったが、エンドツーエンドのアプローチはデザイナーの関与を排除し、パーソナライズされたデザインを無視した。
本稿では,パーソナライズされた意味的タイポグラフィーロゴデザインのための生成モデルを用いたデザイン理論を組み込んだai支援ツールであるtypedanceを提案する。
アップロードされた画像の例から抽出した組み合わせ可能な設計の事前情報を活用し、様々な構造的な粒度での型像マッピングをサポートし、柔軟な制御で多様な美的デザインを実現する。
さらに、イデオレーション、選択、生成、評価、イテレーションを含む包括的なデザインワークフローをタイプダンスでインスタンス化する。
模倣と作成を含む2タスクのユーザ評価は、異なる利用シナリオにおける設計におけるTypeDanceのユーザビリティを確認した。 Semantic typographic logos harmoniously blend typeface and imagery to represent semantic concepts while maintaining legibility. Conventional methods using spatial composition and shape substitution are hindered by the conflicting requirement for achieving seamless spatial fusion between geometrically dissimilar typefaces and semantics. While recent advances made AI generation of semantic typography possible, the end-to-end approaches exclude designer involvement and disregard personalized design. This paper presents TypeDance, an AI-assisted tool incorporating design rationales with the generative model for personalized semantic typographic logo design. It leverages combinable design priors extracted from uploaded image exemplars and supports type-imagery mapping at various structural granularity, achieving diverse aesthetic designs with flexible control. Additionally, we instantiate a comprehensive design workflow in TypeDance, including ideation, selection, generation, evaluation, and iteration. A two-task user evaluation, including imitation and creation, confirmed the usability of TypeDance in design across different usage scenarios | 翻訳日:2024-01-23 18:07:57 公開日:2024-01-20 |
# Boidae: 個人用マイニングプラットフォーム Boidae: Your Personal Mining Platform ( http://arxiv.org/abs/2401.11092v1 ) ライセンス: Link先を確認 | Brian Sigurdson and Samuel W. Flint and Robert Dyer | (参考訳) ソフトウェアレポジトリをマイニングすることは、研究者や実践者がソフトウェアを開発するときにソフトウェア開発者が実際に何をするかを確認するのに役立つテクニックである。
boaのようなツールは、これらのオープンソースソフトウェアリポジトリを非常に大規模にマイニングし、何十万ものプロジェクトを含むデータセットを提供する。
トレードオフは、ユーザが提供されたインフラストラクチャ、クエリ言語、ランタイム、データセットを使用する必要があることだ。
本稿では,ユーザが管理し,カスタマイズしたBoaインスタレーションのファミリーであるBoidaeを紹介する。
boidaeはansibleやdockerなどの自動化ツールを使用して、カスタマイズされたboaインストールのデプロイを容易にする。
特に、Boidaeは任意のGitリポジトリから生成されたカスタムデータセットの作成を可能にし、GitHubとSourceForgeからのリポジトリの発見とクローンを支援するヘルパースクリプトを提供する。
本稿では,Boidaeのアーキテクチャと,そのインフラを利用してカスタムデータセットを生成する方法について概説する。
Boidaeのスクリプトとそれが構築するインフラストラクチャはすべてオープンソースである。
Boidaeのインストールと拡張のデモビデオはhttps://go.unl.edu/boidaeで公開されている。 Mining software repositories is a useful technique for researchers and practitioners to see what software developers actually do when developing software. Tools like Boa provide users with the ability to easily mine these open-source software repositories at a very large scale, with datasets containing hundreds of thousands of projects. The trade-off is that users must use the provided infrastructure, query language, runtime, and datasets and this might not fit all analysis needs. In this work, we present Boidae: a family of Boa installations controlled and customized by users. Boidae uses automation tools such as Ansible and Docker to facilitate the deployment of a customized Boa installation. In particular, Boidae allows the creation of custom datasets generated from any set of Git repositories, with helper scripts to aid in finding and cloning repositories from GitHub and SourceForge. In this paper, we briefly describe the architecture of Boidae and how researchers can utilize the infrastructure to generate custom datasets. Boidae's scripts and all infrastructure it builds upon are open-sourced. A video demonstration of Boidae's installation and extension is available at https://go.unl.edu/boidae. | 翻訳日:2024-01-23 18:07:37 公開日:2024-01-20 |
# FedRKG:知識グラフの強化によるプライバシ保護フェデレーション推奨フレームワーク FedRKG: A Privacy-preserving Federated Recommendation Framework via Knowledge Graph Enhancement ( http://arxiv.org/abs/2401.11089v1 ) ライセンス: Link先を確認 | Dezhong Yao and Tongtong Liu and Qi Cao and Hai Jin | (参考訳) フェデレートラーニング(FL)は、リコメンデーションシステムでデータプライバシをローカルにトレーニングする上で有望なアプローチとして登場した。
近年,ユーザとアイテム間の高次インタラクションをキャプチャできるため,グラフニューラルネットワーク(GNN)が推奨タスクで人気を集めている。
しかし、プライバシー上の懸念は、全ユーザーアイコングラフのグローバルな共有を妨げる。
この制限に対処するため、いくつかのメソッドはグラフ内の擬似相互作用アイテムやユーザーを作成し、各クライアントに欠けている情報を補う。
残念なことに、これらの手法はランダムノイズを導入し、プライバシーを懸念する。
本稿では,グローバルナレッジグラフ(kg)を公開情報を用いてサーバ上で構築・維持し,高次ユーザ・アイテム間インタラクションを実現する,新しいフェデレーションレコメンデーションシステムであるfederated recommendation systemを提案する。
クライアント側では、関係を意識したGNNモデルが多様なKG関係を利用する。
局所的な相互作用項目とあいまいな勾配を保護するために、擬似ラベルと局所微分プライバシー(LDP)を用いる。
3つの実世界のデータセットで実施された大規模な実験は、プライバシー保護を確保しつつ集中型アルゴリズムと比較して、我々のアプローチの競争力を示す。
さらに、FedRKGは既存のフェデレート学習ベースラインと比較して4%の精度向上を実現している。 Federated Learning (FL) has emerged as a promising approach for preserving data privacy in recommendation systems by training models locally. Recently, Graph Neural Networks (GNN) have gained popularity in recommendation tasks due to their ability to capture high-order interactions between users and items. However, privacy concerns prevent the global sharing of the entire user-item graph. To address this limitation, some methods create pseudo-interacted items or users in the graph to compensate for missing information for each client. Unfortunately, these methods introduce random noise and raise privacy concerns. In this paper, we propose FedRKG, a novel federated recommendation system, where a global knowledge graph (KG) is constructed and maintained on the server using publicly available item information, enabling higher-order user-item interactions. On the client side, a relation-aware GNN model leverages diverse KG relationships. To protect local interaction items and obscure gradients, we employ pseudo-labeling and Local Differential Privacy (LDP). Extensive experiments conducted on three real-world datasets demonstrate the competitive performance of our approach compared to centralized algorithms while ensuring privacy preservation. Moreover, FedRKG achieves an average accuracy improvement of 4% compared to existing federated learning baselines. | 翻訳日:2024-01-23 18:07:20 公開日:2024-01-20 |
# Schr\\odinger型量子シミュレーションのロッシー圧縮 Lossy Compression for Schr\"odinger-style Quantum Simulations ( http://arxiv.org/abs/2401.11088v1 ) ライセンス: Link先を確認 | Noah Huffman, Dmitri Pavlichin, and Tsachy Weissman | (参考訳) 古典的ハードウェア上での量子回路のシミュレーションは、量子アルゴリズムとハードウェアの開発とテスト、およびノイズ中間量子(NISQ)システムにおける量子超越性(quantum supremacy)の主張を評価するための強力で必要なツールである。
Schr\\odingerスタイルのシミュレーションは、保存する必要がある状態振幅の指数関数的な増加によって制限される。
本研究では,量子回路をシミュレートするビット数を削減するために,スカラーとベクトル量子化を損失圧縮スキームとしてschr\"odingerスタイルの量子回路シミュレーションに適用する。
量子化を用いることで、量子フーリエ変換をシミュレートする際のシミュレーションフィデリティ$>0.99$を維持し、浮動小数点数において7ビットのみを使用して各振幅の実数成分と虚数成分を特徴づける。
さらに、ベクトル量子化を用いて、所望のフィリティを達成する回路のシミュレーションにおいて状態ベクトルを格納するのに必要なビット数/振幅を束縛する手法を提案し、量子フーリエ変換の6キュービットシミュレーションの場合、15ビット/振幅はフィリティを10^4$で0.9$に維持するのに十分であることを示す。 Simulating quantum circuits on classical hardware is a powerful and necessary tool for developing and testing quantum algorithms and hardware as well as evaluating claims of quantum supremacy in the Noisy Intermediate-Scale Quantum (NISQ) regime. Schr\"odinger-style simulations are limited by the exponential growth of the number of state amplitudes which need to be stored. In this work, we apply scalar and vector quantization to Schr\"odinger-style quantum circuit simulations as lossy compression schemes to reduce the number of bits needed to simulate quantum circuits. Using quantization, we can maintain simulation fidelities $>0.99$ when simulating the Quantum Fourier Transform, while using only 7 significand bits in a floating-point number to characterize the real and imaginary components of each amplitude. Furthermore, using vector quantization, we propose a method to bound the number of bits/amplitude needed to store state vectors in a simulation of a circuit that achieves a desired fidelity, and show that for a 6 qubit simulation of the Quantum Fourier Transform, 15 bits/amplitude is sufficient to maintain fidelity $>0.9$ at $10^4$ depth. | 翻訳日:2024-01-23 18:07:00 公開日:2024-01-20 |
# 顔認識のための適応的グローバルローカル表現学習と選択 Adaptive Global-Local Representation Learning and Selection for Cross-Domain Facial Expression Recognition ( http://arxiv.org/abs/2401.11085v1 ) ライセンス: Link先を確認 | Yuefang Gao, Yuhao Xie, Zeke Zexi Hu, Tianshui Chen, Liang Lin | (参考訳) ドメインシフトは、異なるドメイン間の分布の変化により、クロスドメイン顔表情認識(CD-FER)において重要な課題となる。
現在の研究は主に、局所的な特徴の伝達可能性を無視しながら、グローバル特徴適応によるドメイン不変特徴の学習に焦点を当てている。
さらに、これらの手法は、ターゲットデータセットのトレーニング中に差別的な監視を欠くため、ターゲット領域における特徴表現が劣化する。
これらの制約に対処するため,Adaptive Global-Local Representation Learning and Selection (AGLRLS) フレームワークを提案する。
このフレームワークは、訓練中のドメイン不変性と識別的特徴の学習を強化するために、グローバルローカルな敵対的適応とセマンティックアウェアな擬似ラベル生成を取り入れている。
一方,推定中の分類結果を改善するために,グローバル局所予測一貫性学習が導入された。
具体的には、ドメイン不変なグローバルな特徴とローカルな特徴を独立に学習する、グローバルローカルな逆学習モジュールを別々に構成する。
また,グローバルおよびローカル機能に基づく意味ラベルの計算を行う,意味認識型擬似ラベル生成モジュールも設計した。
さらに,グローバルな特徴と局所的な特徴を独立に予測し,信頼できない擬似ラベルを確実にフィルタリングし,信頼度を保ちながら最適なしきい値を求めるために,新しいダイナミックしきい値戦略を採用した。
これらのラベルは、エンドツーエンドの逆学習プロセスを通じてモデル最適化に利用される。
推論中、複数の予測から最適な結果を自動的に学習するグローバル局所予測整合モジュールが開発された。
公正な評価ベンチマークに基づいて総合的な実験と分析を行う。
その結果,提案手法は競合する手法よりもかなり優れていることがわかった。 Domain shift poses a significant challenge in Cross-Domain Facial Expression Recognition (CD-FER) due to the distribution variation across different domains. Current works mainly focus on learning domain-invariant features through global feature adaptation, while neglecting the transferability of local features. Additionally, these methods lack discriminative supervision during training on target datasets, resulting in deteriorated feature representation in target domain. To address these limitations, we propose an Adaptive Global-Local Representation Learning and Selection (AGLRLS) framework. The framework incorporates global-local adversarial adaptation and semantic-aware pseudo label generation to enhance the learning of domain-invariant and discriminative feature during training. Meanwhile, a global-local prediction consistency learning is introduced to improve classification results during inference. Specifically, the framework consists of separate global-local adversarial learning modules that learn domain-invariant global and local features independently. We also design a semantic-aware pseudo label generation module, which computes semantic labels based on global and local features. Moreover, a novel dynamic threshold strategy is employed to learn the optimal thresholds by leveraging independent prediction of global and local features, ensuring filtering out the unreliable pseudo labels while retaining reliable ones. These labels are utilized for model optimization through the adversarial learning process in an end-to-end manner. During inference, a global-local prediction consistency module is developed to automatically learn an optimal result from multiple predictions. We conduct comprehensive experiments and analysis based on a fair evaluation benchmark. The results demonstrate that the proposed framework outperforms the current competing methods by a substantial margin. | 翻訳日:2024-01-23 18:06:34 公開日:2024-01-20 |
# 集約応答から学ぶ: インスタンスレベル対バッグレベルの損失関数 Learning from Aggregate responses: Instance Level versus Bag Level Loss Functions ( http://arxiv.org/abs/2401.11081v1 ) ライセンス: Link先を確認 | Adel Javanmard, Lin Chen, Vahab Mirrokni, Ashwinkumar Badanidiyuru, Gang Fu | (参考訳) プライバシの懸念の高まりにより、多くの実用的なアプリケーションでは、トレーニングデータは学習者と共有する前に集約され、ユーザの敏感な応答のプライバシを保護する。
集合学習フレームワークでは、データセットはサンプルの袋にグループ化され、各バッグは集約されたレスポンスでのみ利用でき、そのバッグ内の個人のレスポンスの要約を提供する。
本稿では,バッグレベルの損失とインスタンスレベルの損失の2つの自然な損失関数について検討する。
前者はアグリゲート応答とアグリゲートモデル予測の損失を最小限にすることで学習し、後者ではアグリゲート応答に個々の予測を適合させることを目標としている。
本研究では,バッグレベルの損失の正規化形態として,インスタンスレベルの損失を認識できることを示す。
この観測により, 得られた推定器の偏りと分散に対する2つのアプローチを比較し, 2つのアプローチを組み合わせた新しい補間推定器を提案する。
線形回帰タスクでは,特徴量に比例してトレーニング集合のサイズが大きくなる漸近的な環境において,補間推定器のリスクを正確に評価する。
解析により,バッグサイズなどの異なる要因がモデル予測リスクに与える影響を理論的に理解することができる。
さらに,アグリゲート応答からの個人学習のメカニズムを提案し,リスクプライバシトレードオフの予測の観点から最適なバッグサイズを導出する。
また,本理論を裏付ける徹底的な実験を行い,補間推定器の有効性を示す。 Due to the rise of privacy concerns, in many practical applications the training data is aggregated before being shared with the learner, in order to protect privacy of users' sensitive responses. In an aggregate learning framework, the dataset is grouped into bags of samples, where each bag is available only with an aggregate response, providing a summary of individuals' responses in that bag. In this paper, we study two natural loss functions for learning from aggregate responses: bag-level loss and the instance-level loss. In the former, the model is learnt by minimizing a loss between aggregate responses and aggregate model predictions, while in the latter the model aims to fit individual predictions to the aggregate responses. In this work, we show that the instance-level loss can be perceived as a regularized form of the bag-level loss. This observation lets us compare the two approaches with respect to bias and variance of the resulting estimators, and introduce a novel interpolating estimator which combines the two approaches. For linear regression tasks, we provide a precise characterization of the risk of the interpolating estimator in an asymptotic regime where the size of the training set grows in proportion to the features dimension. Our analysis allows us to theoretically understand the effect of different factors, such as bag size on the model prediction risk. In addition, we propose a mechanism for differentially private learning from aggregate responses and derive the optimal bag size in terms of prediction risk-privacy trade-off. We also carry out thorough experiments to corroborate our theory and show the efficacy of the interpolating estimator. | 翻訳日:2024-01-23 18:06:06 公開日:2024-01-20 |
# UltrAvatar: 認証型テクスチャを用いたリアルなアニマタブル3次元アバター拡散モデル UltrAvatar: A Realistic Animatable 3D Avatar Diffusion Model with Authenticity Guided Textures ( http://arxiv.org/abs/2401.11078v1 ) ライセンス: Link先を確認 | Mingyuan Zhou, Rakib Hyder, Ziwei Xuan, Guojun Qi | (参考訳) 近年の3Dアバター生成は注目されている。
これらのブレークスルーは、より現実的なアニマタブルなアバターを作り出すことを目的としており、仮想体験と現実世界体験のギャップを狭める。
既存の作品の多くは、Score Distillation Sampling (SDS) の損失と、微分可能なレンダラとテキスト条件を組み合わせて、3Dアバターを生成する拡散モデルを導いている。
しかし、SDSは顔の細部が少ないため、祖先のサンプリングに比べて多様性に欠けることが多い。
一方,1枚の画像から3dアバターを生成する作品では,望ましくない照明効果,視点の視認性,画質の低さなどの課題から,アレンジされたテクスチャで3d顔メッシュを確実に再構築することが困難である。
本稿では,形状の忠実性を高めたウルトラバタールと呼ばれる新しい3次元アバター生成手法を提案する。
この目的のために,提案手法は拡散色抽出モデルと信頼性誘導テクスチャ拡散モデルを提案する。
前者は、望ましくない照明効果を除去し、真の拡散色を明らかにすることにより、生成されたアバターを様々な照明条件下でレンダリングすることができる。
後者は、PBRテクスチャを生成するための勾配に基づく2つのガイダンスに従って、多様な顔の同一性の特徴を描画し、3Dメッシュ幾何との整合性を改善する。
提案手法の有効性とロバスト性を実証し,実験において最先端の手法よりも高い性能を示した。 Recent advances in 3D avatar generation have gained significant attentions. These breakthroughs aim to produce more realistic animatable avatars, narrowing the gap between virtual and real-world experiences. Most of existing works employ Score Distillation Sampling (SDS) loss, combined with a differentiable renderer and text condition, to guide a diffusion model in generating 3D avatars. However, SDS often generates oversmoothed results with few facial details, thereby lacking the diversity compared with ancestral sampling. On the other hand, other works generate 3D avatar from a single image, where the challenges of unwanted lighting effects, perspective views, and inferior image quality make them difficult to reliably reconstruct the 3D face meshes with the aligned complete textures. In this paper, we propose a novel 3D avatar generation approach termed UltrAvatar with enhanced fidelity of geometry, and superior quality of physically based rendering (PBR) textures without unwanted lighting. To this end, the proposed approach presents a diffuse color extraction model and an authenticity guided texture diffusion model. The former removes the unwanted lighting effects to reveal true diffuse colors so that the generated avatars can be rendered under various lighting conditions. The latter follows two gradient-based guidances for generating PBR textures to render diverse face-identity features and details better aligning with 3D mesh geometry. We demonstrate the effectiveness and robustness of the proposed method, outperforming the state-of-the-art methods by a large margin in the experiments. | 翻訳日:2024-01-23 18:05:41 公開日:2024-01-20 |
# 微分方程式に基づくグラフニューラルネットワークの時間領域について On The Temporal Domain of Differential Equation Inspired Graph Neural Networks ( http://arxiv.org/abs/2401.11074v1 ) ライセンス: Link先を確認 | Moshe Eliasof, Eldad Haber, Eran Treister, Carola-Bibiane Sch\"onlieb | (参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データの複雑な関係をモデル化する上で,顕著な成功を収めている。
この分野における最近のイノベーションは、微分方程式に触発されたグラフニューラルネットワーク(de-gnns)のファミリーであり、連続力学系の原理を利用して、特徴平滑化や保存などのプロパティを組み込んだグラフ上の情報フローをモデル化する。
しかし、既存のDEC-GNNは1階または2階の時間依存に依存している。
本稿では,事前定義された時間依存性に対する神経拡張を提案する。
我々のモデルはTDE-GNNと呼ばれ、典型的な一階法や二階法を超える幅広い時間的ダイナミクスを捉えることができ、既存の時間的モデルに挑戦するユースケースを提供する。
本稿では,複数のグラフベンチマークで事前定義された時間ダイナミクスを用いるのではなく,本手法を用いた時間依存学習の利点を示す。 Graph Neural Networks (GNNs) have demonstrated remarkable success in modeling complex relationships in graph-structured data. A recent innovation in this field is the family of Differential Equation-Inspired Graph Neural Networks (DE-GNNs), which leverage principles from continuous dynamical systems to model information flow on graphs with built-in properties such as feature smoothing or preservation. However, existing DE-GNNs rely on first or second-order temporal dependencies. In this paper, we propose a neural extension to those pre-defined temporal dependencies. We show that our model, called TDE-GNN, can capture a wide range of temporal dynamics that go beyond typical first or second-order methods, and provide use cases where existing temporal models are challenged. We demonstrate the benefit of learning the temporal dependencies using our method rather than using pre-defined temporal dynamics on several graph benchmarks. | 翻訳日:2024-01-23 18:05:14 公開日:2024-01-20 |
# Make-A-Shape:10ミリスケール3次元形状モデル Make-A-Shape: a Ten-Million-scale 3D Shape Model ( http://arxiv.org/abs/2401.11067v1 ) ライセンス: Link先を確認 | Ka-Hei Hui, Aditya Sanghi, Arianna Rampini, Kamal Rahimi Malekshan, Zhengzhe Liu, Hooman Shayani, Chi-Wing Fu | (参考訳) 自然言語と画像の大規模な生成モデルの訓練において重要な進展が見られた。
しかし、3次元生成モデルの進歩は、非効率で非コンパクトで表現力に乏しい表現とともに、トレーニングに対するリソースの実質的な要求によって妨げられている。
そこで本稿では,1000万の形状を活用可能な大規模学習のための新しい3次元生成モデルであるmake-a-shapeを提案する。
技術的には、まずウェーブレットツリー表現を革新し、サブバンド係数フィルタリングスキームを定式化し、係数関係を効率的に活用する。
次に,低分解能グリッドで表現をレイアウトするサブバンド係数パッキング方式を考案し,拡散モデルにより表現を生成可能とする。
さらに,モデル学習のためのサブバンド適応学習戦略を導出し,粗いウェーブレット係数の生成を効果的に行う。
最後に、当社のフレームワークを追加の入力条件で制御できるように拡張することで、シングル/マルチビューイメージ、ポイントクラウド、低解像度ボクセルなど、さまざまなモダリティから形状を生成することができます。
広範に実験を行った結果,無条件生成,形状完備化,多岐にわたる条件生成など,様々な応用が示された。
私たちのアプローチは、高品質な結果を提供する上での最先端技術を超えるだけでなく、数秒で効率的に形状を生成します。 Significant progress has been made in training large generative models for natural language and images. Yet, the advancement of 3D generative models is hindered by their substantial resource demands for training, along with inefficient, non-compact, and less expressive representations. This paper introduces Make-A-Shape, a new 3D generative model designed for efficient training on a vast scale, capable of utilizing 10 millions publicly-available shapes. Technical-wise, we first innovate a wavelet-tree representation to compactly encode shapes by formulating the subband coefficient filtering scheme to efficiently exploit coefficient relations. We then make the representation generatable by a diffusion model by devising the subband coefficients packing scheme to layout the representation in a low-resolution grid. Further, we derive the subband adaptive training strategy to train our model to effectively learn to generate coarse and detail wavelet coefficients. Last, we extend our framework to be controlled by additional input conditions to enable it to generate shapes from assorted modalities, e.g., single/multi-view images, point clouds, and low-resolution voxels. In our extensive set of experiments, we demonstrate various applications, such as unconditional generation, shape completion, and conditional generation on a wide range of modalities. Our approach not only surpasses the state of the art in delivering high-quality results but also efficiently generates shapes within a few seconds, often achieving this in just 2 seconds for most conditions. | 翻訳日:2024-01-23 18:04:58 公開日:2024-01-20 |
# インストゥルメンタル変数による条件平均部分因果効果の同定と推定 Identification and Estimation of Conditional Average Partial Causal Effects via Instrumental Variable ( http://arxiv.org/abs/2401.11130v1 ) ライセンス: Link先を確認 | Yuta Kawakami, Manabu Kuroki, Jin Tian | (参考訳) 異種因果効果を推定することへの関心は近年かなり高まっている。
本稿では,条件平均部分因果効果(CAPCE)を導入し,連続処理による因果効果の不均一性を明らかにする。
楽器変数設定においてCAPCEを識別するための条件を提供する。
CAPCE推定器の3つのファミリー(Sieve, parametric, and reproduction kernel Hilbert space (RKHS) )を開発し,その統計特性を解析した。
合成および実世界のデータに基づくCAPCE推定器について述べる。 There has been considerable recent interest in estimating heterogeneous causal effects. In this paper, we introduce conditional average partial causal effects (CAPCE) to reveal the heterogeneity of causal effects with continuous treatment. We provide conditions for identifying CAPCE in an instrumental variable setting. We develop three families of CAPCE estimators: sieve, parametric, and reproducing kernel Hilbert space (RKHS)-based, and analyze their statistical properties. We illustrate the proposed CAPCE estimators on synthetic and real-world data. | 翻訳日:2024-01-23 17:59:02 公開日:2024-01-20 |
# CARE: セキュリティアプリケーションに対するアダプティブアタッカーに対する対向ロバストネスの評価をアンサンブルする CARE: Ensemble Adversarial Robustness Evaluation Against Adaptive Attackers for Security Applications ( http://arxiv.org/abs/2401.11126v1 ) ライセンス: Link先を確認 | Hangsheng Zhang, Jiqiang Liu, Jinsong Dong | (参考訳) アンサンブルディフェンスは、モデル性能と堅牢性を高めるために様々なセキュリティ関連のアプリケーションで広く利用されている。
一般的なアンサンブルの防御は個人よりも堅牢であることが保証されていますか?
サイバーセキュリティの武器競争が進むにつれ、より強力な適応攻撃が既存のアンサンブル防衛戦略を破るのか?
アンサンブル防御は、異なるタイプの攻撃に対して同時に敵の堅牢性を達成し、常に調整された適応攻撃に抵抗することができるか?
残念ながら、これらの重要な問題は、サイバーセキュリティ領域におけるアンサンブル攻撃と防衛の総合的な評価のためのプラットフォームが存在しないため未解決のままである。
本稿では,このギャップを埋めるための一般サイバーセキュリティ対策ロバストネス評価(CARE)プラットフォームを提案する。 Ensemble defenses, are widely employed in various security-related applications to enhance model performance and robustness. The widespread adoption of these techniques also raises many questions: Are general ensembles defenses guaranteed to be more robust than individuals? Will stronger adaptive attacks defeat existing ensemble defense strategies as the cybersecurity arms race progresses? Can ensemble defenses achieve adversarial robustness to different types of attacks simultaneously and resist the continually adjusted adaptive attacks? Unfortunately, these critical questions remain unresolved as there are no platforms for comprehensive evaluation of ensemble adversarial attacks and defenses in the cybersecurity domain. In this paper, we propose a general Cybersecurity Adversarial Robustness Evaluation (CARE) platform aiming to bridge this gap. | 翻訳日:2024-01-23 17:58:52 公開日:2024-01-20 |
# EMA-Net:Dense Scene Predictionのための効率的なマルチタスク親和性学習 EMA-Net: Efficient Multitask Affinity Learning for Dense Scene Predictions ( http://arxiv.org/abs/2401.11124v1 ) ライセンス: Link先を確認 | Dimitrios Sinodinos, Narges Armanfard | (参考訳) マルチタスク学習(mtl)は、複数のタスクを共同で予測し、シングルタスク学習よりもタスク単位のモデルパラメータを少なくしながら、タスク単位のパフォーマンスを向上できることで注目を集めている。
最近では、デコーダにフォーカスしたアーキテクチャは、他の関連するタスクの機能を用いてタスク予測を精査することで、マルチタスク性能を大幅に改善している。
しかし、これらの改善手法のほとんどは、局所的およびグローバルなタスク固有表現と、パラメータ効率のよいクロスタスクパターンを同時にキャプチャできない。
本稿では,マルチタスクネットワークのタスク洗練能力を向上させる軽量フレームワークである,効率的なマルチタスク親和性学習ネットワーク(ema-net)を提案する。
EMA-Netは、我々の新しいクロスタスク親和性学習(CTAL)モジュールを用いて、ローカル、グローバル、およびクロスタスクのインタラクションを適応的にキャプチャする。
ctalの鍵となる革新は、情報損失を心配せずにパラメーター効率のよいグループ化畳み込みを適用するのに最適な方法でタスク親和性行列を操作する能力である。
その結果,cnnベースのデコーダモデルにおいて,モデルパラメータをかなり少なくしつつ,最先端のmtl性能を実現することができた。
私たちのコードはhttps://github.com/Armanfard-Lab/EMA-Net.comで公開されています。 Multitask learning (MTL) has gained prominence for its ability to jointly predict multiple tasks, achieving better per-task performance while using fewer per-task model parameters than single-task learning. More recently, decoder-focused architectures have considerably improved multitask performance by refining task predictions using the features of other related tasks. However, most of these refinement methods fail to simultaneously capture local and global task-specific representations, as well as cross-task patterns in a parameter-efficient manner. In this paper, we introduce the Efficient Multitask Affinity Learning Network (EMA-Net), which is a lightweight framework that enhances the task refinement capabilities of multitask networks. EMA-Net adeptly captures local, global, and cross-task interactions using our novel Cross-Task Affinity Learning (CTAL) module. The key innovation of CTAL lies in its ability to manipulate task affinity matrices in a manner that is optimally suited to apply parameter-efficient grouped convolutions without worrying about information loss. Our results show that we achieve state-of-the-art MTL performance for CNN-based decoder-focused models while using substantially fewer model parameters. Our code is publicly available at https://github.com/Armanfard-Lab/EMA-Net. | 翻訳日:2024-01-23 17:58:39 公開日:2024-01-20 |
# 不確実性アウェアブリッジを用いたイベント型パターン認識のためのモバイルフォーマネットワーク Uncertainty-aware Bridge based Mobile-Former Network for Event-based Pattern Recognition ( http://arxiv.org/abs/2401.11123v1 ) ライセンス: Link先を確認 | Haoxiang Yang, Chengguo Yuan, Yabin Zhu, Lan Chen, Xiao Wang, Jin Tang | (参考訳) 主流のヒューマンアクティビティ認識(HAR)アルゴリズムはRGBカメラに基づいて開発されており、低画質の画像(例えば、低照度、動きのぼかし)の影響を受けやすい。
一方、超高解像度(HD)RGBカメラによるプライバシー保護問題は、ますます人々の注意を喚起した。
高ダイナミックレンジ、運動のぼやけのない、エネルギー消費の少ないイベントカメラの成功に触発されて、イベントストリームに基づいて人間の行動を認識することを提案する。
本研究では,モバイルネットとトランスフォーマネットワークを効率的に集約する効率的なパターン認識のための,軽量な不確実性認識型モバイルフォーマネットワークを提案する。
具体的には,まず幹ネットワークを用いてイベントイメージを特徴表現に埋め込み,不確実性を認識したMobile-Formerブロックに入力し,局所的およびグローバルな特徴学習と融合を行う。
最後に、MobileNetとTransformerブランチの機能はパターン認識のために結合される。
複数のイベントベースの認識データセットに対する大規模な実験は、我々のモデルの有効性を十分に検証した。
この作業のソースコードはhttps://github.com/Event-AHU/Uncertainty_aware_MobileFormerで公開される。 The mainstream human activity recognition (HAR) algorithms are developed based on RGB cameras, which are easily influenced by low-quality images (e.g., low illumination, motion blur). Meanwhile, the privacy protection issue caused by ultra-high definition (HD) RGB cameras aroused more and more people's attention. Inspired by the success of event cameras which perform better on high dynamic range, no motion blur, and low energy consumption, we propose to recognize human actions based on the event stream. We propose a lightweight uncertainty-aware information propagation based Mobile-Former network for efficient pattern recognition, which aggregates the MobileNet and Transformer network effectively. Specifically, we first embed the event images using a stem network into feature representations, then, feed them into uncertainty-aware Mobile-Former blocks for local and global feature learning and fusion. Finally, the features from MobileNet and Transformer branches are concatenated for pattern recognition. Extensive experiments on multiple event-based recognition datasets fully validated the effectiveness of our model. The source code of this work will be released at https://github.com/Event-AHU/Uncertainty_aware_MobileFormer. | 翻訳日:2024-01-23 17:58:18 公開日:2024-01-20 |
# 弱教師付きセマンティックセグメンテーションのための空間構造制約 Spatial Structure Constraints for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2401.11122v1 ) ライセンス: Link先を確認 | Tao Chen, Yazhou Yao, Xingguo Huang, Zechao Li, Liqiang Nie and Jinhui Tang | (参考訳) イメージレベルのラベルは、容易に利用できるため、弱い教師付きセマンティックセマンティックセマンティクスタスクで普及している。
画像レベルのラベルは対象の特定のカテゴリの有無のみを示すことができるため、オブジェクトの位置の手がかりを提供するために可視化ベースの技術が広く採用されている。
クラスアクティベーションマップ(cams)は、オブジェクトの最も識別的な部分のみを見つけることができるため、近年のアプローチでは、より統合的なオブジェクトローカライゼーションのためにアクティベーション領域を拡大するために拡張戦略を採用している。
しかし、適切な制約がなければ、拡張されたアクティベーションはバックグラウンド領域に容易に侵入する。
本稿では,不必要な物体の注意拡大の過剰な活性化を軽減するために,弱教師付きセマンティックセマンティックセグメンテーションのための空間構造制約(SSC)を提案する。
具体的には,画像内容の粗い空間構造を保ち,最終層物体の注意の拡散を制約する深層カム特徴から入力画像を直接再構成するcam駆動再構成モジュールを提案する。
さらに,地域整合性を高めることにより,CAMをより微細な空間構造で洗練する活性化自己変調モジュールを提案する。
背景手がかりを提供する外部サリエンシモデルがなければ,PASCAL VOC 2012とCOCOデータセットの72.7\%と47.0\% mIoUをそれぞれ達成し,提案手法の優位性を実証する。 The image-level label has prevailed in weakly supervised semantic segmentation tasks due to its easy availability. Since image-level labels can only indicate the existence or absence of specific categories of objects, visualization-based techniques have been widely adopted to provide object location clues. Considering class activation maps (CAMs) can only locate the most discriminative part of objects, recent approaches usually adopt an expansion strategy to enlarge the activation area for more integral object localization. However, without proper constraints, the expanded activation will easily intrude into the background region. In this paper, we propose spatial structure constraints (SSC) for weakly supervised semantic segmentation to alleviate the unwanted object over-activation of attention expansion. Specifically, we propose a CAM-driven reconstruction module to directly reconstruct the input image from deep CAM features, which constrains the diffusion of last-layer object attention by preserving the coarse spatial structure of the image content. Moreover, we propose an activation self-modulation module to refine CAMs with finer spatial structure details by enhancing regional consistency. Without external saliency models to provide background clues, our approach achieves 72.7\% and 47.0\% mIoU on the PASCAL VOC 2012 and COCO datasets, respectively, demonstrating the superiority of our proposed approach. | 翻訳日:2024-01-23 17:57:59 公開日:2024-01-20 |
# 臨床実習ガイドラインを取り入れた大規模言語モデルによる臨床意思決定支援 Enhancing Large Language Models for Clinical Decision Support by Incorporating Clinical Practice Guidelines ( http://arxiv.org/abs/2401.11120v1 ) ライセンス: Link先を確認 | David Oniani, Xizhi Wu, Shyam Visweswaran, Sumit Kapoor, Shravan Kooragayalu, Katelyn Polanska, Yanshan Wang | (参考訳) 臨床実習ガイドライン(CPG)により強化された背景言語モデル(LLM)は、臨床意思決定支援(CDS)を大幅に改善することができる。
しかし、LCGをLSMに組み込む方法は十分に研究されていない。
方法 CPG を LLM に組み込む方法として,バイナリ決定木(BDT),プログラム支援グラフ構築(PAGC),チェーン・オブ・スロー・ショット・プロンプト(CoT-FSP)の3種類を開発した。
提案手法の有効性を評価するために,合成患者記述のセットを作成し,gpt-4,gpt-3.5ターボ,llama,palm 2の4つのllmで生成された応答を自動的および人為的に評価する。
Zero-Shot Prompting (ZSP) はベースライン方式として用いられた。
ケーススタディとして,covid-19外来治療のためのcdに焦点を当てている。
結果: 4つのLCMは, ベースラインZSPと比較して, CPGの強化により性能が向上した。
BDTは自動評価においてCoT-FSPとPAGCの両方に優れていた。
提案手法はすべて人体評価において高い性能を示した。
結論 cpgs で強化された llm は,zsp による平易な llm と比較して,covid-19 外来治療の正確な推奨を提供する点で優れた性能を示している。 Background Large Language Models (LLMs), enhanced with Clinical Practice Guidelines (CPGs), can significantly improve Clinical Decision Support (CDS). However, methods for incorporating CPGs into LLMs are not well studied. Methods We develop three distinct methods for incorporating CPGs into LLMs: Binary Decision Tree (BDT), Program-Aided Graph Construction (PAGC), and Chain-of-Thought-Few-Shot Prompting (CoT-FSP). To evaluate the effectiveness of the proposed methods, we create a set of synthetic patient descriptions and conduct both automatic and human evaluation of the responses generated by four LLMs: GPT-4, GPT-3.5 Turbo, LLaMA, and PaLM 2. Zero-Shot Prompting (ZSP) was used as the baseline method. We focus on CDS for COVID-19 outpatient treatment as the case study. Results All four LLMs exhibit improved performance when enhanced with CPGs compared to the baseline ZSP. BDT outperformed both CoT-FSP and PAGC in automatic evaluation. All of the proposed methods demonstrated high performance in human evaluation. Conclusion LLMs enhanced with CPGs demonstrate superior performance, as compared to plain LLMs with ZSP, in providing accurate recommendations for COVID-19 outpatient treatment, which also highlights the potential for broader applications beyond the case study. | 翻訳日:2024-01-23 17:57:32 公開日:2024-01-20 |
# 災害対応uav群における戦略的iot展開のためのメタ強化学習 Meta Reinforcement Learning for Strategic IoT Deployments Coverage in Disaster-Response UAV Swarms ( http://arxiv.org/abs/2401.11118v1 ) ライセンス: Link先を確認 | Marwan Dhuheir, Aiman Erbad, Ala Al-Fuqaha | (参考訳) 過去10年間で、無人航空機(UAV)は、機動性と移動柔軟性の利点から、地上のユーザーに無線サービスを提供し、災害の影響を受けた地域からデータを収集するなど、重要な緊急用途に利用される可能性があるとして、学術界や産業の研究者の注目を集めてきた。
UAVの限られた資源、エネルギー予算、厳格なミッション完了時間が、これらの用途にUAVを採用する際の課題となっている。
我々のシステムモデルは、戦略的位置のためのより良いサービスを提供し、UAVがSwarm(例えば、リチャージのために)を動的に結合し去ることを可能にすることに焦点を当てた、地上IoTデバイスからデータを収集する領域をナビゲートするUAVスワムを考える。
本研究では,全エネルギー消費の最小化を目的とした最適化モデルを導入し,最小完成時間の制約下でのUAVの最適経路計画と送信電力について述べる。
定式化された最適化はNPハードであり、リアルタイムな意思決定には適用できない。
そこで本研究では,高速収束による環境変化にも対処できる軽量なメタ強化学習ソリューションを提案する。
広範なシミュレーションを行い,そのアプローチを3つの最先端学習モデルと比較する。
シミュレーションの結果,提案手法は3つの最先端アルゴリズムよりも,迅速な収束を伴う戦略的位置へのカバレッジが優れていることが示された。 In the past decade, Unmanned Aerial Vehicles (UAVs) have grabbed the attention of researchers in academia and industry for their potential use in critical emergency applications, such as providing wireless services to ground users and collecting data from areas affected by disasters, due to their advantages in terms of maneuverability and movement flexibility. The UAVs' limited resources, energy budget, and strict mission completion time have posed challenges in adopting UAVs for these applications. Our system model considers a UAV swarm that navigates an area collecting data from ground IoT devices focusing on providing better service for strategic locations and allowing UAVs to join and leave the swarm (e.g., for recharging) in a dynamic way. In this work, we introduce an optimization model with the aim of minimizing the total energy consumption and provide the optimal path planning of UAVs under the constraints of minimum completion time and transmit power. The formulated optimization is NP-hard making it not applicable for real-time decision making. Therefore, we introduce a light-weight meta-reinforcement learning solution that can also cope with sudden changes in the environment through fast convergence. We conduct extensive simulations and compare our approach to three state-of-the-art learning models. Our simulation results prove that our introduced approach is better than the three state-of-the-art algorithms in providing coverage to strategic locations with fast convergence. | 翻訳日:2024-01-23 17:57:07 公開日:2024-01-20 |
# 心臓血管健康の脈拍の指 : スマートフォンによる脈拍波形解析による血圧測定 A Finger on the Pulse of Cardiovascular Health: Smartphone Photoplethysmography-Based Pulse Waveform Analysis for Blood Pressure Measurement ( http://arxiv.org/abs/2401.11117v1 ) ライセンス: Link先を確認 | Ivan Liu, Fangyuan Liu, Qi Zhong, Shiguang Ni | (参考訳) 健康評価に不可欠な定期血圧モニタリング(BP)は、医療機器や専門知識へのアクセス制限などの課題に直面している。
一方、ポータブルなカフBPデバイスは一日中持ち歩くのが面倒で、先進国ではコストがかかることが多い。
さらに、これらのsphygmomanometerベースのデバイスは、測定中に不快感を引き起こし、血流を乱す可能性がある。
本研究は,低品質PPG信号からのBP予測において,機械学習モデルの不透明性に関連する信頼障壁を克服することに焦点を当て,連続BPモニタリングにおけるスマートフォンの利用について検討する。
提案手法は,循環器文献に基づくモデルの開発,スマートフォンのppg信号からbpを総合的データ前処理で推定する簡易統計手法,解釈性の向上と特徴同定にshapを適用したモデル,bland-altman分析を用いた標準参照と比較した。
125人の参加者のデータで検証した結果,スマートフォンとBPモニタリング装置の波形特性に有意な相関が認められた。
線形回帰 (MAE=9.86, 8.01 mmHg, 収縮血圧 (SBP), 拡張期血圧 (DBP), ランダム森林モデル (MAE=8.91, 6.68 mmHg, SBP=6.68 mmHg) の波形限定変数を用いたクロスバリデーションは, スマートフォンによるBP推定の可能性を示した。
SHAP分析では重要な特徴が特定されたが、Bland-Altman の結果は確立された閾値(それぞれ SBP と DBP の MAE<15 mmHg の84.64% と94.69%)を満たさなかった。
この研究は、毎日のBP推定のための機械学習モデルの精度と解釈可能性を高めるためのスマートフォンカメラの可能性を示しているが、スマートフォンのPPGベースのBP予測が従来の医療機器に代わるものではないことを示唆している。 Routine blood pressure (BP) monitoring, crucial for health assessment, faces challenges such as limited access to medical-grade equipment and expertise. Portable cuff BP devices, on the other hand, are cumbersome to carry all day and often cost-prohibitive in less developed countries. Besides, these sphygmomanometer-based devices can cause discomfort and disrupt blood flow during measurement. This study explores the use of smartphones for continuous BP monitoring, focusing on overcoming the trust barriers associated with the opacity of machine learning models in predicting BP from low-quality PPG signals. Our approach included developing models based on cardiovascular literature, using simple statistical methods to estimate BP from smartphone PPG signals with comprehensive data pre-processing, applying SHAP for enhanced interpretability and feature identification, and comparing our methods against standard references using Bland-Altman analysis. Validated with data from 125 participants, the study demonstrated significant correlations in waveform features between smartphone and reference BP monitoring devices. The cross-validation of linear regression [MAE=9.86 and 8.01 mmHg for systolic blood pressure (SBP) and diastolic blood pressure (DBP), respectively] and random forest model (MAE=8.91 and 6.68 mmHg for SBP and DBP) using waveform-only variables demonstrated the feasibility of using a smartphone to estimate BP. Although SHAP analysis identified key feature sets, Bland-Altman results did not fully meet established thresholds (84.64% and 94.69% of MAE<15 mmHg for SBP and DBP, respectively). The study suggests the potential of smartphone cameras to enhance the accuracy and interpretability of machine learning models for daily BP estimation, but also indicates that smartphone PPG-based BP prediction is not yet a replacement for traditional medical devices. | 翻訳日:2024-01-23 17:56:31 公開日:2024-01-20 |
# arxivとxに関する科学出版の促進は引用の興隆と影響について Promotion of Scientific Publications on ArXiv and X Is on the Rise and Impacts Citations ( http://arxiv.org/abs/2401.11116v1 ) ライセンス: Link先を確認 | Chhandak Bagchi, Eric Malmi, Przemyslaw Grabowicz | (参考訳) 科学出版の発展において、ハイインパクト研究の原動力を理解すること、研究の到達範囲を高めるための行動可能な戦略を科学者に与えること、そして現代の科学出版ツールを使用してさらなる発展を知らせる傾向を理解することが重要である。
本稿では,コンピュータサイエンスの出版物の膨大なデータセットに基づいて,arxivの初期のプレプリント出版物や改訂版の利用動向と,この10年間におけるx(旧twitter)の利用状況について考察する。
ArXivへの早期提出とXのプロモーションは近年急増している。
これらの現代の手頃品の使用が科学出版物の引用数に与える影響を推定すると、最初の5年間にarxivのゲインに先立って提出されたピアレビューの会議論文から平均21.1 \pm 17.4$の引用、arxivの改訂で18.4 \pm 17.6$の引用、xの引用数で4.4 \pm 8$の引用が行われたことが分かる。
以上の結果から,ArXiv や X 上での作業の促進は,引用数,Semantic Scholar が計算した影響力のある引用数に大きく影響し,研究者のキャリアに与える影響が示唆された。
本稿では,今後の科学出版システムと科学的影響の尺度について論じる。 In the evolving landscape of scientific publishing, it is important to understand the drivers of high-impact research, to equip scientists with actionable strategies to enhance the reach of their work, and to understand trends in the use modern scientific publishing tools to inform their further development. Here, based on a large dataset of computer science publications, we study trends in the use of early preprint publications and revisions on ArXiv and the use of X (formerly Twitter) for promotion of such papers in the last 10 years. We find that early submission to ArXiv and promotion on X have soared in recent years. Estimating the effect that the use of each of these modern affordances has on the number of citations of scientific publications, we find that in the first 5 years from an initial publication peer-reviewed conference papers submitted early to ArXiv gain on average $21.1 \pm 17.4$ more citations, revised on ArXiv gain $18.4 \pm 17.6$ more citations, and promoted on X gain $44.4 \pm 8$ more citations. Our results show that promoting one's work on ArXiv or X has a large impact on the number of citations, as well as the number of influential citations computed by Semantic Scholar, and thereby on the career of researchers. We discuss the far-reaching implications of these findings for future scientific publishing systems and measures of scientific impact. | 翻訳日:2024-01-23 17:55:28 公開日:2024-01-20 |
# MotionMix:制御可能なモーション生成のための弱スーパービジョン拡散 MotionMix: Weakly-Supervised Diffusion for Controllable Motion Generation ( http://arxiv.org/abs/2401.11115v1 ) ライセンス: Link先を確認 | Nhat M. Hoang, Kehong Gong, Chuan Guo, Michael Bi Mi | (参考訳) 世界がデジタルトランスフォーメーションを受け入れるにつれ、制御可能な3次元人間の動きの生成は重要なトピックとなる。
拡散モデルの登場で有望な進展を遂げた既存の作品は、実世界のリソース集約的な取り組みである、細心の注意深いキャプチャーと注釈付き(テキストなど)の高品質モーションコーパスに大きく依存している。
提案するモーションミックスは,ノイズと無意味な動き列を併用した,単純かつ効果的な弱教師付き拡散モデルである。
具体的には, 初期$t-t^*$ ステップにおける条件付き粗動近似を得るには, 雑音アノテートされた動きを学習し, 最終$t^*$ ステップの条件付き粗動近似を得る。
特に、2つの不完全なデータソースから学習するが、我々のモデルは、ゴールドデータにアクセスする完全に教師されたアプローチに比べて、動きの生成品質を損なうことはない。
いくつかのベンチマークにおいて、MotionMixは多機能なフレームワークであり、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成している。 Controllable generation of 3D human motions becomes an important topic as the world embraces digital transformation. Existing works, though making promising progress with the advent of diffusion models, heavily rely on meticulously captured and annotated (e.g., text) high-quality motion corpus, a resource-intensive endeavor in the real world. This motivates our proposed MotionMix, a simple yet effective weakly-supervised diffusion model that leverages both noisy and unannotated motion sequences. Specifically, we separate the denoising objectives of a diffusion model into two stages: obtaining conditional rough motion approximations in the initial $T-T^*$ steps by learning the noisy annotated motions, followed by the unconditional refinement of these preliminary motions during the last $T^*$ steps using unannotated motions. Notably, though learning from two sources of imperfect data, our model does not compromise motion generation quality compared to fully supervised approaches that access gold data. Extensive experiments on several benchmarks demonstrate that our MotionMix, as a versatile framework, consistently achieves state-of-the-art performances on text-to-motion, action-to-motion, and music-to-dance tasks. | 翻訳日:2024-01-23 17:54:12 公開日:2024-01-20 |
# DengueNet:資源制限国における時空間衛星画像を用いたデング予測 DengueNet: Dengue Prediction using Spatiotemporal Satellite Imagery for Resource-Limited Countries ( http://arxiv.org/abs/2401.11114v1 ) ライセンス: Link先を確認 | Kuan-Ting Kuo, Dana Moukheiber, Sebastian Cajas Ordonez, David Restrepo, Atika Rahman Paddo, Tsung-Yu Chen, Lama Moukheiber, Mira Moukheiber, Sulaiman Moukheiber, Saptarshi Purkayastha, Po-Chih Kuo and Leo Anthony Celi | (参考訳) デング熱は、衛生インフラが不十分な発展途上国で深刻な課題となっている。
包括的医療システムの欠如はデングの感染の深刻さを悪化させ、生命を脅かす可能性がある。
デングの流行に対する迅速な対応も、情報交換や統合の制限により困難である。
時折デング熱の流行はそのような流行を予防する可能性があるが、デング熱の予測研究の大半は、各国の収集に多大な負担をかけるデータに依存している。
本研究では,高解像度衛星画像の非従来的かつアクセスしやすいデータソースとしての有効性を探求することにより,資源制約国における健康管理を改善することを目的とする。
衛星画像の公開と入手の容易さを活かし,クラウドベースのコンピューティングプラットフォームであるsentinel hubに基づくスケーラブルな衛星抽出フレームワークを提案する。
さらに,衛星画像から時空間的特徴を抽出・統合するために,視覚トランスフォーマー,放射能,長期短期記憶を組み合わせた革新的なアーキテクチャであるdenguenetを紹介する。
これにより、デング予測をエピウィークベースで行える。
提案手法の有効性を評価するため,コロンビアの5つの自治体で実験を行った。
780のsentinel-2衛星画像からなるデータセットを訓練と評価に利用した。
DengueNetの性能は平均絶対誤差(MAE)測定値を用いて評価した。
5つの自治体全体で、デングネットは平均43.92のMAEを達成した。
本研究は,手動で収集したデータが乏しく,デングウイルスの流行が深刻である国において,特に公衆衛生政策を通知する上で,デング予測の貴重な資料として衛星画像の有効性を強く支持する。 Dengue fever presents a substantial challenge in developing countries where sanitation infrastructure is inadequate. The absence of comprehensive healthcare systems exacerbates the severity of dengue infections, potentially leading to life-threatening circumstances. Rapid response to dengue outbreaks is also challenging due to limited information exchange and integration. While timely dengue outbreak forecasts have the potential to prevent such outbreaks, the majority of dengue prediction studies have predominantly relied on data that impose significant burdens on individual countries for collection. In this study, our aim is to improve health equity in resource-constrained countries by exploring the effectiveness of high-resolution satellite imagery as a nontraditional and readily accessible data source. By leveraging the wealth of publicly available and easily obtainable satellite imagery, we present a scalable satellite extraction framework based on Sentinel Hub, a cloud-based computing platform. Furthermore, we introduce DengueNet, an innovative architecture that combines Vision Transformer, Radiomics, and Long Short-term Memory to extract and integrate spatiotemporal features from satellite images. This enables dengue predictions on an epi-week basis. To evaluate the effectiveness of our proposed method, we conducted experiments on five municipalities in Colombia. We utilized a dataset comprising 780 high-resolution Sentinel-2 satellite images for training and evaluation. The performance of DengueNet was assessed using the mean absolute error (MAE) metric. Across the five municipalities, DengueNet achieved an average MAE of 43.92. Our findings strongly support the efficacy of satellite imagery as a valuable resource for dengue prediction, particularly in informing public health policies within countries where manually collected data is scarce and dengue virus prevalence is severe. | 翻訳日:2024-01-23 17:53:29 公開日:2024-01-20 |
# SPAND:ネットワークダイナミクスを用いた睡眠予測アーキテクチャ SPAND: Sleep Prediction Architecture using Network Dynamics ( http://arxiv.org/abs/2401.11113v1 ) ライセンス: Link先を確認 | Maryam Khalid, Elizabeth B. Klerman, Andrew W. Mchill, Andrew J. K. Phillips, Akane Sano | (参考訳) 睡眠行動は健康に大きな影響を与え、身体的および精神的な幸福の指標となる。
したがって、ユビキタスセンサーによる睡眠行動のモニタリングと予測は、睡眠管理と関連する健康状態の追跡の両方に役立つ。
睡眠行動は、人の生理に反映されるが、デジタルメディアの使用、ソーシャルネットワークの感染、周囲の天候といった外部要因にも影響される。
本研究では,グラフネットワークによる睡眠行動の社会的伝染を利用したSPAND(Sleep Prediction Architecture using Network Dynamics)を提案し,それをユビキタスなモバイルおよびウェアラブルデバイスから抽出した生理的・電話データと統合し,次の睡眠ラベルの睡眠時間を予測する。
我々のアーキテクチャは、注意機構を考案することによって、睡眠行動に関係のない接続を含む大規模グラフの限界を克服する。
広範な実験評価は、モデルにソーシャルネットワークを組み込むことによる改善を強調する。
さらに,実環境下でのシステム性能を示すためにロバストネス解析を行った。
その結果、入力データの摂動に対するSPANDの安定性が確認された。
さらに、予測性能においてネットワークトポロジの重要性を強調し、高い固有値集中度を持つユーザがデータ摂動に対してより脆弱であることを明らかにする。 Sleep behavior significantly impacts health and acts as an indicator of physical and mental well-being. Monitoring and predicting sleep behavior with ubiquitous sensors may therefore assist in both sleep management and tracking of related health conditions. While sleep behavior depends on, and is reflected in the physiology of a person, it is also impacted by external factors such as digital media usage, social network contagion, and the surrounding weather. In this work, we propose SPAND (Sleep Prediction Architecture using Network Dynamics), a system that exploits social contagion in sleep behavior through graph networks and integrates it with physiological and phone data extracted from ubiquitous mobile and wearable devices for predicting next-day sleep labels about sleep duration. Our architecture overcomes the limitations of large-scale graphs containing connections irrelevant to sleep behavior by devising an attention mechanism. The extensive experimental evaluation highlights the improvement provided by incorporating social networks in the model. Additionally, we conduct robustness analysis to demonstrate the system's performance in real-life conditions. The outcomes affirm the stability of SPAND against perturbations in input data. Further analyses emphasize the significance of network topology in prediction performance revealing that users with higher eigenvalue centrality are more vulnerable to data perturbations. | 翻訳日:2024-01-23 17:53:02 公開日:2024-01-20 |
# VONet: 並列U-Netアテンションとオブジェクト指向シーケンスVAEによる教師なしビデオオブジェクト学習 VONet: Unsupervised Video Object Learning With Parallel U-Net Attention and Object-wise Sequential VAE ( http://arxiv.org/abs/2401.11110v1 ) ライセンス: Link先を確認 | Haonan Yu and Wei Xu | (参考訳) 教師なしのビデオオブジェクト学習は、ビデオシーンを奥行き、光学的流れ、セグメンテーションの監督なしに、構造的オブジェクト表現に分解しようとする。
私たちはMONetにインスパイアされた革新的なアプローチVONetを紹介します。
u-netアーキテクチャを利用する一方で、vonetは効率的かつ効果的な並列注意推論プロセスを採用し、すべてのスロットに注意マスクを同時に生成する。
さらに、連続するビデオフレーム間のマスクの時間的一貫性を高めるために、VONetはオブジェクト指向シーケンシャルなVAEフレームワークを開発する。
これらの革新的なエンコーダ側技術の統合は、表現力のあるトランスフォーマーベースのデコーダとともに、VONetを5つのMOVIデータセットにわたるオブジェクト学習の指導を受けていない主要な方法として確立し、多様な複雑さのビデオを含んでいる。
コードはhttps://github.com/hnyu/vonetで入手できる。 Unsupervised video object learning seeks to decompose video scenes into structural object representations without any supervision from depth, optical flow, or segmentation. We present VONet, an innovative approach that is inspired by MONet. While utilizing a U-Net architecture, VONet employs an efficient and effective parallel attention inference process, generating attention masks for all slots simultaneously. Additionally, to enhance the temporal consistency of each mask across consecutive video frames, VONet develops an object-wise sequential VAE framework. The integration of these innovative encoder-side techniques, in conjunction with an expressive transformer-based decoder, establishes VONet as the leading unsupervised method for object learning across five MOVI datasets, encompassing videos of diverse complexities. Code is available at https://github.com/hnyu/vonet. | 翻訳日:2024-01-23 17:52:44 公開日:2024-01-20 |
# LLM4Fuzz: 大規模言語モデルによるスマートコントラクトのガイドファズ LLM4Fuzz: Guided Fuzzing of Smart Contracts with Large Language Models ( http://arxiv.org/abs/2401.11108v1 ) ライセンス: Link先を確認 | Chaofan Shou, Jing Liu, Doudou Lu, Koushik Sen | (参考訳) ブロックチェーンプラットフォームが指数関数的に成長するにつれて、大規模なデジタル資産を管理するために数百万行のスマートコントラクトコードがデプロイされている。
しかし、このミッションクリティカルなコードの脆弱性は、かなりの搾取と資産損失をもたらした。
したがって、スマートコントラクトの自動セキュリティ分析は必須である。
本稿では,大規模言語モデル(llm)を活用して,自動スマートコントラクトセキュリティ解析を最適化するために,llm4fuzzを提案する。
従来のファジィングは、広い状態空間を探索する際の低効率に悩まされているが、LSM4ファジィは、ファジィを高価値のコード領域や入力シーケンスに向けるLLMを使っている。
加えて、LLM4Fuzz は LLM を利用してユーザ定義不変量に基づいてファズーをガイドし、ブラインド探索のオーバーヘッドを減らすことができる。
実世界のdefiプロジェクトにおけるllm4fuzzの評価は、ベースラインのファジングと比べて効率、カバレッジ、脆弱性検出の大幅な向上を示している。
LLM4Fuzzはまた、5つの重大な脆弱性を発見し、247万ドル以上の損失を招いた。 As blockchain platforms grow exponentially, millions of lines of smart contract code are being deployed to manage extensive digital assets. However, vulnerabilities in this mission-critical code have led to significant exploitations and asset losses. Thorough automated security analysis of smart contracts is thus imperative. This paper introduces LLM4Fuzz to optimize automated smart contract security analysis by leveraging large language models (LLMs) to intelligently guide and prioritize fuzzing campaigns. While traditional fuzzing suffers from low efficiency in exploring the vast state space, LLM4Fuzz employs LLMs to direct fuzzers towards high-value code regions and input sequences more likely to trigger vulnerabilities. Additionally, LLM4Fuzz can leverage LLMs to guide fuzzers based on user-defined invariants, reducing blind exploration overhead. Evaluations of LLM4Fuzz on real-world DeFi projects show substantial gains in efficiency, coverage, and vulnerability detection compared to baseline fuzzing. LLM4Fuzz also uncovered five critical vulnerabilities that can lead to a loss of more than $247k. | 翻訳日:2024-01-23 17:52:26 公開日:2024-01-20 |
# 述語プロンプトを用いたオープン情報抽出における重複の爆発 Exploiting Duality in Open Information Extraction with Predicate Prompt ( http://arxiv.org/abs/2401.11107v1 ) ライセンス: Link先を確認 | Zhen Chen, Jingping Liu, Deqing Yang, Yanghua Xiao, Huimin Xu, Zongyu Wang, Rui Xie and Yunsen Xian | (参考訳) open information extraction (openie) は、与えられた文から (\emph{subject}, \emph{predicate}, \emph{object}) という形でスキーマフリーの三重項を抽出することを目的としている。
一般的な情報抽出 (IE) と比較すると、OpenIEはIEモデルにより多くの課題を生じさせ、特に文中に複数の複雑な三つ子が存在する場合である。
本稿では,これらの複雑な三つ子をより効果的に抽出するために,文から三つ子を抽出すると同時に,三つ子を文に変換するという2つのタスクを同時に達成する新しい生成型OpenIEモデル,すなわち 'emph{DualOIE} を提案する。
このような二重タスクは、与えられた文の構造を正しく認識するようモデルに促すので、文から全ての潜在的な三つ子を抽出するのに役立ちます。
具体的には、dualoieはトリプレットを2つのステップで抽出する。
1)まず,すべての潜在的述語列を抽出する。
2) 述語配列をプロンプトとして使用することで三重項の生成を誘導する。
2つのベンチマークとmeituanで構築したデータセットに関する実験では、dualoieが最先端のベースラインで最高のパフォーマンスを達成していることが示されています。
さらに、Meituanプラットフォーム上でのオンラインA/Bテストでは、DualOIEによって抽出された三重項がMeituanの検索システムで活用された際に、QV-CTRの0.93 %、UV-CTRの0.56 %の改善が得られた。 Open information extraction (OpenIE) aims to extract the schema-free triplets in the form of (\emph{subject}, \emph{predicate}, \emph{object}) from a given sentence. Compared with general information extraction (IE), OpenIE poses more challenges for the IE models, {especially when multiple complicated triplets exist in a sentence. To extract these complicated triplets more effectively, in this paper we propose a novel generative OpenIE model, namely \emph{DualOIE}, which achieves a dual task at the same time as extracting some triplets from the sentence, i.e., converting the triplets into the sentence.} Such dual task encourages the model to correctly recognize the structure of the given sentence and thus is helpful to extract all potential triplets from the sentence. Specifically, DualOIE extracts the triplets in two steps: 1) first extracting a sequence of all potential predicates, 2) then using the predicate sequence as a prompt to induce the generation of triplets. Our experiments on two benchmarks and our dataset constructed from Meituan demonstrate that DualOIE achieves the best performance among the state-of-the-art baselines. Furthermore, the online A/B test on Meituan platform shows that 0.93\% improvement of QV-CTR and 0.56\% improvement of UV-CTR have been obtained when the triplets extracted by DualOIE were leveraged in Meituan's search system. | 翻訳日:2024-01-23 17:52:07 公開日:2024-01-20 |
# ディープネットワーク分割領域の高速かつ正確な列挙 Fast and Exact Enumeration of Deep Networks Partitions Regions ( http://arxiv.org/abs/2401.11188v1 ) ライセンス: Link先を確認 | Randall Balestriero, Yann LeCun | (参考訳) ディープネットワーク(dns)の成果のある定式化の一つは、理論的な研究を可能にし、実践者に実践的なガイドラインを提供することである。
この領域では、DNの入力マッピングは領域ごとのアフィンマッピングとして表現され、これらの領域はモデルのアーキテクチャによって暗黙的に決定され、入力空間の分割を形成する。
これまでのところ、DNの入力空間の2/3$のスライスやランダムサンプリングによって見積もられているだけである。
本稿では,DNの分割領域を正確に列挙する最初の並列アルゴリズムを提案する。
提案アルゴリズムは、DN入力空間のランダムサンプリングに基づいて、一般的に用いられる近似法の近接性を最終的に評価することを可能にする。
我々の重要な発見の1つは、もし「大」体積を持つ領域だけに関心があるなら、空間の均一なサンプリングは非常に効率的であるが、分割の「小」領域の発見にも興味があるなら、一様サンプリングはDNの入力空間次元と指数関数的にコストがかかることである。
一方,提案手法では,入力次元と領域数を線形にスケーリングする。 One fruitful formulation of Deep Networks (DNs) enabling their theoretical study and providing practical guidelines to practitioners relies on Piecewise Affine Splines. In that realm, a DN's input-mapping is expressed as per-region affine mapping where those regions are implicitly determined by the model's architecture and form a partition of their input space. That partition -- which is involved in all the results spanned from this line of research -- has so far only been computed on $2/3$-dimensional slices of the DN's input space or estimated by random sampling. In this paper, we provide the first parallel algorithm that does exact enumeration of the DN's partition regions. The proposed algorithm enables one to finally assess the closeness of the commonly employed approximations methods, e.g. based on random sampling of the DN input space. One of our key finding is that if one is only interested in regions with ``large'' volume, then uniform sampling of the space is highly efficient, but that if one is also interested in discovering the ``small'' regions of the partition, then uniform sampling is exponentially costly with the DN's input space dimension. On the other hand, our proposed method has complexity scaling linearly with input dimension and the number of regions. | 翻訳日:2024-01-23 17:45:07 公開日:2024-01-20 |
# スタイミーとターボチャージによる動的逆問題生成におけるユビキタス大規模言語モデルの出現 How the Advent of Ubiquitous Large Language Models both Stymie and Turbocharge Dynamic Adversarial Question Generation ( http://arxiv.org/abs/2401.11185v1 ) ライセンス: Link先を確認 | Yoo Yeon Sung and Ishani Mondal and Jordan Boyd-Graber | (参考訳) 人間がモデルをスランプするために例を書くダイナミックな敵の質問生成は、現実的で情報に富んだ例を作ることを目的としている。
しかし、大きな言語モデル(LLM)の出現は、人間の作家にとって二重の刃の剣であり、多くの人々がこれらのモデルの限界を見押しすることに興味を持っているが、モデルが非常に強い相手であるため、打ち勝つのは難しい。
これらのモデルが逆問題作成プロセスにどのように影響するかを理解するため、著者がなぜ逆問題がないのかを判断するために、LLMと検索モデルによる記述指導を強化した。
著者は興味深い、挑戦的な質問を創り出すことができるが、しばしば、コンピュータだけでなく人間にも不明瞭で主観的で混乱した質問をもたらすようなトリックに頼ることがある。
これらの問題に対処するため,我々は,問題のあるよい質問を引き出すための新しい指標とインセンティブを提案し,反対意見の新たなデータセットを提示する。 Dynamic adversarial question generation, where humans write examples to stump a model, aims to create examples that are realistic and informative. However, the advent of large language models (LLMs) has been a double-edged sword for human authors: more people are interested in seeing and pushing the limits of these models, but because the models are so much stronger an opponent, they are harder to defeat. To understand how these models impact adversarial question writing process, we enrich the writing guidance with LLMs and retrieval models for the authors to reason why their questions are not adversarial. While authors could create interesting, challenging adversarial questions, they sometimes resort to tricks that result in poor questions that are ambiguous, subjective, or confusing not just to a computer but also to humans. To address these issues, we propose new metrics and incentives for eliciting good, challenging questions and present a new dataset of adversarially authored questions. | 翻訳日:2024-01-23 17:44:41 公開日:2024-01-20 |
# データ駆動型ターゲットローカライゼーション: Cram\'er-Rao境界を用いたグラディエントDescentのベンチマーク Data-Driven Target Localization: Benchmarking Gradient Descent Using the Cram\'er-Rao Bound ( http://arxiv.org/abs/2401.11176v1 ) ライセンス: Link先を確認 | Shyam Venkatasubramanian, Sandeep Gogineni, Bosung Kang, Ali Pezeshki, Muralidhar Rangaswamy, Vahid Tarokh | (参考訳) 現代のレーダーシステムでは、方位と速度推定を用いた正確な目標定位が最重要である。
従来の非バイアス推定法は、パラメータ推定の誤差に対するCram\'er Rao Bound (CRB)の理論的な限界に達するために勾配降下アルゴリズムを利用した。
本研究では、従来の手法よりも優れたデータ駆動型ニューラルネットワークアプローチを提案し、目標方位の精度の向上と速度推定を示す。
代表的なシミュレーションシナリオを用いて,提案するニューラルネットモデルは,本質的に偏りがあるため,パラメータ推定が常に改善され,平均二乗誤差(mse)が減少することを示す。
本研究は, レーダーシステムにおける深層学習手法の適用の可能性を明らかにし, 散在・動的環境におけるより正確な局部化の道を開くものである。 In modern radar systems, precise target localization using azimuth and velocity estimation is paramount. Traditional unbiased estimation methods have leveraged gradient descent algorithms to reach the theoretical limits of the Cram\'er Rao Bound (CRB) for the error of the parameter estimates. In this study, we present a data-driven neural network approach that outperforms these traditional techniques, demonstrating improved accuracies in target azimuth and velocity estimation. Using a representative simulated scenario, we show that our proposed neural network model consistently achieves improved parameter estimates due to its inherently biased nature, yielding a diminished mean squared error (MSE). Our findings underscore the potential of employing deep learning methods in radar systems, paving the way for more accurate localization in cluttered and dynamic environments. | 翻訳日:2024-01-23 17:44:22 公開日:2024-01-20 |
# 整形外科的シーン理解のための画素幅認識 Pixel-Wise Recognition for Holistic Surgical Scene Understanding ( http://arxiv.org/abs/2401.11174v1 ) ライセンス: Link先を確認 | Nicol\'as Ayobi and Santiago Rodr\'iguez and Alejandra P\'erez and Isabela Hern\'andez and Nicol\'as Aparicio and Eug\'enie Dessevres and Sebasti\'an Pe\~na and Jessica Santander and Juan Ignacio Caicedo and Nicol\'as Fern\'andez and Pablo Arbel\'aez | (参考訳) 本稿では,手術シーンの理解を相補的タスクの階層構造としてモデル化し,様々なレベルの粒度をモデル化した,整形的および多角的前立腺腫の手術シーン理解データセット(GraSP)を提案する。
本手法は,手術の段階や段階認識などの長期的タスクや,手術器具のセグメンテーションや原子視覚行動検出などの短期的タスクを含む,外科的活動の多段階的理解を可能にする。
提案するベンチマークを活用するために,グローバルなビデオ特徴抽出器と機器セグメンテーションモデルからの局所的領域提案を組み合わせた汎用アーキテクチャであるTransformers for Actions, Phases, Steps, and Instrument Segmentation(TAPIS)モデルを提案する。
広範な実験を通じて,短期認識タスクにセグメント化アノテーションを含めることによる影響を実証し,各タスクの粒度要求の変化に着目し,提案するベースラインと従来のcnnベースモデルに対するtapisの優位性を確立する。
さらに、複数の公開ベンチマークでメソッドの堅牢性を検証し、データセットの信頼性と適用性を確認する。
この研究は内視鏡視における重要な進歩であり、外科手術の全体的理解に向けた新しい包括的枠組みを提供する。 This paper presents the Holistic and Multi-Granular Surgical Scene Understanding of Prostatectomies (GraSP) dataset, a curated benchmark that models surgical scene understanding as a hierarchy of complementary tasks with varying levels of granularity. Our approach enables a multi-level comprehension of surgical activities, encompassing long-term tasks such as surgical phases and steps recognition and short-term tasks including surgical instrument segmentation and atomic visual actions detection. To exploit our proposed benchmark, we introduce the Transformers for Actions, Phases, Steps, and Instrument Segmentation (TAPIS) model, a general architecture that combines a global video feature extractor with localized region proposals from an instrument segmentation model to tackle the multi-granularity of our benchmark. Through extensive experimentation, we demonstrate the impact of including segmentation annotations in short-term recognition tasks, highlight the varying granularity requirements of each task, and establish TAPIS's superiority over previously proposed baselines and conventional CNN-based models. Additionally, we validate the robustness of our method across multiple public benchmarks, confirming the reliability and applicability of our dataset. This work represents a significant step forward in Endoscopic Vision, offering a novel and comprehensive framework for future research towards a holistic understanding of surgical procedures. | 翻訳日:2024-01-23 17:44:07 公開日:2024-01-20 |
# バーボース画像を用いた大規模視覚言語モデルの高エネルギー化 Inducing High Energy-Latency of Large Vision-Language Models with Verbose Images ( http://arxiv.org/abs/2401.11170v1 ) ライセンス: Link先を確認 | Kuofeng Gao, Yang Bai, Jindong Gu, Shu-Tao Xia, Philip Torr, Zhifeng Li, Wei Liu | (参考訳) GPT-4のような大規模視覚言語モデル(VLM)は、様々なマルチモーダルタスクにおいて例外的な性能を達成している。
しかしながら、VLMの展開にはかなりのエネルギー消費と計算資源が必要である。
攻撃者がVLMの推論中に高エネルギー消費と遅延時間(遅延コスト)を悪用すると、計算資源を消費する。
本稿では、この攻撃面をVLMの利用可能性について検討し、VLMの推論中に高エネルギー遅延コストを誘導することを目的とする。
VLMの推論における高エネルギー遅延コストは、生成シーケンスの長さを最大化することによって制御できる。
そこで本稿では,VLMを誘導し,推論中に長文を生成するために,知覚不能な摂動を作り出すことを目的とした冗長な画像を提案する。
具体的には3つの損失目標を設計する。
まず、eos(end-of-sequence)トークンの発生を遅らせるために損失が提案されている。
さらに、各生成されたトークンに対する不確実性損失とトークンの多様性損失をそれぞれ提案し、トークンレベルの出力依存性とシーケンスレベルの出力依存性を損なうことができる。
さらに,これらの損失を効果的にバランスさせる時間的重み調整アルゴリズムを提案する。
広範な実験により,ms-cocoおよびimagenetデータセットのオリジナル画像と比較して,生成シーケンスの長さを7.87倍,8.56倍に増やすことができた。
私たちのコードはhttps://github.com/kuofenggao/verbose_imagesで利用可能です。 Large vision-language models (VLMs) such as GPT-4 have achieved exceptional performance across various multi-modal tasks. However, the deployment of VLMs necessitates substantial energy consumption and computational resources. Once attackers maliciously induce high energy consumption and latency time (energy-latency cost) during inference of VLMs, it will exhaust computational resources. In this paper, we explore this attack surface about availability of VLMs and aim to induce high energy-latency cost during inference of VLMs. We find that high energy-latency cost during inference of VLMs can be manipulated by maximizing the length of generated sequences. To this end, we propose verbose images, with the goal of crafting an imperceptible perturbation to induce VLMs to generate long sentences during inference. Concretely, we design three loss objectives. First, a loss is proposed to delay the occurrence of end-of-sequence (EOS) token, where EOS token is a signal for VLMs to stop generating further tokens. Moreover, an uncertainty loss and a token diversity loss are proposed to increase the uncertainty over each generated token and the diversity among all tokens of the whole generated sequence, respectively, which can break output dependency at token-level and sequence-level. Furthermore, a temporal weight adjustment algorithm is proposed, which can effectively balance these losses. Extensive experiments demonstrate that our verbose images can increase the length of generated sequences by 7.87 times and 8.56 times compared to original images on MS-COCO and ImageNet datasets, which presents potential challenges for various applications. Our code is available at https://github.com/KuofengGao/Verbose_Images. | 翻訳日:2024-01-23 17:43:42 公開日:2024-01-20 |
# OMNIREPを用いた芸術画像の共進化 Coevolving Artistic Images Using OMNIREP ( http://arxiv.org/abs/2401.11167v1 ) ライセンス: Link先を確認 | Moshe Sipper, Jason H. Moore, Ryan J. Urbanowicz | (参考訳) 我々は最近OMNIREPを開発した。OMNIREPは、特定の関心事の問題を解決する表現とインタプリタの両方を見つけるための共進化アルゴリズムである。
本稿では,進化学の分野においてOMNIREPフレームワークをうまく適用できることを実証する。
具体的には、画像の位置をエンコードする表現と、これらの位置を、サイズ、形状、色が異なる3つの事前定義された形状(チャンク、多角形、円)に変換するインタプリタを結合する。
このアプローチによって生成されたユニークな画像のバリエーションのサンプルを紹介する。 We have recently developed OMNIREP, a coevolutionary algorithm to discover both a representation and an interpreter that solve a particular problem of interest. Herein, we demonstrate that the OMNIREP framework can be successfully applied within the field of evolutionary art. Specifically, we coevolve representations that encode image position, alongside interpreters that transform these positions into one of three pre-defined shapes (chunks, polygons, or circles) of varying size, shape, and color. We showcase a sampling of the unique image variations produced by this approach. | 翻訳日:2024-01-23 17:43:13 公開日:2024-01-20 |
# binaryai:intelligent binary source code matchingによるバイナリソフトウェア構成分析 BinaryAI: Binary Software Composition Analysis via Intelligent Binary Source Code Matching ( http://arxiv.org/abs/2401.11161v1 ) ライセンス: Link先を確認 | Ling Jiang, Junwen An, Huihui Huang, Qiyi Tang, Sen Nie, Shi Wu, Yuqun Zhang | (参考訳) サードパーティのライブラリは、ソフトウェア開発中に生産性を高めるために広範囲に再利用されるが、脆弱性伝播のような潜在的なセキュリティリスクも引き起こすことができる。
このようなリスクを軽減するために再利用可能なTPLを同定するソフトウェア構成分析は、DevSecOpsにおいて必須の手順となっている。
主要なSCA技術の一つとして、バイナリからソースまでのSCAはバイナリソースコードマッチングを通じてバイナリファイルに含まれるサードパーティのオープンソースプロジェクトを特定します。
既存のバイナリ・トゥ・ソースのSCA技術は、冗長性と大規模TPLデータセットの堅牢性に欠ける基本的な構文的特徴を利用しており、必然的な偽陽性と難解なリコールにつながっている。
これらの制限を緩和するため、BinaryAIという2段階のバイナリソースコードマッチングを備えた、新しいバイナリからソースまでのSCA技術を導入し、構文的およびセマンティックなコードの特徴を捉える。
まず、BinaryAIはトランスフォーマーモデルを使用して関数レベルの埋め込みを生成し、それに応じて各バイナリ関数に対して同様のソース関数を取得する。
次に、関数マッチングを容易にするためにリンク時間局所性を適用することにより、BinaryAIは一致したソース関数の比率に基づいて再利用されたTPLを検出する。
実験結果は,バイナリソースコードマッチングとダウンストリームscaタスクの観点から,binaryaiの優れた性能を示す。
具体的には、埋め込みモデルは最先端のcodecmr、すなわち22.54%のre recall@1 と 0.34 mrr をそれぞれ10.75% と 0.17 に上回っている。
さらに、BinaryAIは既存のバイナリからソースまでのSCAツールをTPL検出で上回り、精度は73.36%から85.84%に、リコールは59.81%から64.98%に向上した。 While third-party libraries are extensively reused to enhance productivity during software development, they can also introduce potential security risks such as vulnerability propagation. Software composition analysis, proposed to identify reused TPLs for reducing such risks, has become an essential procedure within modern DevSecOps. As one of the mainstream SCA techniques, binary-to-source SCA identifies the third-party source projects contained in binary files via binary source code matching, which is a major challenge in reverse engineering since binary and source code exhibit substantial disparities after compilation. The existing binary-to-source SCA techniques leverage basic syntactic features that suffer from redundancy and lack robustness in the large-scale TPL dataset, leading to inevitable false positives and compromised recall. To mitigate these limitations, we introduce BinaryAI, a novel binary-to-source SCA technique with two-phase binary source code matching to capture both syntactic and semantic code features. First, BinaryAI trains a transformer-based model to produce function-level embeddings and obtain similar source functions for each binary function accordingly. Then by applying the link-time locality to facilitate function matching, BinaryAI detects the reused TPLs based on the ratio of matched source functions. Our experimental results demonstrate the superior performance of BinaryAI in terms of binary source code matching and the downstream SCA task. Specifically, our embedding model outperforms the state-of-the-art model CodeCMR, i.e., achieving 22.54% recall@1 and 0.34 MRR compared with 10.75% and 0.17 respectively. Additionally, BinaryAI outperforms all existing binary-to-source SCA tools in TPL detection, increasing the precision from 73.36% to 85.84% and recall from 59.81% to 64.98% compared with the well-recognized commercial SCA product Black Duck. | 翻訳日:2024-01-23 17:43:03 公開日:2024-01-20 |
# 埋め込み空間におけるspoof認識のための話者照合の一般化 Generalizing Speaker Verification for Spoof Awareness in the Embedding Space ( http://arxiv.org/abs/2401.11156v1 ) ライセンス: Link先を確認 | Xuechen Liu, Md Sahidullah, Kong Aik Lee, Tomi Kinnunen | (参考訳) 現在、様々な種類の敵を用いて自動話者検証(ASV)システムを構築することが知られている。
このような攻撃に対してasvシステムを対抗させる一般的なアプローチは、音声入力をボナフィドまたはスプーフ化発話として分類する独立したスプーフ化対策(cm)モジュールを開発することである。
それにもかかわらず、このような設計は認証段階でさらなる計算と利用の努力を必要とする。
代替戦略として、ゼロフォートインポスタ(非ターゲット)と偽造攻撃の両方を扱うように設計された単一のモノリシックなASVシステムがある。
このようなspoof-aware asvシステムは、より強力な保護とより経済的な計算を提供する可能性がある。
そこで我々は,テスト(認証)フェーズにおいて,独立したCMモジュールを介さずに,CMからの限られたトレーニングデータを活用して埋め込み空間における単純なバックエンドを強化する,スプーフィング攻撃に対するスタンドアロンASV(G-SASV)の一般化を提案する。
本稿では、深層ニューラルネットワークに基づく新しいバックエンド分類器を提案し、ドメイン適応と訓練段階におけるスプーフ埋め込みのマルチタスク統合による研究を行う。
実験はasvspoof 2019の論理アクセスデータセット上で行われ、ジョイント(ボナフィドとスプーフド)とスプーフド条件の統計的なasvバックエンドの性能を、それぞれ同じエラー率で最大36.2%、49.8%改善する。 It is now well-known that automatic speaker verification (ASV) systems can be spoofed using various types of adversaries. The usual approach to counteract ASV systems against such attacks is to develop a separate spoofing countermeasure (CM) module to classify speech input either as a bonafide, or a spoofed utterance. Nevertheless, such a design requires additional computation and utilization efforts at the authentication stage. An alternative strategy involves a single monolithic ASV system designed to handle both zero-effort imposter (non-targets) and spoofing attacks. Such spoof-aware ASV systems have the potential to provide stronger protections and more economic computations. To this end, we propose to generalize the standalone ASV (G-SASV) against spoofing attacks, where we leverage limited training data from CM to enhance a simple backend in the embedding space, without the involvement of a separate CM module during the test (authentication) phase. We propose a novel yet simple backend classifier based on deep neural networks and conduct the study via domain adaptation and multi-task integration of spoof embeddings at the training stage. Experiments are conducted on the ASVspoof 2019 logical access dataset, where we improve the performance of statistical ASV backends on the joint (bonafide and spoofed) and spoofed conditions by a maximum of 36.2% and 49.8% in terms of equal error rates, respectively. | 翻訳日:2024-01-23 17:42:28 公開日:2024-01-20 |
# varshni-hellmannポテンシャルの近似境界状態解 Approximate Bound States Solution of the Varshni-Hellmann Potential ( http://arxiv.org/abs/2401.11151v1 ) ライセンス: Link先を確認 | N. Tazimi, M. Monemzadeh | (参考訳) 本稿では,varshni-hellmannポテンシャルの有界状態問題を有用な手法で解く。
本研究では,varshni-hellmannポテンシャルに対するschrodinger方程式の境界状態解をansatz法で求める。
エネルギー固有値と対応する固有関数を得る。
また、地中におけるエネルギースペクトルの挙動と、2つの身体系の励起状態について図式的に示す。
この結果と正確な数値との類似性は,本手法の効率性を示すものである。 In this paper, we solve the bound state problem for Varshni-Hellmann potential via a useful technique. In our technique, we obtain the bound state solution of the Schrodinger equation for the Varshni-Hellmann potential via ansatz method. We obtain the energy eigenvalues and the corresponding eigen-functions. Also, the behavior of the energy spectra for both the ground and the excited state of the two body systems is illustrated graphically. The similarity of our results to the accurate numerical values is indicative of the efficiency of our technique. | 翻訳日:2024-01-23 17:42:01 公開日:2024-01-20 |
# 自動ジェスチャーアノテーションモデルによるジェスチャーの同時分類と位置推定 Simultaneous Gesture Classification and Localization with an Automatic Gesture Annotation Model ( http://arxiv.org/abs/2401.11150v1 ) ライセンス: Link先を確認 | Junxiao Shen, Xuhai Xu, Ran Tan, Amy Karlson, Evan Strasnick | (参考訳) リアルタイムジェスチャー認識モデルのトレーニングは、アノテーション付きデータに大きく依存する。
しかし、手動データアノテーションはコストがかかり、かなりの人的努力を要する。
この課題に対処するために,ジェスチャクラスを自動的に注釈付けし,その時間範囲を識別できる新しいアノテーションモデルを提案する。
本研究は,ジェスチャー分類精度(3-4.%改善)と局所化精度(71-75.%改善)の両面で,アノテーションモデル設計がベースラインを超えることを示す。
このアノテーションモデルは、ラベルのないデータセットを用いて下流のジェスチャー認識モデルのトレーニングを改善する大きな可能性を秘めている。 Training a real-time gesture recognition model heavily relies on annotated data. However, manual data annotation is costly and demands substantial human effort. In order to address this challenge, we propose a novel annotation model that can automatically annotate gesture classes and identify their temporal ranges. Our ablation study demonstrates that our annotation model design surpasses the baseline in terms of both gesture classification accuracy (3-4\% improvement) and localization accuracy (71-75\% improvement). We believe that this annotation model has immense potential to improve the training of downstream gesture recognition models using unlabeled datasets. | 翻訳日:2024-01-23 17:41:54 公開日:2024-01-20 |
# オンデマンド軌道を持つ非断熱幾何量子ゲート Nonadiabatic Geometric Quantum Gates with on-Demanded Trajectories ( http://arxiv.org/abs/2401.11147v1 ) ライセンス: Link先を確認 | Yan Liang and Zheng-Yuan Xue | (参考訳) 高忠実度量子ゲートは大規模量子計算に必須である。
実用的な量子システムを操作する場合、環境と操作によるエラーは避けられないため、高速であることに加えて、異なるエラーに対して本質的に堅牢であることが望ましい。
そこで本研究では,応用パルス形状を変調することにより,要求された軌道で幾何学的量子ゲートを構築するための一般的なプロトコルを提案する。
本手法では, 目標ハミルトニアンをスムースパルスを用いて逆エンジニアリングすることにより, 任意の軌道に対して幾何位相を計算することの難しさを解消する。
さらに, 幾何ゲートを様々な軌道で誘導できるため, 異なるシナリオでゲート性能をさらに最適化することができ, 数値シミュレーションにより, この最適化により, その品質が大幅に向上することが示唆された。
そこで本プロトコルは,大規模量子計算のための高忠実かつ強ロバストな量子ゲートに対して,有望なアプローチを示す。 High-fidelity quantum gates are essential prerequisite for large-scale quantum computation. When manipulating practical quantum systems, environmental and operational induced errors are inevitable, and thus, besides to be fast, operations are more preferable to be intrinsically robust against different errors. Here, we propose a general protocol to construct geometric quantum gates with on demanded trajectory, by modulating the applied pulse shapes that define the system's evolution trajectory. Our scheme adopts a reverse engineering of the target Hamiltonian by using smooth pulses, which also removes the difficulty of calculating geometric phases for an arbitrary trajectory. Besides, as a certain geometric gate can be induced by various trajectories, we can further optimize the gate performance under different scenarios, and numerical simulations indicate that this optimization can greatly enhance its quality. Therefore, our protocol presents a promising approach for high-fidelity and strong-robust geometric quantum gates for large-scale quantum computation. | 翻訳日:2024-01-23 17:41:43 公開日:2024-01-20 |
# 正ラベル学習による文書集合展開:密度推定に基づくアプローチ Document Set Expansion with Positive-Unlabeled Learning: A Density Estimation-based Approach ( http://arxiv.org/abs/2401.11145v1 ) ライセンス: Link先を確認 | Haiyang Zhang, Qiuyi Chen, Yuanjie Zou, Yushan Pan, Jia Wang, Mark Stevenson | (参考訳) ドキュメントセットの拡張は、きめ細かいトピックの小さなドキュメントセットに基づいて、大きなコレクションから関連するドキュメントを識別することを目的としている。
従来の研究は、PU学習がこのタスクに有望な方法であることを示している。
しかし、いくつかの深刻な問題は未解決のままであり、すなわち、PUメソッドが未知のクラスと不均衡なデータや、トランスダクティブな実験設定の必要性といった典型的な問題である。
本稿では,上記の問題に対処可能な密度推定に基づく新しいPU学習フレームワークpuDEを提案する。
puDEの利点は、SCARの仮定に制約されず、いかなるクラス事前の知識も必要としないことです。
実世界のデータセットを用いて提案手法の有効性を実証し,提案手法がDSEタスクのより良い代替手段であることを示す。 Document set expansion aims to identify relevant documents from a large collection based on a small set of documents that are on a fine-grained topic. Previous work shows that PU learning is a promising method for this task. However, some serious issues remain unresolved, i.e. typical challenges that PU methods suffer such as unknown class prior and imbalanced data, and the need for transductive experimental settings. In this paper, we propose a novel PU learning framework based on density estimation, called puDE, that can handle the above issues. The advantage of puDE is that it neither constrained to the SCAR assumption and nor require any class prior knowledge. We demonstrate the effectiveness of the proposed method using a series of real-world datasets and conclude that our method is a better alternative for the DSE task. | 翻訳日:2024-01-23 17:41:28 公開日:2024-01-20 |
# オープンワールドジェスチャ認識に向けて Towards Open-World Gesture Recognition ( http://arxiv.org/abs/2401.11144v1 ) ライセンス: Link先を確認 | Junxiao Shen, Matthias De Lange, Xuhai "Orson" Xu, Enmin Zhou, Ran Tan, Naveen Suda, Maciej Lazarewicz, Per Ola Kristensson, Amy Karlson, Evan Strasnick | (参考訳) ジェスチャー認識における静的機械学習手法は、トレーニングとテストデータが同じ基礎となる分布から来ていると仮定する。
しかし、手首のデバイス上でのジェスチャー認識を含む現実世界のアプリケーションでは、データ分布は時間とともに変化する可能性がある。
我々は,オープンワールドジェスチャ認識(owgr)として,新たなデータパターンが出現する新しいタスクに認識モデルを適用する問題を定式化する。
従来学習したタスクのパフォーマンスを低下させることなく,新しいタスクに適応する機械学習モデルを構築するために,連続学習を活用することを提案する。
しかしながら、認識モデルのトレーニングとデプロイの方法に関する疑問に対するパラメータの探索には、時間を要するユーザ研究が必要であり、時には実用的でない場合もある。
この課題に対処するために,収集した大規模データセットのオフライン解析をさまざまなパラメータで実現し,異なる連続学習手法を比較する設計工学的手法を提案する。
最後に、オープンワールド手首のジェスチャー認識プロセスの開発を促進するための設計ガイドラインを提供する。 Static machine learning methods in gesture recognition assume that training and test data come from the same underlying distribution. However, in real-world applications involving gesture recognition on wrist-worn devices, data distribution may change over time. We formulate this problem of adapting recognition models to new tasks, where new data patterns emerge, as open-world gesture recognition (OWGR). We propose leveraging continual learning to make machine learning models adaptive to new tasks without degrading performance on previously learned tasks. However, the exploration of parameters for questions around when and how to train and deploy recognition models requires time-consuming user studies and is sometimes impractical. To address this challenge, we propose a design engineering approach that enables offline analysis on a collected large-scale dataset with various parameters and compares different continual learning methods. Finally, design guidelines are provided to enhance the development of an open-world wrist-worn gesture recognition process. | 翻訳日:2024-01-23 17:41:14 公開日:2024-01-20 |
# gaussian adaptive attention: 複数のモダリティにまたがるロバストな文脈表現 Gaussian Adaptive Attention is All You Need: Robust Contextual Representations Across Multiple Modalities ( http://arxiv.org/abs/2401.11143v1 ) ライセンス: Link先を確認 | Georgios Ioannides, Aman Chadha, Aaron Elkins | (参考訳) 本稿では,新しい確率的アテンションフレームワークであるGAAM(Multi-Head Gaussian Adaptive Attention Mechanism)と,音声,テキスト,ビジョンを含む複数のモードにわたる情報集約を強化するために設計されたGAT(Gaussian Adaptive Transformer)を提案する。
GAAMは学習可能な平均と分散をアテンションメカニズムに統合し、マルチヘッドフレームワークで実装され、任意の確率分布をまとめてモデル化し、特徴の動的再分類を可能にする。
この手法は、特に非定常データにおいて、特徴空間内のキー要素を識別することで、モデル性能(精度で約20%まで)における最先端の注意技術を上回る重要な改善を示す。
GAAMのドット製品ベースのアテンションモデルと比較的少ないパラメータとの互換性は、その適応性と既存のアテンションフレームワークを強化する可能性を示している。
GAAMは、音声における感情認識、画像分類、テキスト分類など、様々なタスクにおいて優れた適応性と有効性を示し、マルチモーダルデータを扱う際の堅牢性と汎用性を確立する。
さらに,GAAM法で学習したモデルの説明可能性を高めるための新しい学習基準であるImportance Factor(IF)を導入する。
GAAMは、複数のモードにわたるより優れたパフォーマンスと説明可能な注意モデルの開発に向けた進歩を表している。 We propose the Multi-Head Gaussian Adaptive Attention Mechanism (GAAM), a novel probabilistic attention framework, and the Gaussian Adaptive Transformer (GAT), designed to enhance information aggregation across multiple modalities, including Speech, Text and Vision. GAAM integrates learnable mean and variance into its attention mechanism, implemented in a Multi-Headed framework enabling it to collectively model any Probability Distribution for dynamic recalibration of feature significance. This method demonstrates significant improvements, especially with highly non-stationary data, surpassing the state-of-the-art attention techniques in model performance (up to approximately +20% in accuracy) by identifying key elements within the feature space. GAAM's compatibility with dot-product-based attention models and relatively low number of parameters showcases its adaptability and potential to boost existing attention frameworks. Empirically, GAAM exhibits superior adaptability and efficacy across a diverse range of tasks, including emotion recognition in speech, image classification, and text classification, thereby establishing its robustness and versatility in handling multi-modal data. Furthermore, we introduce the Importance Factor (IF), a new learning-based metric that enhances the explainability of models trained with GAAM-based methods. Overall, GAAM represents an advancement towards development of better performing and more explainable attention models across multiple modalities. | 翻訳日:2024-01-23 17:40:59 公開日:2024-01-20 |
# 有限ショット終端物体検出のための安定塑性デカップリング微細調整 Stability Plasticity Decoupled Fine-tuning For Few-shot end-to-end Object Detection ( http://arxiv.org/abs/2401.11140v1 ) ライセンス: Link先を確認 | Yuantao Yin, Ping Yin | (参考訳) Few-shot Object Detection (FSOD) は、わずかな注記サンプルでオブジェクト検出器を効率的に適応する方法を設計することを目的としている。
微調整は効果的で実用的なアプローチであることが示されている。
しかし、以前の研究はしばしば古典的な2段階の微調整手順を取るが、異なる加群間の暗黙的な安定性と塑性の矛盾を無視する。
具体的には、ランダムな再初期化分類器は、新しいサンプルに適応するためにより可塑性を必要とする。
事前訓練された重みを継承する他のモジュールは、クラスに依存しない知識を保留するためにより安定性を必要とする。
これら2つの部分の最適化を組み合わせた通常の微調整は、FSODシナリオにおけるモデルの一般化を損なう。
本稿では,マルチクラス化アーキテクチャにおける終端オブジェクト検出器Sparse R-CNNにおいて,この問題が顕著であることを示す。
そこで本研究では,pcf(addtional plasticity classifier fine-tuning)段を導入することで,この矛盾を緩和する手法を提案する。
さらに,最終的な微調整段階におけるモデルの一般化を促進するために,マルチソースアンサンブル(me)手法も設計する。
広範な実験により,本手法がsparse r-cnnの正則化に有効であることを確認した。 Few-shot object detection(FSOD) aims to design methods to adapt object detectors efficiently with only few annotated samples. Fine-tuning has been shown to be an effective and practical approach. However, previous works often take the classical base-novel two stage fine-tuning procedure but ignore the implicit stability-plasticity contradiction among different modules. Specifically, the random re-initialized classifiers need more plasticity to adapt to novel samples. The other modules inheriting pre-trained weights demand more stability to reserve their class-agnostic knowledge. Regular fine-tuning which couples the optimization of these two parts hurts the model generalization in FSOD scenarios. In this paper, we find that this problem is prominent in the end-to-end object detector Sparse R-CNN for its multi-classifier cascaded architecture. We propose to mitigate this contradiction by a new three-stage fine-tuning procedure by introducing an addtional plasticity classifier fine-tuning(PCF) stage. We further design the multi-source ensemble(ME) technique to enhance the generalization of the model in the final fine-tuning stage. Extensive experiments verify that our method is effective in regularizing Sparse R-CNN, outperforming previous methods in the FSOD benchmark. | 翻訳日:2024-01-23 17:40:34 公開日:2024-01-20 |
# TreeMIL:不正確なスーパービジョンによる時系列異常検出のためのマルチインスタンス学習フレームワーク TreeMIL: A Multi-instance Learning Framework for Time Series Anomaly Detection with Inexact Supervision ( http://arxiv.org/abs/2401.11235v1 ) ライセンス: Link先を確認 | Chen Liu, Shibo He, Haoyu Liu, Shizhong Li | (参考訳) 時系列異常検出(TSAD)は、医療、ネットワーク、産業などの様々な領域において重要な役割を果たす。
ラベルは検出に不可欠だが取得が困難であるため,トレーニング段階ではシリーズレベルラベルのみが提供され,試験段階ではポイントレベルの異常が予測される。
従来のマルチインスタンス学習(MIL)アプローチは、個々の時間ステップで高い異常スコアを奨励することに焦点を当てている。
しかしながら、時系列異常は個々の点異常に限らず、集団異常でもあり、典型的にはサブシーケンス上で異常パターンを示す。
本稿では,集合的異常の課題に対処するため,木ベースmil(tree-based mil framework)を提案する。
まず、N-ary木構造を用いて、列全体を複数のノードに分割し、異なるレベルのノードが異なる長さの列を表す。
そして、サブシーケンス特徴を抽出して集合異常の有無を判定する。
最後に,異なるレベルのノードから特徴を集約することで,点レベルの異常スコアを算出する。
7つの公開データセットと8つのベースラインで実施された実験は、TreeMILが従来の最先端手法と比較してF1スコアの平均32.3%の改善を達成したことを示している。
コードはhttps://github.com/fly-orange/treemilで入手できる。 Time series anomaly detection (TSAD) plays a vital role in various domains such as healthcare, networks, and industry. Considering labels are crucial for detection but difficult to obtain, we turn to TSAD with inexact supervision: only series-level labels are provided during the training phase, while point-level anomalies are predicted during the testing phase. Previous works follow a traditional multi-instance learning (MIL) approach, which focuses on encouraging high anomaly scores at individual time steps. However, time series anomalies are not only limited to individual point anomalies, they can also be collective anomalies, typically exhibiting abnormal patterns over subsequences. To address the challenge of collective anomalies, in this paper, we propose a tree-based MIL framework (TreeMIL). We first adopt an N-ary tree structure to divide the entire series into multiple nodes, where nodes at different levels represent subsequences with different lengths. Then, the subsequence features are extracted to determine the presence of collective anomalies. Finally, we calculate point-level anomaly scores by aggregating features from nodes at different levels. Experiments conducted on seven public datasets and eight baselines demonstrate that TreeMIL achieves an average 32.3% improvement in F1- score compared to previous state-of-the-art methods. The code is available at https://github.com/fly-orange/TreeMIL. | 翻訳日:2024-01-23 17:34:41 公開日:2024-01-20 |
# 低信頼・高信頼ビジネスモデルのための協調的消費--運賃共有から高齢者・障害者への支援へ Collaborative consumption for low and high trust requiring business models: from fare sharing to supporting the elderly and people with disability ( http://arxiv.org/abs/2401.11232v1 ) ライセンス: Link先を確認 | Alex Zarifis, Xusen Cheng and Julia Kroenung | (参考訳) 本稿では,協調消費(cc),関連ビジネスモデル(bm),付加価値(va),信頼の役割について概観する。
CCは拡大しているが、どのような機会と課題を提供するのかは不明だ。
本研究は、現在のCC BMを評価し、消費者の視点から価値を付加する13の方法を特定する。
本研究は、CC BMが消費者の価値観において2つのカテゴリに分類されるかどうかをさらに調査する。
第1のカテゴリでは、CC BMは低い信頼レベルを必要とするが、CC BMの第2のカテゴリでは高い信頼レベルが必要である。
cc bms による 13 va は個人の利益、共同利害、信託ビルにグループ化可能であることが判明した。
cc bmがこれらの次元とどのように関係しているかを組織が認識することは重要である。 This paper offers an overview of collaborative consumption (CC), the related business models (BM), the value added (VA) from the consumer's perspective and the role of trust. CC is expanding but it is unclear what opportunities it offers and what the challenges will be. This research evaluates the current CC BMs and identifies 13 ways they add value from the consumer's perspective. This research further explores whether CC BMs fall into two categories in terms of what the consumer values. In the first category, the CC BMs require a low level of trust while in the second category of CC BMs a higher level of trust is necessary. It was found that 13 VA by CC BMs could be grouped into personal interest, communal interest and trust building. It is important for organisations to acknowledge how their CC BM relates to these dimensions. | 翻訳日:2024-01-23 17:34:20 公開日:2024-01-20 |
# コントラスト学習による視覚・視線追跡の統一 Unifying Visual and Vision-Language Tracking via Contrastive Learning ( http://arxiv.org/abs/2401.11228v1 ) ライセンス: Link先を確認 | Yinchao Ma, Yuyang Tang, Wenfei Yang, Tianzhu Zhang, Jinpeng Zhang, Mengxue Kang | (参考訳) 単一オブジェクト追跡は、初期バウンディングボックス(BBOX)、自然言語(NL)、あるいはその両方(NL+BBOX)を含む、異なるモード参照によって指定された状態に従って、対象オブジェクトをビデオシーケンス内で特定することを目的としている。
異なるモダリティ間のギャップのため、既存のトラッカーのほとんどは、これらの参照設定の単一または一部を対象として設計され、特定のモダリティを過小評価する。
異なることに、同じパラメータで3つの参照設定(BBOX, NL, NL+BBOX)を同時に処理できるUVLTrackと呼ばれる統一トラッカーを提案する。
提案されたUVLTrackにはいくつかのメリットがある。
まず,共同視覚・言語特徴学習のためのモダリティ統一特徴抽出器を設計し,視覚・言語特徴を統一意味空間に整合させるマルチモーダルコントラスト損失を提案する。
第2に、ビデオコンテキストと動的に変化するシナリオの特徴をターゲット参照にフル活用し、コントラスト的な方法でターゲットを識別し、異なる参照設定で堅牢なパフォーマンスを実現するモダリティ適応型ボックスヘッドを提案する。
UVLTrackは、7つの視覚的追跡データセット、3つの視覚言語追跡データセット、3つの視覚的グラウンドデータセットで有望なパフォーマンスを達成した。
コードとモデルはhttps://github.com/OpenSpaceAI/UVLTrack.comでオープンソース化される。 Single object tracking aims to locate the target object in a video sequence according to the state specified by different modal references, including the initial bounding box (BBOX), natural language (NL), or both (NL+BBOX). Due to the gap between different modalities, most existing trackers are designed for single or partial of these reference settings and overspecialize on the specific modality. Differently, we present a unified tracker called UVLTrack, which can simultaneously handle all three reference settings (BBOX, NL, NL+BBOX) with the same parameters. The proposed UVLTrack enjoys several merits. First, we design a modality-unified feature extractor for joint visual and language feature learning and propose a multi-modal contrastive loss to align the visual and language features into a unified semantic space. Second, a modality-adaptive box head is proposed, which makes full use of the target reference to mine ever-changing scenario features dynamically from video contexts and distinguish the target in a contrastive way, enabling robust performance in different reference settings. Extensive experimental results demonstrate that UVLTrack achieves promising performance on seven visual tracking datasets, three vision-language tracking datasets, and three visual grounding datasets. Codes and models will be open-sourced at https://github.com/OpenSpaceAI/UVLTrack. | 翻訳日:2024-01-23 17:34:04 公開日:2024-01-20 |
# 医用画像セグメンテーションモデルにおける敵攻撃の感受性 Susceptibility of Adversarial Attack on Medical Image Segmentation Models ( http://arxiv.org/abs/2401.11224v1 ) ライセンス: Link先を確認 | Zhongxuan Wang and Leo Xu | (参考訳) ディープニューラルネットワークの性質は様々な攻撃を引き起こしているが、MRIデータセットでトレーニングされたセグメンテーションモデルに対する敵攻撃の影響に対処する作業はほとんど行われていない。
このような攻撃が引き起こす重大な結果を踏まえ、u-netファミリーの4つのモデルを調査し、fast gradient sign method (fgsm)攻撃に対する反応を調べる。
それぞれの攻撃に対してFGSM攻撃を行い、攻撃を行うための様々なスキームを実験する。
本稿では,医療画像分割モデルが実際に敵攻撃に対して脆弱であり,パラメータサイズと敵攻撃の成功との間には無視できる相関関係があることを見出した。
さらに,FGSMの著者らが示唆したように,トレーニングで使用するものと異なる損失関数を用いることで,対人攻撃の成功率が向上することを示した。
今後の取り組みとして,より多くのセグメンテーションモデルと異なる攻撃を用いて,本論文で詳述した実験を行う。
また、モデルアンサンブルや特別なデータ拡張を使用することで、攻撃に対抗する方法を模索します。
私たちのコードはhttps://github.com/ZhongxuanWang/adv_attkで利用可能です。 The nature of deep neural networks has given rise to a variety of attacks, but little work has been done to address the effect of adversarial attacks on segmentation models trained on MRI datasets. In light of the grave consequences that such attacks could cause, we explore four models from the U-Net family and examine their responses to the Fast Gradient Sign Method (FGSM) attack. We conduct FGSM attacks on each of them and experiment with various schemes to conduct the attacks. In this paper, we find that medical imaging segmentation models are indeed vulnerable to adversarial attacks and that there is a negligible correlation between parameter size and adversarial attack success. Furthermore, we show that using a different loss function than the one used for training yields higher adversarial attack success, contrary to what the FGSM authors suggested. In future efforts, we will conduct the experiments detailed in this paper with more segmentation models and different attacks. We will also attempt to find ways to counteract the attacks by using model ensembles or special data augmentations. Our code is available at https://github.com/ZhongxuanWang/adv_attk | 翻訳日:2024-01-23 17:33:37 公開日:2024-01-20 |
# Varying Rhetorical Structure上での終端引数マイニング End-to-End Argument Mining over Varying Rhetorical Structures ( http://arxiv.org/abs/2401.11218v1 ) ライセンス: Link先を確認 | Elena Chistova | (参考訳) 修辞的構造理論はテキストの単一の談話解釈を含まず、rstパーサの制限は類似した構造の一貫性のない解析をさらに悪化させる。
したがって、異なる修辞構造を持つ意味論的に類似したテキストに同じ議論的構造が見られることを考慮する必要がある。
本研究は,同じ議論体系におけるパラフレーズ間の差異を修辞学的観点から評価する。
本研究は、修辞構造と引数構造との関係を評価するための深い依存構文解析モデルを提案する。
このモデルは修辞的関係を利用する; パラフレーズのRTT構造は、トレーニングデータ拡張として機能する。
単語列の代わりに修辞木を用いたエンドツーエンドの議論解析を可能にする。
本手法はバイリンガルマイクロテキストコーパスを用いて評価され,ロシア版のコーパスを完全解析した最初の結果が報告された。
その結果,議論マイニングは複数種類の談話構造の恩恵を受ける可能性が示唆された。 Rhetorical Structure Theory implies no single discourse interpretation of a text, and the limitations of RST parsers further exacerbate inconsistent parsing of similar structures. Therefore, it is important to take into account that the same argumentative structure can be found in semantically similar texts with varying rhetorical structures. In this work, the differences between paraphrases within the same argument scheme are evaluated from a rhetorical perspective. The study proposes a deep dependency parsing model to assess the connection between rhetorical and argument structures. The model utilizes rhetorical relations; RST structures of paraphrases serve as training data augmentations. The method allows for end-to-end argumentation analysis using a rhetorical tree instead of a word sequence. It is evaluated on the bilingual Microtexts corpus, and the first results on fully-fledged argument parsing for the Russian version of the corpus are reported. The results suggest that argument mining can benefit from multiple variants of discourse structure. | 翻訳日:2024-01-23 17:33:18 公開日:2024-01-20 |
# 移行学習と物理インフォームドモデリングのハイブリッドアプローチ:産業排水処理プラントにおける溶存酸素濃度予測の改善 A Hybrid Approach of Transfer Learning and Physics-Informed Modeling: Improving Dissolved Oxygen Concentration Prediction in an Industrial Wastewater Treatment Plant ( http://arxiv.org/abs/2401.11217v1 ) ライセンス: Link先を確認 | Ece S. Koksal and Erdal Aydin | (参考訳) 最初の原理モデルを構築することは、排水処理ユニットのような非線形で複雑なシステムにとって難しい課題である。
近年、データ駆動モデルは複雑さを克服するために広く使われている。
しかし、それらはしばしば、欠落、低品質、ノイズの多いデータといった問題に悩まされる。
伝達学習は、他のタスクからの知識を目標に転送し、予測性能を向上する、この問題に対する解決策である。
本研究の目的は, 産業排水処理プラントの知識の移転による予測性能の向上である。
(i)対象プラントとの類似性はあるものの、そのプロセスの基礎となる物理を捉えるオープンソースのシミュレーションモデル
二 騒々しく限られたデータで特徴づけられるが、同一の製油所にある別の工業工場
(iii)モデル
(ii)オープンソースのモデルから得られた物理情報を学習問題物理学の目的関数とすること
(ii)
その結果、テストと検証のパフォーマンスは、それぞれ27%と59%に向上した。 Constructing first principles models is a challenging task for nonlinear and complex systems such as a wastewater treatment unit. In recent years, data-driven models are widely used to overcome the complexity. However, they often suffer from issues such as missing, low quality or noisy data. Transfer learning is a solution for this issue where knowledge from another task is transferred to target one to increase the prediction performance. In this work, the objective is increasing the prediction performance of an industrial wastewater treatment plant by transferring the knowledge of (i) an open-source simulation model that captures the underlying physics of the process, albeit with dissimilarities to the target plant, (ii) another industrial plant characterized by noisy and limited data but located in the same refinery, and (iii) the model in (ii) and making the objective function of the training problem physics informed where the physics information derived from the open-source model in (ii). The results have shown that test and validation performance are improved up to 27% and 59%, respectively. | 翻訳日:2024-01-23 17:33:03 公開日:2024-01-20 |
# データベース埋め込みのためのウォークスキームの選択 Selecting Walk Schemes for Database Embedding ( http://arxiv.org/abs/2401.11215v1 ) ライセンス: Link先を確認 | Yuval Lev Lubarsky, Jan T\"onshoff, Martin Grohe, Benny Kimelfeld | (参考訳) データ解析の機械はしばしば入力の数値表現を必要とする。
そのために、構造化データのコンポーネントを高次元ベクトル空間に埋め込むのが一般的である。
既存の手法がデータベースからのランダムウォークの集合体上で最適化タスクに基づいている場合が多い関係データベースのタプルの埋め込みについて検討する。
本稿では、動的データベース用に設計された最近のFoRWaRDアルゴリズムに着目し、タプル間の外部キーを追従することでウォーキングをサンプリングする。
重要なことに、異なるウォークには異なるスキーマ、またはウォークスキームがあり、ウォークに沿う関係と属性をリストアップすることで導かれる。
また、異なるウォークスキームは、データベース内の異なる性質の関係を記述する。
いくつかの情報的歩行方式に焦点をあてることで,品質を維持しつつ,タプル埋め込みを著しく高速化できることを示す。
タプル埋め込みのためのスキーム選択の問題を定義し,スキーム選択のためのいくつかのアプローチと戦略を考案し,下流タスクの集合に対するパフォーマンスに関する徹底的な実証研究を行う。
その結果,スキーム選択の効果的な戦略により,より高速に(例えば3倍)高品質な埋め込みが得られ,新たに挿入されたタプルの拡張性が保たれ,タスクの精度も向上することが確認できた。 Machinery for data analysis often requires a numeric representation of the input. Towards that, a common practice is to embed components of structured data into a high-dimensional vector space. We study the embedding of the tuples of a relational database, where existing techniques are often based on optimization tasks over a collection of random walks from the database. The focus of this paper is on the recent FoRWaRD algorithm that is designed for dynamic databases, where walks are sampled by following foreign keys between tuples. Importantly, different walks have different schemas, or "walk schemes", that are derived by listing the relations and attributes along the walk. Also importantly, different walk schemes describe relationships of different natures in the database. We show that by focusing on a few informative walk schemes, we can obtain tuple embedding significantly faster, while retaining the quality. We define the problem of scheme selection for tuple embedding, devise several approaches and strategies for scheme selection, and conduct a thorough empirical study of the performance over a collection of downstream tasks. Our results confirm that with effective strategies for scheme selection, we can obtain high-quality embeddings considerably (e.g., three times) faster, preserve the extensibility to newly inserted tuples, and even achieve an increase in the precision of some tasks. | 翻訳日:2024-01-23 17:32:45 公開日:2024-01-20 |
# eXchange計算における分散集合プロセスのプログラミング Programming Distributed Collective Processes in the eXchange Calculus ( http://arxiv.org/abs/2401.11212v1 ) ライセンス: Link先を確認 | Giorgio Audrito, Roberto Casadei, Ferruccio Damiani, Gianluca Torta, Mirko Viroli | (参考訳) IoT(Internet of Things)のような最近のトレンドは、ほぼあらゆる種類の環境で、コンピューティングデバイスの密集したマルチスケールデプロイメントのビジョンを示唆している。
著名なエンジニアリングチャレンジは、このような計算エコシステムの集団的適応行動のプログラミングに関するものだ。
これはアンサンブル(協調装置の動的グループ)や集合タスク(アンサンブルによって実行される共同作業)といった概念をキャプチャできる抽象化を必要とする。
本研究では,隣接デバイスと対話し,ほぼ同期したセンス・コンピュート・対話ラウンドを実行するデバイスの集合について検討する。
計算集合全体のプログラミングを支援するために,アンサンブル形成論理とその集合タスクを一度に定義できる分散集合プロセスの抽象化を提案する。
我々は,eXchange Calculus (XC) の抽象化を定式化し,近隣の値(近隣の値から値へのマップ)に基づくコア関数型言語で,状態と相互作用は単一プリミティブ,交換,FCPP言語での対応する実装を提供する。
次に、マルチホップメッセージ伝搬と空間特性の分散監視という2つのケーススタディを用いて分散集合プロセスを実行する。
最後に,異なる種類の分散コンピューティングアプリケーションに対する抽象化の特徴とその適合性について論じる。 Recent trends like the Internet of Things (IoT) suggest a vision of dense and multi-scale deployments of computing devices in nearly all kinds of environments. A prominent engineering challenge revolves around programming the collective adaptive behaviour of such computational ecosystems. This requires abstractions able to capture concepts like ensembles (dynamic groups of cooperating devices) and collective tasks (joint activities carried out by ensembles). In this work, we consider collections of devices interacting with neighbours and that execute in nearly-synchronised sense-compute-interact rounds, where the computation is given by a single program mapping sensing values and incoming messages to output and outcoming messages. To support programming whole computational collectives, we propose the abstraction of a distributed collective process, which can be used to define at once the ensemble formation logic and its collective task. We formalise the abstraction in the eXchange Calculus (XC), a core functional language based on neighbouring values (maps from neighbours to values) where state and interaction is handled through a single primitive, exchange, and provide a corresponding implementation in the FCPP language. Then, we exercise distributed collective processes using two case studies: multi-hop message propagation and distributed monitoring of spatial properties. Finally, we discuss the features of the abstraction and its suitability for different kinds of distributed computing applications. | 翻訳日:2024-01-23 17:32:24 公開日:2024-01-20 |
# Unfair TOS: カスタマイズBERTによる自動アプローチ Unfair TOS: An Automated Approach using Customized BERT ( http://arxiv.org/abs/2401.11207v1 ) ライセンス: Link先を確認 | Bathini Sai Akash, Akshara Kupireddy, Lalita Bhanu Murthy | (参考訳) サービス提供者(ToS)は、サービス提供者とエンドユーザの間の法的関係を定義するため、契約の不可欠な部分を形成します。
彼らは相互の権利と責任を確立し、定義するだけでなく、デジタル空間の使用に関連する契約の本質的な側面に関する情報をユーザに提供します。
これらの側面には、責任の制限、データ保護など、幅広いトピックが含まれている。
ユーザはアプリケーションやサービスを使う前に、ToSを経由せずに受け入れる傾向がある。
このような無知は、何らかの行動が必要な場合、より弱い状況に陥る。
しかし、不公平な条項の検出や分類のための既存の方法論は時代遅れであり、控えめな性能を示している。
本稿では,SVC(Support Vector Classifier)と統合した前例のない細調整BERTに基づいて,TOS文書から不公平な条項検出を行うSOTA(State of The Art)結果を提案する。
本研究は,不公平節検出時のマクロf1スコア0.922の熟練度を示し,各タグによる不公平節の分類においても優れた性能を示す。
さらに、使用したTransformerモデルに関する研究質問に回答して比較分析を行う。
さらなる研究と実験のために、コードと結果はhttps://github.com/batking24/Unfair-TOS-An-Automated-Approach-based-on-Fine-tuning-BERT-in-conjuncti on-with-MLで公開されている。 Terms of Service (ToS) form an integral part of any agreement as it defines the legal relationship between a service provider and an end-user. Not only do they establish and delineate reciprocal rights and responsibilities, but they also provide users with information on essential aspects of contracts that pertain to the use of digital spaces. These aspects include a wide range of topics, including limitation of liability, data protection, etc. Users tend to accept the ToS without going through it before using any application or service. Such ignorance puts them in a potentially weaker situation in case any action is required. Existing methodologies for the detection or classification of unfair clauses are however obsolete and show modest performance. In this research paper, we present SOTA(State of The Art) results on unfair clause detection from ToS documents based on unprecedented Fine-tuning BERT in integration with SVC(Support Vector Classifier). The study shows proficient performance with a macro F1-score of 0.922 at unfair clause detection, and superior performance is also shown in the classification of unfair clauses by each tag. Further, a comparative analysis is performed by answering research questions on the Transformer models utilized. In order to further research and experimentation the code and results are made available on https://github.com/batking24/Unfair-TOS-An-Automated-Approach-based-on-Fine-tuning-BERT-in-conjuncti on-with-ML. | 翻訳日:2024-01-23 17:32:03 公開日:2024-01-20 |
# inferaligner:クロスモデルガイダンスによる無害性の推論時間アライメント InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance ( http://arxiv.org/abs/2401.11206v1 ) ライセンス: Link先を確認 | Pengyu Wang, Dong Zhang, Linyang Li, Chenkun Tan, Xinghao Wang, Ke Ren, Botian Jiang, Xipeng Qiu | (参考訳) 大規模言語モデル(LLM)の急速な開発により、汎用AIアシスタントとしてだけでなく、さまざまなアプリケーションの要件を満たすために、さらなる微調整を通じてカスタマイズされる。
現在のLLMの成功における重要な要因はアライメントプロセスである。
教師付き微調整(sft)や人間フィードバック(rlhf)からの強化学習といった現在のアライメント手法は、トレーニング時間アライメントにフォーカスしており、しばしば複雑で実装が難しい。
そこで我々は,無害なアライメントにクロスモデルガイダンスを利用する新しい推論時間アライメント法である \textbf{InferAligner} を開発した。
InferAlignerは、安全整合モデルから抽出した安全ステアリングベクトルを用いて、有害な入力に対応する際にターゲットモデルのアクティベーションを変更することにより、ターゲットモデルの無害応答を誘導する。
実験結果から,本手法はLLaVAのようなマルチモーダル大規模言語モデル(MLLM)と同様に,金融・医学・数学の分野特化モデルに非常に効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。 With the rapid development of large language models (LLMs), they are not only used as general-purpose AI assistants but are also customized through further fine-tuning to meet the requirements of different applications. A pivotal factor in the success of current LLMs is the alignment process. Current alignment methods, such as supervised fine-tuning (SFT) and reinforcement learning from human feedback (RLHF), focus on training-time alignment and are often complex and cumbersome to implement. Therefore, we develop \textbf{InferAligner}, a novel inference-time alignment method that utilizes cross-model guidance for harmlessness alignment. InferAligner utilizes safety steering vectors extracted from safety-aligned model to modify the activations of the target model when responding to harmful inputs, thereby guiding the target model to provide harmless responses. Experimental results show that our method can be very effectively applied to domain-specific models in finance, medicine, and mathematics, as well as to multimodal large language models (MLLMs) such as LLaVA. It significantly diminishes the Attack Success Rate (ASR) of both harmful instructions and jailbreak attacks, while maintaining almost unchanged performance in downstream tasks. | 翻訳日:2024-01-23 17:31:37 公開日:2024-01-20 |
# 点雲上の3次元単一物体追跡のカテゴリ統一に向けて Towards Category Unification of 3D Single Object Tracking on Point Clouds ( http://arxiv.org/abs/2401.11204v1 ) ライセンス: Link先を確認 | Jiahao Nie, Zhiwei He, Xudong Lv, Xueyi Zhou, Dong-Kyu Chae, Fei Xie | (参考訳) カテゴリー特化モデルは、シームズや動き中心のパラダイムに関わらず、3次元単体追跡(SOT)において非常に価値のある手法である。
しかし、これらの過度に特化されたモデル設計は冗長なパラメータを伴い、3d sotタスクの幅広い適用性を制限する。
本稿ではまず,共有モデルパラメータを持つ単一のネットワークを用いて,全カテゴリのオブジェクトを同時に追跡できる統一モデルを提案する。
具体的には、異なるオブジェクトカテゴリに関連付けられた属性を明示的に符号化し、モデルがカテゴリ間データに適応できるようにする。
点雲の物体の属性のばらつきは、主に様々な大きさと形状(例えば、大型車や四角形車、小型で細長い人間など)から生じる。
そこで本研究では,クロスカテゴリデータから動的に変化する形状とサイズ情報を適応的に符号化する,トランスフォーマアーキテクチャを継承する新しい点集合表現学習ネットワーク adaformer を設計した。
さらに,既知のテンプレート目標から導出したサイズと形状をモデルの入力と学習目標に取り入れ,統一表現の学習を容易にする。
SiamCUT と MoCUT の2つのカテゴリ統一モデルを構築し,SiamCUT と MoCUT が強い一般化と訓練安定性を示すことを示した。
さらに、カテゴリ統一モデルは、カテゴリ固有のモデルよりも大きなマージン(例えば、KITTIデータセットでは、シームズとモーションパラダイムでは12%と3%のパフォーマンス向上)で優れています。
私たちのコードは利用可能です。 Category-specific models are provenly valuable methods in 3D single object tracking (SOT) regardless of Siamese or motion-centric paradigms. However, such over-specialized model designs incur redundant parameters, thus limiting the broader applicability of 3D SOT task. This paper first introduces unified models that can simultaneously track objects across all categories using a single network with shared model parameters. Specifically, we propose to explicitly encode distinct attributes associated to different object categories, enabling the model to adapt to cross-category data. We find that the attribute variances of point cloud objects primarily occur from the varying size and shape (e.g., large and square vehicles v.s. small and slender humans). Based on this observation, we design a novel point set representation learning network inheriting transformer architecture, termed AdaFormer, which adaptively encodes the dynamically varying shape and size information from cross-category data in a unified manner. We further incorporate the size and shape prior derived from the known template targets into the model's inputs and learning objective, facilitating the learning of unified representation. Equipped with such designs, we construct two category-unified models SiamCUT and MoCUT.Extensive experiments demonstrate that SiamCUT and MoCUT exhibit strong generalization and training stability. Furthermore, our category-unified models outperform the category-specific counterparts by a significant margin (e.g., on KITTI dataset, 12% and 3% performance gains on the Siamese and motion paradigms). Our code will be available. | 翻訳日:2024-01-23 17:31:15 公開日:2024-01-20 |
# PartIR: 機械学習のためのSPMD分割戦略の構築 PartIR: Composing SPMD Partitioning Strategies for Machine Learning ( http://arxiv.org/abs/2401.11202v1 ) ライセンス: Link先を確認 | Sami Alabed, Bart Chrzaszcz, Juliana Franco, Dominik Grewe, Dougal Maclaurin, James Molloy, Tom Natan, Tamara Norman, Xiaoyue Pan, Adam Paszke, Norman A. Rink, Michael Schaarschmidt, Timur Sitdikov, Agnieszka Swietlik, Dimitrios Vytiniotis, Joel Wee | (参考訳) 現代の大規模ニューラルネットワーク(NN)のトレーニングには、データ、モデル、オプティマイザシャーディングを含む並列化戦略の組み合わせが必要である。
戦略が複雑さを増すと、分割ツールの必要性が増す。
1) 簡潔な戦略の構成を可能にする表現的,及び
2) 性能を解析的に推定できる。
我々は,nnパーティショニングシステムの設計であるpartirを提案する。
PartIRは書き直しに対する漸進的なアプローチに重点を置いており、ハードウェアとランタイムに依存しない。
シャーディング戦略を構成するためのシンプルだが強力なAPIと,それらを検証するためのシミュレータを提示する。
このプロセスは、手動と自動の両方が可能なハイレベルなプログラマ発行のパーティショニング戦略によって駆動される。
重要なことに、戦術はモデルコードとは別々に指定され、変更が容易になります。
我々は,その予測可能性,表現性,ピーク性能に達する能力を示すため,複数のモデルでpartirを評価した。
. Training of modern large neural networks (NN) requires a combination of parallelization strategies encompassing data, model, or optimizer sharding. When strategies increase in complexity, it becomes necessary for partitioning tools to be 1) expressive, allowing the composition of simpler strategies, and 2) predictable to estimate performance analytically. We present PartIR, our design for a NN partitioning system. PartIR is focused on an incremental approach to rewriting and is hardware-and-runtime agnostic. We present a simple but powerful API for composing sharding strategies and a simulator to validate them. The process is driven by high-level programmer-issued partitioning tactics, which can be both manual and automatic. Importantly, the tactics are specified separately from the model code, making them easy to change. We evaluate PartIR on several different models to demonstrate its predictability, expressibility, and ability to reach peak performance.. | 翻訳日:2024-01-23 17:30:48 公開日:2024-01-20 |
# 薄線をナビゲートする:エンゲージメントとバックファイア効果の探索におけるユーザ行動の検討 Navigating the Thin Line: Examining User Behavior in Search to Detect Engagement and Backfire Effects ( http://arxiv.org/abs/2401.11201v1 ) ライセンス: Link先を確認 | F. M. Cau, N. Tintarev | (参考訳) 懐疑的なユーザーは、しばしば既存の信念と整合した情報を求め、確認バイアスによる矛盾した証拠を除外する。
この行為は、ウェブを検索する際の代替スタンスを検討する能力を妨げる。
それにもかかわらず、議論のあるトピックに対する検索結果の多様化が、高評価のユーザーの検索行動にどのように影響するか分析した研究はほとんどない。
そこで本研究では,3つの話題(無神論,知的財産権,学校制服など)において,バイアスメトリクスと検索結果の異なるレベル(低いレベルと高いレベル)のプレゼンテーション(aiが予測したスタンスラベルの有無)が態度の多様性と検索行動に影響を及ぼすかどうかを,事前に登録したユーザ調査(n = 257)で検討する。
実験の結果,参加者が(対人偏見のある)検索結果に偏見を抱くと,態度に反するコンテンツの消費が増加し,また,偏見は検索ページ内のインタラクションの全体的減少に結びついていることが判明した。
また,19%のユーザがクエリや検索ページと対話しているが,検索結果は選択されなかった。
ポストホック分析でこれらの参加者を取り除いた結果、特に検索結果に偏りが生じた場合、スタンスラベルがユーザによって消費されるスタンスの多様性を高めていることが判明した。
本研究は,ユーザの行動に関する洞察を得るために,個別の検索シナリオ設定を探索する今後の研究の必要性を浮き彫りにする。 Opinionated users often seek information that aligns with their preexisting beliefs while dismissing contradictory evidence due to confirmation bias. This conduct hinders their ability to consider alternative stances when searching the web. Despite this, few studies have analyzed how the diversification of search results on disputed topics influences the search behavior of highly opinionated users. To this end, we present a preregistered user study (n = 257) investigating whether different levels (low and high) of bias metrics and search results presentation (with or without AI-predicted stances labels) can affect the stance diversity consumption and search behavior of opinionated users on three debated topics (i.e., atheism, intellectual property rights, and school uniforms). Our results show that exposing participants to (counter-attitudinally) biased search results increases their consumption of attitude-opposing content, but we also found that bias was associated with a trend toward overall fewer interactions within the search page. We also found that 19% of users interacted with queries and search pages but did not select any search results. When we removed these participants in a post-hoc analysis, we found that stance labels increased the diversity of stances consumed by users, particularly when the search results were biased. Our findings highlight the need for future research to explore distinct search scenario settings to gain insight into opinionated users' behavior. | 翻訳日:2024-01-23 17:30:35 公開日:2024-01-20 |
# 音響イベント分類のための識別アライメント付き投影的信念ネットワーク:アートCNNの精度向上 Projected Belief Networks With Discriminative Alignment for Acoustic Event Classification: Rivaling State of the Art CNNs ( http://arxiv.org/abs/2401.11199v1 ) ライセンス: Link先を確認 | Paul M. Baggenstoss, Kevin Wilkinghoff, Felix Govaers, Frank Kurth | (参考訳) プロジェクテッド信念ネットワーク(PBN)は、フィードフォワードニューラルネットワーク(FFNN)に基づく、抽出可能な確率関数を持つ生成確率ネットワークである。
生成機能はFFNNを通して"バックアップ"することで機能する。
PBNは、前向きに動作するFFNNと後向きに動作する生成ネットワークの2つのネットワークである。
両方のネットワークは同じパラメータセットに基づいて共存し、それぞれのコスト関数を持ち、個別または共同でトレーニングすることができる。
したがって、PBNは識別分類器と生成分類器の両方の最高の性質を持つ可能性がある。
この可能性を実現するために、各クラスで個別のPBNを訓練し、各クラスに対する生成可能性関数を最大化するとともに、FFNNの「他のすべてのクラス」に対する差別コストを最小化する。
この手法は判別アライメント (pbn-da) と呼ばれ、確率関数の輪郭を決定境界に合わせ、アート判別ネットワークの状況に匹敵する非常に改善された分類性能を達成する。
この方法は、PBN-DA-HMMと呼ばれるPBNのコンポーネントとして隠れマルコフモデル(HMM)を用いてさらに改善することができる。
本稿では,PBN,PBN-DA,PBN-DA-HMMを包括的に扱う。
また、2つの新しい分類実験の結果も提示された。
最初の実験は空気音響イベントを使用し、2回目は海洋哺乳類の鳴き声からなる水中音響データを使用する。
どちらの実験でも、PBN-DA-HMMはアートCNNの状態を同等またはより良い性能で達成し、CNNと組み合わせると2つのエラー低減係数が得られる。 The projected belief network (PBN) is a generative stochastic network with tractable likelihood function based on a feed-forward neural network (FFNN). The generative function operates by "backing up" through the FFNN. The PBN is two networks in one, a FFNN that operates in the forward direction, and a generative network that operates in the backward direction. Both networks co-exist based on the same parameter set, have their own cost functions, and can be separately or jointly trained. The PBN therefore has the potential to possess the best qualities of both discriminative and generative classifiers. To realize this potential, a separate PBN is trained on each class, maximizing the generative likelihood function for the given class, while minimizing the discriminative cost for the FFNN against "all other classes". This technique, called discriminative alignment (PBN-DA), aligns the contours of the likelihood function to the decision boundaries and attains vastly improved classification performance, rivaling that of state of the art discriminative networks. The method may be further improved using a hidden Markov model (HMM) as a component of the PBN, called PBN-DA-HMM. This paper provides a comprehensive treatment of PBN, PBN-DA, and PBN-DA-HMM. In addition, the results of two new classification experiments are provided. The first experiment uses air-acoustic events, and the second uses underwater acoustic data consisting of marine mammal calls. In both experiments, PBN-DA-HMM attains comparable or better performance as a state of the art CNN, and attain a factor of two error reduction when combined with the CNN. | 翻訳日:2024-01-23 17:30:05 公開日:2024-01-20 |
# リー群上で進化する離散時間系に対する機械学習に基づく状態オブザーバ Machine learning based state observer for discrete time systems evolving on Lie groups ( http://arxiv.org/abs/2401.11196v1 ) ライセンス: Link先を確認 | Soham Shanbhag, Dong Eui Chang | (参考訳) 本稿では,多様体上で進化するシステムに対する機械学習に基づくオブザーバを設計し,システムの進化するリー群にオブザーバの状態が制限されるようにした。
リーグループで進化するシステムの機械学習ベースのオブザーバを含む従来の技術には、リーグループのチャートの設計、各チャートのための機械学習ベースのオブザーバのトレーニング、システムの状態に基づいたトレーニングされたモデル間の切り替えが含まれる。
本稿では,グラフを使わずにユークリッド空間の測度 0 部分集合に予測を制限した新しい深層学習手法を提案する。
このネットワークを用いて、観測者の状態がリー群に制限されることを保証するオブザーバを設計し、訓練されたアルゴリズムのみを用いて状態を予測する。
ディープラーニングネットワークは、リー群のリー代数上の `error term'' を予測し、リー代数から群への写像を使い、群作用と現在の状態を用いて次の時代における状態を推定する。
このモデルは純粋にデータ駆動であり、システムのモデルを必要としない。
提案するアルゴリズムは、学習ネットワークの出力をユークリッド空間の測度0部分集合に制限するための新しいフレームワークを提供する。
剛体回転変換システムを用いてモンテカルロシミュレーションを行い,本手法の有効性を示す。 In this paper, a machine learning based observer for systems evolving on manifolds is designed such that the state of the observer is restricted to the Lie group on which the system evolves. Conventional techniques involving machine learning based observers on systems evolving on Lie groups involve designing charts for the Lie group, training a machine learning based observer for each chart, and switching between the trained models based on the state of the system. We propose a novel deep learning based technique whose predictions are restricted to a measure 0 subset of Euclidean space without using charts. Using this network, we design an observer ensuring that the state of the observer is restricted to the Lie group, and predicting the state using only one trained algorithm. The deep learning network predicts an ``error term'' on the Lie algebra of the Lie group, uses the map from the Lie algebra to the group, and uses the group action and the present state to estimate the state at the next epoch. This model being purely data driven does not require the model of the system. The proposed algorithm provides a novel framework for constraining the output of machine learning networks to a measure 0 subset of a Euclidean space without chart specific training and without requiring switching. We show the validity of this method using Monte Carlo simulations performed of the rigid body rotation and translation system. | 翻訳日:2024-01-23 17:29:15 公開日:2024-01-20 |
# ガウス混合モデルと負ガウス混合勾配の拡散モデル条件付け Diffusion Model Conditioning on Gaussian Mixture Model and Negative Gaussian Mixture Gradient ( http://arxiv.org/abs/2401.11261v1 ) ライセンス: Link先を確認 | Weiguo Lu, Xuan Wu, Deng Ding, Jinqiao Duan, Jirong Zhuang, Gangnan Yuan | (参考訳) 拡散モデル(DM)は、画像合成などに大きな影響を与える生成モデルの一種である。
彼らは様々な生成タスクで最先端の成果を達成する。
テキストやバウンディングボックスなどの条件入力の多様性は、生成を制御するために利用することができる。
本研究では,ガウス混合モデル(GMM)を特徴条件として用いた条件付け機構を提案する。
集合論に基づいて,特徴量とクラスに基づく条件付き潜伏分布が著しく異なることを示す包括的な理論的解析を行い,特徴量に対する条件付き潜伏分布は,クラス上での条件付けよりも欠陥発生が少ないことを示す。
ガウス混合モデルに条件付き2つの拡散モデルの比較を行った。
実験は我々の発見を裏付ける。
負ガウス混合勾配 (NGMG) と呼ばれる新しい勾配関数を提案し, 追加分類器を用いた拡散モデルトレーニングに応用した。
訓練の安定性が向上した。
また,低次元多様体が支持する学習分布を学習する場合,ngmgは地球移動距離 (wasserstein) と同じ利点を,より賢明なコスト関数として持つことを理論的に証明した。 Diffusion models (DMs) are a type of generative model that has a huge impact on image synthesis and beyond. They achieve state-of-the-art generation results in various generative tasks. A great diversity of conditioning inputs, such as text or bounding boxes, are accessible to control the generation. In this work, we propose a conditioning mechanism utilizing Gaussian mixture models (GMMs) as feature conditioning to guide the denoising process. Based on set theory, we provide a comprehensive theoretical analysis that shows that conditional latent distribution based on features and classes is significantly different, so that conditional latent distribution on features produces fewer defect generations than conditioning on classes. Two diffusion models conditioned on the Gaussian mixture model are trained separately for comparison. Experiments support our findings. A novel gradient function called the negative Gaussian mixture gradient (NGMG) is proposed and applied in diffusion model training with an additional classifier. Training stability has improved. We also theoretically prove that NGMG shares the same benefit as the Earth Mover distance (Wasserstein) as a more sensible cost function when learning distributions supported by low-dimensional manifolds. | 翻訳日:2024-01-23 17:21:34 公開日:2024-01-20 |
# 適応量子最適化セントロイド初期化 Adaptive Quantum Optimized Centroid Initialization ( http://arxiv.org/abs/2401.11258v1 ) ライセンス: Link先を確認 | Nicholas R. Allgood, Ajinkya Borle, Charles K. Nicholas | (参考訳) 量子コンピューティングの大きな利点の1つは、古典的な方法よりも早く複雑な計算問題を解くことができることである。
現在、プロトタイプベースのクラスタリング手法が数多く使用されており、中心点の開始ノードの選択はしばしばランダムに行われる。
プロトタイプベースのクラスタリングアルゴリズムでは、収束時間がずっと遅くなる可能性がある。
この原因の1つは、おそらくより良いソリューションがある場合に、ローカルのミニマを有効なソリューションとして受け入れるプロトタイプベースのクラスタリングである。
量子コンピューティング、特に量子アニーリングは、初期の遠心問題のイジングハミルトニアンへのマッピングによってこれらの問題に対する解決策を提供する。
量子アニーリングを用いたこの問題に対する最初のアプローチは量子最適化センタロイド初期化 (qoci) として知られるが、このアプローチは結果と性能の両方においていくつかの制限がある。
適応量子最適化セントロイド初期化(AQOCI)として知られるQOCIの修正を行い、QOCIの多くの制限に対処する。
結果は古典的手法を用いて得られたものと同等であり,QOCIを用いて得られた結果よりも優れている。 One of the major benefits of quantum computing is the potential to resolve complex computational problems faster than can be done by classical methods. There are many prototype-based clustering methods in use today, and selection of the starting nodes for the center points is often done randomly. For prototype-based clustering algorithms, this could lead to much slower convergence times. One of the causes of this may be prototype-based clustering accepting a local minima as a valid solution when there are possibly better solutions. Quantum computing, specifically quantum annealing, offers a solution to these problems by mapping the initial centroid problem to an Ising Hamiltonian where over time the lowest energy in the spectrum correlates to a valid, but better solution. A first approach to this problem utilizing quantum annealing was known as Quantum Optimized Centroid Initialization (QOCI), but this approach has some limitations both in results and performance. We will present a modification of QOCI known as Adaptive Quantum Optimized Centroid Initialization (AQOCI) which addresses many of the limitations in QOCI. The results presented are comparable to those obtained using classical techniques as well as being superior to those results found using QOCI. | 翻訳日:2024-01-23 17:21:14 公開日:2024-01-20 |
# マルチエージェント強化学習のための政策距離の測定 Measuring Policy Distance for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2401.11257v1 ) ライセンス: Link先を確認 | Tianyi Hu, Zhiqiang Pu, Xiaolin Ai, Tenghai Qiu, Jianqiang Yi | (参考訳) 多様性はマルチエージェント強化学習(MARL)の性能向上に重要な役割を果たしている。
現在、従来のMARLにおける過剰なパラメータ共有の欠点を克服するために、多くの多様性に基づく手法が開発されている。
しかし、エージェント間の政策差を定量化する一般的な指標がまだ存在しない。
このようなメトリクスは、マルチエージェントシステムにおける多様性進化の評価を促進するだけでなく、多様性に基づくMARLアルゴリズムの設計のためのガイダンスを提供するだろう。
本稿では,MARLにおける政策差を測定する汎用ツールであるマルチエージェントポリシー距離(MAPD)を提案する。
エージェントの決定の条件表現を学習することで、PDはエージェント間のポリシー距離を計算することができる。
さらに、MAPDをカスタマイズ可能なバージョンに拡張し、特定の側面におけるエージェントポリシーの違いを定量化する。
マルチエージェント動的パラメータ共有(MADPS)アルゴリズムをMAPDの応用例として,MAPDのオンライン展開に基づいて設計する。
本手法はエージェントポリシーと行動傾向の差異を測定するのに有効であることを示す。
さらに,他のパラメータ共有手法と比較して,MADPSは優れた性能を示す。 Diversity plays a crucial role in improving the performance of multi-agent reinforcement learning (MARL). Currently, many diversity-based methods have been developed to overcome the drawbacks of excessive parameter sharing in traditional MARL. However, there remains a lack of a general metric to quantify policy differences among agents. Such a metric would not only facilitate the evaluation of the diversity evolution in multi-agent systems, but also provide guidance for the design of diversity-based MARL algorithms. In this paper, we propose the multi-agent policy distance (MAPD), a general tool for measuring policy differences in MARL. By learning the conditional representations of agents' decisions, MAPD can computes the policy distance between any pair of agents. Furthermore, we extend MAPD to a customizable version, which can quantify differences among agent policies on specified aspects. Based on the online deployment of MAPD, we design a multi-agent dynamic parameter sharing (MADPS) algorithm as an example of the MAPD's applications. Extensive experiments demonstrate that our method is effective in measuring differences in agent policies and specific behavioral tendencies. Moreover, in comparison to other methods of parameter sharing, MADPS exhibits superior performance. | 翻訳日:2024-01-23 17:20:56 公開日:2024-01-20 |
# コーンビームCTの多変量学習可逆再構成 Equivariant Multiscale Learned Invertible Reconstruction for Cone Beam CT ( http://arxiv.org/abs/2401.11256v1 ) ライセンス: Link先を確認 | Nikita Moriakov, Jan-Jakob Sonke, Jonas Teuwen | (参考訳) 近年, Cone Beam CT (CBCT) は画像モダリティに欠かせないが, CBCT の画質は従来のComputed Tomography で確立された高品質標準に遅れを取っている。
lire+は高速でメモリ効率のよいcbct再構成のための学習された反復スキームであり,最近提案されているlire法に比べて大幅に高速でパラメータ効率のよい代替手法である。
LIRE+ は CBCT 再構成のための多変量学習非可逆原始双対反復スキームである。
メモリ使用量は、プリミティブ/デュアルセル内の単純な可逆的残差ネットワークと、前方および後方通過中のセル内のパッチワイド計算を頼りにすることで最適化されるが、プリミティブ/デュアルスキームをマルチスケール化することにより、リコンストラクションプロセスが低解像度で開始され、低解像度のプリミティブ/デュアル潜在ベクトルによって、推論速度が向上する。
lire+モデルは260 + 22の胸部ctスキャンで訓練され、79個の頭頸部(hn)のctスキャンを微調整することなく142個の胸部ctスキャンでテストされた。
本手法は,胸部テストセット上でのLIREを含む古典的および深層学習ベースラインを超える。
同様の推定時間とパラメータ予算の37%しか持たないLIRE+は、LIREよりも0.2dBのPSNR改善を実現し、LIREの性能を45%、パラメータ予算の28%で一致させることができる。
回転均等性は患者向きに対するLIRE+の堅牢性を保証する一方、LIREや他の深層学習ベースラインは患者向きが異常な場合に顕著なパフォーマンス劣化に悩まされる。
微調整のないHNデータセットでは、LIRE+はいくつかの不適切なケースを除いて、通常LIREに匹敵する性能を持つが、LIRE+と同じ微調整後のLIRE+では、LIREよりも+1.02dB PSNRの改善が見られた。 Cone Beam CT (CBCT) is an essential imaging modality nowadays, but the image quality of CBCT still lags behind the high quality standards established by the conventional Computed Tomography. We propose LIRE+, a learned iterative scheme for fast and memory-efficient CBCT reconstruction, which is a substantially faster and more parameter-efficient alternative to the recently proposed LIRE method. LIRE+ is a rotationally-equivariant multiscale learned invertible primal-dual iterative scheme for CBCT reconstruction. Memory usage is optimized by relying on simple reversible residual networks in primal/dual cells and patch-wise computations inside the cells during forward and backward passes, while increased inference speed is achieved by making the primal-dual scheme multiscale so that the reconstruction process starts at low resolution and with low resolution primal/dual latent vectors. A LIRE+ model was trained and validated on a set of 260 + 22 thorax CT scans and tested using a set of 142 thorax CT scans with additional evaluation with and without finetuning on an out-of-distribution set of 79 Head and Neck (HN) CT scans. Our method surpasses classical and deep learning baselines, including LIRE, on the thorax test set. For a similar inference time and with only 37 % of the parameter budget, LIRE+ achieves a +0.2 dB PSNR improvement over LIRE, while being able to match the performance of LIRE in 45 % less inference time and with 28 % of the parameter budget. Rotational equivariance ensures robustness of LIRE+ to patient orientation, while LIRE and other deep learning baselines suffer from substantial performance degradation when patient orientation is unusual. On the HN dataset in the absence of finetuning, LIRE+ is generally comparable to LIRE in performance apart from a few outlier cases, whereas after identical finetuning LIRE+ demonstates a +1.02 dB PSNR improvement over LIRE. | 翻訳日:2024-01-23 17:20:41 公開日:2024-01-20 |
# the great ban: redditの大規模な脱プラットフォーム操作の有効性と意図しない結果 The Great Ban: Efficacy and Unintended Consequences of a Massive Deplatforming Operation on Reddit ( http://arxiv.org/abs/2401.11254v1 ) ライセンス: Link先を確認 | Lorenzo Cima, Amaury Trujillo Larios, Marco Avvenuti, Stefano Cresci | (参考訳) オンライン虐待や害の現場では、安全で包括的なオンライン空間を育むために効果的なコンテンツモデレーションが必要である。
しかし、多くのモデレーション介入の有効性はまだ不明である。
ここでは、Reddit上で2000近いコミュニティに影響を与えた大規模なデプラットフォーム運用であるThe Great Banの有効性を評価する。
14ヶ月の間に17万のユーザーが投稿した16万件のコメントを分析して、この禁止が望まれているか、その他のかたちで、詳細な結果を提供する。
主な発見は、影響を受けたユーザーの15.6%がRedditを離れ、その毒性を平均6.6%減らしたことである。
この禁止により5%のユーザーがプリバンレベルの70%以上の毒性を上昇させた。
しかし、こうした怒りに満ちたユーザーは、活動の低さと仲間からの支持がほとんどなかったため、Redditに限られた影響を及ぼした可能性が高い。
全体として、当社の多面的結果は、デプラットフォームの有効性に関する新たな洞察を与えてくれます。
本研究は,今後のモデレーション介入やオンラインプラットフォームの警察活動の進展を知らせるものである。 In the current landscape of online abuses and harms, effective content moderation is necessary to cultivate safe and inclusive online spaces. Yet, the effectiveness of many moderation interventions is still unclear. Here, we assess the effectiveness of The Great Ban, a massive deplatforming operation that affected nearly 2,000 communities on Reddit. By analyzing 16M comments posted by 17K users during 14 months, we provide nuanced results on the effects, both desired and otherwise, of the ban. Among our main findings is that 15.6% of the affected users left Reddit and that those who remained reduced their toxicity by 6.6% on average. The ban also caused 5% users to increase their toxicity by more than 70% of their pre-ban level. However, these resentful users likely had limited impact on Reddit due to low activity and little support by peers. Overall, our multifaceted results provide new insights into the efficacy of deplatforming. Our findings can inform the development of future moderation interventions and the policing of online platforms. | 翻訳日:2024-01-23 17:20:00 公開日:2024-01-20 |
# 最大量子確率推定器 Maximum Likelihood Estimators of Quantum Probabilities ( http://arxiv.org/abs/2401.11253v1 ) ライセンス: Link先を確認 | Mirko Navara, Jan \v{S}evic | (参考訳) 古典的確率論は、実際にしばしば破られる仮定に基づいている。
したがって、量子確率は量子物理学だけでなく、他の科学においても提案されている選択肢である。
しかし、今のところは主に古典的なアプローチを批判しているが、代替案は提案していない。
最大確率推定器はこの文脈で非常に低い注意を払われた。
それらは正しく定義でき、閉形式での計算は少なくともある場合には実現可能であることを示す。 Classical probability theory is based on assumptions which are often violated in practice. Therefore quantum probability is a proposed alternative not only in quantum physics, but also in other sciences. However, so far it mostly criticizes the classical approach, but does not suggest a working alternative. Maximum likelihood estimators were given very low attention in this context. We show that they can be correctly defined and their computation in closed form is feasible at least in some cases. | 翻訳日:2024-01-23 17:19:45 公開日:2024-01-20 |
# 医療予測のためのマルチモーダル電子健康記録の自動融合 Automated Fusion of Multimodal Electronic Health Records for Better Medical Predictions ( http://arxiv.org/abs/2401.11252v1 ) ライセンス: Link先を確認 | Suhan Cui, Jiaqi Wang, Yuan Zhong, Han Liu, Ting Wang, Fenglong Ma | (参考訳) 医療機関における電子健康記録(ehr)システムの普及は、膨大な医療データを生み出し、深層学習技術による医療サービスの改善に大きな機会を与えている。
しかし、実世界のEHRデータにおける複雑で多様なモダリティと特徴構造は、ディープラーニングモデル設計に大きな課題をもたらします。
EHRデータにおけるマルチモーダリティの課題に対処するため、現在のアプローチは主に直観と経験に基づく手作りのモデルアーキテクチャに依存しており、サブ最適モデルアーキテクチャと限られた性能をもたらす。
そこで,ehlデータのマイニングのためのモデル設計のプロセスを自動化するために,多種多様な入力モダリティと融合戦略を符号化するための最適なモデルアーキテクチャを自動的に探索する,autofm(neural architecture search)フレームワークを提案する。
我々は,実世界のマルチモーダルehrデータと予測タスクを徹底的に実験し,本フレームワークが既存の最先端手法よりも大幅な性能向上を実現するだけでなく,有意義なネットワークアーキテクチャを効果的に発見できることを実証する。 The widespread adoption of Electronic Health Record (EHR) systems in healthcare institutes has generated vast amounts of medical data, offering significant opportunities for improving healthcare services through deep learning techniques. However, the complex and diverse modalities and feature structures in real-world EHR data pose great challenges for deep learning model design. To address the multi-modality challenge in EHR data, current approaches primarily rely on hand-crafted model architectures based on intuition and empirical experiences, leading to sub-optimal model architectures and limited performance. Therefore, to automate the process of model design for mining EHR data, we propose a novel neural architecture search (NAS) framework named AutoFM, which can automatically search for the optimal model architectures for encoding diverse input modalities and fusion strategies. We conduct thorough experiments on real-world multi-modal EHR data and prediction tasks, and the results demonstrate that our framework not only achieves significant performance improvement over existing state-of-the-art methods but also discovers meaningful network architectures effectively. | 翻訳日:2024-01-23 17:19:38 公開日:2024-01-20 |
# AFS-BM: バイナリマスキングによる適応的特徴選択によるモデル性能の向上 AFS-BM: Enhancing Model Performance through Adaptive Feature Selection with Binary Masking ( http://arxiv.org/abs/2401.11250v1 ) ライセンス: Link先を確認 | Mehmet Y. Turali, Mehmet E. Lorasdagi, Ali T. Koc and Suleyman S. Kozat | (参考訳) 本稿では,機械学習(ml)コンテキストにおける特徴選択の問題について検討する。
しかし,これらの手法はスケーラビリティ,高次元データ管理,特徴の相関処理,特徴の多様性への適応,ドメイン知識の統合といった課題に直面している。
この目的のために,これらの問題を是正する「二項マスキングによる適応的特徴選択(AFS-BM)」を導入する。
AFS-BMは、同時特徴選択とモデルトレーニングのための共同最適化によってこれを達成している。
特に、トレーニングプロセス中に特徴とモデルパラメータの集合を継続的に適応させるために、共同最適化とバイナリマスクを行う。
このアプローチはモデル精度の大幅な向上と計算要件の削減につながる。
afs-bmと確立された特徴選択法を比較し,実生活の競争から得られたよく知られたデータセットを用いて実験を行った。
以上の結果から,AFS-BMの精度は大幅に向上し,計算量も大幅に削減された。
これは、AFS-BMが訓練過程における機能の重要性の変化を動的に調整できるためであり、この分野に重要な貢献をしている。
結果の複製性に関するコードをオープンに共有し、さらなる研究を促進する。 We study the problem of feature selection in general machine learning (ML) context, which is one of the most critical subjects in the field. Although, there exist many feature selection methods, however, these methods face challenges such as scalability, managing high-dimensional data, dealing with correlated features, adapting to variable feature importance, and integrating domain knowledge. To this end, we introduce the ``Adaptive Feature Selection with Binary Masking" (AFS-BM) which remedies these problems. AFS-BM achieves this by joint optimization for simultaneous feature selection and model training. In particular, we do the joint optimization and binary masking to continuously adapt the set of features and model parameters during the training process. This approach leads to significant improvements in model accuracy and a reduction in computational requirements. We provide an extensive set of experiments where we compare AFS-BM with the established feature selection methods using well-known datasets from real-life competitions. Our results show that AFS-BM makes significant improvement in terms of accuracy and requires significantly less computational complexity. This is due to AFS-BM's ability to dynamically adjust to the changing importance of features during the training process, which an important contribution to the field. We openly share our code for the replicability of our results and to facilitate further research. | 翻訳日:2024-01-23 17:19:16 公開日:2024-01-20 |
# 信頼と個人情報のプライバシーに関する懸念が、AIを明示的に活用する健康保険の障壁であるかどうかを評価する Evaluating if trust and personal information privacy concerns are barriers to using health insurance that explicitly utilizes AI ( http://arxiv.org/abs/2401.11249v1 ) ライセンス: Link先を確認 | Alex Zarifis, Peter Kawalek and Aida Azadegan | (参考訳) 信頼とプライバシーはオンライン取引における重要な懸念として浮上している。
健康に関する情報の共有は特に敏感であるが、健康保険の購入と利用には必要である。
証拠によると、消費者は人間の代わりにテクノロジーに慣れているようだが、aiの利用が拡大すれば、この状況が変わる可能性がある。
本研究は、信頼とプライバシに関する懸念が、医療保険におけるAI導入の障壁であるかどうかを考察する。
最初のシナリオは、インターフェースにないAIに制限があり、その存在を消費者に明示的に公開していません。
第2のシナリオでは、AIインターフェースとAI評価があり、これは明確に消費者に開示される。
2つのシナリオをSEM PLS-MGAを用いてモデル化し比較した。
その結果、AIが見える第2のシナリオでは、信頼が著しく低いことが判明した。
プライバシに関する懸念はAIでは高いが、モデル内では統計的に重要な違いはない。 Trust and privacy have emerged as significant concerns in online transactions. Sharing information on health is especially sensitive but it is necessary for purchasing and utilizing health insurance. Evidence shows that consumers are increasingly comfortable with technology in place of humans, but the expanding use of AI potentially changes this. This research explores whether trust and privacy concern are barriers to the adoption of AI in health insurance. Two scenarios are compared: The first scenario has limited AI that is not in the interface and its presence is not explicitly revealed to the consumer. In the second scenario there is an AI interface and AI evaluation, and this is explicitly revealed to the consumer. The two scenarios were modeled and compared using SEM PLS-MGA. The findings show that trust is significantly lower in the second scenario where AI is visible. Privacy concerns are higher with AI but the difference is not statistically significant within the model. | 翻訳日:2024-01-23 17:18:57 公開日:2024-01-20 |
# drop your decoder: 密閉通路検索のための単語予測による事前学習 Drop your Decoder: Pre-training with Bag-of-Word Prediction for Dense Passage Retrieval ( http://arxiv.org/abs/2401.11248v1 ) ライセンス: Link先を確認 | Guangyuan Ma, Xing Wu, Zijia Lin, Songlin Hu | (参考訳) マスケードオートエンコーダの事前学習は,高密度検索システムの初期化・拡張技術として広く用いられている。
一般にトランスフォーマーデコーダブロックを使用して、持続可能な監視信号を提供し、コンテキスト情報を密度の高い表現に圧縮する。
しかし、このような事前訓練技術の有効性の根拠は未だ不明である。
トランスフォーマーベースのデコーダのさらなる使用は、計算コストを大幅に削減する。
本研究では,マスク付きオートエンコーダ(MAE)の事前学習により,高密度表現における入力トークンのカバー範囲が,バニラBERTチェックポイントよりも大幅に向上することを明らかにした。
この観測に基づいて,マスク付きオートエンコーダのデコーダを完全に単純化されたBag-of-Word予測タスクに置き換えることで,従来のMAEの修正を提案する。
この修正により、教師なし事前学習により、語彙信号の高密度表現への効率的な圧縮が可能となる。
提案手法は,大規模検索ベンチマークにおいて,追加のパラメータを必要とせず,従来のマスク付きオートエンコーダに比較して67%の高速化を実現している。 Masked auto-encoder pre-training has emerged as a prevalent technique for initializing and enhancing dense retrieval systems. It generally utilizes additional Transformer decoder blocks to provide sustainable supervision signals and compress contextual information into dense representations. However, the underlying reasons for the effectiveness of such a pre-training technique remain unclear. The usage of additional Transformer-based decoders also incurs significant computational costs. In this study, we aim to shed light on this issue by revealing that masked auto-encoder (MAE) pre-training with enhanced decoding significantly improves the term coverage of input tokens in dense representations, compared to vanilla BERT checkpoints. Building upon this observation, we propose a modification to the traditional MAE by replacing the decoder of a masked auto-encoder with a completely simplified Bag-of-Word prediction task. This modification enables the efficient compression of lexical signals into dense representations through unsupervised pre-training. Remarkably, our proposed method achieves state-of-the-art retrieval performance on several large-scale retrieval benchmarks without requiring any additional parameters, which provides a 67% training speed-up compared to standard masked auto-encoder pre-training with enhanced decoding. | 翻訳日:2024-01-23 17:18:41 公開日:2024-01-20 |
# prompt-rag: ニッチドメインにおけるベクター埋め込みフリー検索型生成の先駆者。 Prompt-RAG: Pioneering Vector Embedding-Free Retrieval-Augmented Generation in Niche Domains, Exemplified by Korean Medicine ( http://arxiv.org/abs/2401.11246v1 ) ライセンス: Link先を確認 | Bongsu Kang, Jundong Kim, Tae-Rim Yun, Chang-Eop Kim | (参考訳) ニッチドメインにおける生成型大規模言語モデル(LLM)の性能向上を目的とした,自然言語プロンプトに基づく検索拡張(Prompt-RAG)を提案する。
従来のRAG法は主にベクトル埋め込みを必要とするが、LLMをベースとした汎用的な埋め込み表現の適合性は未だ不明である。
そこで,本研究では,韓国医学(KM)文書と標準医学(CM)文書のベクトル埋め込みを比較し,KM文書の埋め込みがトークン重複とより相関し,人為的な文書関連性が低いことを発見した。
従来のRAGモデルとは異なるPrompt-RAGは、埋め込みベクトルを必要としない。
その性能は質問応答(QA)チャットボットアプリケーションを通じて評価され、応答は関連性、可読性、情報性について評価された。
その結果, Prompt-RAG は ChatGPT や従来のベクトル埋め込み型RAG などの既存モデルよりも, 関連性, 情報性に優れていた。
コンテンツ構造化やレスポンスレイテンシといった課題にもかかわらず、LLMの進歩はPrompt-RAGの使用を促進することが期待されており、RAGメソッドを必要とする他のドメインにとって有望なツールである。 We propose a natural language prompt-based retrieval augmented generation (Prompt-RAG), a novel approach to enhance the performance of generative large language models (LLMs) in niche domains. Conventional RAG methods mostly require vector embeddings, yet the suitability of generic LLM-based embedding representations for specialized domains remains uncertain. To explore and exemplify this point, we compared vector embeddings from Korean Medicine (KM) and Conventional Medicine (CM) documents, finding that KM document embeddings correlated more with token overlaps and less with human-assessed document relatedness, in contrast to CM embeddings. Prompt-RAG, distinct from conventional RAG models, operates without the need for embedding vectors. Its performance was assessed through a Question-Answering (QA) chatbot application, where responses were evaluated for relevance, readability, and informativeness. The results showed that Prompt-RAG outperformed existing models, including ChatGPT and conventional vector embedding-based RAGs, in terms of relevance and informativeness. Despite challenges like content structuring and response latency, the advancements in LLMs are expected to encourage the use of Prompt-RAG, making it a promising tool for other domains in need of RAG methods. | 翻訳日:2024-01-23 17:18:17 公開日:2024-01-20 |
# LRP-QViT:レイヤワイド関連伝搬による混合精密ビジョン変換器量子化 LRP-QViT: Mixed-Precision Vision Transformer Quantization via Layer-wise Relevance Propagation ( http://arxiv.org/abs/2401.11243v1 ) ライセンス: Link先を確認 | Navin Ranjan and Andreas Savakis | (参考訳) 視覚トランスフォーマー (vits) は様々な視覚タスクで顕著な性能を示している。
しかし、ViTモデルは相当な計算とメモリ要件に悩まされており、リソース制約のあるプラットフォームにデプロイすることは困難である。
量子化は、モデルサイズを減らすための一般的なアプローチであるが、ほとんどの研究は、ネットワーク全体の等しいビット幅の量子化に重点を置いている。
ViTの混合精度量子化(MPQ)に関する研究はほとんどないが、通常は探索空間に基づく手法や混合精度を任意に利用する。
本稿では,異なる層に混合精度のビット割り当てを割り当てる説明可能性に基づく LRP-QViT を提案する。
具体的には,対象クラスの予測における各レイヤのコントリビューションスコアを測定するために,Layer-wise Relevance Propagation (LRP)法を用いる。
lrpは出力層に局所的関連性を割り当て、すべての層に伝播し、入力層に到達するまで関連性を分散する。
これらの関連度スコアは、層貢献度を計算する指標となる。
さらに,ポスト層ノルムアクティベーションの異常を解消し,チャネル間変動を緩和することを目的とした,クリップ型チャネルワイズ量子化も導入した。
我々のアプローチを検証し、評価するために、様々なデータセット上で、ViT、DeiT、Swin変換モデルにLRP-QViTを用いる。
実験の結果, 4ビットおよび6ビットの量子化では, 固定ビットおよび混合ビット後量子化法が既存モデルを上回ることがわかった。 Vision transformers (ViTs) have demonstrated remarkable performance across various visual tasks. However, ViT models suffer from substantial computational and memory requirements, making it challenging to deploy them on resource-constrained platforms. Quantization is a popular approach for reducing model size, but most studies mainly focus on equal bit-width quantization for the entire network, resulting in sub-optimal solutions. While there are few works on mixed precision quantization (MPQ) for ViTs, they typically rely on search space-based methods or employ mixed precision arbitrarily. In this paper, we introduce LRP-QViT, an explainability-based method for assigning mixed-precision bit allocations to different layers based on their importance during classification. Specifically, to measure the contribution score of each layer in predicting the target class, we employ the Layer-wise Relevance Propagation (LRP) method. LRP assigns local relevance at the output layer and propagates it through all layers, distributing the relevance until it reaches the input layers. These relevance scores serve as indicators for computing the layer contribution score. Additionally, we have introduced a clipped channel-wise quantization aimed at eliminating outliers from post-LayerNorm activations to alleviate severe inter-channel variations. To validate and assess our approach, we employ LRP-QViT across ViT, DeiT, and Swin transformer models on various datasets. Our experimental findings demonstrate that both our fixed-bit and mixed-bit post-training quantization methods surpass existing models in the context of 4-bit and 6-bit quantization. | 翻訳日:2024-01-23 17:17:51 公開日:2024-01-20 |
# 製品レベルのトライオン:リアルな衣服シェーディングとしわを備えた特性保存トライオン Product-Level Try-on: Characteristics-preserving Try-on with Realistic Clothes Shading and Wrinkles ( http://arxiv.org/abs/2401.11239v1 ) ライセンス: Link先を確認 | Yanlong Zang, Han Yang, Jiaxu Miao, Yi Yang | (参考訳) Image-based virtual try-on systems,which fit new garments onto human portraits,are gaining research attention.An ideal pipeline should preserve the static features of clothes(like textures and logos)while also generating dynamic elements(e.g.shadows,folds)that adapt to the model's pose and environment.Previous works fail specifically in generating dynamic features,as they preserve the warped in-shop clothes trivially with predicted an alpha mask by composition.To break the dilemma of over-preserving and textures losses,we propose a novel diffusion-based Product-level virtual try-on pipeline,\ie PLTON, which can preserve the fine details of logos and embroideries while producing realistic clothes shading and wrinkles.The main insights are in three folds:1)Adaptive Dynamic Rendering:We take a pre-trained diffusion model as a generative prior and tame it with image features,training a dynamic extractor from scratch to generate dynamic tokens that preserve high-fidelity semantic information.
Due to the strong generative power of the diffusion prior,we can generate realistic clothes shadows and wrinkles.2)Static Characteristics Transformation: High-frequency Map(HF-Map)is our fundamental insight for static representation.PLTON first warps in-shop clothes to the target model pose by a traditional warping network,and uses a high-pass filter to extract an HF-Map for preserving static cloth features.The HF-Map is used to generate modulation maps through our static extractor,which are injected into a fixed U-net to synthesize the final result.To enhance retention,a Two-stage Blended Denoising method is proposed to guide the diffusion process for correct spatial layout and color.PLTON is finetuned only with our collected small-size try-on dataset.Extensive quantitative and qualitative experiments on 1024 768 datasets demonstrate the superiority of our framework in mimicking real clothes dynamics. Image-based virtual try-on systems,which fit new garments onto human portraits,are gaining research attention.An ideal pipeline should preserve the static features of clothes(like textures and logos)while also generating dynamic elements(e.g.shadows,folds)that adapt to the model's pose and environment.Previous works fail specifically in generating dynamic features,as they preserve the warped in-shop clothes trivially with predicted an alpha mask by composition.To break the dilemma of over-preserving and textures losses,we propose a novel diffusion-based Product-level virtual try-on pipeline,\ie PLTON, which can preserve the fine details of logos and embroideries while producing realistic clothes shading and wrinkles.The main insights are in three folds:1)Adaptive Dynamic Rendering:We take a pre-trained diffusion model as a generative prior and tame it with image features,training a dynamic extractor from scratch to generate dynamic tokens that preserve high-fidelity semantic information. Due to the strong generative power of the diffusion prior,we can generate realistic clothes shadows and wrinkles.2)Static Characteristics Transformation: High-frequency Map(HF-Map)is our fundamental insight for static representation.PLTON first warps in-shop clothes to the target model pose by a traditional warping network,and uses a high-pass filter to extract an HF-Map for preserving static cloth features.The HF-Map is used to generate modulation maps through our static extractor,which are injected into a fixed U-net to synthesize the final result.To enhance retention,a Two-stage Blended Denoising method is proposed to guide the diffusion process for correct spatial layout and color.PLTON is finetuned only with our collected small-size try-on dataset.Extensive quantitative and qualitative experiments on 1024 768 datasets demonstrate the superiority of our framework in mimicking real clothes dynamics. | 翻訳日:2024-01-23 17:17:23 公開日:2024-01-20 |
# ランサムウェアのグローバル、拡張、繰り返し攻撃はユーザーステータスのバイアスを克服し、システムの切り替えを引き起こすか Can global, extended and repeated ransomware attacks overcome the users status quo bias and cause a switch of system ( http://arxiv.org/abs/2401.11238v1 ) ライセンス: Link先を確認 | Alex Zarifis, Xusen Cheng, Uchitha Jayawickrama and Simone Corsi | (参考訳) ランサムウェア攻撃の有効性は、完全には理解されていない大きな結果をもたらしている。
コアサービスをディスラプトする能力、グローバルなリーチ、期間の延長、反復によって組織を傷つける能力が向上した。
よりよく理解する必要がある側面のひとつは、ユーザへの影響です。
現在の環境のユーザは、採用される可能性のある新しい技術に晒されているが、既存のシステムを使う習慣もある。
習慣は時間とともに発展し、組織と直接接触し、それを支持する機関で信頼が高まっている。
本研究は,RW攻撃が信頼と慣性を減らすことで,情報システムの利用の長期的習慣を十分に変えるかどうかを考察する。
実験したモデルは、RW攻撃がEコマースのステータスクオに与える影響を測定し、変更に対するユーザの抵抗を克服するのに十分な重要かどうかを評価する。 Ransomware attack effectiveness has increased causing far reaching consequences that are not fully understood. The ability to disrupt core services, the global reach, extended duration, and the repetition has increased their ability to harm organizations. One aspect that needs to be understood better is the effect on the user. The user in the current environment is exposed to new technologies that might be adopted, but there are also habits of using existing systems. The habits have developed over time with trust increasing in the organization in contact directly and the institutions supporting it. This research explores whether the global, extended, and repeated RW attacks reduce the trust and inertia sufficiently to change long-held habits in using information systems. The model tested measures the effect of the RW attack on the e-commerce status quo to evaluate if it is significant enough to overcome the users resistance to change. | 翻訳日:2024-01-23 17:16:59 公開日:2024-01-20 |
# TD学習と教師付き学習のギャップを埋める - 一般化の視点から Closing the Gap between TD Learning and Supervised Learning -- A Generalisation Point of View ( http://arxiv.org/abs/2401.11237v1 ) ライセンス: Link先を確認 | Raj Ghugare, Matthieu Geist, Glen Berseth, Benjamin Eysenbach | (参考訳) いくつかの強化学習(RL)アルゴリズムは、トレーニング中に見たことのないタスクを解決するために経験の一部を縫うことができる。
この特性は、動的プログラミングに基づくRL法と教師あり学習(SL)に基づくRL法とを区別する数少ない方法の1つである。
しかし, 市販slアルゴリズムに基づくrl法では縫い付け機構を明示せずに優れた結果が得られるが, この重要な縫い付け特性が得られていないかは定かではない。
本稿では,目標目標状態の達成と目標回帰値の達成という課題に対して,この問題を考察する。
私たちの主な結果は、ステッチ特性が組合せ一般化の形式に対応していることを示すことである:(状態、目標)ペアの分布を訓練した後、トレーニングデータで見ない(状態、目標)ペアを評価したい。
我々の分析によると、この種の一般化はi.i.d.一般化とは異なる。
縫合と一般化のこの関係は、大規模なデータセットやモデルに限らず、SLベースのRL法が縫合を行おうとしない理由を明らかにしている。
この分析に基づいて,この性質を明示的にテストするための新しいデータセットを構築し,slベースの手法ではステッチ特性が欠如しており,したがって組合せ一般化が行えないことを明らかにした。
それでも、縫合と組合せ一般化の関連性は、SLの一般化を改善するための単純な方法である。
本稿では、時間的データ拡張を提案し、SLベースの手法に付加することで、トレーニング中に一緒に見えないタスクを完了できることを実証する。
高いレベルでは、この接続は、音声、ビデオ、テキストといったrl以外のタスクにおける時系列データにおけるデータ効率に対する組合せ一般化の重要性を示している。 Some reinforcement learning (RL) algorithms can stitch pieces of experience to solve a task never seen before during training. This oft-sought property is one of the few ways in which RL methods based on dynamic-programming differ from RL methods based on supervised-learning (SL). Yet, certain RL methods based on off-the-shelf SL algorithms achieve excellent results without an explicit mechanism for stitching; it remains unclear whether those methods forgo this important stitching property. This paper studies this question for the problems of achieving a target goal state and achieving a target return value. Our main result is to show that the stitching property corresponds to a form of combinatorial generalization: after training on a distribution of (state, goal) pairs, one would like to evaluate on (state, goal) pairs not seen together in the training data. Our analysis shows that this sort of generalization is different from i.i.d. generalization. This connection between stitching and generalisation reveals why we should not expect SL-based RL methods to perform stitching, even in the limit of large datasets and models. Based on this analysis, we construct new datasets to explicitly test for this property, revealing that SL-based methods lack this stitching property and hence fail to perform combinatorial generalization. Nonetheless, the connection between stitching and combinatorial generalisation also suggests a simple remedy for improving generalisation in SL: data augmentation. We propose a temporal data augmentation and demonstrate that adding it to SL-based methods enables them to successfully complete tasks not seen together during training. On a high level, this connection illustrates the importance of combinatorial generalization for data efficiency in time-series data beyond tasks beyond RL, like audio, video, or text. | 翻訳日:2024-01-23 17:16:44 公開日:2024-01-20 |
# 隠れトリガーの検出: 非マルコフ報酬関数をマルコフにマッピングする Detecting Hidden Triggers: Mapping Non-Markov Reward Functions to Markov ( http://arxiv.org/abs/2401.11325v1 ) ライセンス: Link先を確認 | Gregory Hyde, Eugene Santos Jr | (参考訳) 多くの強化学習アルゴリズムは最適性を保証するためにマルコフ報酬関数を仮定する。
しかし、全ての報酬関数がマルコフであることが知られているわけではない。
本稿では,非マルコフ報酬関数を等価なマルコフ報酬関数にマッピングするフレームワークを提案する。
Reward Machinesを学習する一般的な実践とは異なり、学習する高レベルな命題記号のセットは必要ありません。
むしろ、エンコードされたデータから直接、 \emph{hidden triggers}を学びます。
本稿では,1つのオートマトンで報酬依存をモデル化できることを考えると,リワードマシンの学習と決定論的有限状態オートマタの学習の重要性を示す。
私たちはこの区別を学習目的に定式化する。
写像過程は整数線形計画問題として構成される。
私たちは、マッピングが基盤となるプロセスに一貫した期待を与えてくれることを証明します。
我々は,Officeworld Domainにおけるブラックボックス非マルコフ・リワード関数を学習することで,我々のアプローチを実証的に検証する。
さらに,新たなドメインであるBreakfastworldにおいて,報酬間の依存関係の学習の有効性を示す。 Many Reinforcement Learning algorithms assume a Markov reward function to guarantee optimality. However, not all reward functions are known to be Markov. In this paper, we propose a framework for mapping non-Markov reward functions into equivalent Markov ones by learning a Reward Machine - a specialized reward automaton. Unlike the general practice of learning Reward Machines, we do not require a set of high-level propositional symbols from which to learn. Rather, we learn \emph{hidden triggers} directly from data that encode them. We demonstrate the importance of learning Reward Machines versus their Deterministic Finite-State Automata counterparts, for this task, given their ability to model reward dependencies in a single automaton. We formalize this distinction in our learning objective. Our mapping process is constructed as an Integer Linear Programming problem. We prove that our mappings provide consistent expectations for the underlying process. We empirically validate our approach by learning black-box non-Markov Reward functions in the Officeworld Domain. Additionally, we demonstrate the effectiveness of learning dependencies between rewards in a new domain, Breakfastworld. | 翻訳日:2024-01-23 17:09:11 公開日:2024-01-20 |
# 大規模言語モデルにおけるタスクエンコーディングトークンの解析 Analyzing Task-Encoding Tokens in Large Language Models ( http://arxiv.org/abs/2401.11323v1 ) ライセンス: Link先を確認 | Yu Bai, Heyan Huang, Cesare Spinoso-Di Piano, Marc-Antoine Rondeau, Sanxing Chen, Yang Gao, Jackie Chi Kit Cheung | (参考訳) In-context Learning (ICL) は、自然言語処理における数ショット学習に有効なソリューションとなっている。
過去の研究によると、このプロセスでは、最後のプロンプトトークンの表現がタスク推論手順の格納に利用され、コンテキスト内学習の動作メカニズムが説明されている。
本稿では,タスク推論手順を格納する他のタスク符号化トークンの探索と解析を行う。
異なるトークンタイプの表現を省略する実験によってサポートされ、テンプレートとストップワードトークンが最もタスクエンコーディングトークンになりやすいことが分かりました。
さらに,これらのトークンの主な特徴は語彙的手がかり,繰り返し,テキスト形式であることを示す。
我々の研究は、大規模言語モデル(llm)がiclにおけるタスク推論手順をどのように活用するかに関するさらなる洞察を提供し、将来の作業は、推論時のllmの計算効率と長いシーケンスの処理能力を改善するためにタスクエンコーディングトークンを使用するかもしれないことを示唆する。 In-context learning (ICL) has become an effective solution for few-shot learning in natural language processing. Past work has found that, during this process, representations of the last prompt token are utilized to store task reasoning procedures, thereby explaining the working mechanism of in-context learning. In this paper, we seek to locate and analyze other task-encoding tokens whose representations store task reasoning procedures. Supported by experiments that ablate the representations of different token types, we find that template and stopword tokens are the most prone to be task-encoding tokens. In addition, we demonstrate experimentally that lexical cues, repetition, and text formats are the main distinguishing characteristics of these tokens. Our work provides additional insights into how large language models (LLMs) leverage task reasoning procedures in ICL and suggests that future work may involve using task-encoding tokens to improve the computational efficiency of LLMs at inference time and their ability to handle long sequences. | 翻訳日:2024-01-23 17:08:55 公開日:2024-01-20 |
# ライブストリーミングプラットフォームTwitchのコミュニティ管理のためのサードパーティ開発者とツール開発 Third-Party Developers and Tool Development For Community Management on Live Streaming Platform Twitch ( http://arxiv.org/abs/2401.11317v1 ) ライセンス: Link先を確認 | Jie Cai, Ya-Fang Lin, He Zhang, John M. Carroll | (参考訳) コミュニティマネジメントは、コミュニティステークホルダーが社会技術的支援でコミュニティを共同で構築し、維持するために重要である。
既存の作業は主にコミュニティメンバとプラットフォームに焦点を当てており、プラットフォームとコミュニティメンバの関係を仲介し、コミュニティ管理をサポートするツールを構築する開発者を調査する作業はほとんどない。
本研究では,ライブストリーミングプラットフォームTwitchのサードパーティ開発者(TPD)に着目し,ツール開発プラクティスについて検討する。
詳細な質的分析を伴う混合手法において,tpdは異なる利害関係者(ストリーマー,視聴者,プラットフォーム,プロの開発者)との複雑な関係を維持しており,多層政策はアイデアの革新とツール開発に関する機関を制限していることがわかった。
hci researchは、ツールユーザからツール開発者へのコミュニティ管理への注意をリダイレクトし、プラットフォームとプロの開発者との緊密なコラボレーションを提案し、開発プロセスを統一されたテイクキットとポリシードキュメンテーションで合理化するべきだと論じている。 Community management is critical for community stakeholders to collaboratively build and maintain the community with socio-technical support. Existing work mainly focuses on the community members and the platform; little work explores the developers who mediate the relationship between the platform and community members and build the tools to support their community management. In this study, we focus on third-party developers (TPDs) for the live streaming platform Twitch and explore their tool development practices. In a mixed method with in-depth qualitative analysis, we found that TPDs maintain complex relationships with different stakeholders (streamers, viewers, platform, professional developers), and the multi-layered policy restricts their agency regarding idea innovation and tool development. We argue that HCI research should redirect the attention from tool users to tool developers regarding community management and propose close collaboration with the platform and professional developers and streamlining the development process with unified took kits and policy documentation. | 翻訳日:2024-01-23 17:08:37 公開日:2024-01-20 |
# PRILoRA: 低ランク適応の削減とランク向上 PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation ( http://arxiv.org/abs/2401.11316v1 ) ライセンス: Link先を確認 | Nadav Benedek, Lior Wolf | (参考訳) 大規模事前学習言語モデル(PLM)の普及に伴い、特に相当なトレーニングと記憶コストを必要とする下流タスクを扱う場合、モデルパラメータの微調整は効率が悪くなる。
パラメータ効率のよい微調整(PEFT)を実現するためのいくつかの手法が提案されている。
その中でもLoRA(Lo-Rank Adaptation)は、トレーニング可能な階数分解行列を各ターゲットモジュールに組み込んだアーキティパル手法として際立っている。
それでもLoRAは各レイヤの重要性を考慮していない。
これらの課題に対処するために,各層ごとに異なるランクを線形に割り当てるpriloraを導入し,各層への一時的な重み付けと入力の累積統計量の両方を考慮して,トレーニングプロセス全体にわたってプルーニングを行う。
我々は,8つの接着ベンチマークを用いた広範囲な実験により,priloraの有効性を検証する。 With the proliferation of large pre-trained language models (PLMs), fine-tuning all model parameters becomes increasingly inefficient, particularly when dealing with numerous downstream tasks that entail substantial training and storage costs. Several approaches aimed at achieving parameter-efficient fine-tuning (PEFT) have been proposed. Among them, Low-Rank Adaptation (LoRA) stands out as an archetypal method, incorporating trainable rank decomposition matrices into each target module. Nevertheless, LoRA does not consider the varying importance of each layer. To address these challenges, we introduce PRILoRA, which linearly allocates a different rank for each layer, in an increasing manner, and performs pruning throughout the training process, considering both the temporary magnitude of weights and the accumulated statistics of the input to any given layer. We validate the effectiveness of PRILoRA through extensive experiments on eight GLUE benchmarks, setting a new state of the art. | 翻訳日:2024-01-23 17:08:19 公開日:2024-01-20 |
# CodeAid: 学生と教育者のニーズのバランスをとるLLMベースのプログラミングアシスタントの教室展開の評価 CodeAid: Evaluating a Classroom Deployment of an LLM-based Programming Assistant that Balances Student and Educator Needs ( http://arxiv.org/abs/2401.11314v1 ) ライセンス: Link先を確認 | Majeed Kazemitabaar, Runlong Ye, Xiaoning Wang, Austin Z. Henley, Paul Denny, Michelle Craig, Tovi Grossman | (参考訳) タイムリーに言えば、プログラミングを学ぶ学生にはパーソナライズされたフィードバックが不可欠だ。
LLMベースのツールであるChatGPTは、インスタントサポートを提供するが、コードによる直接的な回答は、深い概念的エンゲージメントを妨げる可能性がある。
我々は,LLMベースのプログラミングアシスタントであるCodeAidを開発した。
例えば、CodeAidは概念的な質問に答え、行ごとの説明で擬似コードを生成し、修正提案で生徒の誤ったコードに注釈を付けることができる。
私たちは12週間の学期で700人の学生のプログラミングクラスにCodeAidをデプロイしました。
8000のCodeAid使用のテーマ分析を行い、毎週の調査と22名の学生インタビューによりさらに充実させた。
次に8人のプログラミング教育者にインタビューして、CodeAidに関するさらなる洞察を得た。
発見によると、学生は主にCodeAidを使って概念的理解とデバッグを行ったが、少数派は直接コードを取得しようとした。
教育者はCodeAidの教育的アプローチを高く評価し、時に誤ったフィードバックやChatGPTをデフォルトとする学生への懸念を表明した。 Timely, personalized feedback is essential for students learning programming, especially as class sizes expand. LLM-based tools like ChatGPT offer instant support, but reveal direct answers with code, which may hinder deep conceptual engagement. We developed CodeAid, an LLM-based programming assistant delivering helpful, technically correct responses, without revealing code solutions. For example, CodeAid can answer conceptual questions, generate pseudo-code with line-by-line explanations, and annotate student's incorrect code with fix suggestions. We deployed CodeAid in a programming class of 700 students for a 12-week semester. A thematic analysis of 8,000 usages of CodeAid was performed, further enriched by weekly surveys, and 22 student interviews. We then interviewed eight programming educators to gain further insights on CodeAid. Findings revealed students primarily used CodeAid for conceptual understanding and debugging, although a minority tried to obtain direct code. Educators appreciated CodeAid's educational approach, and expressed concerns about occasional incorrect feedback and students defaulting to ChatGPT. | 翻訳日:2024-01-23 17:08:01 公開日:2024-01-20 |
# 円走査型合成アパーチャー超音波画像の弱教師付き意味セグメンテーション Weakly-Supervised Semantic Segmentation of Circular-Scan, Synthetic-Aperture-Sonar Imagery ( http://arxiv.org/abs/2401.11313v1 ) ライセンス: Link先を確認 | Isaac J. Sledge, Dominic M. Byrne, Jonathan L. King, Steven H. Ostertag, Denton L. Woods, James L. Prater, Jermaine L. Kennedy, Timothy M. Marston, Jose C. Principe | (参考訳) 円スキャン合成アパーチャーソナー(csas)画像の意味セグメンテーションのための弱教師付きフレームワークを提案する。
筆者らのフレームワークの第1部は、画像レベルのラベルに基づいて教師付き方法で訓練され、各画像内の半スパース領域の集合を明らかにする。
次に、各領域の分類の不確実性を評価する。
最も不確実性の低い領域は、フレームワークの第2部分のピクセルレベルで、弱いラベル付けされたセグメンテーションシードとして選択される。
各種の範囲は、構造化予測正則化器による教師なし情報理論的損失に応じて徐々に再サイズされる。
マルチスケールで適応的に重み付けされた特徴を用いて、局所的な画像内容のクラス固有の遷移を規定する。
関連画像のセグメンテーション性能を向上させるために、予め見てきた画像の特徴を活用できるように、コンテント調整可能なメモリをフレームワークの様々な部分に挿入する。
10以上の海底クラスと10以上のターゲットクラスを含む実世界のCSAS画像を用いて、弱教師付きフレームワークの評価を行った。
我々のフレームワークは、9つの完全教師付きディープネットワークと互換性のある性能を示す。
私たちのフレームワークは、最も弱い教師付きディープネットワークの11よりも優れています。
自然画像の事前学習において,最先端のパフォーマンスを実現する。
最弱教師付きネットワークに対する平均的な絶対的なパフォーマンスギャップは、自然画像とソナー画像の両方に対してほぼ10%以上である。
この差は統計的に有意である。 We propose a weakly-supervised framework for the semantic segmentation of circular-scan synthetic-aperture-sonar (CSAS) imagery. The first part of our framework is trained in a supervised manner, on image-level labels, to uncover a set of semi-sparse, spatially-discriminative regions in each image. The classification uncertainty of each region is then evaluated. Those areas with the lowest uncertainties are then chosen to be weakly labeled segmentation seeds, at the pixel level, for the second part of the framework. Each of the seed extents are progressively resized according to an unsupervised, information-theoretic loss with structured-prediction regularizers. This reshaping process uses multi-scale, adaptively-weighted features to delineate class-specific transitions in local image content. Content-addressable memories are inserted at various parts of our framework so that it can leverage features from previously seen images to improve segmentation performance for related images. We evaluate our weakly-supervised framework using real-world CSAS imagery that contains over ten seafloor classes and ten target classes. We show that our framework performs comparably to nine fully-supervised deep networks. Our framework also outperforms eleven of the best weakly-supervised deep networks. We achieve state-of-the-art performance when pre-training on natural imagery. The average absolute performance gap to the next-best weakly-supervised network is well over ten percent for both natural imagery and sonar imagery. This gap is found to be statistically significant. | 翻訳日:2024-01-23 17:07:45 公開日:2024-01-20 |
# 基礎モデルにおけるFew-Shot Semantic Segmentationの新しいベンチマーク A Novel Benchmark for Few-Shot Semantic Segmentation in the Era of Foundation Models ( http://arxiv.org/abs/2401.11311v1 ) ライセンス: Link先を確認 | Reda Bensaid, Vincent Gripon, Fran\c{c}ois Leduc-Primeau, Lukas Mauch, Ghouthi Boukli Hacene, Fabien Cardinaux | (参考訳) 近年、コンピュータビジョンの急速な進化により、様々なビジョン基盤モデルが出現し、それぞれが特定のデータタイプやタスクに合わせている。
大きな言語モデルは共通の前提課題を共有することが多いが、視覚基盤モデルの多様性は様々な訓練目標から生じる。
本研究では,コンピュータビジョンにおける重要な課題であるセマンティックセグメンテーション(セマンティックセグメンテーション)において,最も効果的な視覚基盤モデルを探索する。
具体的には、DINO V2、Segment Anything、CLIP、Masked AutoEncoders、COCOデータセットで事前トレーニングされたResNet50の4つの主要な基盤モデルの包括的な比較分析を行う。
本研究は,新しいセマンティクスセグメンテーションタスクへの適応性に着目し,限られた数のセグメンテーション画像のみを活用する。
実験結果から,DINO V2は様々なデータセットや適応手法において,他の基盤モデルよりも一貫して優れていることがわかった。
この結果は、dino v2がセマンティクスセグメンテーションタスクに適応する能力が、それよりも優れていることを浮き彫りにしている。
さらに, 適応手法自体の複雑度よりもロバストな特徴抽出器を選択することの重要性を強調し, 様々なアダプタ手法が類似した性能を示すことを示す。
この洞察は、少数ショット意味セグメンテーションの文脈における特徴抽出の重要役割に光を当てている。
本研究は,少数ショットセマンティックセグメンテーションの領域における視覚基盤モデルの比較性能に関する貴重な知見を提供するだけでなく,この領域におけるロバストな特徴抽出器の重要性も強調する。 In recent years, the rapid evolution of computer vision has seen the emergence of various vision foundation models, each tailored to specific data types and tasks. While large language models often share a common pretext task, the diversity in vision foundation models arises from their varying training objectives. In this study, we delve into the quest for identifying the most effective vision foundation models for few-shot semantic segmentation, a critical task in computer vision. Specifically, we conduct a comprehensive comparative analysis of four prominent foundation models: DINO V2, Segment Anything, CLIP, Masked AutoEncoders, and a straightforward ResNet50 pre-trained on the COCO dataset. Our investigation focuses on their adaptability to new semantic segmentation tasks, leveraging only a limited number of segmented images. Our experimental findings reveal that DINO V2 consistently outperforms the other considered foundation models across a diverse range of datasets and adaptation methods. This outcome underscores DINO V2's superior capability to adapt to semantic segmentation tasks compared to its counterparts. Furthermore, our observations indicate that various adapter methods exhibit similar performance, emphasizing the paramount importance of selecting a robust feature extractor over the intricacies of the adaptation technique itself. This insight sheds light on the critical role of feature extraction in the context of few-shot semantic segmentation. This research not only contributes valuable insights into the comparative performance of vision foundation models in the realm of few-shot semantic segmentation but also highlights the significance of a robust feature extractor in this domain. | 翻訳日:2024-01-23 17:07:25 公開日:2024-01-20 |
# プライバシ保護の進歩: Recommender Systems, Edge Computing, クラウドコンピューティングにおけるプライバシ保護技術のレビュー Progress in Privacy Protection: A Review of Privacy Preserving Techniques in Recommender Systems, Edge Computing, and Cloud Computing ( http://arxiv.org/abs/2401.11305v1 ) ライセンス: Link先を確認 | Syed Raza Bashir, Shaina Raza, Vojislav Misic | (参考訳) デジタル技術が進化するにつれて、コネクテッドデバイスの利用の増加は、モバイルクラウドソーシング、エッジコンピューティング、レコメンダシステムといった分野における課題と機会の両方をもたらす。
この調査はこれらのダイナミックな分野に焦点を当て、ますますデータ指向の世界におけるプライバシー保護の重要性を強調します。
プライバシとデータセキュリティに特に重点を置いて、これらの相互接続領域における最新のトレンドを探求している。
この方法では,さまざまな学術研究の詳細な分析を行い,これらの分野の包括的理解と,プライバシの懸念への転換に役立てます。
これらの技術におけるプライバシー問題に対処する上で,新たな洞察と重要な進展を示す。
この調査は、研究者、業界専門家、政策立案者にとって貴重なリソースであり、これらの分野とその関連するプライバシー上の課題を概観し、現代のデジタル時代の幅広い聴衆に訴えている。 As digital technology evolves, the increasing use of connected devices brings both challenges and opportunities in the areas of mobile crowdsourcing, edge computing, and recommender systems. This survey focuses on these dynamic fields, emphasizing the critical need for privacy protection in our increasingly data-oriented world. It explores the latest trends in these interconnected areas, with a special emphasis on privacy and data security. Our method involves an in-depth analysis of various academic works, which helps us to gain a comprehensive understanding of these sectors and their shifting focus towards privacy concerns. We present new insights and marks a significant advancement in addressing privacy issues within these technologies. The survey is a valuable resource for researchers, industry practitioners, and policy makers, offering an extensive overview of these fields and their related privacy challenges, catering to a wide audience in the modern digital era. | 翻訳日:2024-01-23 17:06:53 公開日:2024-01-20 |
# ヒルベルト空間分裂の指数的に遅い熱化とロバスト性 Exponentially slow thermalization and the robustness of Hilbert space fragmentation ( http://arxiv.org/abs/2401.11294v1 ) ライセンス: Link先を確認 | Yiqiu Han, Xiao Chen, Ethan Lake | (参考訳) ヒルベルト空間の断片化現象は、力学的な制約によってヒルベルト空間を多くの切断されたセクタに分割する現象であり、熱分解を逮捕する簡単なメカニズムを提供する。
しかし、その制約が正確でない状況で熱化が起こるかは分かっていない。
そこで本研究では, 対フリップ制約のある断片化された1d鎖を熱浴に結合する状況について考察する。
ハミルトン力学の下では、エンタングルメントダイナミクスと局所観測時間の緩和の両方で現れる指数関数的に長い熱化時間を数値的に観測する。
これを理解するため、ランダムユニタリ回路ダイナミクスの類似モデルを研究し、熱化時間と系の大きさが指数関数的に縮むことを厳密に証明した。
このモデルにおける遅い熱化は、構成空間における強いボトルネックの結果であり、異常に遅い熱化ダイナミクスを生成する新しい方法を示している。 The phenomenon of Hilbert space fragmentation, whereby dynamical constraints fragment Hilbert space into many disconnected sectors, provides a simple mechanism by which thermalization can be arrested. However, little is known about how thermalization occurs in situations where the constraints are not exact. To study this, we consider a situation in which a fragmented 1d chain with pair-flip constraints is coupled to a thermal bath at its boundary. For product states quenched under Hamiltonian dynamics, we numerically observe an exponentially long thermalization time, manifested in both entanglement dynamics and the relaxation of local observables. To understand this, we study an analogous model of random unitary circuit dynamics, where we rigorously prove that the thermalization time scales exponentially with system size. Slow thermalization in this model is shown to be a consequence of strong bottlenecks in configuration space, demonstrating a new way of producing anomalously slow thermalization dynamics. | 翻訳日:2024-01-23 17:06:38 公開日:2024-01-20 |
# 深部生成モデルによる長期的公正意思決定 Long-Term Fair Decision Making through Deep Generative Models ( http://arxiv.org/abs/2401.11288v1 ) ライセンス: Link先を確認 | Yaowei Hu, Yongkai Wu, Lu Zhang | (参考訳) 本稿では,逐次的意思決定システムにおいて,長期にわたる集団格差を軽減することを目的とした,長期公平な機械学習について検討する。
長期的公正性を定義するため,時間的因果グラフを活用し,異なる人口集団の介入分布間の1-ワッサーシュタイン距離を定量的指標として十分大きな時間ステップで用いる。
そこで本研究では,深層生成モデルにより生成された高忠実度データに基づいて決定モデルを学習する3段階学習フレームワークを提案する。
最適化問題を性能的リスク最小化として定式化し、繰り返し勾配降下アルゴリズムを学習に適用する。
実験評価の結果,合成データと半合成データの両方を用いた提案手法の有効性が示された。 This paper studies long-term fair machine learning which aims to mitigate group disparity over the long term in sequential decision-making systems. To define long-term fairness, we leverage the temporal causal graph and use the 1-Wasserstein distance between the interventional distributions of different demographic groups at a sufficiently large time step as the quantitative metric. Then, we propose a three-phase learning framework where the decision model is trained on high-fidelity data generated by a deep generative model. We formulate the optimization problem as a performative risk minimization and adopt the repeated gradient descent algorithm for learning. The empirical evaluation shows the efficacy of the proposed method using both synthetic and semi-synthetic datasets. | 翻訳日:2024-01-23 17:06:19 公開日:2024-01-20 |
# 視線追跡データとヘッドポースを用いた条件付き自動走行車の運転準備性評価 Evaluating Driver Readiness in Conditionally Automated Vehicles from Eye-Tracking Data and Head Pose ( http://arxiv.org/abs/2401.11284v1 ) ライセンス: Link先を確認 | Mostafa Kazemi, Mahdi Rezaei, Mohsen Azarmi | (参考訳) 自動走行技術が進歩するにつれて、条件付き自動走行車における車両の制御を再開するドライバーの役割がますます重要になる。
SAEレベル3または部分的に自動化された車両では、ドライバーは必要な時に介入する準備ができている必要がある。
これにより、その即応性を正確に評価することが不可欠となる。
本稿では,頭部姿勢特徴と視線追跡データを組み合わせた運転準備度評価の包括的分析を行う。
本研究は,運転準備性評価における予測モデルの有効性について検討し,データセット制限と限定的真実ラベルの課題に対処する。
LSTMアーキテクチャを含む機械学習技術は、ドライバーの頭部ポーズと視線の位置の時空間状態に基づいてドライバーの準備をモデル化するために使用される。
本稿では,両機能セットを組み合わせた双方向LSTMアーキテクチャが,DMDデータセットにおける0.363の平均絶対誤差を達成し,運転準備性を評価する上で優れた性能を示した。
提案されたモデルのモジュラーアーキテクチャは、ステアリングホイールアクティビティ、適応性の向上、現実世界の適用性など、ドライバー固有の追加機能の統合も可能にする。 As automated driving technology advances, the role of the driver to resume control of the vehicle in conditionally automated vehicles becomes increasingly critical. In the SAE Level 3 or partly automated vehicles, the driver needs to be available and ready to intervene when necessary. This makes it essential to evaluate their readiness accurately. This article presents a comprehensive analysis of driver readiness assessment by combining head pose features and eye-tracking data. The study explores the effectiveness of predictive models in evaluating driver readiness, addressing the challenges of dataset limitations and limited ground truth labels. Machine learning techniques, including LSTM architectures, are utilised to model driver readiness based on the Spatio-temporal status of the driver's head pose and eye gaze. The experiments in this article revealed that a Bidirectional LSTM architecture, combining both feature sets, achieves a mean absolute error of 0.363 on the DMD dataset, demonstrating superior performance in assessing driver readiness. The modular architecture of the proposed model also allows the integration of additional driver-specific features, such as steering wheel activity, enhancing its adaptability and real-world applicability. | 翻訳日:2024-01-23 17:06:08 公開日:2024-01-20 |
# オープンソースソフトウェアにおける低生産源 Sources of Underproduction in Open Source Software ( http://arxiv.org/abs/2401.11281v1 ) ライセンス: Link先を確認 | Kaylea Champion and Benjamin Mako Hill | (参考訳) オープンソースソフトウェアは、自分自身のタスクを選択する個人に依存しているため、ソフトウェアエンジニアリング研究者がソフトウェアの相対的品質が相対的重要性よりも低い時期を記述するために使用する用語として、しばしば過小評価される。
Debian GNU/Linuxコミュニティがパッケージ化したソフトウェアの比較を通じて, アンダープロダクションに関連する社会的・技術的要因について検討した。
我々は、ソフトウェア工学における先行研究から開発された一連の仮説をテストする。
ソフトウェア年齢とプログラミング言語年齢は、低生産率の変動に対して部分的な説明を与えるが、低生産率とパッケージ年齢の関係が、高水準のプログラミング言語年齢で弱っていることに驚きました。
メンテナンス作業に関しては、追加のリソースが必ずしもよりよい結果に結びつくとは限らないことが分かりました。
特に、より多くのコントリビュータを持つことは、より高い低生産リスクと関連している。
また、私たちの期待に反して、メンテナの離職と宣言されたチームによるメンテナンスは、低生産率とは無関係です。
最後に、未生産のパッケージでバグに取り組んでいる人々は、コミュニティのコラボレーションネットワーク構造の中心にいる傾向にあるが、コントリビュータの相互中心性(しばしばソーシャルネットワークのブローカー化に関連する)は、未生産とは無関係である。 Because open source software relies on individuals who select their own tasks, it is often underproduced -- a term used by software engineering researchers to describe when a piece of software's relative quality is lower than its relative importance. We examine the social and technical factors associated with underproduction through a comparison of software packaged by the Debian GNU/Linux community. We test a series of hypotheses developed from a reading of prior research in software engineering. Although we find that software age and programming language age offer a partial explanation for variation in underproduction, we were surprised to find that the association between underproduction and package age is weaker at high levels of programming language age. With respect to maintenance efforts, we find that additional resources are not always tied to better outcomes. In particular, having higher numbers of contributors is associated with higher underproduction risk. Also, contrary to our expectations, maintainer turnover and maintenance by a declared team are not associated with lower rates of underproduction. Finally, we find that the people working on bugs in underproduced packages tend to be those who are more central to the community's collaboration network structure, although contributors' betweenness centrality (often associated with brokerage in social networks) is not associated with underproduction. | 翻訳日:2024-01-23 17:05:49 公開日:2024-01-20 |
# DACR : 時系列異常検出のための分布拡張コントラスト再構成 DACR: Distribution-Augmented Contrastive Reconstruction for Time-Series Anomaly Detection ( http://arxiv.org/abs/2401.11271v1 ) ライセンス: Link先を確認 | Lixu Wang, Shichao Xu, Xinyu Du, Qi Zhu | (参考訳) 時系列データの異常検出は、さまざまなアプリケーションにわたる障害、障害、脅威、外れ値を特定する上で極めて重要である。
近年では、このトピックにディープラーニング技術が適用されているが、通常データが複数の分布からなり、様々な種類の異常が通常のデータと異なる程度に異なる場合など、複雑で非常にダイナミックな実世界のシナリオでしばしば苦労している。
本稿では,これらの課題に取り組むため,分散型コントラスト・リコンストラクション(dacr)を提案する。
DACRは、通常のデータ分布から分離した余分なデータを生成し、通常のデータの表現空間を圧縮し、コントラスト学習により特徴抽出器を強化し、時系列データから本質的なセマンティクスをよりよくキャプチャする。
さらに、DACRは多変量時系列特徴間の意味的依存関係をモデル化し、異常検出のためのより堅牢な再構築を実現する。
様々な異常検出シナリオにおける9つのベンチマークデータセットで実施された大規模な実験は、新しい最先端の時系列異常検出を実現する上でのDACRの有効性を示す。 Anomaly detection in time-series data is crucial for identifying faults, failures, threats, and outliers across a range of applications. Recently, deep learning techniques have been applied to this topic, but they often struggle in real-world scenarios that are complex and highly dynamic, e.g., the normal data may consist of multiple distributions, and various types of anomalies may differ from the normal data to different degrees. In this work, to tackle these challenges, we propose Distribution-Augmented Contrastive Reconstruction (DACR). DACR generates extra data disjoint from the normal data distribution to compress the normal data's representation space, and enhances the feature extractor through contrastive learning to better capture the intrinsic semantics from time-series data. Furthermore, DACR employs an attention mechanism to model the semantic dependencies among multivariate time-series features, thereby achieving more robust reconstruction for anomaly detection. Extensive experiments conducted on nine benchmark datasets in various anomaly detection scenarios demonstrate the effectiveness of DACR in achieving new state-of-the-art time-series anomaly detection. | 翻訳日:2024-01-23 17:05:29 公開日:2024-01-20 |
# 基準自由度の分析による効率的なコーパスサンプリングとポスト編集のための単語レベルASR品質評価 Word-Level ASR Quality Estimation for Efficient Corpus Sampling and Post-Editing through Analyzing Attentions of a Reference-Free Metric ( http://arxiv.org/abs/2401.11268v1 ) ライセンス: Link先を確認 | Golara Javadi, Kamer Ali Yuksel, Yunsu Kim, Thiago Castro Ferreira, Mohamed Al-Badrashiny | (参考訳) 自動音声認識(ASR)の分野では、高い精度で機能するだけでなく、意思決定プロセスに透明性を提供するモデルを求めることが重要である。
品質推定(QE)メトリクスのポテンシャルは、ASRシステムにおける説明可能な人工知能(XAI)を強化する新しいツールとして導入され、評価される。
実験と分析を通じて, 単語レベルの誤りを識別するNoRefER(No Reference Error Rate)測定の能力について検討した。
この調査は、コーパス構築プロセスにおけるNoRefERの実用性にも拡張され、洞察に富んだアノテーションでデータセットを増強する効果が実証された。
NoRefERの診断的側面について検討し、モデル行動や決定パターンに関する貴重な洞察を提供する能力を明らかにする。
これは、後編集ワークフローや微調整のASRモデルにおける仮説の優先順位付けに有効であることが証明されている。
この結果は,NoRefERが単なるエラー検出ツールであるだけでなく,ASRシステムの透明性,効率,有効性を高めるための包括的なフレームワークでもあることを示唆している。
結果の再現性を確保するため,本研究のソースコードはすべて公開されている。 In the realm of automatic speech recognition (ASR), the quest for models that not only perform with high accuracy but also offer transparency in their decision-making processes is crucial. The potential of quality estimation (QE) metrics is introduced and evaluated as a novel tool to enhance explainable artificial intelligence (XAI) in ASR systems. Through experiments and analyses, the capabilities of the NoRefER (No Reference Error Rate) metric are explored in identifying word-level errors to aid post-editors in refining ASR hypotheses. The investigation also extends to the utility of NoRefER in the corpus-building process, demonstrating its effectiveness in augmenting datasets with insightful annotations. The diagnostic aspects of NoRefER are examined, revealing its ability to provide valuable insights into model behaviors and decision patterns. This has proven beneficial for prioritizing hypotheses in post-editing workflows and fine-tuning ASR models. The findings suggest that NoRefER is not merely a tool for error detection but also a comprehensive framework for enhancing ASR systems' transparency, efficiency, and effectiveness. To ensure the reproducibility of the results, all source codes of this study are made publicly available. | 翻訳日:2024-01-23 17:05:10 公開日:2024-01-20 |
# 非バイアス学習(orthogonal)検閲による生存成績からの異種治療効果の推定 Estimating heterogeneous treatment effect from survival outcomes via (orthogonal) censoring unbiased learning ( http://arxiv.org/abs/2401.11263v1 ) ライセンス: Link先を確認 | Shenbo Xu, Raluca Cobzaru, Bang Zheng, Stan N. Finkelstein, Roy E. Welsch, Kenney Ng, Ioanna Tzoulaki, Zach Shahn | (参考訳) 観察データから異種治療効果(hte)を推定する方法は主に連続的または二元的な結果に焦点が当てられ、生存率に注意が払われず、競合リスクのある設定にはほとんど注意が払われていない。
本研究では,これらのCUTを用いて時間から時間への変換を行い,連続的な結果へのHTE学習者の直接適用により,不均一な累積入入射効果,総効果,分離可能な直接効果について一貫した評価を行う。
我々のCUTは、従来よりもはるかに大きなHTE学習者を検閲結果に適用することが可能であり、特に競合するリスク設定においてである。
有限サンプル超過リスクを限定したモデルフリー学習者固有のオラクル不等式を提供する。
oracleの効率性の結果は、変換に関わるすべてのステップから、oracleのセレクタと推定迷惑関数に依存する。
シミュレーション研究において,提案手法の実証的な性能を示す。 Methods for estimating heterogeneous treatment effects (HTE) from observational data have largely focused on continuous or binary outcomes, with less attention paid to survival outcomes and almost none to settings with competing risks. In this work, we develop censoring unbiased transformations (CUTs) for survival outcomes both with and without competing risks.After converting time-to-event outcomes using these CUTs, direct application of HTE learners for continuous outcomes yields consistent estimates of heterogeneous cumulative incidence effects, total effects, and separable direct effects. Our CUTs enable application of a much larger set of state of the art HTE learners for censored outcomes than had previously been available, especially in competing risks settings. We provide generic model-free learner-specific oracle inequalities bounding the finite-sample excess risk. The oracle efficiency results depend on the oracle selector and estimated nuisance functions from all steps involved in the transformation. We demonstrate the empirical performance of the proposed methods in simulation studies. | 翻訳日:2024-01-23 17:04:50 公開日:2024-01-20 |
# 多体局在遷移の内部構造とハリス基準のフルフィルメント Inner Structure of Many-Body Localization Transition and Fulfillment of Harris Criterion ( http://arxiv.org/abs/2401.11339v1 ) ライセンス: Link先を確認 | Jie Chen, Chun Chen, and Xiaoqun Wang | (参考訳) マルチボディローカライゼーション (MBL) の標準モデルとして, 1次元で乱れたハイゼンベルクモデルを扱う。
半鎖フォン・ノイマン絡み合いエントロピー$S_{\textrm{vN}}$から純粋に生じる2つの独立順序パラメータを導入し、固有状態遷移を探索する。
対称性を持つエントロピー分解から、それらは確率分布の偏差$|d(p_n)|$とフォン・ノイマンエントロピー$S_{\textrm{vN}}^{n}(D_n\!
=\!
\mbox{max})$ は最大次元対称性の分割である。
有限サイズの解析により、$\{p_n\}$ は、$\{s_{\textrm{vn}}^{n}\}$ によって支配される熱分解崩壊遷移に先行して局在遷移を駆動することが明らかとなる。
非相互作用の場合、これらの遷移は一致するが、相互作用する状況では分離する。
このような分離性は中間相領域を形成し、アンダーソン遷移とmbl遷移の区別に役立つ。
これまでのmblのほとんど全ての数値的調査において、ハリスの基準に違反している。
互いに独立なコンポーネントを$S_{\textrm{vN}}$で解明すると、以前のeigenspectraや$S_{\textrm{vN}}$などの研究では、移行の重要な内部構造をピンポイント(完全に見落としている)する解像度が欠如していることが明らかである。
初めて、この必要な疎結合の後、$|d(p_n)|$と$S_{\textrm{vN}}^{n}(D_n\!
=\!
\mbox{max})$ ハリス基準を満たす: $\nu\approx2.0\ (\nu\approx1.5)$ quench (quasirandom) disorder。
我々の研究は、一般的な固有状態と遷移の組織原理の欠如として「絡み合いと結合した対称性」を定めている。 We treat disordered Heisenberg model in 1D as the "standard model" of many-body localization (MBL). Two independent order parameters stemming purely from the half-chain von Neumann entanglement entropy $S_{\textrm{vN}}$ are introduced to probe its eigenstate transition. From symmetry-endowed entropy decomposition, they are probability distribution deviation $|d(p_n)|$ and von Neumann entropy $S_{\textrm{vN}}^{n}(D_n\!=\!\mbox{max})$ of the maximum-dimensional symmetry subdivision. Finite-size analyses reveal that $\{p_n\}$ drives the localization transition, preceded by a thermalization breakdown transition governed by $\{S_{\textrm{vN}}^{n}\}$. For noninteracting case, these transitions coincide, but in interacting situation they separate. Such separability creates an intermediate phase region and may help discriminate between the Anderson and MBL transitions. An obstacle whose solution eludes community to date is the violation of Harris criterion in nearly all numeric investigations of MBL so far. Upon elucidating the mutually independent components in $S_{\textrm{vN}}$, it is clear that previous studies of eigenspectra, $S_{\textrm{vN}}$, and the like lack resolution to pinpoint (thus completely overlook) the crucial internal structures of the transition. We show, for the first time, that after this necessary decoupling, the universal critical exponents for both transitions of $|d(p_n)|$ and $S_{\textrm{vN}}^{n}(D_n\!=\!\mbox{max})$ fulfill the Harris criterion: $\nu\approx2.0\ (\nu\approx1.5)$ for quench (quasirandom) disorder. Our work puts forth "symmetry combined with entanglement" as the missing organization principle for the generic eigenstate matter and transition. | 翻訳日:2024-01-23 16:54:24 公開日:2024-01-20 |
# 構成推論のための大規模視覚言語モデルの提案 Prompting Large Vision-Language Models for Compositional Reasoning ( http://arxiv.org/abs/2401.11337v1 ) ライセンス: Link先を確認 | Timothy Ossowski, Ming Jiang, Junjie Hu | (参考訳) CLIPのようなヴィジュアル言語モデルは、テキストやイメージを整列埋め込みに符号化する素晴らしい能力を示しており、共有埋め込み空間におけるマルチモーダルデータの検索を可能にしている。
しかし、これらの埋め込みベースのモデルは、最近のWinogroundデータセットのパフォーマンスから証明されているように、画像とテキストを類似した視覚言語的な構成性と効果的にマッチングする上で、依然として課題に直面している。
本稿では, この制限は, 複雑なマルチモーダルデータに対する単一ベクトル表現の使用と, 組込み法におけるステップバイステップ推論の欠如の2つの要因に起因していると論じる。
そこで本研究では,大規模な視覚言語モデル(gpt-4など)に画像の描写と合成推論を促す新しい生成法を用いて探索的なステップを提案する。
提案手法は,Winogroundデータセット上の他の埋め込み手法よりも優れており,最適記述で拡張した場合に最大10%の精度が向上する。 Vision-language models such as CLIP have shown impressive capabilities in encoding texts and images into aligned embeddings, enabling the retrieval of multimodal data in a shared embedding space. However, these embedding-based models still face challenges in effectively matching images and texts with similar visio-linguistic compositionality, as evidenced by their performance on the recent Winoground dataset. In this paper, we argue that this limitation stems from two factors: the use of single vector representations for complex multimodal data, and the absence of step-by-step reasoning in these embedding-based methods. To address this issue, we make an exploratory step using a novel generative method that prompts large vision-language models (e.g., GPT-4) to depict images and perform compositional reasoning. Our method outperforms other embedding-based methods on the Winoground dataset, and obtains further improvement of up to 10% accuracy when enhanced with the optimal description. | 翻訳日:2024-01-23 16:53:47 公開日:2024-01-20 |
# 生成AIにおける認識と操作 Deception and Manipulation in Generative AI ( http://arxiv.org/abs/2401.11335v1 ) ライセンス: Link先を確認 | Christian Tarsney | (参考訳) 大規模言語モデルは現在では多くの文脈において人間レベルの言語能力を持っている。
これは、ソーシャルメディアに政治的誤報を広めるなど、前例のない規模で騙し、操作するために使用することができるという懸念を高める。
将来的には、エージェントAIシステムは人間を騙し、自分の目的のために操るようになるかもしれない。
本稿では、まず、AI生成コンテンツは、通常人間に適用されるよりも、騙しや操作に対する厳格な基準に従うべきだと論じる。
第2に、このような標準をサポートするためのAIの偽装と操作の新たな特徴として、人間が「半理想的」な条件の下で支持する信念(選択)から人間を遠ざけると、その文言が欺く(操作的)ものであることを挙げる。
第3に、この特徴にインスパイアされた、AI生成コンテンツに対する「極度の透明性」要件と、その他に、コンテキスト化された情報でAI生成ステートメントを注釈付けする防衛システム。
最後に、これらの措置が今後、偽装行為に対してどの程度保護できるかを検討し、非アジェンティック防御システムはより強力なエージェントシステムに対してさえ、重要な防御層を提供できると論じる。 Large language models now possess human-level linguistic abilities in many contexts. This raises the concern that they can be used to deceive and manipulate on unprecedented scales, for instance spreading political misinformation on social media. In future, agentic AI systems might also deceive and manipulate humans for their own ends. In this paper, first, I argue that AI-generated content should be subject to stricter standards against deception and manipulation than we ordinarily apply to humans. Second, I offer new characterizations of AI deception and manipulation meant to support such standards, according to which a statement is deceptive (manipulative) if it leads human addressees away from the beliefs (choices) they would endorse under ``semi-ideal'' conditions. Third, I propose two measures to guard against AI deception and manipulation, inspired by this characterization: "extreme transparency" requirements for AI-generated content and defensive systems that, among other things, annotate AI-generated statements with contextualizing information. Finally, I consider to what extent these measures can protect against deceptive behavior in future, agentic AIs, and argue that non-agentic defensive systems can provide an important layer of defense even against more powerful agentic systems. | 翻訳日:2024-01-23 16:53:28 公開日:2024-01-20 |