このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240204となっている論文です。

PDF登録状況(公開日: 20240204)

TitleAuthorsAbstract論文公表日・翻訳日
# martFL: 堅牢で検証可能なフェデレーション学習アーキテクチャによるユーティリティ駆動型データマーケットプレースの実現

martFL: Enabling Utility-Driven Data Marketplace with a Robust and Verifiable Federated Learning Architecture ( http://arxiv.org/abs/2309.01098v3 )

ライセンス: Link先を確認
Qi Li, Zhuotao Liu, Qi Li, Ke Xu, (参考訳) 機械学習モデルの開発には大量のトレーニングデータが必要である。 データ市場は、オンラインで公開されていない高品質のプライベートドメインデータの取引に不可欠である。 しかし、データプライバシの懸念が高まっているため、ダイレクトデータ交換は不適切である。 Federated Learning(FL)は、データユーティリティ(ローカルモデルや勾配の形式で)を、生データを直接共有することなく、複数のパーティ間で交換する分散機械学習パラダイムである。 しかし、データマーケットプレースを構築するために既存のFLアーキテクチャを適用する際には、いくつかの課題がある。 一 既存のFLアーキテクチャにおいて、データ取得者(DA)は、取引前にデータ提供者(DP)からローカルモデルをプライベートに評価することができません。 2 既存のFL設計におけるモデル集約プロトコルは、DAの(おそらくバイアスのある)ルートデータセットに「過度に適合」することなく、悪意のあるDPを排除するのに苦労する。 三 事前のFL設計は、異なるDPの貢献に応じて報酬を適正に配分するようDAに強制する適切な請求機構を欠いている。 上記の課題に対処するため,我々は,セキュアなユーティリティ駆動型データマーケットプレースを実現するために特別に設計された,最初のフェデレーション付き学習アーキテクチャであるmartFLを提案する。 高いレベルでは、martFLは2つの革新的な設計によって駆動される。 i)DAのルートデータセットがバイアスを受けた場合でも、ロバストな局所モデルアグリゲーションを実現する品質対応モデルアグリゲーションプロトコル i)DAが簡潔かつゼロ知識の両方で証明できる検証可能なデータトランザクションプロトコルであって、コミットされた集約重みに応じて異なるDPが提出したローカルモデルを忠実に集約し、DPがそれに対応する報酬を明白に主張できるものであること。 我々は、martFLのプロトタイプを実装し、様々なタスクに対して広範囲に評価する。 その結果,データ取得コストを最大64%削減しつつ,モデル精度を最大25%向上させることができることがわかった。

The development of machine learning models requires a large amount of training data. Data marketplaces are essential for trading high-quality, private-domain data not publicly available online. However, due to growing data privacy concerns, direct data exchange is inappropriate. Federated Learning (FL) is a distributed machine learning paradigm that exchanges data utilities (in form of local models or gradients) among multiple parties without directly sharing the raw data. However, several challenges exist when applying existing FL architectures to construct a data marketplace: (i) In existing FL architectures, Data Acquirers (DAs) cannot privately evaluate local models from Data Providers (DPs) prior to trading; (ii) Model aggregation protocols in existing FL designs struggle to exclude malicious DPs without "overfitting" to the DA's (possibly biased) root dataset; (iii) Prior FL designs lack a proper billing mechanism to enforce the DA to fairly allocate the reward according to contributions made by different DPs. To address above challenges, we propose martFL, the first federated learning architecture that is specifically designed to enable a secure utility-driven data marketplace. At a high level, martFL is powered by two innovative designs: (i) a quality-aware model aggregation protocol that achieves robust local model aggregation even when the DA's root dataset is biased; (ii) a verifiable data transaction protocol that enables the DA to prove, both succinctly and in zero-knowledge, that it has faithfully aggregates the local models submitted by different DPs according to the committed aggregation weights, based on which the DPs can unambiguously claim the corresponding reward. We implement a prototype of martFL and evaluate it extensively over various tasks. The results show that martFL can improve the model accuracy by up to 25% while saving up to 64% data acquisition cost.
翻訳日:2024-03-25 23:19:22 公開日:2024-02-04
# CoRaiS: マルチエッジ協調コンピューティングのための軽量リアルタイムスケジューリング

CoRaiS: Lightweight Real-Time Scheduler for Multi-Edge Cooperative Computing ( http://arxiv.org/abs/2403.09671v1 )

ライセンス: Link先を確認
Yujiao Hu, Qingmin Jia, Jinchao Chen, Yuan Yao, Yan Pan, Renchao Xie, F. Richard Yu, (参考訳) 複数のエッジの制約されたリソースを強力なリソースプールに組み合わせたマルチエッジ協調コンピューティングは、膨大な計算能力、応答時間の改善、より多様化したサービスなど、大きなメリットをもたらす可能性がある。 しかし、大量の異種資源の構成とスケジューリング戦略の欠如により、マルチエッジコンピューティングシステムのモデリングと協調が特に複雑になる。 本稿では、まず、複雑なハードウェア構成を保護し、異種エッジで異なるサービス機能を再定義するシステムレベルの状態評価モデルを提案する。 第二に、分散到着要求を最適にディスパッチする整数線形プログラミングモデルが設計されている。 最後に,学習に基づく軽量リアルタイムスケジューラCoRaiSを提案する。 CoRaiSは、マルチエッジシステムのリアルタイム状態とリクエスト情報を埋め込み、埋め込みとポリシーネットワークを組み合わせてリクエストをスケジュールし、すべてのリクエストの応答時間を最小化する。 評価結果は,CoRaiSがリアルタイムに高品質なスケジューリング決定を下し,システムスケールに関わらず,他のマルチエッジコンピューティングシステムに一般化可能であることを検証した。 特性検証はまた、CoRaiSが負荷のバランスをうまく学習し、リアルタイムの状態を認識し、スケジューリング中に不均一性を認識することを実証している。

Multi-edge cooperative computing that combines constrained resources of multiple edges into a powerful resource pool has the potential to deliver great benefits, such as a tremendous computing power, improved response time, more diversified services. However, the mass heterogeneous resources composition and lack of scheduling strategies make the modeling and cooperating of multi-edge computing system particularly complicated. This paper first proposes a system-level state evaluation model to shield the complex hardware configurations and redefine the different service capabilities at heterogeneous edges. Secondly, an integer linear programming model is designed to cater for optimally dispatching the distributed arriving requests. Finally, a learning-based lightweight real-time scheduler, CoRaiS, is proposed. CoRaiS embeds the real-time states of multi-edge system and requests information, and combines the embeddings with a policy network to schedule the requests, so that the response time of all requests can be minimized. Evaluation results verify that CoRaiS can make a high-quality scheduling decision in real time, and can be generalized to other multi-edge computing system, regardless of system scales. Characteristic validation also demonstrates that CoRaiS successfully learns to balance loads, perceive real-time state and recognize heterogeneity while scheduling.
翻訳日:2024-03-25 08:06:28 公開日:2024-02-04
# 医用画像強調のためのマルチモーダル多目的事前学習フレームワークComprER

COMPRER: A Multimodal Multi-Objective Pretraining Framework for Enhanced Medical Image Representation ( http://arxiv.org/abs/2403.09672v1 )

ライセンス: Link先を確認
Guy Lutsker, Hagai Rossman, Nastya Godiva, Eran Segal, (参考訳) マルチモーダル人工知能(AI)の実質的な進歩は、総合的な健康評価を達成するために多様な医療モダリティの組み合わせを促進する。 医用画像の表現,診断推論,疾患の予後を向上する,新しい多目的・多目的事前訓練フレームワークであるComprERについて述べる。 COMPRERは多目的トレーニングフレームワークを採用しており、それぞれの目的がモデルに異なる知識を導入している。 これには、様々な画像モダリティにまたがる情報を集約する多モーダルな損失、時間とともにパターンを識別する能力を与える時間的損失、医療測定予測は適切な医学的洞察を与える。 複数の目的がタスクのパフォーマンスを低下させるのではないかという懸念にもかかわらず、この組み合わせによって実際にタスクの結果が向上することを示す。 本稿では、この枠組みを基底画像と頸動脈超音波の両方に適用し、現在の心血管疾患と将来の心血管疾患の両方を予測することによって、下流のタスク能力を検証する。 CompRERは、既成モデルと比較して、医療条件の評価においてAUC(Area Under the Curve)スコアを達成した。 アウト・オブ・ディストリビューション(OOD)では、UK-BiobankデータセットComperERは、パラメータがより多い確立されたモデルよりも優れたパフォーマンスを維持している。 さらに,比較学習におけるモデルの性能をよりよく評価するために,新しい評価指標を導入し,潜在空間ペアリングの有効性についてより深く理解する。

Substantial advances in multi-modal Artificial Intelligence (AI) facilitate the combination of diverse medical modalities to achieve holistic health assessments. We present COMPRER , a novel multi-modal, multi-objective pretraining framework which enhances medical-image representation, diagnostic inferences, and prognosis of diseases. COMPRER employs a multi-objective training framework, where each objective introduces distinct knowledge to the model. This includes a multimodal loss that consolidates information across different imaging modalities; A temporal loss that imparts the ability to discern patterns over time; Medical-measure prediction adds appropriate medical insights; Lastly, reconstruction loss ensures the integrity of image structure within the latent space. Despite the concern that multiple objectives could weaken task performance, our findings show that this combination actually boosts outcomes on certain tasks. Here, we apply this framework to both fundus images and carotid ultrasound, and validate our downstream tasks capabilities by predicting both current and future cardiovascular conditions. COMPRER achieved higher Area Under the Curve (AUC) scores in evaluating medical conditions compared to existing models on held-out data. On the Out-of-distribution (OOD) UK-Biobank dataset COMPRER maintains favorable performance over well-established models with more parameters, even though these models were trained on $75\times$ more data than COMPRER. In addition, to better assess our model's performance in contrastive learning, we introduce a novel evaluation metric, providing deeper understanding of the effectiveness of the latent space pairing.
翻訳日:2024-03-25 08:06:28 公開日:2024-02-04
# ChatGPT-4を作製したOmega Variant 症例 : 医療的誤報の注意点として

Navigating the Peril of Generated Alternative Facts: A ChatGPT-4 Fabricated Omega Variant Case as a Cautionary Tale in Medical Misinformation ( http://arxiv.org/abs/2403.09674v1 )

ライセンス: Link先を確認
Malik Sallam, Jan Egger, Rainer Roehrig, Behrus Puladi, (参考訳) 人工知能(AI)が医学研究と干渉する時代になると、真理の描写はますます複雑になる。 本研究はOmega variantと呼ばれるSARS-CoV-2変異株について,S遺伝子領域で31の変異が認められた。 しかし、この物語の本当の過小評価は、AI、特にChatGPT-4が、説得力がありながら完全にフィクション的な科学データを作成できる容易さの実証である。 いわゆる「オメガ」変異体は、新型コロナウイルスの重篤な症状を呈する35歳の男性に感染していた。 本研究は, 詳細な人工的, ゲノム解析, 接触追跡を通じて, 真の事例報告の厳密な方法論を反映し, 説得力のある, 完全に構築された物語の舞台となる。 ケーススタディ全体はOpenAIによる大規模言語モデルChatGPT-4によって生成された。 製造されたオメガ変異体は、ACE2受容体親和性を高めることで知られているN501YとE484Kを含む変異の集合体を特徴とし、L452RとP681Hは、明らかに免疫回避を示す。 この変異体は、ワクチン接種された個体とワクチン接種されていない個体の重篤な症状であり、抗体依存性増強(ADE)の提案を含む現実世界の複雑さを模倣するために設計された。 オメガ変種はAI生成フィクションの産物であるが、このエクササイズの意味は本物で深い。 このケースで説明されているように、AIが信じられないが偽の科学的情報を生成できることの容易さは、医療における誤情報の可能性に関する重大な懸念を提起する。 この研究は、特にChatGPTのようなAIツールがますます洗練され、広く使われている時代において、情報源の批判的評価の必要性を強調し、注意深い物語として機能する。

In an era where artificial intelligence (AI) intertwines with medical research, the delineation of truth becomes increasingly complex. This study ostensibly examines a purported novel SARS-CoV-2 variant, dubbed the Omega variant, showcasing 31 unique mutations in the S gene region. However, the real undercurrent of this narrative is a demonstration of the ease with which AI, specifically ChatGPT-4, can fabricate convincing yet entirely fictional scientific data. The so-called Omega variant was identified in a fully vaccinated, previously infected 35-year-old male presenting with severe COVID-19 symptoms. Through a detailed, albeit artificial, genomic analysis and contact tracing, this study mirrors the rigorous methodology of genuine case reports, thereby setting the stage for a compelling but entirely constructed narrative. The entire case study was generated by ChatGPT-4, a large language model by OpenAI. The fabricated Omega variant features an ensemble of mutations, including N501Y and E484K, known for enhancing ACE2 receptor affinity, alongside L452R and P681H, ostensibly indicative of immune evasion. This variant's contrived interaction dynamics - severe symptoms in a vaccinated individual versus mild ones in unvaccinated contacts - were designed to mimic real-world complexities, including suggestions of antibody-dependent enhancement (ADE). While the Omega variant is a product of AI-generated fiction, the implications of this exercise are real and profound. The ease with which AI can generate believable but false scientific information, as illustrated in this case, raises significant concerns about the potential for misinformation in medicine. This study, therefore, serves as a cautionary tale, emphasizing the necessity for critical evaluation of sources, especially in an age where AI tools like ChatGPT are becoming increasingly sophisticated and widespread in their use.
翻訳日:2024-03-25 08:06:28 公開日:2024-02-04
# 検出不能なセルフリッシュマイニング

Undetectable Selfish Mining ( http://arxiv.org/abs/2309.06847v2 )

ライセンス: Link先を確認
Maryam Bahrani, S. Matthew Weinberg, (参考訳) Eyal and Sirer (2014) は、戦略的なBitcoinマイナーが意図したBitcoinプロトコルから逸脱することで厳密に利益を得る可能性があると定めている。 より具体的に言えば、総ハッシュレートの1/3ドル以上の採掘者は、意図したプロトコルに従うよりも利己的なマイニングによってビットコインをより高速に得ることができる(ネットワーク条件によっては、ハッシュレートの低い割合も十分である)。 利己的なマイニングの実践的批判の一つは、利己的なマイニングの存在は、*統計的に検出できる*、すなわち、利己的なマイニングの存在によって生み出された孤児ブロックのパターンは、自然のネットワーク遅延によって説明できない、ということである。 したがって、攻撃者が自尊心のあるマイニングを選んだ場合、ユーザーはこれを検出でき、これは(顕著に)BTCの価値に悪影響を及ぼす可能性がある。 つまり、攻撃者は自家用マイニングによって少し高額なビットコインを手に入れるかもしれないが、これらのビットコインの価値は著しく低くなるかもしれない。 オーファンドブロックのパターンは、正直なマイニング者しかいないが、ネットワーク遅延が高い世界と統計的に同一である。 具体的には,ネットワーク遅延のある正直な鉱山労働者が,確率$\beta'$と独立に,各高さの孤児ブロックを生成するスタイルモデルを考える。 代わりに,確率$\beta > \beta'$と独立に,それぞれの高さで孤児ブロックを生産する自家的マイニング戦略を提案する。 さらに、我々の戦略は、総ハッシュレートの38.2 % \ll 50 %$の攻撃者にとって厳格に利益があることを示している(これは全ての自然孤児率の$\beta'$に対して成り立つ)。

Seminal work of Eyal and Sirer (2014) establishes that a strategic Bitcoin miner may strictly profit by deviating from the intended Bitcoin protocol, using a strategy now termed *selfish mining*. More specifically, any miner with $>1/3$ of the total hashrate can earn bitcoin at a faster rate by selfish mining than by following the intended protocol (depending on network conditions, a lower fraction of hashrate may also suffice). One convincing critique of selfish mining in practice is that the presence of a selfish miner is *statistically detectable*: the pattern of orphaned blocks created by the presence of a selfish miner cannot be explained by natural network delays. Therefore, if an attacker chooses to selfish mine, users can detect this, and this may (significantly) negatively impact the value of BTC. So while the attacker may get slightly more bitcoin by selfish mining, these bitcoin may be worth significantly less USD. We develop a selfish mining variant that is provably *statistically undetectable*: the pattern of orphaned blocks is statistically identical to a world with only honest miners but higher network delay. Specifically, we consider a stylized model where honest miners with network delay produce orphaned blocks at each height independently with probability $\beta'$. We propose a selfish mining strategy that instead produces orphaned blocks at each height independently with probability $\beta > \beta'$. We further show that our strategy is strictly profitable for attackers with $38.2\% \ll 50\%$ of the total hashrate (and this holds for all natural orphan rates $\beta'$).
翻訳日:2024-03-19 04:50:58 公開日:2024-02-04
# E-Government Servicesにおけるブロックチェーンの実態と課題

A Survey on Blockchain in E-Government Services: Status and Challenges ( http://arxiv.org/abs/2402.02483v1 )

ライセンス: Link先を確認
Manal Mansour, May Salama, Hala Helmi, Mona Mursi, (参考訳) ブロックチェーン技術は、あらゆるデジタル資産の歴史を記録する非常にセキュアな分散台帳と呼ばれる。 多くの国で政府や民間の機関で使用されている。 ブロックチェーンアプリケーションの現状と、E政府サービスの難しさを調査することが、このレビューの目標である。 アカウントは、ブロックチェーンを使用する現在の施設のユースケースである。 最後に、ブロックチェーンデプロイメントにおける研究ギャップを調べ、今後の研究への提案を行う。

Blockchain technology is referred to as a very secure decentralized, distributed ledger that records the history of any digital asset. It is being used in numerous governmental and private sector organizations across numerous nations. Surveying the current state of blockchain applications and difficulties in e-government services is the goal of this review. Held to the account are use cases for current facilities that use blockchain. Finally, it examines the research gap in blockchain deployment and makes suggestions for future work for additional research.
翻訳日:2024-03-18 07:57:54 公開日:2024-02-04
# VANET用フレキシブル非インタラクティブ短期暗証生成

Flexible Non-interactive Short-term Implicit Certificate Generation for VANETs ( http://arxiv.org/abs/2402.02607v1 )

ライセンス: Link先を確認
Rui Liu, Yun Lu, Jianping Pan, (参考訳) 車両用アドホックネットワーク(VANET)におけるセキュアで信頼性の高い通信の業界標準は、セキュリティ・クレデンシャル・マネジメント・システム(SCMS)である。 車両のプライバシーを守るために、匿名の証明書、別名として機能する。 クラウドセンシングやフェデレーション学習といったVANETの高度なアプリケーションの開発が急速に進んでいるため、車両は互いに通信やインフラをより頻繁に行う必要がある。 しかし、SCMSにおける証明書提供の現在のアプローチは、ストレージの制限、接続のコスト、証明書ダウンロードの通信オーバーヘッドなどにより、偽名を完全にサポートできない。 この課題に対処するために、SCMSに対して非インタラクティブなアプローチを提案し、車自体が短期的なキーペアと匿名の暗黙の証明書を生成することができる。 我々の評価と過去の研究との比較により、我々のソリューションは通信コストを効果的に削減するだけでなく、車両の証明書生成と使用の柔軟性も向上することが示された。 技術的な面では,(1)非対話的な匿名証明書生成に正当性のある署名を適用した最初の作品であり,(2)産業における拡張やアプリケーションの可能性を開くSCMS用に特別に設計されている。

A leading industry standard for secure and trusted communication in vehicular ad-hoc networks (VANETs) is the Security Credential Management System (SCMS). It uses anonymous certificates, functioning as pseudonyms, to preserve the privacy of vehicles. With the rapid development of advanced applications in VANETs, such as crowdsensing and federated learning, vehicles need to communicate with each other or infrastructures more frequently, leading to a higher demand for pseudonyms. However, the current approach of certificate provisioning in SCMS is not able to fully support pseudonyms, due to storage limitation, cost of connectivity establishment, and communication overhead of certificate downloading. To tackle this challenge, we propose a non-interactive approach for SCMS, allowing vehicles themselves to generate short-term key pairs and anonymous implicit certificates. Our evaluation and comparison with previous work show that our solution not only effectively reduces the communication cost, but also grants vehicles greater flexibility in certificate generation and use. On the technical side, to the best of our knowledge, this is the first work which (1) applies sanitizable signature for non-interactive anonymous certificate generation, and (2) is specifically designed for SCMS, which opens up possibilities for extensions and applications in industry.
翻訳日:2024-03-18 07:57:54 公開日:2024-02-04
# 暗号的に保証された情報フロー:遠隔実行の保証

Cryptographically Assured Information Flow: Assured Remote Execution ( http://arxiv.org/abs/2402.02630v1 )

ライセンス: Link先を確認
Scott L. Dyer, Christian A. Femrite, Joshua D. Guttman, Julian P. Lanson, Moses D. Liskov, (参考訳) デバイス上での保証されたリモート実行は、承認された関係者が、既知のプロセス -- 既知のコードを実行するプロセス -- でセキュアなチャネルを構築するのに適した能力である。 保証されたリモート実行は、暗号化プリミティブを含むハードウェアベースを必要とする。 本稿では、CAIF(Cryptographically Assured Information Flow)と呼ばれる単純なハードウェアレベルのメカニズムにより、アセットされたリモート実行が可能となることを示す。 CAIFは既存のTrusted Execution Environmentsの操作に似ているが、ロギングとシークレットエスクローの観点から定義された理想的な機能をセキュアに実装している。 本稿では,CAIFデバイス上での多種多様なプロセスに対する保証された遠隔実行を実現する方法について述べる。 暗号プロトコル分析は、我々のプログラムを変更し、デバイス上で不正なプログラムを実行する強力な敵に対しても、我々のセキュリティ目標が達成されることを示す。 Assured Remote Executionは、信頼できるリモート検査などの便利な機能を提供し、セキュアなリモートプログラミングに必要なサポートを提供する。

Assured Remote Execution on a device is the ability of suitably authorized parties to construct secure channels with known processes -- i.e. processes executing known code -- running on it. Assured Remote Execution requires a hardware basis including cryptographic primitives. In this paper, we show that a simple hardware-level mechanism called Cryptographically Assured Information Flow (CAIF) enables Assured Remote Execution. CAIF is akin to some operations in existing Trusted Execution Environments, but securely implements an ideal functionality defined in terms of logging and confidential escrow. We show how to achieve Assured Remote Execution for a wide variety of processes on a CAIF device. Cryptographic protocol analysis demonstrates our security goals are achieved even against a strong adversary that may modify our programs and execute unauthorized programs on the device. Assured Remote Execution enables useful functionality such as trustworthy remote attestation, and provides some of the support needed for secure remote reprogramming.
翻訳日:2024-03-18 07:57:54 公開日:2024-02-04
# 宇宙サイバーリスクマネジメントのための原則的リスクスコアを目指して

Towards Principled Risk Scores for Space Cyber Risk Management ( http://arxiv.org/abs/2402.02635v1 )

ライセンス: Link先を確認
Ekzhin Ear, Brandon Bailey, Shouhuai Xu, (参考訳) 宇宙は人類にとって重要な領域です。 宇宙のサイバーセキュリティは新たな分野であり、多くの研究がなされている。 宇宙のサイバーセキュリティ実践者がサイバーリスクをよりよく管理するために、The Aerospace CorporationはSpace Attack Research and Tactic Analysis (SPARTA)フレームワーク内にNotional Risk Scores (NRS)を提案した。 NRSは実践者による採用を意図しているが、現実のシナリオでは分析されておらず、その有効性に疑問を呈している。 本稿では,衛星に対する現実のサイバー攻撃シナリオを通じてNRSを分析し,NRSの強み,弱点,適用性を特徴付ける。 キャラクタリゼーションは、将来のNRSの設計を導くために、望ましい特性のセットを提案することを促す。 この方向への第一歩として、我々はさらに、将来のNRSを設計するためのベースラインとして機能するフォーマリズムを提案している。

Space is an emerging domain critical to humankind. Correspondingly, space cybersecurity is an emerging field with much research to be done. To help space cybersecurity practitioners better manage cyber risks, The Aerospace Corporation proposed Notional Risk Scores (NRS) within their Space Attack Research and Tactic Analysis (SPARTA) framework, which can be applied to quantify the cyber risks associated with space infrastructures and systems. While intended for adoption by practitioners, NRS has not been analyzed with real-world scenarios, putting its effectiveness into question. In this paper we analyze NRS via a real-world cyber attack scenario against a satellite, and characterize the strengths, weaknesses, and applicability of NRS. The characterization prompts us to propose a set of desired properties to guide the design of future NRS. As a first step along this direction, we further propose a formalism to serve as a baseline for designing future NRS with those desired properties.
翻訳日:2024-03-18 07:57:54 公開日:2024-02-04
# Lagrangian Schr\"odinger Bridge: 人口レベル正規化による学習ダイナミクス

Correlational Lagrangian Schr\"odinger Bridge: Learning Dynamics with Population-Level Regularization ( http://arxiv.org/abs/2402.10227v1 )

ライセンス: Link先を確認
Yuning You, Ruida Zhou, Yang Shen(参考訳) システムダイナミクスの正確なモデリングは、細胞力学や流体力学など幅広い科学分野において興味深い可能性を秘めている。 このタスクは、しばしば重大な課題を呈する (i)観察は横断的なサンプル(個々の軌跡が学習に利用できない場合)に限られる。 (ii)個々の粒子の挙動は不均一である(特に生物多様性による生体システムにおいて)。 そこで我々は,最小人口の「コスト」を基準として,横断的な観察から進化の「ブリッジング」を求めることを目的とした,相関的なラグランジアン・シュル・オーディンガー橋 (CLSB) と呼ばれる新しい枠組みを導入する。 すべての粒子に対する \textit{individual} レベルの正規化子(例えば、個々の運動を抑えるなど)に依存する以前の方法とは対照的に、CLSB は不均一性の性質を認める集団レベルで機能し、より一般化可能なモデリングを実現する。 この目的のために,(1)多変量関係の時間的変動を捉えた新しい集団正規化器,(2)遺伝的共発現安定性に基づく3つのドメイン不定形インスタンス化,(3)制約付き最適化としてのデータ駆動生成モデルへの集団正規化器の統合,および条件付き生成モデルへのさらなる拡張を含む数値解を含む。 細胞発生のシミュレーションや多量の薬物に対する細胞応答の予測など,単細胞シークエンシングデータ解析におけるCLSBの優位性を実証した。

Accurate modeling of system dynamics holds intriguing potential in broad scientific fields including cytodynamics and fluid mechanics. This task often presents significant challenges when (i) observations are limited to cross-sectional samples (where individual trajectories are inaccessible for learning), and moreover, (ii) the behaviors of individual particles are heterogeneous (especially in biological systems due to biodiversity). To address them, we introduce a novel framework dubbed correlational Lagrangian Schr\"odinger bridge (CLSB), aiming to seek for the evolution "bridging" among cross-sectional observations, while regularized for the minimal population "cost". In contrast to prior methods relying on \textit{individual}-level regularizers for all particles \textit{homogeneously} (e.g. restraining individual motions), CLSB operates at the population level admitting the heterogeneity nature, resulting in a more generalizable modeling in practice. To this end, our contributions include (1) a new class of population regularizers capturing the temporal variations in multivariate relations, with the tractable formulation derived, (2) three domain-informed instantiations based on genetic co-expression stability, and (3) an integration of population regularizers into data-driven generative models as constrained optimization, and a numerical solution, with further extension to conditional generative models. Empirically, we demonstrate the superiority of CLSB in single-cell sequencing data analyses such as simulating cell development over time and predicting cellular responses to drugs of varied doses.
翻訳日:2024-02-25 17:16:00 公開日:2024-02-04
# 拡散モデルに基づくガソリン混合スケジューリングの多目的最適化

Diffusion Model-Based Multiobjective Optimization for Gasoline Blending Scheduling ( http://arxiv.org/abs/2402.14600v1 )

ライセンス: Link先を確認
Wenxuan Fang and Wei Du and Renchu He and Yang Tang and Yaochu Jin and Gary G. Yen(参考訳) ガソリンブレンドスケジューリングは、精製所の生産要求を満たすためにリソース割り当てとオペレーションシーケンシングを使用する。 非線形性、整数制約、そして多くの決定変数の存在は、この問題に複雑さをもたらし、伝統的および進化的アルゴリズムの課題となる。 本稿では, ガソリン混合スケジューリングに特化して設計された拡散モデル(DMO)によって駆動される新しい多目的最適化手法を提案する。 整数制約に対処し、実現可能なスケジュールを生成するために、拡散モデルはガウス雑音と実現可能領域の間の複数の中間分布を生成する。 反復過程を通じて、解は勾配降下法を用いて目的を最適化しながらガウスノイズから実現可能なスケジュールへと遷移する。 dmoは客観的最適化と制約遵守を同時に達成する。 様々なスケールでDMOの性能を評価するために比較試験を行った。 実験により,DMOはガソリンブレンディングスケジューリング問題を解く際の効率性の観点から,最先端の多目的進化アルゴリズムを超越していることが示された。

Gasoline blending scheduling uses resource allocation and operation sequencing to meet a refinery's production requirements. The presence of nonlinearity, integer constraints, and a large number of decision variables adds complexity to this problem, posing challenges for traditional and evolutionary algorithms. This paper introduces a novel multiobjective optimization approach driven by a diffusion model (named DMO), which is designed specifically for gasoline blending scheduling. To address integer constraints and generate feasible schedules, the diffusion model creates multiple intermediate distributions between Gaussian noise and the feasible domain. Through iterative processes, the solutions transition from Gaussian noise to feasible schedules while optimizing the objectives using the gradient descent method. DMO achieves simultaneous objective optimization and constraint adherence. Comparative tests are conducted to evaluate DMO's performance across various scales. The experimental results demonstrate that DMO surpasses state-of-the-art multiobjective evolutionary algorithms in terms of efficiency when solving gasoline blending scheduling problems.
翻訳日:2024-02-25 16:45:24 公開日:2024-02-04
# 効率的な特徴のない教師なしドメイン適応のための脳インスパイア分散記憶学習

Brain-inspired Distributed Memorization Learning for Efficient Feature-free Unsupervised Domain Adaptation ( http://arxiv.org/abs/2402.14598v1 )

ライセンス: Link先を確認
Jianming Lv, Depin Liang, Zequan Liang, Yaobin Zhang, Sijun Xia(参考訳) 勾配に基づくニューラルネットワークと比較して、生物学的ニューラルネットワークは通常、勾配バックプロパゲーションを使わずに未知の環境に迅速に適応できるより強力な一般化能力を示す。 人間の脳の分散記憶機構に着想を得て,移動モデルの高速領域適応を支援するために,新しい勾配のない分散記憶学習機構DMLを提案する。 特に、DMLはランダムに連結されたニューロンを用いてインパルスとして伝播する入力信号の関連を記憶し、その信頼度に基づいて分散記憶を関連付けることで最終的な決定を行う。 さらに重要なことに、dmlはラベルのないデータに基づいて強化された記憶処理を実行し、深い機能を微調整することなく新しいドメインに迅速に適応することができるため、エッジデバイスへのデプロイに非常に適しています。 4つのクロスドメイン実世界のデータセットに基づく実験により、DMLは従来の勾配ベースのMLPと比較して、10%以上の精度向上を実現し、最適化のタイミングコストの87%を削減できることがわかった。

Compared with gradient based artificial neural networks, biological neural networks usually show a more powerful generalization ability to quickly adapt to unknown environments without using any gradient back-propagation procedure. Inspired by the distributed memory mechanism of human brains, we propose a novel gradient-free Distributed Memorization Learning mechanism, namely DML, to support quick domain adaptation of transferred models. In particular, DML adopts randomly connected neurons to memorize the association of input signals, which are propagated as impulses, and makes the final decision by associating the distributed memories based on their confidence. More importantly, DML is able to perform reinforced memorization based on unlabeled data to quickly adapt to a new domain without heavy fine-tuning of deep features, which makes it very suitable for deploying on edge devices. Experiments based on four cross-domain real-world datasets show that DML can achieve superior performance of real-time domain adaptation compared with traditional gradient based MLP with more than 10% improvement of accuracy while reducing 87% of the timing cost of optimization.
翻訳日:2024-02-25 16:45:09 公開日:2024-02-04
# 半教師付き自己学習ラベリングによる学習スタイル同定

Learning Style Identification Using Semi-Supervised Self-Taught Labeling ( http://arxiv.org/abs/2402.14597v1 )

ライセンス: Link先を確認
Hani Y. Ayyoub and Omar S. Al-Kadi(参考訳) 教育は、パンデミックや戦争、気候変動に関連する自然災害などによる急激な変化や破壊に適応しなくてはならないダイナミックな分野である。 これらのイベントが発生すると、伝統的な教室やブレンドされた教室は、学生のニーズを満たす効率的な学習環境を必要とする完全なオンライン学習に移行することができる。 学習管理システムは教師の生産性と創造性をサポートするが、通常はコース内のすべての学習者に同じコンテンツを提供し、独自の学習スタイルを無視している。 そこで本研究では,データマイニング手法を用いて学生の学習スタイルを検出する半教師付き機械学習手法を提案する。 一般的なfelder silverman学習スタイルモデルを用いて,ラベル付きデータが少なく,信頼性の高い分類モデルが生成できることを実証した。 このアプローチを2つの異なるコースで評価し,それぞれ88.83%と77.35%の精度を得た。 私たちの研究は、教育データマイニングと半教師付き機械学習技術が異なる学習スタイルを識別し、パーソナライズされた学習環境を創造できることを示しています。

Education is a dynamic field that must be adaptable to sudden changes and disruptions caused by events like pandemics, war, and natural disasters related to climate change. When these events occur, traditional classrooms with traditional or blended delivery can shift to fully online learning, which requires an efficient learning environment that meets students' needs. While learning management systems support teachers' productivity and creativity, they typically provide the same content to all learners in a course, ignoring their unique learning styles. To address this issue, we propose a semi-supervised machine learning approach that detects students' learning styles using a data mining technique. We use the commonly used Felder Silverman learning style model and demonstrate that our semi-supervised method can produce reliable classification models with few labeled data. We evaluate our approach on two different courses and achieve an accuracy of 88.83% and 77.35%, respectively. Our work shows that educational data mining and semi-supervised machine learning techniques can identify different learning styles and create a personalized learning environment.
翻訳日:2024-02-25 16:44:50 公開日:2024-02-04
# 検索型生成を用いた指導実践の評価改善

Improving Assessment of Tutoring Practices using Retrieval-Augmented Generation ( http://arxiv.org/abs/2402.14594v1 )

ライセンス: Link先を確認
Zifei (FeiFei) Han, Jionghao Lin, Ashish Gurung, Danielle R. Thomas, Eason Chen, Conrad Borchers, Shivang Gupta, Kenneth R. Koedinger(参考訳) 1対1の指導は、学習を強化する効果的な指導方法であるが、その効果は教師の能力にかかっている。 初心者の数学教師は、しばしばコンテンツ固有の指導を優先し、社会的感情学習のような側面を無視する。 社会情緒学習は学生との平等と包摂性、および育児的関係を促進する。 教師の能力を正確にかつ効率的に評価することで、教師養成プログラムの開発を促進することができる。 しかし、実時間授業中に初級講師の能力を評価することは、通常、ループのエキスパートを必要とするため、依然として困難である。 本研究は, GPT-3.5 モデルや GPT-4 モデルなどの生成事前学習型トランスフォーマー (GPT) を用いて, 教師が社会的情緒的学習戦略を活用できる能力を自動的に評価することを目的とする。 さらに,本研究は,これらのモデルをリアルタイムかつ大規模に,自動評価に活用するための財務的側面と考察についても報告する。 本研究では,2つのゼロショットプロンプト戦略,思考プロンプトのツリー,検索型ジェネレータ(rag)に基づくプロンプトの4つのプロンプト戦略を検討した。 その結果、RAGは、評価した他の戦略よりも、より正確なパフォーマンス(生成した評価テキストの幻覚と正しさのレベルによって評価される)と財務コストの低下を示した。 これらの知見は、教師養成の教育効果を高めるために、個人化された指導者訓練介入の開発に寄与する。

One-on-one tutoring is an effective instructional method for enhancing learning, yet its efficacy hinges on tutor competencies. Novice math tutors often prioritize content-specific guidance, neglecting aspects such as social-emotional learning. Social-emotional learning promotes equity and inclusion and nurturing relationships with students, which is crucial for holistic student development. Assessing the competencies of tutors accurately and efficiently can drive the development of tailored tutor training programs. However, evaluating novice tutor ability during real-time tutoring remains challenging as it typically requires experts-in-the-loop. To address this challenge, this preliminary study aims to harness Generative Pre-trained Transformers (GPT), such as GPT-3.5 and GPT-4 models, to automatically assess tutors' ability of using social-emotional tutoring strategies. Moreover, this study also reports on the financial dimensions and considerations of employing these models in real-time and at scale for automated assessment. The current study examined four prompting strategies: two basic Zero-shot prompt strategies, Tree of Thought prompt, and Retrieval-Augmented Generator (RAG) based prompt. The results indicate that the RAG prompt demonstrated more accurate performance (assessed by the level of hallucination and correctness in the generated assessment texts) and lower financial costs than the other strategies evaluated. These findings inform the development of personalized tutor training interventions to enhance the the educational effectiveness of tutored learning.
翻訳日:2024-02-25 16:44:08 公開日:2024-02-04
# 大規模言語モデルによるグラフ表現学習の促進: 総合的な技術調査

Advancing Graph Representation Learning with Large Language Models: A Comprehensive Survey of Techniques ( http://arxiv.org/abs/2402.05952v1 )

ライセンス: Link先を確認
Qiheng Mao, Zemin Liu, Chenghao Liu, Zhuo Li, Jianling Sun(参考訳) グラフ表現学習(GRL)とLLM(Large Language Models)の統合は、複雑なデータ構造を分析する上で重要な進化である。 このコラボレーションは、llmの洗練された言語能力を活用して、グラフモデルの文脈理解と適応性を改善し、grlのスコープと可能性を広げる。 LLMをグラフ領域に統合する研究団体が増えているにもかかわらず、これらのモデルの中核となるコンポーネントや操作を深く分析する包括的なレビューは特に欠落している。 今回の調査は,これらのモデルを新たな技術的観点から主要な構成要素と運用手法に分解する,新たな分類法を提案することで,このギャップを埋めている。 さらに,最近の文献を,知識抽出器とオーガナイザを含む2つの主要な構成要素と,統合と訓練戦略を含む2つの操作手法に分類し,効果的なモデル設計とトレーニング戦略に光を当てる。 さらに、この未発見の分野における将来的な研究の道の特定と探索を行い、継続的な進展の道筋を提案する。

The integration of Large Language Models (LLMs) with Graph Representation Learning (GRL) marks a significant evolution in analyzing complex data structures. This collaboration harnesses the sophisticated linguistic capabilities of LLMs to improve the contextual understanding and adaptability of graph models, thereby broadening the scope and potential of GRL. Despite a growing body of research dedicated to integrating LLMs into the graph domain, a comprehensive review that deeply analyzes the core components and operations within these models is notably lacking. Our survey fills this gap by proposing a novel taxonomy that breaks down these models into primary components and operation techniques from a novel technical perspective. We further dissect recent literature into two primary components including knowledge extractors and organizers, and two operation techniques including integration and training stratigies, shedding light on effective model design and training strategies. Additionally, we identify and explore potential future research avenues in this nascent yet underexplored field, proposing paths for continued progress.
翻訳日:2024-02-18 14:36:48 公開日:2024-02-04
# 自然に触発された地域伝播

Nature-Inspired Local Propagation ( http://arxiv.org/abs/2402.05959v1 )

ライセンス: Link先を確認
Alessandro Betti, Marco Gori(参考訳) 最近のジェネレーティブAIの進歩を含む機械学習における素晴らしい成果は、大規模なデータ収集に依存している。 逆に、自然界におけるインテリジェントなプロセスは、そのようなコレクションを必要とせず、単に環境情報のオンライン処理によって生じる。 特に、自然学習プロセスは、時空間的局所性を尊重する方法でデータ表現と学習が相互に絡み合うメカニズムに依存している。 本稿では,理論物理学の関連研究に触発された学習のアルゴリズム的前観から,このような特徴が生じることを示す。 ハミルトン方程式の構造を導出した「学習の法則」のアルゴリズム的解釈は、伝播の速度が無限大になるときにバックプロパゲーションに還元されることを示す。 これにより、バックプロパゲーションと提案した時空間局所アルゴリズムの置き換えに基づくオンライン情報処理に基づく機械学習研究への扉を開く。

The spectacular results achieved in machine learning, including the recent advances in generative AI, rely on large data collections. On the opposite, intelligent processes in nature arises without the need for such collections, but simply by online processing of the environmental information. In particular, natural learning processes rely on mechanisms where data representation and learning are intertwined in such a way to respect spatiotemporal locality. This paper shows that such a feature arises from a pre-algorithmic view of learning that is inspired by related studies in Theoretical Physics. We show that the algorithmic interpretation of the derived "laws of learning", which takes the structure of Hamiltonian equations, reduces to Backpropagation when the speed of propagation goes to infinity. This opens the doors to machine learning studies based on full on-line information processing that are based the replacement of Backpropagation with the proposed spatiotemporal local algorithm.
翻訳日:2024-02-18 14:21:19 公開日:2024-02-04
# 異なるディープラーニングアーキテクチャを用いた上肢外活動認識のためのウェアラブルとシングルカメラビデオの比較研究

A comparative study on wearables and single-camera video for upper-limb out-of-thelab activity recognition with different deep learning architectures ( http://arxiv.org/abs/2402.05958v1 )

ライセンス: Link先を確認
Mario Mart\'inez-Zarzuela, David Gonz\'alez-Ortega, M\'iriam Ant\'on-Rodr\'iguez, Francisco Javier D\'iaz-Pernas, Henning M\"uller, Cristina Sim\'on-Mart\'inez(参考訳) 幅広いコンピュータビジョンソリューションの使用や、より最近のハイエンドの慣性計測ユニット(IMU)は、臨床および研究環境における人間の身体活動を評価するためにますます人気が高まっている。 それにもかかわらず、手術室外における患者追跡の実現性を高めるためには、移動取得に少数のデバイスを使用する必要がある。 このコンテキストにおけるプロムリングソリューションは、IMUベースのウェアラブルとシングルカメラシステムである。 さらに、臨床関連データを認識・消化できる機械学習システムの開発も必要であり、それに対する理想的な入力を決定することが重要である。

The use of a wide range of computer vision solutions, and more recently high-end Inertial Measurement Units (IMU) have become increasingly popular for assessing human physical activity in clinical and research settings. Nevertheless, to increase the feasibility of patient tracking in out-of-the-lab settings, it is necessary to use a reduced number of devices for movement acquisition. Promising solutions in this context are IMU-based wearables and single camera systems. Additionally, the development of machine learning systems able to recognize and digest clinically relevant data in-the-wild is needed, and therefore determining the ideal input to those is crucial.
翻訳日:2024-02-18 14:21:02 公開日:2024-02-04
# 解空間における微分演算子作用によるPDEデータ生成の高速化

Accelerating PDE Data Generation via Differential Operator Action in Solution Space ( http://arxiv.org/abs/2402.05957v1 )

ライセンス: Link先を確認
Huanshuo Dong, Hong Wang, Haoyang Liu, Jian Luo, Jie Wang(参考訳) ニューラル演算子(NO)のようなデータ駆動型手法の最近の進歩は、部分微分方程式(PDE)の解時間を短縮する効果を実証している。 しかしながら、これらのアプローチが直面する1つの大きな課題は、生成プロセス中にかなりの計算コストを必要とする大量の高精度なトレーニングデータの要求である。 そこで本研究では,PDEデータセット生成アルゴリズム,すなわち解空間における微分演算子アクション(DiffOAS)を提案し,データ生成プロセスを高速化し,生成したデータの精度を同時に向上する。 具体的には、DiffOASはいくつかの基本的なPDEソリューションを取得し、それらを組み合わせてソリューションを得る。 微分作用素をこれらの解、つまり「操作動作」と呼ばれるプロセスに適用し、pdeデータポイントを効率的に生成する。 理論的解析により、DiffOAS法の時間複雑性は既存の生成法よりも1次低いことがわかった。 実験の結果,DiffOASは1万インスタンスの大規模データセットの生成を300倍加速することがわかった。 生成時間の5%に過ぎず、DiffOASが生成したデータに基づいてトレーニングされたNOは、既存の生成方法と同等のパフォーマンスを示し、DiffOASの効率を強調している。

Recent advancements in data-driven approaches, such as Neural Operator (NO), have demonstrated their effectiveness in reducing the solving time of Partial Differential Equations (PDEs). However, one major challenge faced by these approaches is the requirement for a large amount of high-precision training data, which needs significant computational costs during the generation process. To address this challenge, we propose a novel PDE dataset generation algorithm, namely Differential Operator Action in Solution space (DiffOAS), which speeds up the data generation process and enhances the precision of the generated data simultaneously. Specifically, DiffOAS obtains a few basic PDE solutions and then combines them to get solutions. It applies differential operators on these solutions, a process we call 'operator action', to efficiently generate precise PDE data points. Theoretical analysis shows that the time complexity of DiffOAS method is one order lower than the existing generation method. Experimental results show that DiffOAS accelerates the generation of large-scale datasets with 10,000 instances by 300 times. Even with just 5% of the generation time, NO trained on the data generated by DiffOAS exhibits comparable performance to that using the existing generation method, which highlights the efficiency of DiffOAS.
翻訳日:2024-02-18 14:20:51 公開日:2024-02-04
# pathformer:時系列予測のための適応経路を持つマルチスケールトランスフォーマ

Pathformer: Multi-scale transformers with Adaptive Pathways for Time Series Forecasting ( http://arxiv.org/abs/2402.05956v1 )

ライセンス: Link先を確認
Peng Chen, Yingying Zhang, Yunyao Cheng, Yang Shu, Yihang Wang, Qingsong Wen, Bin Yang, Chenjuan Guo(参考訳) トランスフォーマーベースのモデルは時系列予測でいくつかの成功を収めた。 既存の手法は主に限定的または固定的なスケールから時系列をモデル化しており、様々なスケールにまたがる異なる特性を捉えるのが困難である。 本稿では,適応経路を有するマルチスケールトランス (Pathformer) を提案する。 提案するトランスフォーマは時間分解能と時間距離の両方を統合し,マルチスケールモデリングを行う。 マルチスケール分割は、時系列を異なる時間分解能に分割する。 各スケールの分割に基づいて、グローバル相関と局所的詳細を時間的依存関係として捉えるために、これらのパッチに対して二重の注意が払われる。 さらに,入力時系列の時間変化に基づいて適応的にマルチスケールモデリングプロセスを調整し,予測精度とパスフォーマの一般化を改善した適応経路を持つマルチスケール変圧器をさらに強化する。 11の実世界のデータセットに対する大規模な実験により、Pathformerは現在のモデルをすべて越えて最先端のパフォーマンスを達成するだけでなく、さまざまな移行シナリオ下でのより強力な一般化能力も示している。

Transformer-based models have achieved some success in time series forecasting. Existing methods mainly model time series from limited or fixed scales, making it challenging to capture different characteristics spanning various scales. In this paper, we propose multi-scale transformers with adaptive pathways (Pathformer). The proposed Transformer integrates both temporal resolution and temporal distance for multi-scale modeling. Multi-scale division divides the time series into different temporal resolutions using patches of various sizes. Based on the division of each scale, dual attention is performed over these patches to capture global correlations and local details as temporal dependencies. We further enrich the multi-scale transformer with adaptive pathways, which adaptively adjust the multi-scale modeling process based on the varying temporal dynamics in the input time series, improving the prediction accuracy and generalization of Pathformer. Extensive experiments on eleven real-world datasets demonstrate that Pathformer not only achieves state-of-the-art performance by surpassing all current models but also exhibits stronger generalization abilities under various transfer scenarios.
翻訳日:2024-02-18 14:20:29 公開日:2024-02-04
# 分割可能性制約付き制御可能なパレートフロント学習のためのハイパートランスフォーマモデル

A Hyper-Transformer model for Controllable Pareto Front Learning with Split Feasibility Constraints ( http://arxiv.org/abs/2402.05955v1 )

ライセンス: Link先を確認
Tran Anh Tuan, Nguyen Viet Dung, Tran Ngoc Thang(参考訳) 制御可能なパレート前処理(CPFL)はパレートの解集合を近似し、与えられた基準ベクトルに対してパレート最適解を見つける。 しかし、意思決定の目的は実際には制約領域に限られていたため、決定領域全体をトレーニングする代わりに、制約領域のみをトレーニングした。 Split Feasibility Constraints (SFC) を用いた制御可能なParetoフロントエンド学習は、特定の制約を満たす分割多目的最適化問題に対する最高のParetoソリューションを見つける方法である。 前回の研究では、cpflは多層パーセプトロン(hyper-mlp)ブロックからなるハイパーネットワークモデルを用いた。 ディープラーニングにおけるトランスフォーマーアーキテクチャの大幅な進歩により、トランスフォーマーは他のアーキテクチャを様々なタスクで上回ることができる。 そこで我々は,SFCを用いたCPFLのためのハイパートランスモデルを開発した。 超遷移モデルが超mlpモデルよりも計算実験においてmed誤差を小さくすることを示すために、シーケンシャル・ツー・シーケンス関数に対する普遍近似の理論を用いる。

Controllable Pareto front learning (CPFL) approximates the Pareto solution set and then locates a Pareto optimal solution with respect to a given reference vector. However, decision-maker objectives were limited to a constraint region in practice, so instead of training on the entire decision space, we only trained on the constraint region. Controllable Pareto front learning with Split Feasibility Constraints (SFC) is a way to find the best Pareto solutions to a split multi-objective optimization problem that meets certain constraints. In the previous study, CPFL used a Hypernetwork model comprising multi-layer perceptron (Hyper-MLP) blocks. With the substantial advancement of transformer architecture in deep learning, transformers can outperform other architectures in various tasks. Therefore, we have developed a hyper-transformer (Hyper-Trans) model for CPFL with SFC. We use the theory of universal approximation for the sequence-to-sequence function to show that the Hyper-Trans model makes MED errors smaller in computational experiments than the Hyper-MLP model.
翻訳日:2024-02-18 14:20:10 公開日:2024-02-04
# EasyFS: 機能の弾性変換による効率的なモデルフリー機能選択フレームワーク

EasyFS: an Efficient Model-free Feature Selection Framework via Elastic Transformation of Features ( http://arxiv.org/abs/2402.05954v1 )

ライセンス: Link先を確認
Jianming Lv, Sijun Xia, Depin Liang, Wei Chen(参考訳) 従来のモデルフリーな特徴選択手法は、特徴間の相互関係を無視しながら、各特徴を独立して扱う。 この課題に対処するために,従来のモデルフリー手法と効率性と柔軟性を両立させながら,最先端のモデルアウェア方式よりも優れた性能を実現するために,機能の拡張と圧縮による効率的なモデルフリー特徴選択フレームワークを提案する。 特に、EasyFSは、ランダムな非線形投影ネットワークを用いて、元の特徴の非線形結合を達成し、特徴間の相互関係をモデル化し、最も相関した特徴を発見することで、特徴空間を拡張する。 一方,冗長な特徴の効率的なフィルタリングのために,符号化速度の変化に基づく冗長性測定手法を提案する。 21の異なるデータセットに関する総合的な実験によると、EasyFSは回帰タスクで10.9\%、分類タスクで5.7\%、そして94\%以上の時間を節約している。

Traditional model-free feature selection methods treat each feature independently while disregarding the interrelationships among features, which leads to relatively poor performance compared with the model-aware methods. To address this challenge, we propose an efficient model-free feature selection framework via elastic expansion and compression of the features, namely EasyFS, to achieve better performance than state-of-the-art model-aware methods while sharing the characters of efficiency and flexibility with the existing model-free methods. In particular, EasyFS expands the feature space by using the random non-linear projection network to achieve the non-linear combinations of the original features, so as to model the interrelationships among the features and discover most correlated features. Meanwhile, a novel redundancy measurement based on the change of coding rate is proposed for efficient filtering of redundant features. Comprehensive experiments on 21 different datasets show that EasyFS outperforms state-of-the art methods up to 10.9\% in the regression tasks and 5.7\% in the classification tasks while saving more than 94\% of the time.
翻訳日:2024-02-18 14:19:52 公開日:2024-02-04
# idMotif:タンパク質配列の対話型モチーフ同定

idMotif: An Interactive Motif Identification in Protein Sequences ( http://arxiv.org/abs/2402.05953v1 )

ライセンス: Link先を確認
Ji Hwan Park, Vikash Prasad, Sydney Newsom, Fares Najar, Rakhi Rajan(参考訳) この記事では、ドメインの専門家によるタンパク質配列内のモチーフの識別を支援する、ビジュアル分析フレームワークidmotifを紹介します。 アミノ酸の短い配列であるモチーフは、タンパク質の異なる機能を理解するために重要である。 これらのモチーフを同定することは病気や感染を予測するのに重要である。 idmotifは、深層学習に基づくタンパク質配列の分類手法を採用しており、深層学習モデル決定の局所的な説明を通じて、タンパク質群内の潜在的なモチーフ候補の発見を可能にする。 タンパク質クラスターやグループとその配列を分析するために、複数のインタラクティブビューを提供する。 専門家のフィードバックによって補完されたケーススタディでは、タンパク質の配列とモチーフの分析と同定を容易にするidMotifの有用性が説明されている。

This article introduces idMotif, a visual analytics framework designed to aid domain experts in the identification of motifs within protein sequences. Motifs, short sequences of amino acids, are critical for understanding the distinct functions of proteins. Identifying these motifs is pivotal for predicting diseases or infections. idMotif employs a deep learning-based method for the categorization of protein sequences, enabling the discovery of potential motif candidates within protein groups through local explanations of deep learning model decisions. It offers multiple interactive views for the analysis of protein clusters or groups and their sequences. A case study, complemented by expert feedback, illustrates idMotif's utility in facilitating the analysis and identification of protein sequences and motifs.
翻訳日:2024-02-18 14:19:32 公開日:2024-02-04
# 多スケール畳み込みニューラルネットワークを用いた深層学習による脳腫瘍の分類と分節化

A Deep Learning Approach for Brain Tumor Classification and Segmentation Using a Multiscale Convolutional Neural Network ( http://arxiv.org/abs/2402.05975v1 )

ライセンス: Link先を確認
Francisco Javier D\'iaz-Pernas, Mario Mart\'inez-Zarzuela, M\'iriam Ant\'on-Rodr\'iguez, and David Gonz\'alez-Ortega(参考訳) 本稿では,マルチスケールアプローチを含むDeep Convolutional Neural Networkを用いた,完全自動脳腫瘍分類と分類モデルを提案する。 提案手法の相違点のひとつは,入力画像が処理経路の異なる3つの空間的スケールで処理される点である。 このメカニズムは人間の視覚システムの本質的な操作にインスパイアされている。 提案する神経モデルは, 髄膜腫, グリオーマ, 下垂体腫瘍の3種類のmri像を, 矢状, コロナ, 軸線上から解析することが可能であり, 頭蓋骨, 椎体部分を除去する入力画像の前処理は必要としない。 233名から3064スライスの公開mri画像データセットにおける本手法の性能を,従来の古典的機械学習およびディープラーニング公開法と比較した。 比較の結果, 腫瘍の分類精度は0.973で, 同一データベースを用いた他の方法よりも高い値を示した。

In this paper, we present a fully automatic brain tumor segmentation and classification model using a Deep Convolutional Neural Network that includes a multiscale approach. One of the differences of our proposal with respect to previous works is that input images are processed in three spatial scales along different processing pathways. This mechanism is inspired in the inherent operation of the Human Visual System. The proposed neural model can analyze MRI images containing three types of tumors: meningioma, glioma, and pituitary tumor, over sagittal, coronal, and axial views and does not need preprocessing of input images to remove skull or vertebral column parts in advance. The performance of our method on a publicly available MRI image dataset of 3064 slices from 233 patients is compared with previously classical machine learning and deep learning published methods. In the comparison, our method remarkably obtained a tumor classification accuracy of 0.973, higher than the other approaches using the same database.
翻訳日:2024-02-18 14:07:17 公開日:2024-02-04
# 会話型集団センシング:新しいセンシングアプローチを用いた並列インテリジェンス

Conversational Crowdsensing: A Parallel Intelligence Powered Novel Sensing Approach ( http://arxiv.org/abs/2402.06654v1 )

ライセンス: Link先を確認
Zhengqiu Zhu, Yong Zhao, Bin Chen, Sihang Qiu, Kai Xu, Quanjun Yin, Jincai Huang, Zhong Liu, Fei-Yue Wang(参考訳) CPSベースのIndustrial 4.0からCPSSベースのIndustrial 5.0への移行は、特に最近のChatbots and Large Language Models (LLMs)の進歩を踏まえて、現在のセンシングアプローチに新たな要件と機会をもたらす。 したがって、並列知性に基づくクラウドセンシングインテリジェンス(csi)の進歩が目撃され、現在言語知に向かって進んでいる。 本稿では,産業5.0のための新しいセンシングパラダイム,すなわち対話型クラウドセンシングを提案する。 個人の作業負荷と専門的要件を緩和し、多様な労働力の組織と運用を促進し、より迅速な対応とクラウドセンシングシステムの普及を促進する。 具体的には,多様なコミュニティから3種類の参加者(生物,ロボット,デジタル)を効果的に組織するために,会話型群集センシングのアーキテクチャを設計する。 3段階の効果的な会話(人間間、人間間AI、AI間)を通じて、異なる労働者の複雑な相互作用とサービス機能により、3つの知覚段階(すなわち、要求、スケジューリング、実行)にわたる様々なタスクを達成できる。 さらに,llmベースのマルチエージェントシステム,シナリオエンジニアリング,対話型ヒューマンai協調を包含する,会話的クラウドセンシングを実現するための基礎技術について検討する。 最後に,対話型クラウドセンシングの産業応用の可能性を示し,その意義について論じる。 我々は,人,ロボット,AIの間で,より豊かな情報交換と協調的な問題解決を可能にするために,自然言語による会話が,クラウドセンシングプロセスにおける主要なコミュニケーションチャネルになることを期待している。

The transition from CPS-based Industry 4.0 to CPSS-based Industry 5.0 brings new requirements and opportunities to current sensing approaches, especially in light of recent progress in Chatbots and Large Language Models (LLMs). Therefore, the advancement of parallel intelligence-powered Crowdsensing Intelligence (CSI) is witnessed, which is currently advancing towards linguistic intelligence. In this paper, we propose a novel sensing paradigm, namely conversational crowdsensing, for Industry 5.0. It can alleviate workload and professional requirements of individuals and promote the organization and operation of diverse workforce, thereby facilitating faster response and wider popularization of crowdsensing systems. Specifically, we design the architecture of conversational crowdsensing to effectively organize three types of participants (biological, robotic, and digital) from diverse communities. Through three levels of effective conversation (i.e., inter-human, human-AI, and inter-AI), complex interactions and service functionalities of different workers can be achieved to accomplish various tasks across three sensing phases (i.e., requesting, scheduling, and executing). Moreover, we explore the foundational technologies for realizing conversational crowdsensing, encompassing LLM-based multi-agent systems, scenarios engineering and conversational human-AI cooperation. Finally, we present potential industrial applications of conversational crowdsensing and discuss its implications. We envision that conversations in natural language will become the primary communication channel during crowdsensing process, enabling richer information exchange and cooperative problem-solving among humans, robots, and AI.
翻訳日:2024-02-18 13:53:50 公開日:2024-02-04
# リモートセンシングデータを用いた大気汚染評価

Using remotely sensed data for air pollution assessment ( http://arxiv.org/abs/2402.06653v1 )

ライセンス: Link先を確認
Teresa Bernardino, Maria Alexandra Oliveira, Jo\~ao Nuno Silva(参考訳) 大気汚染は、人間の健康だけでなく環境にも影響を及ぼす世界的重要課題である。 大気汚染物質の濃度に関する空間的・時間的データの存在は、大気汚染の研究や排出の監視に不可欠である。 しかし、観測データはかなりの時間的カバレッジを示すが、駅数は極めて限られており、通常は人口の多い地域で構築されている。 この研究の主な目的は、観測データがない場所で汚染物質濃度を推定できるモデルを作成することである。 機械学習モデル(特にランダム森林モデル)は、2019年にイベリア半島で選択された5つの汚染物質(NO_2$、$O_3$$SO_2$、$PM10$、$PM2.5$)の濃度を予測するために開発された。 モデルの特徴として、衛星測定、気象変数、土地利用分類、時間変数(月、日)、空間変数(緯度、経度、高度)がある。 実験では,各駅の10倍の観測データを試験データとして,残りをトレーニングデータとして,駅10倍のクロスバリデーションを含む各種手法を用いて評価した。 R^2$, RMSE, 平均偏差は各モデルで決定された。 NO_2$ と $O_3$ はそれぞれ$R^2$ と 0.5524 と 0.7462 のよい値を示した。 しかし、$so_2$、$pm10$、$pm2.5$モデルは、それぞれ -0.0231 、 0.3722 および 0.3303 の $r^2$ の値で、この点で非常に貧弱であった。 すべてのモデルは、$O_3$モデルを除いて、地上濃度をわずかに過大評価した。 すべてのモデルは、平均値が少し高い$o_3$と$pm10$モデル(それぞれ12.5934$\mu g/m^3$と10.4737$\mu g/m^3$)を除いて、許容できるクロスバリデーションrmseを示した。

Air pollution constitutes a global problem of paramount importance that affects not only human health, but also the environment. The existence of spatial and temporal data regarding the concentrations of pollutants is crucial for performing air pollution studies and monitor emissions. However, although observation data presents great temporal coverage, the number of stations is very limited and they are usually built in more populated areas. The main objective of this work is to create models capable of inferring pollutant concentrations in locations where no observation data exists. A machine learning model, more specifically the random forest model, was developed for predicting concentrations in the Iberian Peninsula in 2019 for five selected pollutants: $NO_2$, $O_3$ $SO_2$, $PM10$, and $PM2.5$. Model features include satellite measurements, meteorological variables, land use classification, temporal variables (month, day of year), and spatial variables (latitude, longitude, altitude). The models were evaluated using various methods, including station 10-fold cross-validation, in which in each fold observations from 10\% of the stations are used as testing data and the rest as training data. The $R^2$, RMSE and mean bias were determined for each model. The $NO_2$ and $O_3$ models presented good values of $R^2$, 0.5524 and 0.7462, respectively. However, the $SO_2$, $PM10$, and $PM2.5$ models performed very poorly in this regard, with $R^2$ values of -0.0231, 0.3722, and 0.3303, respectively. All models slightly overestimated the ground concentrations, except the $O_3$ model. All models presented acceptable cross-validation RMSE, except the $O_3$ and $PM10$ models where the mean value was a little higher (12.5934 $\mu g/m^3$ and 10.4737 $\mu g/m^3$, respectively).
翻訳日:2024-02-18 13:53:23 公開日:2024-02-04
# サイバーセキュリティの変化する風景 : リモートワークとCOVID-19がデータ漂流のトレンドに与える影響

The Shifting Landscape of Cybersecurity: The Impact of Remote Work and COVID-19 on Data Breach Trends ( http://arxiv.org/abs/2402.06650v1 )

ライセンス: Link先を確認
Murat Ozer, Yasin Kose, Mehmet Bastug, Goksel Kucukkaya, Eva Ruhsar Varlioglu(参考訳) 本研究では、新型コロナウイルスのパンデミックがサイバーセキュリティやデータ漏洩に与える影響を調査し、リモートワークへのシフトに特に焦点をあてる。 この研究は、リモートワーク開始から2年前と2年後のデータ漏洩を分析して、トレンドを特定し、サイバーセキュリティインシデントに対する洞察を提供する。 データはモンタナ司法省のData Breachデータベースから収集され、2018年4月から2022年4月までに起きたデータ漏洩によって構成された。 この結果から,遠隔作業環境におけるサイバーセキュリティ対策のベストプラクティスが示唆された。 調査データはモンタナ州に限られているが、世界中のサイバーセキュリティ専門家に貴重な洞察を提供する。 リモートワークが進化を続けるにつれ、組織はサイバーセキュリティ戦略に適応し、警戒し続けなければなりません。

This study examines the impact of the COVID-19 pandemic on cybersecurity and data breaches, with a specific focus on the shift toward remote work. The study identifies trends and offers insights into cybersecurity incidents by analyzing data breaches two years before and two years after the start of remote work. Data was collected from the Montana Department of Justice Data Breach database and consisted of data breaches that occurred between April 2018 and April 2022. The findings inform best practices for cybersecurity preparedness in remote work environments, aiding organizations to enhance their defenses. Although the study's data is limited to Montana, it offers valuable insights for cybersecurity professionals worldwide. As remote work continues to evolve, organizations must remain adaptable and vigilant in their cybersecurity strategies.
翻訳日:2024-02-18 13:52:48 公開日:2024-02-04
# 運転監視のための運転シミュレータと同期した生理センサベースのAndroidアプリケーション

A Physiological Sensor-Based Android Application Synchronized with a Driving Simulator for Driver Monitoring ( http://arxiv.org/abs/2402.07937v1 )

ライセンス: Link先を確認
David Gonz\'alez-Ortega, Francisco Javier D\'iaz-Pernas, Mario Mart\'inez-Zarzuela, and M\'iriam Ant\'on-Rodr\'iguez(参考訳) 本稿では,shimmerプラットフォームからの生理的センサの制御と監視を行うandroidアプリケーションと,運転シミュレータとの同期動作について述べる。 Androidアプリはドライバーを監視し、それらのパラメータを使って生理状態と運転性能の関係を分析することができる。 アプリは、心電図(ECG)、筋電図(EMG)、ガルバニック皮膚反応(GSR)モジュール、加速度計、磁力計、ジャイロスコープからの信号を設定、選択、受信、プロセス、グラフィカルに表現することができる。 androidアプリは、これまでunityゲームエンジンを使って開発した運転シミュレータと2つのステップで同期し、運転のセキュリティと効率を分析します。 Androidアプリは、さまざまなサンプリングレートと異なるAndroidデバイスで同時に動作するさまざまなセンサーでテストされた。 また,運転シミュレータとAndroidアプリの同期動作を25人でテストし,ECG,EMG,GSR,ジャイロセンサおよびシミュレータからのデータの関係を分析した。 その中でも,androidアプリで計算したジャイロスコープ機能と車両データ,特に交通違反との間に有意な相関が認められた。 Androidアプリは、慢性疾患の患者やアスリートなど、他の異なるユーザーに対して小さな適応で適用することができる。

In this paper, we present an Android application to control and monitor the physiological sensors from the Shimmer platform and its synchronized working with a driving simulator. The Android app can monitor drivers and their parameters can be used to analyze the relation between their physiological states and driving performance. The app can configure, select, receive, process, represent graphically, and store the signals from electrocardiogram (ECG), electromyogram (EMG) and galvanic skin response (GSR) modules and accelerometers, a magnetometer and a gyroscope. The Android app is synchronized in two steps with a driving simulator that we previously developed using the Unity game engine to analyze driving security and efficiency. The Android app was tested with different sensors working simultaneously at various sampling rates and in different Android devices. We also tested the synchronized working of the driving simulator and the Android app with 25 people and analyzed the relation between data from the ECG, EMG, GSR, and gyroscope sensors and from the simulator. Among others, some significant correlations between a gyroscope-based feature calculated by the Android app and vehicle data and particular traffic offences were found. The Android app can be applied with minor adaptations to other different users such as patients with chronic diseases or athletes.
翻訳日:2024-02-18 13:42:38 公開日:2024-02-04
# 分布外検出のための最適パラメータとニューロンプラニング

Optimal Parameter and Neuron Pruning for Out-of-Distribution Detection ( http://arxiv.org/abs/2402.10062v1 )

ライセンス: Link先を確認
Chao Chen, Zhihang Fu, Kai Liu, Ze Chen, Mingyuan Tao, Jieping Ye(参考訳) 現実世界のシナリオにデプロイされた機械学習モデルでは、アウト・オブ・ディストリビューション(OOD)サンプルを検出する能力は不可欠で難しい。 既存のOOD検出手法のほとんどは、モデルが未知のサンプルに対して自信過剰な信頼スコアを得るのを防ぐために、高度なトレーニングスキルやトレーニング不要なトリックを探索することに焦点を当てている。 トレーニングベースでは、トレーニングデータからの事前情報を効率的に利用できない場合が多いが、トレーニングベースの手法では、高価なトレーニングコストと、常に利用可能なoodサンプルに依存する必要がある。 本稿では,これらのパラメータやニューロンの過剰適合を識別・除去することを目的とした, \textbf{o}ptimal \textbf{p}arameter と \textbf{n}euron \textbf{p}runing (\textbf{opnp}) アプローチを提案する。 主な方法は2つの段階に分けられる。 最初のステップでは, モデルパラメータとニューロンの感度を, 全てのトレーニングサンプルの平均勾配によって評価する。 第2ステップでは、予測のために、例外的に大きくまたは0に近い感度のパラメータとニューロンを除去する。 提案手法はトレーニングフリーであり,他のポストホック法と互換性を持ち,すべてのトレーニングデータから情報を探索する。 複数のOOD検出タスクとモデルアーキテクチャに対して大規模な実験を行い、提案したOPNPが既存の手法よりずっと優れていることを示す。

For a machine learning model deployed in real world scenarios, the ability of detecting out-of-distribution (OOD) samples is indispensable and challenging. Most existing OOD detection methods focused on exploring advanced training skills or training-free tricks to prevent the model from yielding overconfident confidence score for unknown samples. The training-based methods require expensive training cost and rely on OOD samples which are not always available, while most training-free methods can not efficiently utilize the prior information from the training data. In this work, we propose an \textbf{O}ptimal \textbf{P}arameter and \textbf{N}euron \textbf{P}runing (\textbf{OPNP}) approach, which aims to identify and remove those parameters and neurons that lead to over-fitting. The main method is divided into two steps. In the first step, we evaluate the sensitivity of the model parameters and neurons by averaging gradients over all training samples. In the second step, the parameters and neurons with exceptionally large or close to zero sensitivities are removed for prediction. Our proposal is training-free, compatible with other post-hoc methods, and exploring the information from all training data. Extensive experiments are performed on multiple OOD detection tasks and model architectures, showing that our proposed OPNP consistently outperforms the existing methods by a large margin.
翻訳日:2024-02-18 12:54:04 公開日:2024-02-04
# 2.4GHz無線人体部品配向トラッキングとアバター上の3次元運動可視化のためのカスタムIMUウェアラブルシステム

Custom IMU-Based Wearable System for Robust 2.4 GHz Wireless Human Body Parts Orientation Tracking and 3D Movement Visualization on an Avatar ( http://arxiv.org/abs/2402.09459v1 )

ライセンス: Link先を確認
Javier Gonz\'alez-Alonso, David Oviedo-Pastor, H\'ector J. Aguado, Francisco J. D\'iaz-Pernas, David Gonz\'alez-Ortega, and Mario Mart\'inez-Zarzuela(参考訳) 近年の研究では、慣性計測装置(IMU)を用いた人体動作解析システムの適用性が確認されている。 にもかかわらず、ハイエンドのIMUベースの商用ソリューションはまだ高価で複雑なので、幅広い潜在的なユーザーの間で利用を民主化できる。 市場には参入レベルの商用ソリューションがあまり導入されておらず、このギャップを埋めようとしているが、克服すべき制限がいくつか残っている。 同時に、医療やスポーツの分野では、商用ではなく独自のIMUベースのシステムを使う科学論文が増えている。 これらのソリューションは、この技術の使用を広めるのに役立ちますが、より限られた機能と、スクラッチからそれらを設計、構築する方法の説明は、文献にはまだ不足しています。 本研究の目的は,(1)複数部位同時方向追跡を目的とした手頃なカスタムソリューションの構築可能性を証明すること,および,リアルタイムに3次元運動を推定・表現するために必要なハードウェア,ツール,数学的操作の詳細なボトムアップ説明を提供することである。 2) チャネルホッピング戦略を含む2.4GHzのカスタム通信プロトコルの導入は, エントリーレベルの商用ソリューションの現在の通信制限にどのように対処できるかを示す。 提案システムは、少なくとも50Hz以上の10個のカスタムセンサーで、無線リアルタイムの人体部品の方向追跡に使用できる。 さらに、BluetoothとWi-Fiの混在した環境では、より信頼性の高いモーションデータ取得を提供する。 このシステムは、正確な運動解析を必要としない安価な人間の動き分析ソリューションを開発するための土台として使用できる。

Recent studies confirm the applicability of Inertial Measurement Unit (IMU)-based systems for human motion analysis. Notwithstanding, high-end IMU-based commercial solutions are yet too expensive and complex to democratize their use among a wide range of potential users. Less featured entry-level commercial solutions are being introduced in the market, trying to fill this gap, but still present some limitations that need to be overcome. At the same time, there is a growing number of scientific papers using not commercial, but custom do-it-yourself IMU-based systems in medical and sports applications. Even though these solutions can help to popularize the use of this technology, they have more limited features and the description on how to design and build them from scratch is yet too scarce in the literature. The aim of this work is two-fold: (1) Proving the feasibility of building an affordable custom solution aimed at simultaneous multiple body parts orientation tracking; while providing a detailed bottom-up description of the required hardware, tools, and mathematical operations to estimate and represent 3D movement in real-time. (2) Showing how the introduction of a custom 2.4 GHz communication protocol including a channel hopping strategy can address some of the current communication limitations of entry-level commercial solutions. The proposed system can be used for wireless real-time human body parts orientation tracking with up to 10 custom sensors, at least at 50 Hz. In addition, it provides a more reliable motion data acquisition in Bluetooth and Wi-Fi crowded environments, where the use of entry-level commercial solutions might be unfeasible. This system can be used as a groundwork for developing affordable human motion analysis solutions that do not require an accurate kinematic analysis.
翻訳日:2024-02-18 12:49:22 公開日:2024-02-04
# LLMインストラクションチューニングのためのデータ選択に関する調査

A Survey on Data Selection for LLM Instruction Tuning ( http://arxiv.org/abs/2402.05123v1 )

ライセンス: Link先を確認
Jiahao Wang, Bolin Zhang, Qianlong Du, Jiajun Zhang, Dianhui Chu(参考訳) 命令チューニングは大きな言語モデル(llm)を訓練するための重要なステップであり、命令チューニングの効果を高める方法が注目を集めている。 既存の研究は、LLMの命令チューニング時の量よりもデータセットの品質が重要であることを示している。 そのため,近年,指導データセットから高品質なサブセットを選択する方法を探究する研究が盛んに行われ,学習コストの削減とLLMの指導追従能力の向上が目指されている。 本稿では,LLM命令チューニングのためのデータ選択に関する包括的調査を行う。 まず、大々的に使われている命令データセットを紹介する。 そこで本研究では,データ選択手法の新しい分類法を提案し,最近の進歩の詳細な紹介を行い,データ選択手法の評価戦略と結果についても詳細に述べる。 最後に、オープンな課題と、このタスクの新たなフロンティアを強調します。

Instruction tuning is a vital step of training large language models (LLM), so how to enhance the effect of instruction tuning has received increased attention. Existing works indicate that the quality of the dataset is more crucial than the quantity during instruction tuning of LLM. Therefore, recently a lot of studies focus on exploring the methods of selecting high-quality subset from instruction datasets, aiming to reduce training costs and enhance the instruction-following capabilities of LLMs. This paper presents a comprehensive survey on data selection for LLM instruction tuning. Firstly, we introduce the wildly used instruction datasets. Then, we propose a new taxonomy of the data selection methods and provide a detailed introduction of recent advances,and the evaluation strategies and results of data selection methods are also elaborated in detail. Finally, we emphasize the open challenges and present new frontiers of this task.
翻訳日:2024-02-09 18:10:20 公開日:2024-02-04
# 生成型人工知能(ai)チャットボットの歴史--過去・現在・未来

History of generative Artificial Intelligence (AI) chatbots: past, present, and future development ( http://arxiv.org/abs/2402.05122v1 )

ライセンス: Link先を確認
Md. Al-Amin, Mohammad Shazed Ali, Abdus Salam, Arif Khan, Ashraf Ali, Ahsan Ullah, Md Nur Alam, Shamsul Kabir Chowdhury(参考訳) この研究は、ルールに依存した最初の基本システムから、人工知能を利用した今日の高度な会話ボットまで、チャットボット技術の進歩に関する詳細なレビューを提供する。 何十年もの間、この論文はチャットボットの進化を促した主要なマイルストーン、イノベーション、パラダイムシフトを探求している。 1906年の非常に基本的な統計モデル、例えば1960年代から1970年代にかけてのELIZAやALICEといった初期のチャットボットを振り返ると、この研究はChatGPTやGoogle Bardといった今日の高度な会話エージェントに繋がる重要なイノベーションを辿った。 この研究は、チューリングテストの導入、CALOのような影響力あるプロジェクト、最近のトランスフォーマーベースのモデルなど、学術文献や業界資料からの洞察を合成し、重要なマイルストーンを強調している。 この論文は、自然言語処理と機械学習が、より高度な機能のために現代のチャットボットにどのように統合されたかを強調している。 チャットボットのランドスケープに関するこの年次調査は、会話型AIを推進している技術的および歴史的要因を理解するための総合的な参照を提供する。 この歴史的な分析から学習を合成することで、研究はチャットボットの発達の軌跡と、それぞれの研究コミュニティと利害関係者にとって考えられる様々なアプリケーション分野におけるその巨大な将来可能性に関する重要なコンテキストを提供する。

This research provides an in-depth comprehensive review of the progress of chatbot technology over time, from the initial basic systems relying on rules to today's advanced conversational bots powered by artificial intelligence. Spanning many decades, the paper explores the major milestones, innovations, and paradigm shifts that have driven the evolution of chatbots. Looking back at the very basic statistical model in 1906 via the early chatbots, such as ELIZA and ALICE in the 1960s and 1970s, the study traces key innovations leading to today's advanced conversational agents, such as ChatGPT and Google Bard. The study synthesizes insights from academic literature and industry sources to highlight crucial milestones, including the introduction of Turing tests, influential projects such as CALO, and recent transformer-based models. Tracing the path forward, the paper highlights how natural language processing and machine learning have been integrated into modern chatbots for more sophisticated capabilities. This chronological survey of the chatbot landscape provides a holistic reference to understand the technological and historical factors propelling conversational AI. By synthesizing learnings from this historical analysis, the research offers important context about the developmental trajectory of chatbots and their immense future potential across various field of application which could be the potential take ways for the respective research community and stakeholders.
翻訳日:2024-02-09 18:10:06 公開日:2024-02-04
# テーブル処理のための大規模言語モデル:調査

Large Language Model for Table Processing: A Survey ( http://arxiv.org/abs/2402.05121v1 )

ライセンス: Link先を確認
Weizheng Lu and Jiaming Zhang and Jing Zhang and Yueguo Chen(参考訳) データベースクエリやスプレッドシートの計算、webテーブルからのレポート生成など、日々のアクティビティには、通常2次元で大量のデータを格納するように構成されたテーブルが不可欠である。 テーブル中心のタスクを大規模言語モデル(llm)で自動化することは、大きな公共の利益をもたらし、学界や業界から関心を集めている。 この調査はテーブルタスクの広範な概要を提供し、テーブル質問応答(テーブルqa)や事実検証といった従来の領域だけでなく、テーブル操作や高度なテーブルデータ分析といった新たな側面も取り上げている。 加えて、LLMの使用の最近のパラダイムを含むように、事前トレーニングと微調整の小さな言語モデルの初期戦略を超えています。 特に、LLMの領域における命令チューニング、プロンプト、エージェントベースのアプローチに焦点を当てている。 最後に,プライベートデプロイメントや効率的な推論から,テーブル操作や高度なデータ解析のための広範なベンチマークの開発まで,いくつかの課題を取り上げる。

Tables, typically two-dimensional and structured to store large amounts of data, are essential in daily activities like database queries, spreadsheet calculations, and generating reports from web tables. Automating these table-centric tasks with Large Language Models (LLMs) offers significant public benefits, garnering interest from academia and industry. This survey provides an extensive overview of table tasks, encompassing not only the traditional areas like table question answering (Table QA) and fact verification, but also newly emphasized aspects such as table manipulation and advanced table data analysis. Additionally, it goes beyond the early strategies of pre-training and fine-tuning small language models, to include recent paradigms in LLM usage. The focus here is particularly on instruction-tuning, prompting, and agent-based approaches within the realm of LLMs. Finally, we highlight several challenges, ranging from private deployment and efficient inference to the development of extensive benchmarks for table manipulation and advanced data analysis.
翻訳日:2024-02-09 18:09:39 公開日:2024-02-04
# 地球規模の海面変動の総合化のためのアプリケーション開発について

On the development of an application for the compilation of global sea level changes ( http://arxiv.org/abs/2402.02582v1 )

ライセンス: Link先を確認
Mihir Odhavji and Maria Alexandra Oliveira and Jo\~ao Nuno Silva(参考訳) 世界中の研究から平均的な海面変動に関する多くのデータが得られている。 このデータは分散され、標準化とともに組織に欠如しており、ほとんどの場合、オンラインでは利用できない。 あるケースでは、それが利用可能になると、しばしば非実践的な方法と異なるフォーマットになる。 分析は非効率で、非常に時間がかかります。 それに加えて、空間的時間データをうまく処理するためには、PostGIS、PostgreSQL、GeoAlchemyといった地理的データに使用される特定のスキルとツールをユーザが備えなければならない。 提示されたソリューションは、研究者が直面する問題のいくつかを解決するwebアプリケーションを開発することである。 Webアプリケーションでは、ユーザがデータを追加したり、ブラウザのフォームを経由したり、APIの助けを借りて自動化することができる。 また、テーブルを作成し、地図を表示し、グラフを描画することで、データのクエリ、処理、視覚化を支援する。 異なる領域と出版物からのデータポイントを比較することも可能である。 実装されたWebアプリケーションは、簡単でアクセスが容易でユーザフレンドリーな方法で、平均海面変動に関する時空間データのクエリと格納を可能にする。 また、よりグローバルな研究の実現も可能にしている。

There is a lot of data about mean sea level variation from studies conducted around the globe. This data is dispersed, lacks organization along with standardization, and in most cases, it is not available online. In some instances, when it is available, it is often in unpractical ways and different formats. Analyzing it would be inefficient and very time-consuming. In addition to all of that, to successfully process spatial-temporal data, the user has to be equipped with particular skills and tools used for geographic data like PostGIS, PostgreSQL and GeoAlchemy. The presented solution is to develop a web application that solves some of the issues faced by researchers. The web application allows the user to add data, be it through forms in a browser or automated with the help of an API. The application also assists with data querying, processing and visualization by making tables, showing maps and drawing graphs. Comparing data points from different areas and publications is also made possible. The implemented web application permits the query and storage of spatial-temporal data about mean sea level variation in a simplified, easily accessible and user-friendly manner. It will also allow the realization of more global studies.
翻訳日:2024-02-09 18:09:23 公開日:2024-02-04
# 高等教育学生の視点から見たデジタル・ディトラクション

Digital Distractions from the Point of View of Higher Education Students ( http://arxiv.org/abs/2402.05249v1 )

ライセンス: Link先を確認
Mar\'ia \'Angeles P\'erez-Ju\'arez, David Gonz\'alez-Ortega, and Javier Manuel Aguiar-P\'erez(参考訳) テクノロジーはより持続的で普遍的な教育モデルを可能にする。 しかし、テクノロジーは学生の生活にパラドックスをもたらしており、学習活動に従事するのに役立つが、注意散らしの源でもある。 2021-2022年、著者らは教室の気晴らしに着目した研究を行った。 目的の1つは、学生の視点から主要なデジタル障害を特定することであった。 この研究は工学系学校で行われ、そこでは技術が教室や教師や学生の学術的ルーチンに完全に統合されている。 二変量相関に基づく統計的研究を補完する議論と調査を参加者の学生に実施した(n = 105)。 学生は、デジタルの気晴らしが研究室のセッションでのパフォーマンスに大きな影響を与えると考えた。 主に即興演奏として自己評価された。 他の現代研究とは対照的に,課題は学生の背景によらず重要であるため,研究年度の影響を受けなかった。 教員は、生徒がデジタル的注意散らしによる顕著なネガティブな影響に対する意識を高め、生徒の自己制御スキルを発達させる戦略を実践すべきである。 これは、長期的に持続可能な技術の使用にとって極めて重要である。

Technology enables a more sustainable and universally accessible educational model. However, technology has brought a paradox into students' lives: it helps them engage in learning activities, but it is also a source of distraction. During the academic year 2021-2022, the authors conducted a study focusing on classroom distractions. One of the objectives was to identify the main digital distractions from the point of view of students. The study was carried out at an engineering school, where technology is fully integrated in the classroom and in the academic routines of teachers and students. Discussions and surveys, complemented by a statistical study based on bivariate correlations, were used with participating students (n = 105). Students considered digital distractions to have a significant impact on their performance in lab sessions. This performance was mainly self-assessed as improvable. Contrary to other contemporary research, the results were not influenced by the year of study of the subject, as the issue is important regardless of the students' backgrounds. Professors should implement strategies to raise students' awareness of the significant negative effects of digital distractions on their performance, as well as to develop students' self-control skills. This is of vital importance for the use of technology to be sustainable in the long-term.
翻訳日:2024-02-09 17:20:33 公開日:2024-02-04
# 運転シミュレータにおけるKinectとOculusによる視線領域推定法の比較解析

Comparative Analysis of Kinect-Based and Oculus-Based Gaze Region Estimation Methods in a Driving Simulator ( http://arxiv.org/abs/2402.05248v1 )

ライセンス: Link先を確認
David Gonz\'alez-Ortega, Francisco Javier D\'iaz-Perna, Mario Mart\'inez-Zarzuela and M\'iriam Ant\'on-Rodr\'iguez(参考訳) 運転者の視線情報は運転者の注意との関係から、運転研究において重要である。 特に、運転シミュレーターに視線データを含めることで、運転者の視線パターンと特徴や性能を関連付けることができるため、研究の範囲を広げる。 本稿では,運転シミュレータに統合された2つの視線領域推定モジュールを提案する。 1つは3D Kinectデバイス、もう1つはバーチャルリアリティーのOculus Riftデバイスだ。 モジュールは、運転シーンが分割された7つの領域のうち、ルート処理されたフレームごとにドライバーが注視している領域を検出することができる。 視線変位と頭部運動の関係を学習する視線推定法を4つの手法で実装し比較した。 2つはより単純で、この関係を捉えようとする点に基づいており、2つはMLPやSVMのような分類器に基づいている。 12人のユーザーが同じシナリオを2回運転し、それぞれ異なる視覚化ディスプレイを搭載し、まず大きなスクリーンで、その後Oculus Riftで実験を行った。 oculus riftは、視線推定の最高のハードウェアとしてkinectを抜いた。 最高性能のoculusベースの視線領域推定手法は97.94%の精度を達成した。 Oculus Riftモジュールが提供する情報は、駆動シミュレータデータを強化し、Oculusが提供するバーチャルリアリティ体験によって得られる没入感とリアリズムとは別に、マルチモーダル駆動パフォーマンス分析を可能にする。

Driver's gaze information can be crucial in driving research because of its relation to driver attention. Particularly, the inclusion of gaze data in driving simulators broadens the scope of research studies as they can relate drivers' gaze patterns to their features and performance. In this paper, we present two gaze region estimation modules integrated in a driving simulator. One uses the 3D Kinect device and another uses the virtual reality Oculus Rift device. The modules are able to detect the region, out of seven in which the driving scene was divided, where a driver is gazing at in every route processed frame. Four methods were implemented and compared for gaze estimation, which learn the relation between gaze displacement and head movement. Two are simpler and based on points that try to capture this relation and two are based on classifiers such as MLP and SVM. Experiments were carried out with 12 users that drove on the same scenario twice, each one with a different visualization display, first with a big screen and later with Oculus Rift. On the whole, Oculus Rift outperformed Kinect as the best hardware for gaze estimation. The Oculus-based gaze region estimation method with the highest performance achieved an accuracy of 97.94%. The information provided by the Oculus Rift module enriches the driving simulator data and makes it possible a multimodal driving performance analysis apart from the immersion and realism obtained with the virtual reality experience provided by Oculus.
翻訳日:2024-02-09 17:20:13 公開日:2024-02-04
# ステージ:動的に変化する環境のためのスケーラブルでトラバーサビリティ・アウェアなグラフベースの探索プランナー

STAGE: Scalable and Traversability-Aware Graph based Exploration Planner for Dynamically Varying Environments ( http://arxiv.org/abs/2402.02566v1 )

ライセンス: Link先を確認
Akash Patel, Mario A V Saucedo, Christoforos Kanellakis and George Nikolakopoulos(参考訳) 本稿では,環境の2層グラフ表現を効果的に活用して大規模探索を行う新しいナビゲーションフレームワークを提案する。 このフレームワークは、ゴール指向の新たなグラフ表現を中心に構成されている。 i) ローカルなサブグラフと 二 それぞれグローバルグラフ層 ローカルサブグラフは、直接点雲の可視性に基づいて、フロンティアとしてローカルボリュームゲインロケーションを符号化し、高速なグラフ構築とパス計画を可能にする。 さらに、グローバルグラフは、シーケンシャルなサブグラフの重なり合う領域にのみノードエッジ情報交換を使用することで、効率的な方法で構築される。 現状のグラフベース探索法と異なり,提案手法では,前回のイテレーションで構築したサブグラフを効率的に再利用し,グローバルナビゲーション層を構築する。 提案方式のもう1つの利点は、シーン変更(例えば、ブロックされた経路)を処理でき、グローバルグラフの障害部分をトラバース可能からトラバース不可能に適応的に更新できることである。 この操作は、グローバルグラフ層内のパスセグメントの向き付けられたサンプル空間を含み、障害が発生した場合、グローバルグラフの連結ノードから各エッジを除去する。 このように、探索行動は、グローバルグラフの経路更新を通じて、グローバル再配置フェーズにおける別の経路に従うようロボットに指示する。 最後に,カメラとライダーセンサーを装着した脚付きロボットを実環境に配置し,シミュレーション動作および実環境に配置した手法の性能を示す。

In this article, we propose a novel navigation framework that leverages a two layered graph representation of the environment for efficient large-scale exploration, while it integrates a novel uncertainty awareness scheme to handle dynamic scene changes in previously explored areas. The framework is structured around a novel goal oriented graph representation, that consists of, i) the local sub-graph and ii) the global graph layer respectively. The local sub-graphs encode local volumetric gain locations as frontiers, based on the direct pointcloud visibility, allowing fast graph building and path planning. Additionally, the global graph is build in an efficient way, using node-edge information exchange only on overlapping regions of sequential sub-graphs. Different from the state-of-the-art graph based exploration methods, the proposed approach efficiently re-uses sub-graphs built in previous iterations to construct the global navigation layer. Another merit of the proposed scheme is the ability to handle scene changes (e.g. blocked pathways), adaptively updating the obstructed part of the global graph from traversable to not-traversable. This operation involved oriented sample space of a path segment in the global graph layer, while removing the respective edges from connected nodes of the global graph in cases of obstructions. As such, the exploration behavior is directing the robot to follow another route in the global re-positioning phase through path-way updates in the global graph. Finally, we showcase the performance of the method both in simulation runs as well as deployed in real-world scene involving a legged robot carrying camera and lidar sensor.
翻訳日:2024-02-08 18:46:58 公開日:2024-02-04
# 持続可能なAIデータセンターのためのニューロモルフィックハードウェア

Neuromorphic hardware for sustainable AI data centers ( http://arxiv.org/abs/2402.02521v1 )

ライセンス: Link先を確認
Bernhard Vogginger, Amirhossein Rostami, Vaibhav Jain, Sirine Arfa, Andreas Hantsch, David Kappel, Michael Sch\"afer, Ulrike Faltings, Hector A. Gonzalez, Chen Liu, Christian Mayr(参考訳) 人間がより高度な人工知能に向かって進むと、常に計算資源の消費をエスカレートするコストがかかり、AIコンピューティング需要の指数的な成長に対応する新しいソリューションを開発する必要がある。 ニューロモルフィックハードウェアは、脳が情報を処理する方法からインスピレーションを得て、AIワークロードのエネルギー効率の高いコンピューティングを約束する。 潜在能力にもかかわらず、ニューロモルフィックなハードウェアは商用のaiデータセンターでは使われていない。 本稿では、本論文では、本研究の根本的な理由を分析し、効率的で持続可能なクラウドコンピューティングのためのニューロモルフィックシステムを促進するための要件とガイドラインを導出する。 次に、ニューロモーフィックアルゴリズム研究のさらなる方向として、aiデータセンターに一般的にデプロイされるアプリケーション、モデル、アルゴリズムを特定する。 最後に、ニューロモルフィックシステムをデータセンターにハードウェアとソフトウェアを統合するための要件とベストプラクティスを導出します。 この記事では,ニューロモルフィックハードウェアをデータセンタに統合する上での課題に対する認識を高め,持続可能なエネルギー効率の高いAIを大規模に実現するためのコミュニティの指導を期待する。

As humans advance toward a higher level of artificial intelligence, it is always at the cost of escalating computational resource consumption, which requires developing novel solutions to meet the exponential growth of AI computing demand. Neuromorphic hardware takes inspiration from how the brain processes information and promises energy-efficient computing of AI workloads. Despite its potential, neuromorphic hardware has not found its way into commercial AI data centers. In this article, we try to analyze the underlying reasons for this and derive requirements and guidelines to promote neuromorphic systems for efficient and sustainable cloud computing: We first review currently available neuromorphic hardware systems and collect examples where neuromorphic solutions excel conventional AI processing on CPUs and GPUs. Next, we identify applications, models and algorithms which are commonly deployed in AI data centers as further directions for neuromorphic algorithms research. Last, we derive requirements and best practices for the hardware and software integration of neuromorphic systems into data centers. With this article, we hope to increase awareness of the challenges of integrating neuromorphic hardware into data centers and to guide the community to enable sustainable and energy-efficient AI at scale.
翻訳日:2024-02-08 18:46:32 公開日:2024-02-04
# 拡張現実デバイスによる超音波生検:システム性能向上に向けて

Navigate Biopsy with Ultrasound under Augmented Reality Device: Towards Higher System Performance ( http://arxiv.org/abs/2402.02414v1 )

ライセンス: Link先を確認
Haowei Li, Wenqing Yan, Jiasheng Zhao, Yuqi Ji, Long Qian, Hui Ding, Zhe Zhao, Guangzhi Wang(参考訳) 目的: 生検は腫瘍の分類と分類において重要な役割を担っている。 超音波はリアルタイム解剖情報を提供するために頻繁に用いられる。 拡張現実(ar)を使うことで、外科医は超音波データと空間ナビゲーション情報を実組織とシームレスに統合することができる。 この革新はより高速で正確な生検操作を促進する。 方法: 表示遅延が低く高精度なARバイオプシーナビゲーションシステムを開発した。 超音波データはまずイメージキャプチャカードで読み取り、ネット通信を介してUnityにストリームされる。 Unityでは、ナビゲーション情報がレンダリングされ、ホログラフィックリモーティングを使用してHoloLens 2デバイスに送信される。 hololens 2では、超音波プローブと生検針を同時に追跡できるレトロ反射型ツールトラッキングが実装されている。 固有ナビゲーション情報は、機内および機外句読時に提供される。 本システムの有効性を評価するため,従来の方法と比較し,穿刺精度と生検時間について10名を対象に検討を行った。 結果: 提案したフレームワークは、追加のレイテンシでわずか16.22\pm11.45msでARの超音波可視化を可能にする。 航法精度は1.23 pm 0.68mm$、0.95 pm 0.70mm$に達した。 驚くべきことに, 本システムの利用は, 面外生検および面内生検において, 98\%$および95\%$成功率をもたらした。 結論:本稿では,高いナビゲーション精度と最小レイテンシを特徴とするarベースの超音波生検ナビゲーションシステムを提案する。 このシステムは、異なる特性に応じて、面内および面外操作中に異なる可視化コンテンツを提供する。 そこで本研究では,若手外科医の生検を迅速かつ正確に行うことができることを示す。

Purpose: Biopsies play a crucial role in determining the classification and staging of tumors. Ultrasound is frequently used in this procedure to provide real-time anatomical information. Using augmented reality (AR), surgeons can visualize ultrasound data and spatial navigation information seamlessly integrated with real tissues. This innovation facilitates faster and more precise biopsy operations. Methods: We developed an AR biopsy navigation system with low display latency and high accuracy. Ultrasound data is initially read by an image capture card and streamed to Unity via net communication. In Unity, navigation information is rendered and transmitted to the HoloLens 2 device using holographic remoting. Retro-reflective tool tracking is implemented on the HoloLens 2, enabling simultaneous tracking of the ultrasound probe and biopsy needle. Distinct navigation information is provided during in-plane and out-of-plane punctuation. To evaluate the effectiveness of our system, we conducted a study involving ten participants, for puncture accuracy and biopsy time, comparing to traditional methods. Results: Our proposed framework enables ultrasound visualization in AR with only $16.22\pm11.45ms$ additional latency. Navigation accuracy reached $1.23\pm 0.68mm$ in the image plane and $0.95\pm 0.70mm$ outside the image plane. Remarkably, the utilization of our system led to $98\%$ and $95\%$ success rate in out-of-plane and in-plane biopsy. Conclusion: To sum up, this paper introduces an AR-based ultrasound biopsy navigation system characterized by high navigation accuracy and minimal latency. The system provides distinct visualization contents during in-plane and out-of-plane operations according to their different characteristics. Use case study in this paper proved that our system can help young surgeons perform biopsy faster and more accurately.
翻訳日:2024-02-08 18:45:42 公開日:2024-02-04
# 移動・変形物体追跡のための高速・グリッドレスORKAアルゴリズム

A fast and gridless ORKA algorithm for tracking moving and deforming objects ( http://arxiv.org/abs/2402.02395v1 )

ライセンス: Link先を確認
Florian Bossmann, Jianwei Ma, Wenze wu(参考訳) 与えられたデータ内のオブジェクトの識別は、多くのアプリケーションで頻繁に発生するタスクである。 ビデオデータから車両や人物を見つけ、物理探査データから地震波を追跡したり、気象観測から嵐前線の動きを予測することは、可能な応用のごく一部にすぎない。 多くの場合、興味の対象はその形や位置をある測定値から別の測定値に変更する。 例えば、ビデオの中の車両は、各フレームのカメラの位置や角度を変えることができる。 地震波は、センサーの位置に応じて到着時間、周波数、強度を変えることができる。 ストームフロントは時間とともに形や位置を変えることができる。 これは、アルゴリズムが所定の測定値よりも変化するオブジェクトを扱う必要があるため、識別と追跡を複雑にする。 前回の研究で、著者らはこの問題を解決する新しいアルゴリズム、すなわち K-approximation (ORKA) を用いたオブジェクト再構成を提案した。 このアルゴリズムは手作業で問題を解決できるが、2つの欠点がある。 一方、再構成されたオブジェクトの動きは、データ解像度に依存するグリッドに縛られている。 一方,アルゴリズムの複雑性は分解能とともに指数関数的に増大する。 我々は,データの多重解像度を生成するために,再サンプリング手法を用いた反復的戦略を導入することで,両者の欠点を克服した。 各イテレーションで解像度が向上し、関心のあるオブジェクトのさらなる詳細を再構築する。 こうすることで、データを人工的にアップサンプリングすることで、元の解像度を超えることができるのです。 我々は,新しい手法の誤差境界と複雑性解析を行う。 さらに,いくつかの数値実験と実データを用いて,その性能を解析する。 また、元のORKAアルゴリズムについて簡単な紹介を行う。 そのため、前作の知識は必要とされない。

Identifying objects in given data is a task frequently encountered in many applications. Finding vehicles or persons in video data, tracking seismic waves in geophysical exploration data, or predicting a storm front movement from meteorological measurements are only some of the possible applications. In many cases, the object of interest changes its form or position from one measurement to another. For example, vehicles in a video may change its position or angle to the camera in each frame. Seismic waves can change its arrival time, frequency, or intensity depending on the sensor position. Storm fronts can change its form and position over time. This complicates the identification and tracking as the algorithm needs to deal with the changing object over the given measurements. In a previous work, the authors presented a new algorithm to solve this problem - Object reconstruction using K-approximation (ORKA). The algorithm can solve the problem at hand but suffers from two disadvantages. On the one hand, the reconstructed object movement is bound to a grid that depends on the data resolution. On the other hand, the complexity of the algorithm increases exponentially with the resolution. We overcome both disadvantages by introducing an iterative strategy that uses a resampling method to create multiple resolutions of the data. In each iteration the resolution is increased to reconstruct more details of the object of interest. This way, we can even go beyond the original resolution by artificially upsampling the data. We give error bounds and a complexity analysis of the new method. Furthermore, we analyze its performance in several numerical experiments as well as on real data. We also give a brief introduction on the original ORKA algorithm. Knowledge of the previous work is thus not required.
翻訳日:2024-02-08 18:45:17 公開日:2024-02-04
# 自律学習と二足歩行のスピードを改善する脳-身体-タスク共適応

Brain-Body-Task Co-Adaptation can Improve Autonomous Learning and Speed of Bipedal Walking ( http://arxiv.org/abs/2402.02387v1 )

ライセンス: Link先を確認
Dar\'io Urbina-Mel\'endez, Hesam Azadjou, Francisco J. Valero-Cuevas(参考訳) 脳と体を協調して環境と相互作用させる動物にインスパイアされた我々は、腱駆動で過剰に作動する(n関節、n+1アクチュエーター)二足歩行ロボットを提示する。 (i)その逆処理可能な機械的特性を利用して、明示的な制御なしに体-環境相互作用を管理する。 (ii)単純な3層ニューラルネットワークを用いて「自然な」モーターバブリングのわずか2分後に歩くことを学ぶ(つまり、脚とタスクダイナミクスと互換性のある探索戦略;子供遊びに似ている)。 この脳と身体の協調は、まず「空気中」に足の循環運動を生じさせ、さらにチューニングすることなく、二足歩行を下げて地面とわずかに接触した場合に運動を生じさせる。 対照的に、2分間の「ナイーブ」運動バブリング(足の作業ダイナミクスを無視する探索戦略)によるトレーニングは、一貫した循環運動を「空気中」に生成せず、地面との接触時に不規則な動きを生じない。 さらに二足歩行を下降させ,所望の脚軌跡を1cm下降させると(所望のvs軌道誤差は避けられない)、自然的または裸的バブリングに基づく循環運動はほぼ同じ傾向を示し、ナイーブバブリングにより移動が出現した。 そこで本研究では,不測の状況下での歩行の連続学習が,植物の逆行性特性に根ざした連続的適応と,植物の動態を生かした探索戦略によって促進されることを示す。 また, バイオインスパイアされた手足のコードサインと協調適応が, 軌道誤差を明示的に制御することなく移動を創出できることを示した。

Inspired by animals that co-adapt their brain and body to interact with the environment, we present a tendon-driven and over-actuated (i.e., n joint, n+1 actuators) bipedal robot that (i) exploits its backdrivable mechanical properties to manage body-environment interactions without explicit control, and (ii) uses a simple 3-layer neural network to learn to walk after only 2 minutes of 'natural' motor babbling (i.e., an exploration strategy that is compatible with leg and task dynamics; akin to childsplay). This brain-body collaboration first learns to produce feet cyclical movements 'in air' and, without further tuning, can produce locomotion when the biped is lowered to be in slight contact with the ground. In contrast, training with 2 minutes of 'naive' motor babbling (i.e., an exploration strategy that ignores leg task dynamics), does not produce consistent cyclical movements 'in air', and produces erratic movements and no locomotion when in slight contact with the ground. When further lowering the biped and making the desired leg trajectories reach 1cm below ground (causing the desired-vs-obtained trajectories error to be unavoidable), cyclical movements based on either natural or naive babbling presented almost equally persistent trends, and locomotion emerged with naive babbling. Therefore, we show how continual learning of walking in unforeseen circumstances can be driven by continual physical adaptation rooted in the backdrivable properties of the plant and enhanced by exploration strategies that exploit plant dynamics. Our studies also demonstrate that the bio-inspired codesign and co-adaptations of limbs and control strategies can produce locomotion without explicit control of trajectory errors.
翻訳日:2024-02-08 18:44:56 公開日:2024-02-04
# 基礎モデルを用いたロボティクスに関する調査--エンボディードAIに向けて

A Survey on Robotics with Foundation Models: toward Embodied AI ( http://arxiv.org/abs/2402.02385v1 )

ライセンス: Link先を確認
Zhiyuan Xu, Kun Wu, Junjie Wen, Jinming Li, Ning Liu, Zhengping Che, Jian Tang(参考訳) インボディードAIの探索は数十年にわたって行われてきたが、認知、学習、推論、意思決定、制御、一般化機能など、エージェントに人間レベルの知性を与えることは、オープンで非構造化された動的環境において汎用的なタスクを実行するための永続的な課題である。 近年のコンピュータビジョン,自然言語処理,マルチモーダリティ学習の進歩は,基礎モデルが特定のタスクに対して超人的能力を持つことを示している。 彼らは、基本的なモジュールを具体化されたAIシステムに統合するための確かな基盤を提供するだけでなく、方法論の観点からロボット学習のスケールアップ方法にも光を当てている。 本調査はロボット工学の基礎モデルの包括的かつ最新の概観を提供することを目的としており、自律的な操作と高レベルの計画と低レベルの制御に焦点を当てている。 さらに、よく使われるデータセット、シミュレータ、ベンチマークも紹介する。 重要なのは、この分野に内在する重要な課題を強調し、将来の研究への道筋を明確にし、学術的および産業的な談話のフロンティアを前進させることに寄与している。

While the exploration for embodied AI has spanned multiple decades, it remains a persistent challenge to endow agents with human-level intelligence, including perception, learning, reasoning, decision-making, control, and generalization capabilities, so that they can perform general-purpose tasks in open, unstructured, and dynamic environments. Recent advances in computer vision, natural language processing, and multi-modality learning have shown that the foundation models have superhuman capabilities for specific tasks. They not only provide a solid cornerstone for integrating basic modules into embodied AI systems but also shed light on how to scale up robot learning from a methodological perspective. This survey aims to provide a comprehensive and up-to-date overview of foundation models in robotics, focusing on autonomous manipulation and encompassing high-level planning and low-level control. Moreover, we showcase their commonly used datasets, simulators, and benchmarks. Importantly, we emphasize the critical challenges intrinsic to this field and delineate potential avenues for future research, contributing to advancing the frontier of academic and industrial discourse.
翻訳日:2024-02-08 18:44:19 公開日:2024-02-04
# 量子パンプロト心理学と組み合わせ問題

Quantum panprotopsychism and the combination problem ( http://arxiv.org/abs/2402.03393v1 )

ライセンス: Link先を確認
Rodolfo Gambini and Jorge Pullin(参考訳) 意識の現象学的分析は、フッサールのそれと同様、現象的性質の影響が私たちの世界観を形作ることを示していると論じる。 また、物理的および数学的科学の動作の仕方も示しており、観測された規則を通信可能な数学的法則で正確に記述することができる。 後者は本質的な特徴について何も言わない。 それらは、その行動の観察された規則性のみを参照し、宇宙の仕組みを厳密に記述し、あらゆる存在論が従わなければならない。 古典的機械論的決定論は、瞬時に起こることを全て制限し、新しさやエピフェノミナルでない内在的な側面の余地を残さない。 量子確率的決定論(quantum probabilistic determinism)は、物体の公理、ある状態の系、そしてそれらが他の物体で生成する事象から生じるオントロジーを真剣に取り込むと変化する。 約1世紀前にバートランド・ラッセルが指摘したように、事象のオントロジーは、現在パンプロト心理学として知られている内的現象的側面を持ち、意識の現象的側面を説明するのに適している。 本研究の中心的な見解は,スーパーベニエンスに関する古典物理学に基づく暗黙の仮説から,汎心理学と汎プロト心理学に対する多くの反対が生じることである。 これらは、指数的な数の創発性や状態が生じる量子レベルでは不適切である。 この分析は、脳内の量子認知メカニズムの可能な実装に条件を課している。

We will argue that a phenomenological analysis of consciousness, similar to that of Husserl, shows that the effects of phenomenal qualities shape our perception of the world. It also shows the way the physical and mathematical sciences operate, allowing us to accurately describe the observed regularities in terms of communicable mathematical laws. The latter say nothing about the intrinsic features of things. They only refer to the observed regularities in their behaviors, providing rigorous descriptions of how the universe works, to which any viable ontology must conform. Classical mechanistic determinism limits everything that can occur to what happens in an instant and leaves no room for novelty or any intrinsic aspect that is not epiphenomenal. The situation changes with quantum probabilistic determinism if one takes seriously the ontology that arises from its axioms of objects, systems in certain states, and the events they produce in other objects. As Bertrand Russell pointed out almost a century ago, an ontology of events, with an internal phenomenal aspect, now known as panprotopsychism, is better suited to explaining the phenomenal aspects of consciousness. The central observation of this paper is that many objections to panpsychism and panprotopsychism, which are usually called the combination problem, arise from implicit hypotheses based on classical physics about supervenience. These are inappropriate at the quantum level, where an exponential number of emergent properties and states arise. The analysis imposes conditions on the possible implementations of quantum cognition mechanisms in the brain.
翻訳日:2024-02-07 18:51:21 公開日:2024-02-04
# UniTSyn: プログラムテストのための大規模言語モデルを拡張可能な大規模データセット

UniTSyn: A Large-Scale Dataset Capable of Enhancing the Prowess of Large Language Models for Program Testing ( http://arxiv.org/abs/2402.03396v1 )

ライセンス: Link先を確認
Yifeng He, Jiabo Huang, Yuyang Rong, Yiwen Guo, Ethan Wang, Hao Chen(参考訳) 高品質なコードを生成するための大きな言語モデル(LLM)の顕著な能力は、ソフトウェアテストコミュニティで注目を集めています。 しかし、既存のコードLLMは、テスト目的のコードと他のコードとの差別化なしに収集されたコードスニペットで訓練されたため、正確で完全なテストを生成するのに満足できない機能を示すことが多い。 本稿では,ユニット・テスト・シンセサイザーのためのLLMの高度化が可能な大規模データセットUniTSynを提案する。 テストとテスト関数を関連付けることは、LLMが期待する振る舞いと検証すべき論理パスを推測することが重要である。 Language Server Protocolを活用することで、UniTSynは、プロジェクトごとの実行セットアップや、脆弱でスケールが難しい言語ごとのヒューリスティックを使わずに、フォーカス-テストペアを集めるという難しい目標を達成する。 メインストリームプログラミング言語5言語に270万の焦点テストペアが含まれており、LLMのテスト生成能力の向上に利用することができる。 UniTSynの詳細はTable 1で確認できる。 実験により,UniTSynをベースとした自己回帰モデルを構築することにより,単体テスト表現の学習と理解において大きなメリットが得られ,その結果,すべての評価されたプログラミング言語における生成精度とコードカバレッジが向上することが実証された。 コードとデータは公開される予定だ。

The remarkable capability of large language models (LLMs) in generating high-quality code has drawn increasing attention in the software testing community. However, existing code LLMs often demonstrate unsatisfactory capabilities in generating accurate and complete tests since they were trained on code snippets collected without differentiating between code for testing purposes and other code. In this paper, we present a large-scale dataset UniTSyn, which is capable of enhancing the prowess of LLMs for Unit Test Synthesis. Associating tests with the tested functions is crucial for LLMs to infer the expected behavior and the logic paths to be verified. By leveraging Language Server Protocol, UniTSyn achieves the challenging goal of collecting focal-test pairs without per-project execution setups or per-language heuristics that tend to be fragile and difficult to scale. It contains 2.7 million focal-test pairs across five mainstream programming languages, making it possible to be utilized for enhancing the test generation ability of LLMs. The details of UniTSyn can be found in Table 1. Our experiments demonstrate that, by building an autoregressive model based on UniTSyn, we can achieve significant benefits in learning and understanding unit test representations, resulting in improved generation accuracy and code coverage across all evaluated programming languages. Code and data will be publicly available.
翻訳日:2024-02-07 18:37:43 公開日:2024-02-04
# PixelGen:組み込みカメラシステムを再考

PixelGen: Rethinking Embedded Camera Systems ( http://arxiv.org/abs/2402.03390v1 )

ライセンス: Link先を確認
Kunjun Li, Manoj Gulati, Steven Waskito, Dhairya Shah, Shantanu Chakrabarty, Ambuj Varshney(参考訳) 組み込みカメラシステムはユビキタスであり、無線組み込みシステムの最も広く使われている例である。 彼らは世界の表現を捉え、周囲は可視光や赤外線で照らされている。 広く使われているにもかかわらず、組み込みカメラシステムのアーキテクチャは変わらず、限界をもたらしている。 彼らは世界のごく一部だけを視覚化します。 さらに、エネルギー集約性があり、バッテリー寿命は限られている。 組み込みカメラシステムを再想像するPixelGenを紹介する。 具体的には、PixelGenはセンサー、トランシーバー、低解像度の画像と赤外線の視覚センサーを組み合わせて、より広い世界表現を捉えている。 それらは、シンプルさ、ビットレートの低さ、消費電力のために意図的に選ばれ、エネルギー効率の高いプラットフォームに到達します。 単純さにもかかわらず、キャプチャされたデータはトランスフォーマーベースのイメージと言語モデルを使って処理でき、環境の新しい表現を生成することができる。 例えば、低消費電力で低解像度のモノクロームカメラを利用することで、高精細画像の生成を可能にすることを示す。 さらに、PixelGenの機能は従来の写真を超えて、音波のような従来のカメラでは見えない現象の可視化を可能にする。 PixelGenは多くの新しいアプリケーションを可能にし、拡張現実ヘッドセットに投影された周囲のユニークな視覚化を可能にすることを実証する。 PixelGenは従来のカメラを超え、研究と写真のための新たな道を開くだろう。

Embedded camera systems are ubiquitous, representing the most widely deployed example of a wireless embedded system. They capture a representation of the world - the surroundings illuminated by visible or infrared light. Despite their widespread usage, the architecture of embedded camera systems has remained unchanged, which leads to limitations. They visualize only a tiny portion of the world. Additionally, they are energy-intensive, leading to limited battery lifespan. We present PixelGen, which re-imagines embedded camera systems. Specifically, PixelGen combines sensors, transceivers, and low-resolution image and infrared vision sensors to capture a broader world representation. They are deliberately chosen for their simplicity, low bitrate, and power consumption, culminating in an energy-efficient platform. We show that despite the simplicity, the captured data can be processed using transformer-based image and language models to generate novel representations of the environment. For example, we demonstrate that it can allow the generation of high-definition images, while the camera utilises low-power, low-resolution monochrome cameras. Furthermore, the capabilities of PixelGen extend beyond traditional photography, enabling visualization of phenomena invisible to conventional cameras, such as sound waves. PixelGen can enable numerous novel applications, and we demonstrate that it enables unique visualization of the surroundings that are then projected on extended reality headsets. We believe, PixelGen goes beyond conventional cameras and opens new avenues for research and photography.
翻訳日:2024-02-07 18:37:18 公開日:2024-02-04
# 予算制約下における行動的ユーザセグメンテーションのデリバリ最適化発見

Delivery Optimized Discovery in Behavioral User Segmentation under Budget Constrain ( http://arxiv.org/abs/2402.03388v1 )

ライセンス: Link先を確認
Harshita Chopra, Atanu R. Sinha, Sunav Choudhary, Ryan A. Rossi, Paavan Kumar Indela, Veda Pranav Parwatala, Srinjayee Paul, Aurghya Maiti(参考訳) ユーザの行動フットプリントは,行動ベースのユーザセグメント(あるいはセグメント)を発見し,ユーザに対してセグメント固有のメッセージを配信することを可能にする。 セグメントが発見された後、facebookやgoogleのような好みのメディアチャネルを通じてユーザーへのメッセージ配信は困難である。 配達が失敗すると、高品質な発見さえも無駄になる。 振る舞いセグメントを発見するための高度なアルゴリズムは数多く存在するが、これらはデリバリコンポーネントを無視している。 問題は複雑です なぜなら i) 発見は企業のデータ(例えば、ユーザクリック)の行動データ空間上で行われ、一方、配信は、メディアによって定義された静的データ空間(例えば、地理、年齢)に述示される。 (二 会社は、予算制約の下で働く。) 本稿では,納期最適化のための確率的最適化に基づくアルゴリズムを導入し,共同最適化に対処するための新しい指標を提供する。 我々は,デリバリの予算制約の下での最適化と,発見のための学習ベースのコンポーネントを活用する。 googleによる公開データセットとプロプライエタリなデータセットに関する広範な実験は、デリバリメトリクスの改善、予算削減、発見時の強力な予測パフォーマンスの実現を同時に行うことにより、当社のアプローチの有効性を示しています。

Users' behavioral footprints online enable firms to discover behavior-based user segments (or, segments) and deliver segment specific messages to users. Following the discovery of segments, delivery of messages to users through preferred media channels like Facebook and Google can be challenging, as only a portion of users in a behavior segment find match in a medium, and only a fraction of those matched actually see the message (exposure). Even high quality discovery becomes futile when delivery fails. Many sophisticated algorithms exist for discovering behavioral segments; however, these ignore the delivery component. The problem is compounded because (i) the discovery is performed on the behavior data space in firms' data (e.g., user clicks), while the delivery is predicated on the static data space (e.g., geo, age) as defined by media; and (ii) firms work under budget constraint. We introduce a stochastic optimization based algorithm for delivery optimized discovery of behavioral user segmentation and offer new metrics to address the joint optimization. We leverage optimization under a budget constraint for delivery combined with a learning-based component for discovery. Extensive experiments on a public dataset from Google and a proprietary dataset show the effectiveness of our approach by simultaneously improving delivery metrics, reducing budget spend and achieving strong predictive performance in discovery.
翻訳日:2024-02-07 18:36:57 公開日:2024-02-04
# 自己回帰グラフ生成における順序の克服

Overcoming Order in Autoregressive Graph Generation ( http://arxiv.org/abs/2402.03387v1 )

ライセンス: Link先を確認
Edo Cohen-Karlik, Eyal Rozenberg and Daniel Freedman(参考訳) グラフ生成は化学やソーシャルネットワークを含む様々な分野において根本的な問題である。 近年の研究では、リカレントニューラルネットワーク(rnn)を用いた分子グラフ生成は、連続的潜在表現をグラフに変換する必要のある従来の生成アプローチと比較して有利であることが示されている。 グラフ生成を逐次生成として扱う際に生じる問題の一つは、グラフフラット化法の特定の選択から生じる列の任意の順序である。 本研究は,RNNを用いてグラフの非逐次的性質を考慮し,リカレントモデルの隠れ状態が,トレーニング分布下に存在する異なる有効な順序に不変であることを奨励する順序のない正規化(OLR)項を追加することを提案する。 逐次グラフ生成モデルは、特にデータが不足している場合、提案した正規化方式の利点を実証する。 本研究は,グラフ生成研究の進展に寄与し,リアルかつ多様なグラフ構造の合成を必要とする様々なアプリケーションに有用なツールを提供する。

Graph generation is a fundamental problem in various domains, including chemistry and social networks. Recent work has shown that molecular graph generation using recurrent neural networks (RNNs) is advantageous compared to traditional generative approaches which require converting continuous latent representations into graphs. One issue which arises when treating graph generation as sequential generation is the arbitrary order of the sequence which results from a particular choice of graph flattening method. In this work we propose using RNNs, taking into account the non-sequential nature of graphs by adding an Orderless Regularization (OLR) term that encourages the hidden state of the recurrent model to be invariant to different valid orderings present under the training distribution. We demonstrate that sequential graph generation models benefit from our proposed regularization scheme, especially when data is scarce. Our findings contribute to the growing body of research on graph generation and provide a valuable tool for various applications requiring the synthesis of realistic and diverse graph structures.
翻訳日:2024-02-07 18:36:35 公開日:2024-02-04
# ニューラルネットワークアーキテクチャに基づく一般化決定木アンサンブル:分散勾配ブースティングフォレスト(dgbf)

A generalized decision tree ensemble based on the NeuralNetworks architecture: Distributed Gradient Boosting Forest (DGBF) ( http://arxiv.org/abs/2402.03386v1 )

ライセンス: Link先を確認
\'Angel Delgado-Panadero, Jos\'e Alberto Ben\'itez-Andrades and Mar\'ia Teresa Garc\'ia-Ord\'as(参考訳) RandomForestやGradientBoostingのようなツリーアンサンブルアルゴリズムは、現在、離散データや表形式のデータをモデリングする主要な方法であるが、NeuralNetworksが行っているように、その多層構造のおかげで、生データから階層的な表現学習を行うことはできない。 この制限は、木アルゴリズムがその数学的性質のためにバックプロパゲーションで訓練できないという事実による。 しかし本研究では,バグングとブースティングの数学的定式化を組み合わせることで,木間の分散表現学習プロセスが自然に (バックプロパゲーションを使わずに) グラフ構造木-センスブルアルゴリズムを定義できることを実証する。 我々はこの新しいアプローチを分散グラディエントブースティングフォレスト(DGBF)と呼び、RandomForestとGradientBoostingの両方がDGBTの特定のグラフアーキテクチャとして表現できることを示した。 最後に、分散学習は、9つのデータセットのうち7つでRandomForestとGradientBoostingの両方に優れています。

Tree ensemble algorithms as RandomForest and GradientBoosting are currently the dominant methods for modeling discrete or tabular data, however, they are unable to perform a hierarchical representation learning from raw data as NeuralNetworks does thanks to its multi-layered structure, which is a key feature for DeepLearning problems and modeling unstructured data. This limitation is due to the fact that tree algorithms can not be trained with back-propagation because of their mathematical nature. However, in this work, we demonstrate that the mathematical formulation of bagging and boosting can be combined together to define a graph-structured-tree-ensemble algorithm with a distributed representation learning process between trees naturally (without using back-propagation). We call this novel approach Distributed Gradient Boosting Forest (DGBF) and we demonstrate that both RandomForest and GradientBoosting can be expressed as particular graph architectures of DGBT. Finally, we see that the distributed learning outperforms both RandomForest and GradientBoosting in 7 out of 9 datasets.
翻訳日:2024-02-07 18:36:20 公開日:2024-02-04
# 青年期の関係行動と肥満パンデミック--ソーシャルネットワーク分析と機械学習を応用した記述的研究

Adolescent relational behaviour and the obesity pandemic: A descriptive study applying social network analysis and machine learning techniques ( http://arxiv.org/abs/2402.03385v1 )

ライセンス: Link先を確認
Pilar Marqu\'es-S\'anchez, Mar\'ia Cristina Mart\'inez-Fern\'andez, Jos\'e Alberto Ben\'itez-Andrades, Enedina Quiroga-S\'anchez, Mar\'ia Teresa Garc\'ia-Ord\'as and Natalia Arias-Ramos(参考訳) 目的: ダイエットとジェンダーとの関連において、グループのノードの属性の類似性を調べ、snaおよび人工知能技術によるグループ間の類似性の観点からグループ間の接続性を分析することにより、サブグループの存在を研究すること。 方法】2015年3月から12月にかけて,5つの教育センターから235名の学生が参加する。 データ分析は、ソーシャルネットワーク分析と教師なし機械学習の2つのブロックに分けられる。 ソーシャル・ネットワーク分析では,異なる階層の交友ネットワークの中で最も多くの結束性のあるグループを見いだすためにgillvan-newman法が適用された。 結果:gillvan-newmanを3クラスに分けた場合,クラスaでは2つ,クラスbでは7つ,クラスcでは6つであった。 集団食を入力変数としてK平均を適用すると、クラスAの2クラスタ、クラスBの3クラスタ、クラスCの3クラスタからなるK平均クラスタリングが得られる。 結論: 青年は教室内でサブグループを形成する。 サブグループの凝集は、ノードが肥満に影響を与える側面で類似点を共有しているという事実によって定義される。 SNAに関連するホモフィリーの概念は、我々の結果を正当化する。 Girvan-Newmanの応用とともに人工知能技術は、サブグループ間の類似性と凝集の構造解析に堅牢性をもたらす。

Aim: To study the existence of subgroups by exploring the similarities between the attributes of the nodes of the groups, in relation to diet and gender and, to analyse the connectivity between groups based on aspects of similarities between them through SNA and artificial intelligence techniques. Methods: 235 students from 5 different educational centres participate in this study between March and December 2015. Data analysis carried out is divided into two blocks: social network analysis and unsupervised machine learning techniques. As for the social network analysis, the Girvan-Newman technique was applied to find the best number of cohesive groups within each of the friendship networks of the different classes analysed. Results: After applying Girvan-Newman in the three classes, the best division into clusters was respectively 2 for classroom A, 7 for classroom B and 6 for classroom C. There are significant differences between the groups and the gender and diet variables. After applying K-means using population diet as an input variable, a K-means clustering of 2 clusters for class A, 3 clusters for class B and 3 clusters for class C is obtained. Conclusion: Adolescents form subgroups within their classrooms. Subgroup cohesion is defined by the fact that nodes share similarities in aspects that influence obesity, they share attributes related to food quality and gender. The concept of homophily, related to SNA, justifies our results. Artificial intelligence techniques together with the application of the Girvan-Newman provide robustness to the structural analysis of similarities and cohesion between subgroups.
翻訳日:2024-02-07 18:35:58 公開日:2024-02-04
# 転写学習を用いたグリオーマ予測の生存と段階

Survival and grade of the glioma prediction using transfer learning ( http://arxiv.org/abs/2402.03384v1 )

ライセンス: Link先を確認
Santiago Valbuena Rubio, Mar\'ia Teresa Garc\'ia-Ord\'as, Oscar Garc\'ia-Olalla Olivera, H\'ector Alaiz-Moret\'on, Maria-Inmaculada Gonz\'alez-Alonso and Jos\'e Alberto Ben\'itez-Andrades(参考訳) グリオ芽腫は悪性脳腫瘍であり,治療なしでの生存期間はわずか3~6ヶ月である。 生存率と成績を正確に検出し予測することが重要である。 本研究では,転送学習手法を用いた新しい手法を提案する。 EfficientNet、ResNet、VGG16、Inceptionなど、事前訓練済みのネットワークを最適化して、最も適切なアーキテクチャを特定する。 これらのモデルをグリオ芽腫画像データセット上で微調整し,生存率と腫瘍の悪性度予測の2つの目的を達成し,生存率予測の精度を65%,短期,中長期,長期の生存率に分類した。 さらに腫瘍グレードの予測は97%の精度で,低次グリオーマ (LGG) と高次グリオーマ (HGG) を正確に区別した。 アプローチの成功は、現在最先端の手法を超越した伝達学習の有効性に起因する。 本研究は, グリオ芽腫の生存率と予後を予測するための有望な方法である。 転送学習は予測モデルを強化する可能性を示しており、特に大きなデータセットが限られているシナリオではそうである。 これらの所見は、グリオ芽腫患者の診断と治療のアプローチを改善することを約束している。

Glioblastoma is a highly malignant brain tumor with a life expectancy of only 3 to 6 months without treatment. Detecting and predicting its survival and grade accurately are crucial. This study introduces a novel approach using transfer learning techniques. Various pre-trained networks, including EfficientNet, ResNet, VGG16, and Inception, were tested through exhaustive optimization to identify the most suitable architecture. Transfer learning was applied to fine-tune these models on a glioblastoma image dataset, aiming to achieve two objectives: survival and tumor grade prediction.The experimental results show 65% accuracy in survival prediction, classifying patients into short, medium, or long survival categories. Additionally, the prediction of tumor grade achieved an accuracy of 97%, accurately differentiating low-grade gliomas (LGG) and high-grade gliomas (HGG). The success of the approach is attributed to the effectiveness of transfer learning, surpassing the current state-of-the-art methods. In conclusion, this study presents a promising method for predicting the survival and grade of glioblastoma. Transfer learning demonstrates its potential in enhancing prediction models, particularly in scenarios with limited large datasets. These findings hold promise for improving diagnostic and treatment approaches for glioblastoma patients.
翻訳日:2024-02-07 18:35:32 公開日:2024-02-04
# MRI再構成のための協調型モデル駆動ネットワーク

A Collaborative Model-driven Network for MRI Reconstruction ( http://arxiv.org/abs/2402.03383v1 )

ライセンス: Link先を確認
Xiaoyu Qiao, Weisheng Li, Guofen Wang, and Yuping Huang(参考訳) 磁気共鳴イメージング(MRI)は重要な医用画像モダリティであるが、その発達は長い走査時間によって制限されている。 未サンプリングの生データからmr画像を再構成するニューラルネットワークを構築するディープラーニング(dl)ベースの手法は、この問題を確実に解決することができる。 これらの方法のうち、モデル駆動dl法は、異なる事前知識をディープネットワークに取り入れ、ソリューション空間を狭め、より良い結果を得る。 しかし,先行知識の相補性は十分に検討されていない。 既存のモデル駆動ネットワークのほとんどは、反復的なソリューションステップを模倣するために、ロールされていないカスケードを単にスタックするだけです。 従来のネットワーク構造を最適化するために,協調モデル駆動ネットワークを提案する。 ネットワークでは、各アンロールされたカスケードはモデル駆動サブネット、アテンションモジュール、修正モジュールの3つの部分から構成されていた。 注意モジュールは各サブネットワークの専門知識領域を学習し、修正モジュールは注意モジュールによって引き起こされる新たなエラーを補償することができる。 最適化された中間結果は、より良い収束のために次のカスケードに供給される。 数列実験の結果,計算量の増加を伴わずに最終結果に有意な改善が認められた。 さらに,提案するモデル駆動型ネットワーク設計戦略を他のモデル駆動型手法にも容易に適用でき,性能が向上する。

Magnetic resonance imaging (MRI) is a vital medical imaging modality, but its development has been limited by prolonged scanning time. Deep learning (DL)-based methods, which build neural networks to reconstruct MR images from undersampled raw data, can reliably address this problem. Among these methods, model-driven DL methods incorporate different prior knowledge into deep networks, thereby narrowing the solution space and achieving better results. However, the complementarity among different prior knowledge has not been thoroughly explored. Most of the existing model-driven networks simply stack unrolled cascades to mimic iterative solution steps, which are inefficient and their performances are suboptimal. To optimize the conventional network structure, we propose a collaborative model-driven network. In the network, each unrolled cascade comprised three parts: model-driven subnetworks, attention modules, and correction modules. The attention modules can learn to enhance the areas of expertise for each subnetwork, and the correction modules can compensate for new errors caused by the attention modules. The optimized intermediate results are fed into the next cascade for better convergence. Experimental results on multiple sequences showed significant improvements in the final results without additional computational complexity. Moreover, the proposed model-driven network design strategy can be easily applied to other model-driven methods to improve their performances.
翻訳日:2024-02-07 18:35:12 公開日:2024-02-04
# インテリジェントマーケティングのためのコンテキスト強化学習によるチェーンアップリフトモデリング

Entire Chain Uplift Modeling with Context-Enhanced Learning for Intelligent Marketing ( http://arxiv.org/abs/2402.03379v1 )

ライセンス: Link先を確認
Yinqiu Huang, Shuli Wang, Min Gao, Xue Wei, Changhao Li, Chuan Luo, Yinhua Zhu, Xiong Xiao, Yi Luo(参考訳) オンラインマーケティングにおいて不可欠なアップリフトモデリングは、個別処理効果(ITE)を予測することで、クーポンや割引などの様々な戦略が異なるユーザーに与える影響を正確に測定することを目指している。 eコマース環境では、ユーザー行動はインプレッション、クリック、コンバージョンを含む定義されたシーケンスチェーンに従う。 マーケティング戦略は、クリックスルーやコンバージョン率などの指標に影響を与えるこのチェーンの各ステージにおいて、さまざまな上昇効果をもたらす。 その実用性にもかかわらず、既存の研究は特定の治療の全ての段階におけるタスク間の影響を考慮せず、治療情報を十分に活用しており、その後のマーケティング決定にかなりの偏見をもたらす可能性がある。 これら2つの問題を連鎖バイアス問題と治療不適応問題とみなす。 本稿では,コンテキスト強化学習(ECUP)を用いたEntire Chain UPlift法について述べる。 ECUPは2つの主要コンポーネントから構成される。 1)チェーンエンハンスドネットワーク全体は、ユーザの行動パターンを利用して、チェーン空間全体にわたってiteを推定し、各タスクに対する治療のさまざまな影響をモデル化し、タスク事前情報を統合して、すべてのステージにおけるコンテキスト認識を強化し、さまざまなタスクに対する治療の影響を捉えている。 2) ビットレベルの特徴相互作用によるきめ細かい処理モデリングを容易にし, 適応的な特徴調整を可能にする。 パブリックおよびインダストリアルデータセットに関する大規模な実験はECUPの有効性を検証する。 さらに、ECUPはMeituanフードデリバリープラットフォームにデプロイされ、数百万のデイリーアクティブユーザと、関連するデータセットを将来の研究用にリリースしている。

Uplift modeling, vital in online marketing, seeks to accurately measure the impact of various strategies, such as coupons or discounts, on different users by predicting the Individual Treatment Effect (ITE). In an e-commerce setting, user behavior follows a defined sequential chain, including impression, click, and conversion. Marketing strategies exert varied uplift effects at each stage within this chain, impacting metrics like click-through and conversion rate. Despite its utility, existing research has neglected to consider the inter-task across all stages impacts within a specific treatment and has insufficiently utilized the treatment information, potentially introducing substantial bias into subsequent marketing decisions. We identify these two issues as the chain-bias problem and the treatment-unadaptive problem. This paper introduces the Entire Chain UPlift method with context-enhanced learning (ECUP), devised to tackle these issues. ECUP consists of two primary components: 1) the Entire Chain-Enhanced Network, which utilizes user behavior patterns to estimate ITE throughout the entire chain space, models the various impacts of treatments on each task, and integrates task prior information to enhance context awareness across all stages, capturing the impact of treatment on different tasks, and 2) the Treatment-Enhanced Network, which facilitates fine-grained treatment modeling through bit-level feature interactions, thereby enabling adaptive feature adjustment. Extensive experiments on public and industrial datasets validate ECUPs effectiveness. Moreover, ECUP has been deployed on the Meituan food delivery platform, serving millions of daily active users, with the related dataset released for future research.
翻訳日:2024-02-07 18:34:51 公開日:2024-02-04
# 老化環境における年齢対応ソフトウェア評価ツールの開発:delphiによる研究

Development of a Evaluation Tool for Age-Appropriate Software in Aging Environments: A Delphi Study ( http://arxiv.org/abs/2402.03933v1 )

ライセンス: Link先を確認
Zhenggang Bai, Yougxiang Fang, Hongtu Chen, Xinru Chen, Ning An, Min Zhang, Guoxin Rui, Jing Jin(参考訳) 目的: 信頼性の高いソフトウェア不適切な評価ツールの開発を目標とした。 方法:2000年1月から2023年4月までの研究から技術不適合の指標を得るための体系的レビューを行い,人類学,社会学,社会技術研究の25人の専門家を対象に,デルファイの3回の協議を行った。 専門家は、最初のインジケータプールで特定された予備指標の表示、評価、追加、フィードバックを依頼された。 結果: 品質基準を評価するための76の基準を抽出し, 11の異なる領域に分類した。 3回のDelphiコンサルテーションの完了後,評価ツール使用経験,製品品質,社会促進の3次元構造に到達するための,個人的経験,理論的枠組み,産業的洞察を参考に,これらの指標をさらに16項目の尺度に蒸留し,それに対応する質問票を定式化し,内部信頼度(Cronbach's Alpha is 0.867)と内容妥当性(S-CVI is 0.93)を示した。 結論: このツールは、年齢グループ間でソフトウェアの適切性を評価するための、単純で客観的で信頼性の高いメカニズムを表している。 さらに、高品質な年齢対応ソフトウェアの設計と開発に有用な洞察と実践的なガイダンスを提供し、好きなソフトウェアを選択するためのアシスト年齢グループも提供する。

Objective: We aimed to develop a dependable reliable tool for assessing software ageappropriateness. Methods: We conducted a systematic review to get the indicators of technology ageappropriateness from studies from January 2000 to April 2023.This study engaged 25 experts from the fields of anthropology, sociology,and social technology research across, three rounds of Delphi consultations were conducted. Experts were asked to screen, assess, add and provide feedback on the preliminary indicators identified in the initial indicator pool. Result: We found 76 criterias for evaluating quality criteria was extracted, grouped into 11 distinct domains. After completing three rounds of Delphi consultations,experts drew upon their personal experiences,theoretical frameworks,and industry insights to arrive at a three-dimensional structure for the evaluation tooluser experience,product quality,and social promotion.These metrics were further distilled into a 16-item scale, and a corresponding questionnaire was formulated.The developed tool exhibited strong internal reliability(Cronbach's Alpha is 0.867)and content validity(S-CVI is 0.93). Conclusion: This tool represents a straightforward,objective,and reliable mechanism for evaluating software's appropriateness across age groups. Moreover,it offers valuable insights and practical guidance for designing and developing of high-quality age-appropriate software,and assisst age groups to select software they like.
翻訳日:2024-02-07 15:08:52 公開日:2024-02-04
# 常微分方程式に対する後正規化信頼バンド

Post-Regularization Confidence Bands for Ordinary Differential Equations ( http://arxiv.org/abs/2110.12510v2 )

ライセンス: Link先を確認
Xiaowu Dai and Lexin Li(参考訳) 通常微分方程式(ODE)は、生物学的および物理的過程の系の力学を研究する重要なツールである。 ODEモデリングにおける中心的な問題は、ある信号変数が別の信号に対して個々の規制効果を推測することである。 しかし、規制関係の不明なODEの信頼性バンドの構築は困難であり、未解決の問題がほとんどである。 本稿では、未知の機能とノイズのあるデータ観測を伴うODEにおける個別規制関数に対する正規化後信頼バンドを構築する。 私たちの提案は、その種の最初のものであり、2つの新しい材料に基づいています。 1つ目は、カーネル学習の再現と局所的テイラー近似を組み合わせた新しい局所化カーネル学習手法であり、2つ目は、無限次元関数と追加の計測誤差に取り組む新しい非バイアス法である。 構築された信頼バンドは、望まれる漸近的カバレッジ確率を持ち、回復した規制ネットワークは、その確率が1の傾向にある真実に近づいた。 システム内の変数数がサンプリング時間点数より小さいか大きい場合の理論的特性を定式化し,レジームスイッチング現象について検討する。 提案手法はシミュレーションとイラストレーションの両面で2つのデータ応用により有効性を示す。

Ordinary differential equation (ODE) is an important tool to study the dynamics of a system of biological and physical processes. A central question in ODE modeling is to infer the significance of individual regulatory effect of one signal variable on another. However, building confidence band for ODE with unknown regulatory relations is challenging, and it remains largely an open question. In this article, we construct post-regularization confidence band for individual regulatory function in ODE with unknown functionals and noisy data observations. Our proposal is the first of its kind, and is built on two novel ingredients. The first is a new localized kernel learning approach that combines reproducing kernel learning with local Taylor approximation, and the second is a new de-biasing method that tackles infinite-dimensional functionals and additional measurement errors. We show that the constructed confidence band has the desired asymptotic coverage probability, and the recovered regulatory network approaches the truth with probability tending to one. We establish the theoretical properties when the number of variables in the system can be either smaller or larger than the number of sampling time points, and we study the regime-switching phenomenon. We demonstrate the efficacy of the proposed method through both simulations and illustrations with two data applications.
翻訳日:2024-02-07 07:40:52 公開日:2024-02-04
# 線形モデルへの厳密な導入

A rigorous introduction to linear models ( http://arxiv.org/abs/2105.04240v5 )

ライセンス: Link先を確認
Jun Lu(参考訳) この本は線形モデルとその背後にある理論について紹介することを目的としている。 私たちのゴールは、通常の最小二乗に先立って読者に厳格な紹介を行うことです。 機械学習では、出力は通常、入力の非線形関数である。 深層学習は、大量の計算を必要とする多くの層で非線形依存を見つけることさえ狙っている。 しかし、これらのアルゴリズムのほとんどは単純な線形モデルに基づいている。 次に、異なる視点から線形モデルを記述し、モデルの背後にある特性と理論を見出す。 線形モデルは回帰問題の主要な手法であり、その主なツールは最小二乗近似であり、二乗誤差の和を最小化する。 これは、対応する2乗誤差を最小限に抑える回帰関数を見つけることに関心がある場合、自然な選択です。 この本は主に目的の要約であり、例えば分布論や最小分散推定器といった線形モデルの背後にある重要な理論の意義である。 まず3つの異なる視点から通常の最小二乗を記述し、そこでランダムノイズとガウス雑音でモデルを乱す。 ガウス雑音を通じて、モデルが最大確率推定子を導入するように確率を与える。 また、このガウス乱を通じていくつかの分布理論を発展させている。 最小二乗の分布理論は、様々な質問に答え、関連する応用を導入するのに役立つ。 次に、最小二乗法が平均二乗誤差の意味で最良の非バイアス線型モデルであることを証明し、最も重要なことは、実際に理論上の極限に近づくことである。 ベイズ的アプローチとそれ以上の線形モデルに終止符を打つ。

This book is meant to provide an introduction to linear models and the theories behind them. Our goal is to give a rigorous introduction to the readers with prior exposure to ordinary least squares. In machine learning, the output is usually a nonlinear function of the input. Deep learning even aims to find a nonlinear dependence with many layers, which require a large amount of computation. However, most of these algorithms build upon simple linear models. We then describe linear models from different perspectives and find the properties and theories behind the models. The linear model is the main technique in regression problems, and the primary tool for it is the least squares approximation, which minimizes a sum of squared errors. This is a natural choice when we're interested in finding the regression function which minimizes the corresponding expected squared error. This book is primarily a summary of purpose, significance of important theories behind linear models, e.g., distribution theory and the minimum variance estimator. We first describe ordinary least squares from three different points of view, upon which we disturb the model with random noise and Gaussian noise. Through Gaussian noise, the model gives rise to the likelihood so that we introduce a maximum likelihood estimator. It also develops some distribution theories via this Gaussian disturbance. The distribution theory of least squares will help us answer various questions and introduce related applications. We then prove least squares is the best unbiased linear model in the sense of mean squared error, and most importantly, it actually approaches the theoretical limit. We end up with linear models with the Bayesian approach and beyond.
翻訳日:2024-02-07 07:38:46 公開日:2024-02-04
# 位相空間における量子力学:序論

Quantum Mechanics in Phase Space: An introduction ( http://arxiv.org/abs/2208.08682v6 )

ライセンス: Link先を確認
Eduardo Mart\'in-Mart\'inez(参考訳) 位相空間と基本ガウス量子力学に量子力学を導入する講義ノートのインフォーマルコレクション。

Informal collection of lecture notes introducing quantum mechanics in phase space and basic Gaussian quantum mechanics.
翻訳日:2024-02-07 07:33:17 公開日:2024-02-04
# ヘマグルチニン配列を用いたインフルエンザウイルス宿主予測のための機械学習アルゴリズム

Dive into Machine Learning Algorithms for Influenza Virus Host Prediction with Hemagglutinin Sequences ( http://arxiv.org/abs/2207.13842v3 )

ライセンス: Link先を確認
Yanhua Xu and Dominik Wojtczak(参考訳) インフルエンザウイルスは急速に変異し、公衆衛生、特に脆弱な集団に脅威をもたらす可能性がある。 歴史を通じて、インフルエンザa型ウイルスは異なる種間でパンデミックを引き起こしてきた。 感染拡大を防ぐためには、ウイルスの起源を特定することが重要である。 近年,ウイルス配列の迅速かつ正確な予測に機械学習アルゴリズムの利用が注目されている。 本研究では,さまざまな分類レベルで機械学習アルゴリズムを評価するために,実検定データセットと各種評価指標を用いた。 ヘマグルチニンは免疫応答の主要なタンパク質であるため、ヘマグルチニン配列のみが用いられ、位置特異的なスコアリングマトリックスと単語埋め込みによって表現された。 その結果、5グラム変換ニューラルネットワークはウイルス配列の予測に最も有効なアルゴリズムであり、99.54%のaucpr、98.01%のf1スコア、96.60%のmcc、94.74%のaucpr、87.41%のf1スコア、80.79%のmccを低い分類レベルで予測する。

Influenza viruses mutate rapidly and can pose a threat to public health, especially to those in vulnerable groups. Throughout history, influenza A viruses have caused pandemics between different species. It is important to identify the origin of a virus in order to prevent the spread of an outbreak. Recently, there has been increasing interest in using machine learning algorithms to provide fast and accurate predictions for viral sequences. In this study, real testing data sets and a variety of evaluation metrics were used to evaluate machine learning algorithms at different taxonomic levels. As hemagglutinin is the major protein in the immune response, only hemagglutinin sequences were used and represented by position-specific scoring matrix and word embedding. The results suggest that the 5-grams-transformer neural network is the most effective algorithm for predicting viral sequence origins, with approximately 99.54% AUCPR, 98.01% F1 score and 96.60% MCC at a higher classification level, and approximately 94.74% AUCPR, 87.41% F1 score and 80.79% MCC at a lower classification level.
翻訳日:2024-02-07 07:33:14 公開日:2024-02-04
# 雑音量子力学における時間-エネルギー不確実性関係

Time-energy uncertainty relation for noisy quantum metrology ( http://arxiv.org/abs/2207.13707v2 )

ライセンス: Link先を確認
Philippe Faist, Mischa P. Woods, Victor V. Albert, Joseph M. Renes, Jens Eisert, John Preskill(参考訳) 弱い力の検出と時間の測定は、量子計測の科学と技術への多くの応用の2つである。 純粋な状態において初期化され、その進化がハミルトニアンの$h$によって支配される量子系を考える。 本研究では,ノイズが量子時計の精度を低下させる量と,環境に漏れるクロックのエネルギーに関する情報量とを関連づける基本的なトレードオフについて検討する。 具体的には、アリスが最初の純粋なクロック状態を準備し、正確には分かっていない時間t$でクロックを進化させ、それからノイズの多いチャンネルを介してbobにクロックを送信する理想的なシナリオを考える。 環境(Eve)は、失われた情報を受信する。 我々は、Bobの量子フィッシャー情報(QFI)の約$t$の損失が、補完エネルギーパラメータに関するEveのQFIの利得と等しいことを証明した。 また、Bob と Eve が2つの非可換観測値に関連するパラメータの値を見積もる場合に適用される、より一般的なトレードオフを証明します。 我々は、ノイズの影響を受けないクロックの精度に必要な十分な条件を導出する。 これらは Knill-Laflamme の誤り訂正条件のサブセットであり、これらの条件を満たす状態はメートル法符号を形成すると言われている。 我々は、安定化形式において、メトロロジー符号を構築するためのスキームを提供する。 同様の距離で量子誤り訂正符号として書けないメロジカル符号が存在し、ハミルトニアンが論理演算子として機能し、ノイズチャネルの適用により感度を失うことのない状態を構成するための新しいスキームを提供する可能性がある。 本研究は,消去や振幅減衰雑音を受ける多体状態を用いたセンシングへの応用について検討する。

Detection of weak forces and precise measurement of time are two of the many applications of quantum metrology to science and technology. We consider a quantum system initialized in a pure state and whose evolution is governed by a Hamiltonian $H$; a measurement can later estimate the time $t$ for which the system has evolved. In this work, we introduce and study a fundamental trade-off which relates the amount by which noise reduces the accuracy of a quantum clock to the amount of information about the energy of the clock that leaks to the environment. Specifically, we consider an idealized scenario in which Alice prepares an initial pure state of the clock, allows the clock to evolve for a time $t$ that is not precisely known, and then transmits the clock through a noisy channel to Bob. The environment (Eve) receives any information that is lost. We prove that Bob's loss of quantum Fisher information (QFI) about $t$ is equal to Eve's gain of QFI about a complementary energy parameter. We also prove a more general trade-off that applies when Bob and Eve wish to estimate the values of parameters associated with two noncommuting observables. We derive the necessary and sufficient conditions for the accuracy of the clock to be unaffected by the noise. These are a subset of the Knill-Laflamme error-correction conditions; states satisfying these conditions are said to form a metrological code. We provide a scheme to construct metrological codes in the stabilizer formalism. We show that there are metrological codes that cannot be written as a quantum error-correcting code with similar distance in which the Hamiltonian acts as a logical operator, potentially offering new schemes for constructing states that do not lose any sensitivity upon application of a noisy channel. We discuss applications of our results to sensing using a many-body state subject to erasure or amplitude-damping noise.
翻訳日:2024-02-07 07:32:52 公開日:2024-02-04
# ガイド付き局所ハミルトン問題に対する硬度改善効果

Improved Hardness Results for the Guided Local Hamiltonian Problem ( http://arxiv.org/abs/2207.10250v3 )

ライセンス: Link先を確認
Chris Cade, Marten Folkertsma, Sevag Gharibian, Ryu Hayakawa, Fran\c{c}ois Le Gall, Tomoyuki Morimae, Jordi Weggemans(参考訳) 局所ハミルトニアンの基底状態エネルギーの推定は、量子化学において中心的な問題である。 量子化学における量子アルゴリズムの複雑さとポテンシャルをさらに調べるために、Gharibian と Le Gall (STOC 2022) は、最近、基底状態(誘導状態と呼ばれる)の近似が追加入力として与えられる局所ハミルトン問題(GLH)の変種であるガイド付き局所ハミルトン問題(英語版)を導入した。 gharibian と le gall は、基底状態が 1/2$ に近い忠実度(逆多項的)を持つとき、6ドルの局所ハミルトニアンの glh に対して量子的な優位性(より正確には bqp 完全性)を示した。 本稿では,BQP完全性が2-局所ハミルトニアンであっても持続することを示すとともに,誘導状態が基底状態と1に近い(逆ポリノミカルな)忠実度を持つ場合でも,局所性と忠実度パラメータの両方を最適に改善する。 さらに, bqp完全性は2次元正方格子あるいは2次元三角格子上の2局所物理的動機付けハミルトニアンに対しても成立することを示した。 基底状態エネルギーの推定の困難さ以外にも、これらのハミルトニアンの励起状態のエネルギーの推定を考えると、BQPの硬さが持続することを示す。 これらは量子化学において実用的な量子優位性を確立するためのさらなるステップとなる。

Estimating the ground state energy of a local Hamiltonian is a central problem in quantum chemistry. In order to further investigate its complexity and the potential of quantum algorithms for quantum chemistry, Gharibian and Le Gall (STOC 2022) recently introduced the guided local Hamiltonian problem (GLH), which is a variant of the local Hamiltonian problem where an approximation of a ground state (which is called a guiding state) is given as an additional input. Gharibian and Le Gall showed quantum advantage (more precisely, BQP-completeness) for GLH with $6$-local Hamiltonians when the guiding state has fidelity (inverse-polynomially) close to $1/2$ with a ground state. In this paper, we optimally improve both the locality and the fidelity parameter: we show that the BQP-completeness persists even with 2-local Hamiltonians, and even when the guiding state has fidelity (inverse-polynomially) close to 1 with a ground state. Moreover, we show that the BQP-completeness also holds for 2-local physically motivated Hamiltonians on a 2D square lattice or a 2D triangular lattice. Beyond the hardness of estimating the ground state energy, we also show BQP-hardness persists when considering estimating energies of excited states of these Hamiltonians instead. Those make further steps towards establishing practical quantum advantage in quantum chemistry.
翻訳日:2024-02-07 07:32:22 公開日:2024-02-04
# 完全遺伝子多粒子エンタングルメントモノトン

Complete Genuine Multipartite Entanglement Monotone ( http://arxiv.org/abs/2301.00334v2 )

ライセンス: Link先を確認
Yu Guo(参考訳) エンタングルメント、特に多成分エンタングルメントの完全なキャラクタリゼーションと定量化は、量子情報理論における未完成の長期的な目標である。 多成分系が関係している限り、異なる分割や異なるサブシステムに含まれる絡み合いの関係を考慮する必要がある。 完全多部交絡測度と完全単体関係は、そのような問題にのみ対処するフレームワークである。 本稿では, マルチパート・エンタングルメント・モノトン (MEM) と真のマルチパート・エンタングルメント・モノトン (GMEM) が完全, 完全, 完全, 完全, 完全であるか否かを, 還元関数の特性に応じて正当化する条件を提示する。 特に,最大還元関数がLOCCで平均的に増加しないという仮定により,最大還元関数を経由した完全MEMのクラスと完全GMEMのクラスを初めて提案した。 比較すると、三部体の場合、このGMEMsのクラスは、完全なMEMと完全なモノガミー関係の枠組みの下で文学における最小二部体絡み合いから定義されるものよりも優れていることが示されている。 さらに, モノガミー, 完全モノガミー, 厳密な完全モノガミーの関係は, 異なる種類のMEM, GMEMによって明らかにされる。

A complete characterization and quantification of entanglement, particularly the multipartite entanglement, remains an unfinished long-term goal in quantum information theory. As long as the multipartite system is concerned, the relation between the entanglement contained in different partitions or different subsystems need to take into account. The complete multipartite entanglement measure and the complete monogamy relation is a framework that just deals with such a issue. In this paper, we put forward conditions to justify whether the multipartite entanglement monotone (MEM) and genuine multipartite entanglement monotone (GMEM) are complete, completely monogamous, and tightly complete monogamous according to the feature of the reduced function. Especially, with the assumption that the maximal reduced function is nonincreasing on average under LOCC, we proposed a class of complete MEMs and a class of complete GMEMs via the maximal reduced function for the first time. By comparison, it is shown that, for the tripartite case, this class of GMEMs is better than the one defined from the minimal bipartite entanglement in literature under the framework of complete MEM and complete monogamy relation. In addition, the relation between monogamy, complete monogamy, and the tightly complete monogamy are revealed in light of different kinds of MEMs and GMEMs.
翻訳日:2024-02-07 07:22:11 公開日:2024-02-04
# トレーニング不足でグラフニューラルネットワークを改良:訓練されていないGNNのチケットを見つける

You Can Have Better Graph Neural Networks by Not Training Weights at All: Finding Untrained GNNs Tickets ( http://arxiv.org/abs/2211.15335v5 )

ライセンス: Link先を確認
Tianjin Huang, Tianlong Chen, Meng Fang, Vlado Menkovski, Jiaxu Zhao, Lu Yin, Yulong Pei, Decebal Constantin Mocanu, Zhangyang Wang, Mykola Pechenizkiy, Shiwei Liu(参考訳) 近年の研究では、ネットワークの重みを最適化することなく、完全に訓練された高密度ネットワークの性能に匹敵する、ランダムに初期化された畳み込みニューラルネットワーク(CNN)にサブネットワークが存在することが顕著に示されている。 しかし、グラフニューラルネットワーク(GNN)におけるそのような訓練されていないサブネットワークの存在は、いまだに謎のままである。 本稿では,未学習のGNNを探索する第一種探索を行う。 sparsityをコアツールとして、初期化時に \textit{untrained sparse subnetworks} を見つけることができ、これは \textit{fully trained dense} gnnのパフォーマンスにマッチする。 このことに加えて、未学習のサブネットワークがGNNのオーバースムース化問題を大幅に軽減し、ベルやホイッスルを使わずにより深いGNNを可能にする強力なツールとなることを示す。 また,そのようなスパースな未学習サブネットワークは,分布外検出や入力摂動のロバスト性において,優れた性能を有することが観察された。 提案手法は,Open Graph Benchmark (OGB) など,広く使用されているGNNアーキテクチャを用いて評価する。

Recent works have impressively demonstrated that there exists a subnetwork in randomly initialized convolutional neural networks (CNNs) that can match the performance of the fully trained dense networks at initialization, without any optimization of the weights of the network (i.e., untrained networks). However, the presence of such untrained subnetworks in graph neural networks (GNNs) still remains mysterious. In this paper we carry out the first-of-its-kind exploration of discovering matching untrained GNNs. With sparsity as the core tool, we can find \textit{untrained sparse subnetworks} at the initialization, that can match the performance of \textit{fully trained dense} GNNs. Besides this already encouraging finding of comparable performance, we show that the found untrained subnetworks can substantially mitigate the GNN over-smoothing problem, hence becoming a powerful tool to enable deeper GNNs without bells and whistles. We also observe that such sparse untrained subnetworks have appealing performance in out-of-distribution detection and robustness of input perturbations. We evaluate our method across widely-used GNN architectures on various popular datasets including the Open Graph Benchmark (OGB).
翻訳日:2024-02-07 07:20:30 公開日:2024-02-04
# SSCFormer: 逐次サンプリングチャンクとチャンク因果畳み込みを用いたASRストリーミングのためのチャンクワイズコンバータの限界を押し上げる

SSCFormer: Push the Limit of Chunk-wise Conformer for Streaming ASR Using Sequentially Sampled Chunks and Chunked Causal Convolution ( http://arxiv.org/abs/2211.11419v4 )

ライセンス: Link先を確認
Fangyuan Wang, Bo Xu, Bo Xu(参考訳) 現在、チャンクワイズ方式は、ストリーミングデプロイメントをサポートするために自動音声認識(ASR)モデルを作成するためにしばしば使用される。 しかしながら、既存のアプローチでは、グローバルコンテキストを捉えたり、並列トレーニングのサポートを欠いたり、マルチヘッドセルフアテンション(mhsa)の計算において二次的な複雑さを示すことができない。 一方、因果畳み込みは、将来のコンテキストを使用しないが、streaming conformerのデファクトモジュールになっている。 本稿では,SSCFormerを用いて,ASRストリーミングにおけるチャンクワイド・コンバータの限界を押し上げる手法を提案する。1) 局所チャンク内の長期的相互作用を容易にするために,正規分割チャンクからチャンクを再分割する,連続サンプリングチャンク(Sequential Sampling Chunk, SSC)方式という,新しいクロスチャンクコンテキスト生成手法を提案する。 2)Chunked Causal Convolution(C2Conv)は,左コンテキストとチャンクワイズ・フューチャーコンテキストを同時にキャプチャするように設計されている。 AISHELL-1の評価は、End-to-End (E2E) CER 5.33%が達成できることを示している。 さらに,本モデルにおけるチャンクワイドMHSA計算により,大規模なバッチサイズでトレーニングし,線形複雑度で推論を行うことができる。

Currently, the chunk-wise schemes are often used to make Automatic Speech Recognition (ASR) models to support streaming deployment. However, existing approaches are unable to capture the global context, lack support for parallel training, or exhibit quadratic complexity for the computation of multi-head self-attention (MHSA). On the other side, the causal convolution, no future context used, has become the de facto module in streaming Conformer. In this paper, we propose SSCFormer to push the limit of chunk-wise Conformer for streaming ASR using the following two techniques: 1) A novel cross-chunks context generation method, named Sequential Sampling Chunk (SSC) scheme, to re-partition chunks from regular partitioned chunks to facilitate efficient long-term contextual interaction within local chunks. 2)The Chunked Causal Convolution (C2Conv) is designed to concurrently capture the left context and chunk-wise future context. Evaluations on AISHELL-1 show that an End-to-End (E2E) CER 5.33% can achieve, which even outperforms a strong time-restricted baseline U2. Moreover, the chunk-wise MHSA computation in our model enables it to train with a large batch size and perform inference with linear complexity.
翻訳日:2024-02-07 07:19:49 公開日:2024-02-04
# 周期性最適化:超伝導回路のフラックスクロストーク校正に対するモデル非依存アプローチ

Optimizing for periodicity: a model-independent approach to flux crosstalk calibration for superconducting circuits ( http://arxiv.org/abs/2211.01497v2 )

ライセンス: Link先を確認
X. Dai, R. Trappen, R. Yang, S. M. Disseler, J. I. Basham, J. Gibson, A. J. Melville, B. M. Niedzielski, R. Das, D. K. Kim, J. L. Yoder, S. J. Weber, C. F. Hirjibehedin, D. A. Lidar, and A. Lupascu(参考訳) 磁束チューナビリティは超伝導回路の重要な工学的資源である。 磁束可変超伝導回路に基づく大規模量子コンピュータは、高忠実度量子演算を実現するために正確に校正する必要がある磁束クロストークの問題に直面している。 典型的なキャリブレーション法では、回路要素を効果的に分離し、単純なモデルを適用するか、大量のデータを必要とする。 システムサイズが増大し、回路相互作用が強くなるにつれて、そのような手法は効果がなくなる。 本稿では,ベースとなる回路モデルとは独立なフラックスクロストークの校正手法を提案する。 超伝導回路が外部フラックスに周期的に応答する基本特性を用いて、N個のフラックスチャネルのクロストークキャリブレーションをN個の独立最適化問題として扱うことができ、目的関数は補償パラメータに依存する測定信号の周期性である。 超伝導磁束量子ビットに基づく小型量子アニーリング回路において,本手法を実証し,従来法と同等の精度を実現した。 また、目的関数は概凸地形を持ち、効率的な最適化を可能にすることも示している。

Flux tunability is an important engineering resource for superconducting circuits. Large-scale quantum computers based on flux-tunable superconducting circuits face the problem of flux crosstalk, which needs to be accurately calibrated to realize high-fidelity quantum operations. Typical calibration methods either assume that circuit elements can be effectively decoupled and simple models can be applied, or require a large amount of data. Such methods become ineffective as the system size increases and circuit interactions become stronger. Here we propose a new method for calibrating flux crosstalk, which is independent of the underlying circuit model. Using the fundamental property that superconducting circuits respond periodically to external fluxes, crosstalk calibration of N flux channels can be treated as N independent optimization problems, with the objective functions being the periodicity of a measured signal depending on the compensation parameters. We demonstrate this method on a small-scale quantum annealing circuit based on superconducting flux qubits, achieving comparable accuracy with previous methods. We also show that the objective function usually has a nearly convex landscape, allowing efficient optimization.
翻訳日:2024-02-07 07:17:36 公開日:2024-02-04
# 資源制約条件下でのクリティカル機械学習モデルの運用

Operating critical machine learning models in resource constrained regimes ( http://arxiv.org/abs/2303.10181v2 )

ライセンス: Link先を確認
Raghavendra Selvan, Julian Sch\"on, Erik B Dam(参考訳) 機械学習手法の急速な発展、主にディープラーニングは、最近の医療画像分析とコンピュータ支援による介入のブレークスルーに因果関係がある。 訓練データ、計算、エネルギーコストの量の観点からは、ディープラーニングモデルのリソース消費は膨大であることが知られている。 これらの大きなリソースコストは、これらのモデルをクリニックにグローバルに展開する上での障壁になり得る。 これを解決するため、機械学習コミュニティにはリソース効率の概念を導入するための協調的な取り組みがある。 例えば、量子化を使ってメモリ消費を緩和する。 これらの手法のほとんどは、リソース利用の削減を図っているが、パフォーマンスのコストがかかる可能性がある。 本研究では,特にクリニックなどのクリティカルな環境で使用されるモデルを扱う場合の,リソース消費とパフォーマンスのトレードオフについて検討する。

The accelerated development of machine learning methods, primarily deep learning, are causal to the recent breakthroughs in medical image analysis and computer aided intervention. The resource consumption of deep learning models in terms of amount of training data, compute and energy costs are known to be massive. These large resource costs can be barriers in deploying these models in clinics, globally. To address this, there are cogent efforts within the machine learning community to introduce notions of resource efficiency. For instance, using quantisation to alleviate memory consumption. While most of these methods are shown to reduce the resource utilisation, they could come at a cost in performance. In this work, we probe into the trade-off between resource consumption and performance, specifically, when dealing with models that are used in critical settings such as in clinics.
翻訳日:2024-02-07 07:07:57 公開日:2024-02-04
# フェデレーション学習における不均一なプライバシー制約下におけるデータの価値

The Fair Value of Data Under Heterogeneous Privacy Constraints in Federated Learning ( http://arxiv.org/abs/2301.13336v2 )

ライセンス: Link先を確認
Justin Kang, Ramtin Pedarsani, Kannan Ramchandran(参考訳) 現代のデータアグリゲーションは、さまざまなプライバシオプションを持つユーザのネットワークからデータを収集するプラットフォームを含むことが多い。 プラットフォームは、ユーザにインセンティブを割り当ててデータ共有を説得する方法という問題を解決する必要がある。 本稿では,あるプライバシーレベルでユーザのデータを補償する‘textit{fair}量’のアイデアを,祝福されたShapley値の行に沿って,公正性の公理的定義に基づいて提案する。 われわれの知る限りでは、プライバシーの制約を明示的に考慮するデータに対する最初の公平性の概念だ。 また,ユーザに対してプライバシレベルのオプションを備えたプラットフォームに対して,ヘテロジニアスなフェデレーション学習問題を定式化する。 そこで本研究では,プライバシレベル,データ量,不均一度などの異なる公平なアロケーションの下でユーザが受け取る補償の量について検討する。 また、プラットフォームが公正なインセンティブを設計せざるを得なくなったらどうなるかについても議論する。 特定の条件下では、プライバシーの感度が低い場合、プラットフォームは、最も低いプライバシーオプションですべてのデータを収集することを保証するインセンティブを設定します。 プライバシーの感度が一定の閾値を超えている場合、プラットフォームはユーザにインセンティブを提供しない。 この2つの極端さの間に、プラットフォームはインセンティブを設定するので、一部のユーザーがより高いプライバシーオプションを選択し、他のユーザーが低いプライバシーオプションを選択する。

Modern data aggregation often involves a platform collecting data from a network of users with various privacy options. Platforms must solve the problem of how to allocate incentives to users to convince them to share their data. This paper puts forth an idea for a \textit{fair} amount to compensate users for their data at a given privacy level based on an axiomatic definition of fairness, along the lines of the celebrated Shapley value. To the best of our knowledge, these are the first fairness concepts for data that explicitly consider privacy constraints. We also formulate a heterogeneous federated learning problem for the platform with privacy level options for users. By studying this problem, we investigate the amount of compensation users receive under fair allocations with different privacy levels, amounts of data, and degrees of heterogeneity. We also discuss what happens when the platform is forced to design fair incentives. Under certain conditions we find that when privacy sensitivity is low, the platform will set incentives to ensure that it collects all the data with the lowest privacy options. When the privacy sensitivity is above a given threshold, the platform will provide no incentives to users. Between these two extremes, the platform will set the incentives so some fraction of the users chooses the higher privacy option and the others chooses the lower privacy option.
翻訳日:2024-02-07 07:03:19 公開日:2024-02-04
# ReFINER: 中間表現に対するフィードバックの推論

REFINER: Reasoning Feedback on Intermediate Representations ( http://arxiv.org/abs/2304.01904v2 )

ライセンス: Link先を確認
Debjit Paul, Mete Ismayilzada, Maxime Peyrard, Beatriz Borges, Antoine Bosselut, Robert West, and Boi Faltings(参考訳) 言語モデル(LM)は、最近、中間推論を明示的に生成することで推論タスクに顕著な性能を示した。 しかし、これらの中間推論ステップは、初期文脈からの不適切な推論であり、誤った最終予測をもたらす可能性がある。 本稿では,lmsを微調整し,中間的推論ステップを明示的に生成するフレームワークであるrefinerについて紹介する。 具体的には、批判者はLMが中間引数を反復的に改善するために使用する推論に関する構造化されたフィードバックを提供する。 3つの多様な推論タスクにおけるREFINERの実証評価は、同等のスケールのベースラインLMよりも大幅に改善されている。 さらに, GPT-3.5 や ChatGPT を推理器として使用すると, 推理器を微調整することなく推理を著しく改善する。 最後に、当社の批判モデルは、高価なループ内データなしでトレーニングされますが、推論時に人間に置き換えることができます。

Language models (LMs) have recently shown remarkable performance on reasoning tasks by explicitly generating intermediate inferences, e.g., chain-of-thought prompting. However, these intermediate inference steps may be inappropriate deductions from the initial context and lead to incorrect final predictions. Here we introduce REFINER, a framework for finetuning LMs to explicitly generate intermediate reasoning steps while interacting with a critic model that provides automated feedback on the reasoning. Specifically, the critic provides structured feedback that the reasoning LM uses to iteratively improve its intermediate arguments. Empirical evaluations of REFINER on three diverse reasoning tasks show significant improvements over baseline LMs of comparable scale. Furthermore, when using GPT-3.5 or ChatGPT as the reasoner, the trained critic significantly improves reasoning without finetuning the reasoner. Finally, our critic model is trained without expensive human-in-the-loop data but can be substituted with humans at inference time.
翻訳日:2024-02-07 06:54:15 公開日:2024-02-04
# コンピュータビジョンにおけるYOLOアーキテクチャの概要:YOLOv1からYOLOv8とYOLO-NAS

A Comprehensive Review of YOLO Architectures in Computer Vision: From YOLOv1 to YOLOv8 and YOLO-NAS ( http://arxiv.org/abs/2304.00501v7 )

ライセンス: Link先を確認
Juan Terven and Diana Cordova-Esparza(参考訳) YOLOは、ロボット工学、無人運転車、ビデオ監視アプリケーションのための中心的なリアルタイムオブジェクト検出システムになっている。 本稿では、YOLOの進化を総合的に分析し、元のYOLOからYOLOv8, YOLO-NAS, YOLOをトランスフォーマーで比較した。 まず、標準メトリクスと後処理を説明し、次に、ネットワークアーキテクチャにおける大きな変化と各モデルに対するトレーニングトリックについて論じる。 最後に, YOLOの開発から重要な教訓を要約し, リアルタイム物体検出システムの実現に向けた研究の方向性を明らかにする。

YOLO has become a central real-time object detection system for robotics, driverless cars, and video monitoring applications. We present a comprehensive analysis of YOLO's evolution, examining the innovations and contributions in each iteration from the original YOLO up to YOLOv8, YOLO-NAS, and YOLO with Transformers. We start by describing the standard metrics and postprocessing; then, we discuss the major changes in network architecture and training tricks for each model. Finally, we summarize the essential lessons from YOLO's development and provide a perspective on its future, highlighting potential research directions to enhance real-time object detection systems.
翻訳日:2024-02-07 06:53:27 公開日:2024-02-04
# MonoPIC - ID3モデル決定木を用いたIoTエッジのための単眼低レイテンシ歩行者意図分類フレームワーク

MonoPIC -- A Monocular Low-Latency Pedestrian Intention Classification Framework for IoT Edges Using ID3 Modelled Decision Trees ( http://arxiv.org/abs/2304.00206v3 )

ライセンス: Link先を確認
Sriram Radhakrishna, Adithya Balasubramanyam(参考訳) 自動運転車による交通事故は通常、(ペデストリアン)障害物が、非常に突然の時間間隔で移動中の車両の経路に現れる状況で発生し、ロボットがシーンの変化に反応する時間はさらに少なくなる。 本研究では,2次元フレームにおいて任意に選択された歩行者の意図を,メディアパイプポーズ推定モデルから生成された四元数を用いて手続き的に論理状態に分類するアルゴリズムの実装を提案する。 これは、主に深度認識の必要性の欠如と、ほとんどのIoTエッジデバイスに存在する計算リソースに対する暗黙の上限のため、比較的レイテンシの高いディープラーニングアルゴリズムを採用する必要性を回避している。 このモデルは平均的なテスト精度が83.56%、信頼性のある分散が0.0042であり、平均レイテンシ48ミリ秒で動作し、これらの知覚的タスクに時空間畳み込みネットワークを使用する現在の標準よりも、複数の顕著な利点を示した。

Road accidents involving autonomous vehicles commonly occur in situations where a (pedestrian) obstacle presents itself in the path of the moving vehicle at very sudden time intervals, leaving the robot even lesser time to react to the change in scene. In order to tackle this issue, we propose a novel algorithmic implementation that classifies the intent of a single arbitrarily chosen pedestrian in a two dimensional frame into logic states in a procedural manner using quaternions generated from a MediaPipe pose estimation model. This bypasses the need to employ any relatively high latency deep-learning algorithms primarily due to the lack of necessity for depth perception as well as an implicit cap on the computational resources that most IoT edge devices present. The model was able to achieve an average testing accuracy of 83.56% with a reliable variance of 0.0042 while operating with an average latency of 48 milliseconds, demonstrating multiple notable advantages over the current standard of using spatio-temporal convolutional networks for these perceptive tasks.
翻訳日:2024-02-07 06:53:13 公開日:2024-02-04
# フローニューラルネットワークによる高次元最適輸送の計算

Computing high-dimensional optimal transport by flow neural networks ( http://arxiv.org/abs/2305.11857v4 )

ライセンス: Link先を確認
Chen Xu, Xiuyuan Cheng, Yao Xie(参考訳) フローベースのモデルは、ニューラルネットワークがデータ分散から正規分布への輸送を行うフローの正規化など、生成タスクで広く使用されている。 この研究は、フローベースのモデルを開発しており、両方のディストリビューションが有限のサンプルを通してのみアクセス可能な、$p$から任意の$q$へ輸送する。 我々は,フローニューラルネットワークの学習により,$p$ と $q$ の間の動的最適輸送を学ぶことを提案する。 このモデルは、輸送コストを最小化することによって、p$ から $q$ の間の可逆輸送マップを最適に見つけるように訓練されている。 訓練された最適輸送フローは、生成モデルの潜在空間における無限小密度比推定(dre)や分布補間を含む多くの下流タスクを実行することができる。 提案モデルの高次元データに対する有効性は,高次元dre,otベースライン,画像から画像への変換において強い経験的性能を示す。

Flow-based models are widely used in generative tasks, including normalizing flow, where a neural network transports from a data distribution $P$ to a normal distribution. This work develops a flow-based model that transports from $P$ to an arbitrary $Q$ where both distributions are only accessible via finite samples. We propose to learn the dynamic optimal transport between $P$ and $Q$ by training a flow neural network. The model is trained to optimally find an invertible transport map between $P$ and $Q$ by minimizing the transport cost. The trained optimal transport flow subsequently allows for performing many downstream tasks, including infinitesimal density ratio estimation (DRE) and distribution interpolation in the latent space for generative models. The effectiveness of the proposed model on high-dimensional data is demonstrated by strong empirical performance on high-dimensional DRE, OT baselines, and image-to-image translation.
翻訳日:2024-02-07 06:44:11 公開日:2024-02-04
# グループ同変畳み込みニューラルネットワークのためのモンテカルロ拡張分解フィルタの適応アグリゲーション

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network ( http://arxiv.org/abs/2305.10110v2 )

ライセンス: Link先を確認
Wenzhao Zhao, Barbara D. Wichtmann, Steffen Albert, Angelika Maurer, Frank G. Z\"ollner, Ulrike Attenberger and J\"urgen Hesser(参考訳) グループ等価畳み込みニューラルネットワーク(G-CNN)は、CNNのデータ効率と性能を向上させるためにパラメータ共有に大きく依存している。 しかし、パラメータ共有戦略は、各追加パラメータの計算負担を大幅に増加させ、ディープニューラルネットワークモデルへの応用を阻害する。 本稿では,群同変ニューラルネットワークに対する非パラメータ共有アプローチを提案することにより,これらの問題に対処する。 提案手法は, 確率的に拡張された分解フィルタの重み付け和により, 多様なフィルタを適応的に集約する。 群同値性が我々の方法によってどのように達成されるかを理論的に証明する。 本手法は連続群と離散群の両方に適用し,モンテカルロサンプリングとブートストラップ再サンプリングを用いて加法を実装した。 提案手法が標準CNNの効率的な拡張であることを示す。 群同変試験実験は,パラメータ共有群同変ネットワークよりも優れた性能が得られることを示す。 画像分類と画像復号化タスクの実験では,特定のシナリオにおいて,適切なフィルタベースを用いて,標準的なCNNの性能向上と,効率的な軽量画像復号化ネットワークの構築を支援する。 コードはhttps://github.com/ZhaoWenzhao/MCG_CNNで入手できる。

Group-equivariant convolutional neural networks (G-CNN) heavily rely on parameter sharing to increase CNN's data efficiency and performance. However, the parameter-sharing strategy greatly increases the computational burden for each added parameter, which hampers its application to deep neural network models. In this paper, we address these problems by proposing a non-parameter-sharing approach for group equivariant neural networks. The proposed methods adaptively aggregate a diverse range of filters by a weighted sum of stochastically augmented decomposed filters. We give theoretical proof about how the group equivariance can be achieved by our methods. Our method applies to both continuous and discrete groups, where the augmentation is implemented using Monte Carlo sampling and bootstrap resampling, respectively. We demonstrate that our methods serve as an efficient extension of standard CNN. Experiments on group equivariant tests show how our methods can achieve superior performance to parameter-sharing group equivariant networks. Experiments on image classification and image denoising tasks show that in certain scenarios, with a suitable set of filter bases, our method helps improve the performance of standard CNNs and build efficient lightweight image denoising networks. The code will be available at https://github.com/ZhaoWenzhao/MCG_CNN.
翻訳日:2024-02-07 06:43:33 公開日:2024-02-04
# より小さな言語モデルはブラックボックスマシン生成テキスト検出器より優れている

Smaller Language Models are Better Black-box Machine-Generated Text Detectors ( http://arxiv.org/abs/2305.09859v2 )

ライセンス: Link先を確認
Niloofar Mireshghallah, Justus Mattern, Sicun Gao, Reza Shokri, Taylor Berg-Kirkpatrick(参考訳) 人間が書いたものと非常によく似た説得力のある発話を生成できる流麗な生成言語モデルが出現すると、テキストが機械によって生成されたか、あるいは人間が書いたかの区別がより困難で重要になり、そのようなモデルは誤った情報や偽ニュース、偽レビュー、特定の著者や人物を模倣するために使われる。 この目的のために、マシン生成テキストを検出する手法が数多く提案されている。 これらのメソッドの多くは、ターゲットモデルのロジットにアクセスするか、ターゲットからサンプリングする機能を必要とする。 そのようなブラックボックス検出方法の1つは、生成したテキストが生成者の可能性関数の下で局所的に最適であるという観察に依存している。 全体として、より小さく、部分的に訓練されたモデルは、より普遍的なテキスト検出器として、より正確に、小モデルと大モデルの両方から生成されたテキストを検出できる。 興味深いことに、検出器とジェネレータが同じデータで訓練されたかどうかは、検出の成功にとって重要ではない。 例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのGPTJ-6BはAUCが0.45である。

With the advent of fluent generative language models that can produce convincing utterances very similar to those written by humans, distinguishing whether a piece of text is machine-generated or human-written becomes more challenging and more important, as such models could be used to spread misinformation, fake news, fake reviews and to mimic certain authors and figures. To this end, there have been a slew of methods proposed to detect machine-generated text. Most of these methods need access to the logits of the target model or need the ability to sample from the target. One such black-box detection method relies on the observation that generated text is locally optimal under the likelihood function of the generator, while human-written text is not. We find that overall, smaller and partially-trained models are better universal text detectors: they can more precisely detect text generated from both small and larger models. Interestingly, we find that whether the detector and generator were trained on the same data is not critically important to the detection success. For instance the OPT-125M model has an AUC of 0.81 in detecting ChatGPT generations, whereas a larger model from the GPT family, GPTJ-6B, has AUC of 0.45.
翻訳日:2024-02-07 06:43:12 公開日:2024-02-04
# アフリカにおけるコンピュータビジョン研究コミュニティのより良い理解に向けて

Towards a Better Understanding of the Computer Vision Research Community in Africa ( http://arxiv.org/abs/2305.06773v4 )

ライセンス: Link先を確認
Abdul-Hakeem Omotayo, Mai Gamal, Eman Ehab, Gbetondji Dovonon, Zainab Akinjobi, Ismaila Lukman, Houcemeddine Turki, Mahmod Abdien, Idriss Tondji, Abigail Oppong, Yvan Pimi, Karim Gamal, Ro'ya-CV4Africa, Mennatullah Siam(参考訳) コンピュータビジョンは、様々なタスク(例えば、オブジェクト検出)を包含する幅広い研究分野である。 コンピュータビジョンは様々な応用においてアフリカのコミュニティと関係があるが、コンピュータビジョン研究は大陸で未調査であり、過去10年間でトップクラスの出版物の0.06%しか構築していない。 本稿では,アフリカにおけるコンピュータビジョン研究をより深く理解し,研究に株式が存在するか否かの指針を提供することを目標とする。 私たちは、2012年から2022年の間に約63,000の出版物を収集する、アフリカコンピュータビジョン出版物の実証分析を通じてこれを実施しています。 まず、アフリカの機関がトップクラスのコンピュータビジョン会場で出版する機会について調査する。 北米やアジアなど他の大陸と異なり,近年の上位層におけるアフリカの出版動向は一貫した成長を見せていない。 さらに、アフリカ各地の上位の会場を超える全てのコンピュータビジョン出版物を調査し、主に北アフリカと南アフリカが68.5%と15.9%のコンピュータビジョンで出版していることを発見した。 それでも、東アフリカと西アフリカの両方が、過去2年間に南アフリカとのギャップを埋めることで有望な増加を見せていることを強調する。 さらに,これらの出版物におけるコラボレーションのパターンについて検討し,アフリカの出版物よりも国際的な共同作業が盛んであることを示す。 また、これらの出版物の多くは、最初の著者または最後の著者として重要な貢献者であるアフリカ人作家を含んでいることも示している。 最後に,アフリカ地域ごとのコンピュータビジョン出版において,最も反復的なキーワードを示す。

Computer vision is a broad field of study that encompasses different tasks (e.g., object detection). Although computer vision is relevant to the African communities in various applications, yet computer vision research is under-explored in the continent and constructs only 0.06% of top-tier publications in the last ten years. In this paper, our goal is to have a better understanding of the computer vision research conducted in Africa and provide pointers on whether there is equity in research or not. We do this through an empirical analysis of the African computer vision publications that are Scopus indexed, where we collect around 63,000 publications over the period 2012-2022. We first study the opportunities available for African institutions to publish in top-tier computer vision venues. We show that African publishing trends in top-tier venues over the years do not exhibit consistent growth, unlike other continents such as North America or Asia. Moreover, we study all computer vision publications beyond top-tier venues in different African regions to find that mainly Northern and Southern Africa are publishing in computer vision with 68.5% and 15.9% of publications, resp. Nonetheless, we highlight that both Eastern and Western Africa are exhibiting a promising increase with the last two years closing the gap with Southern Africa. Additionally, we study the collaboration patterns in these publications to find that most of these exhibit international collaborations rather than African ones. We also show that most of these publications include an African author that is a key contributor as the first or last author. Finally, we present the most recurring keywords in computer vision publications per African region.
翻訳日:2024-02-07 06:42:04 公開日:2024-02-04
# CharSpan:極低リソース言語のためのゼロショット機械翻訳を可能にする語彙的類似性を活用する

CharSpan: Utilizing Lexical Similarity to Enable Zero-Shot Machine Translation for Extremely Low-resource Languages ( http://arxiv.org/abs/2305.05214v2 )

ライセンス: Link先を確認
Kaushal Kumar Maurya, Rahul Kejriwal, Maunendra Sankar Desarkar, Anoop Kunchukuttan(参考訳) 我々は,超低リソース言語 (ELRL) から英語への機械翻訳 (MT) の課題を,「密接な」高リソース言語 (HRL) からの言語間移動を活用して解決する。 ELRLのためのMTシステムの開発は、典型的には並列コーパスと単言語コーパスを欠いているため、大きな多言語言語モデルにはないため、困難である。 多くのERRLは、いくつかのHRLと語彙的類似性を共有し、新しいモデリングの機会を提供する。 しかし、既存のサブワードベースのニューラルMTモデルは、HRLとELRLの埋め込み空間を暗黙的に調整するだけであるため、この語彙的類似性を明示的に利用していない。 この制限を克服するため、HRLのトレーニングデータに「文字スパンノイズ増強」に基づく新しいCharSpanアプローチを提案する。 これは正規化技術として機能し、HRLとERRLの間の「語彙分岐」をより堅牢にすることで、効果的な言語間移動を促進する。 提案手法は,ERRLの最先端モデルとして出現する3つの言語ファミリーのHRLとERRLペアのゼロショット設定において,強いベースラインを著しく向上させた。

We address the task of machine translation (MT) from extremely low-resource language (ELRL) to English by leveraging cross-lingual transfer from 'closely-related' high-resource language (HRL). The development of an MT system for ELRL is challenging because these languages typically lack parallel corpora and monolingual corpora, and their representations are absent from large multilingual language models. Many ELRLs share lexical similarities with some HRLs, which presents a novel modeling opportunity. However, existing subword-based neural MT models do not explicitly harness this lexical similarity, as they only implicitly align HRL and ELRL latent embedding space. To overcome this limitation, we propose a novel, CharSpan, approach based on 'character-span noise augmentation' into the training data of HRL. This serves as a regularization technique, making the model more robust to 'lexical divergences' between the HRL and ELRL, thus facilitating effective cross-lingual transfer. Our method significantly outperformed strong baselines in zero-shot settings on closely related HRL and ELRL pairs from three diverse language families, emerging as the state-of-the-art model for ELRLs.
翻訳日:2024-02-07 06:41:30 公開日:2024-02-04
# ミスアライメント系における接角カシミール力:磁気媒体、実導体、トルク

Tangential Casimir force in the misaligned system: Magnetic media, real conductors, and a torque ( http://arxiv.org/abs/2305.13352v2 )

ライセンス: Link先を確認
Zhentao Zhang(参考訳) ミスアライメントシステム内の無充電平行板は、それらの間に接するカシミール力を感じることができる。 この効果における磁気応答の役割を磁気媒体への接力拡大によって考慮し、多層磁性体の全零点エネルギーを計算することにより拡張を実現する。 次に, 誘電率の温度依存性を考慮し, 実導体の接角力について検討し, 室温で行うことが期待される実験実験に必要な結果を得た。 その後、等方性媒質からなる平行板間のカシミールトルクについて論じ、非帯電面のトルクを簡易に実現する方法を提案する。

Uncharged parallel plates in the misaligned system can experience a tangential Casimir force between them. We consider the role of magnetic response in this effect by extending the tangential force to magnetic media, and the extension is realized by working out the total zero-point energy of multilayered magnetodielectrics. Then we investigate the tangential force for real conductors by taking into account the temperature dependence of their dielectric constants, and obtain needed results for experimental investigations that are expected to be conducted at room temperature. Thereafter, we discuss a Casimir torque between parallel plates made of isotropic media, which offers a simple way to realize torques for uncharged surfaces.
翻訳日:2024-02-07 06:28:38 公開日:2024-02-04
# ニューラルサーフェスレンダリングによるごちゃごちゃした場面におけるロボット把持6次元学習

Learning Any-View 6DoF Robotic Grasping in Cluttered Scenes via Neural Surface Rendering ( http://arxiv.org/abs/2306.07392v3 )

ライセンス: Link先を確認
Snehal Jauhri, Ishikaa Lunawat, Georgia Chalvatzaki(参考訳) 現実世界のロボット操作において重要な課題は、追加のシーン探索を必要とせずに、あらゆる視点から散らばったシーンのオブジェクトを効果的につかむ6DoFである。 本研究は把持をレンダリングとして再解釈し,神経容積表現と表面レンダリングの進歩を利用した6dof把持検出法であるneugraspnetを導入した。 ロボットのエンドエフェクタと物体表面との相互作用を符号化し、共同学習により局所物体表面をレンダリングし、共有特徴空間における把握機能を学習する。 このアプローチでは、グローバルな(シーンレベルの)特徴を把握し、局所的な(グラフレベルの)神経表面の特徴を把握評価に利用する。 これにより、部分的に観察されたシーンであっても、有効で完全に暗黙的な6DoFによる品質予測が可能になる。 NeuGraspNetは、モバイル操作のシナリオに共通するランダムな視点で動作し、既存の暗黙的および半単純的把握方法より優れている。 この手法の現実的な適用性は、オープンで散らばった空間をつかむ移動マニピュレータロボットで実証されている。 Project website at https://sites.google.com/view/neugraspnet

A significant challenge for real-world robotic manipulation is the effective 6DoF grasping of objects in cluttered scenes from any single viewpoint without the need for additional scene exploration. This work reinterprets grasping as rendering and introduces NeuGraspNet, a novel method for 6DoF grasp detection that leverages advances in neural volumetric representations and surface rendering. It encodes the interaction between a robot's end-effector and an object's surface by jointly learning to render the local object surface and learning grasping functions in a shared feature space. The approach uses global (scene-level) features for grasp generation and local (grasp-level) neural surface features for grasp evaluation. This enables effective, fully implicit 6DoF grasp quality prediction, even in partially observed scenes. NeuGraspNet operates on random viewpoints, common in mobile manipulation scenarios, and outperforms existing implicit and semi-implicit grasping methods. The real-world applicability of the method has been demonstrated with a mobile manipulator robot, grasping in open, cluttered spaces. Project website at https://sites.google.com/view/neugraspnet
翻訳日:2024-02-07 06:20:28 公開日:2024-02-04
# Divide-and-Learnによるソフトウェアパフォーマンスの予測

Predicting Software Performance with Divide-and-Learn ( http://arxiv.org/abs/2306.06651v4 )

ライセンス: Link先を確認
Jingzhi Gong, Tao Chen(参考訳) 高度に構成可能なソフトウェアシステムの性能を予測することは、パフォーマンステストと品質保証の基礎となる。 そのために最近の研究は、ソフトウェアのパフォーマンスをモデル化するために、マシン/ディープ学習に依存している。 しかしながら、重要な課題は、設定の選択肢(機能)とデータサンプルの分布の影響が極めて少ない、構成の状況から受け継がれた疎結合をいかに避けるかである。 本稿では,DALと呼ばれる「分枝学習」の概念に基づくアプローチを提案する。 基本的な考え方は、サンプルのスパーシティを扱うために、サンプルを構成ランドスケープから遠くの分割に分割し、それぞれが特徴のスパーシティを扱うための局所モデルとして正規化されたDeep Neural Networkを構築します。 新たに与えられた構成は、最終的な予測のために正しい分割モデルに割り当てられる。 8つの実世界のシステムと5つのトレーニングデータによる実験結果から、DaLは最先端のアプローチと比較して、最大1.94倍の精度で、40のケースのうち33のケース(26のケースがかなり優れている)において、最高のシステムよりもパフォーマンスが良くないことが明らかになった。 実際にDaLは、基礎となるローカルモデルとして使用する際のさまざまなグローバルモデルを大幅に改善し、柔軟性をさらに強化します。 オープンサイエンスを促進するために、この研究のすべてのデータ、コード、補足的な数字は、私たちのリポジトリでアクセスできます。

Predicting the performance of highly configurable software systems is the foundation for performance testing and quality assurance. To that end, recent work has been relying on machine/deep learning to model software performance. However, a crucial yet unaddressed challenge is how to cater for the sparsity inherited from the configuration landscape: the influence of configuration options (features) and the distribution of data samples are highly sparse. In this paper, we propose an approach based on the concept of 'divide-and-learn', dubbed DaL. The basic idea is that, to handle sample sparsity, we divide the samples from the configuration landscape into distant divisions, for each of which we build a regularized Deep Neural Network as the local model to deal with the feature sparsity. A newly given configuration would then be assigned to the right model of division for the final prediction. Experiment results from eight real-world systems and five sets of training data reveal that, compared with the state-of-the-art approaches, DaL performs no worse than the best counterpart on 33 out of 40 cases (within which 26 cases are significantly better) with up to 1.94x improvement on accuracy; requires fewer samples to reach the same/better accuracy; and producing acceptable training overhead. Practically, DaL also considerably improves different global models when using them as the underlying local models, which further strengthens its flexibility. To promote open science, all the data, code, and supplementary figures of this work can be accessed at our repository: https://github.com/ideas-labo/DaL.
翻訳日:2024-02-07 06:20:09 公開日:2024-02-04
# 長期連続予測は複雑な注意と余剰長期入力を必要とするか?

Does Long-Term Series Forecasting Need Complex Attention and Extra Long Inputs? ( http://arxiv.org/abs/2306.05035v3 )

ライセンス: Link先を確認
Daojun Liang, Haixia Zhang, Dongfeng Yuan, Xiaoyan Ma, Dongyang Li and Minggao Zhang(参考訳) 変圧器ベースのモデルが様々な時系列タスクで印象的な性能を発揮しているため、ltsf(long-term series forecasting)のタスクも近年広く注目を集めている。 しかし、Transformerベースの手法を要求される計算の複雑さと長いシーケンスのため、LTSFタスクへの適用には、さらに検討が必要な2つの大きな問題がある。 1) これらの方法によって設計される注意の分散機構が実際に実際のデバイス上での実行時間を減少させるかどうか。 2)これらのモデルは、性能を保証するために、さらに長い入力シーケンスを必要とするか? 本論文の回答は否定的である。 そこで本稿では,これら2つの課題をよりよく再現するために,周期性による長期サブシリーズの集約と,近接処理による短期サブシリーズの更新を行う軽量な周期アテンション機構(Periodformer)を設計する。 一方、ガティング機構を周期フォーマに埋め込み、アテンションモジュールが予測結果に与える影響を調節する。 さらに,高速なハイパーパラメータ最適化のためのGPUを最大限活用するために,ベイズ最適化(MABO)に基づくマルチGPU非同期並列アルゴリズムを提案する。 MABOはキュー機構を介して各GPUにプロセスを割り当て、非同期並列検索のために一度に複数の試行を生成する。 最新の手法と比較すると,多変量予測では13%,不定値予測では26%の予測誤差が減少した。 さらにMABOは平均検索時間を46%削減し、ハイパーパラメータも改善した。 結論として、LTSFは複雑な注意と余分な長い入力シーケンスを必要としない可能性がある。 コードはgithubでオープンソース公開されている。

As Transformer-based models have achieved impressive performance on various time series tasks, Long-Term Series Forecasting (LTSF) tasks have also received extensive attention in recent years. However, due to the inherent computational complexity and long sequences demanding of Transformer-based methods, its application on LTSF tasks still has two major issues that need to be further investigated: 1) Whether the sparse attention mechanism designed by these methods actually reduce the running time on real devices; 2) Whether these models need extra long input sequences to guarantee their performance? The answers given in this paper are negative. Therefore, to better copy with these two issues, we design a lightweight Period-Attention mechanism (Periodformer), which renovates the aggregation of long-term subseries via explicit periodicity and short-term subseries via built-in proximity. Meanwhile, a gating mechanism is embedded into Periodformer to regulate the influence of the attention module on the prediction results. Furthermore, to take full advantage of GPUs for fast hyperparameter optimization (e.g., finding the suitable input length), a Multi-GPU Asynchronous parallel algorithm based on Bayesian Optimization (MABO) is presented. MABO allocates a process to each GPU via a queue mechanism, and then creates multiple trials at a time for asynchronous parallel search, which greatly reduces the search time. Compared with the state-of-the-art methods, the prediction error of Periodformer reduced by 13% and 26% for multivariate and univariate forecasting, respectively. In addition, MABO reduces the average search time by 46% while finding better hyperparameters. As a conclusion, this paper indicates that LTSF may not need complex attention and extra long input sequences. The code has been open sourced on Github.
翻訳日:2024-02-07 06:19:12 公開日:2024-02-04
# LayerAct: BatchNormを用いたCNNの層方向正規化を利用した高度なアクティベーション機構

LayerAct: Advanced activation mechanism utilizing layer-direction normalization for CNNs with BatchNorm ( http://arxiv.org/abs/2306.04940v3 )

ライセンス: Link先を確認
Kihyuk Yoon and Chiehyeon Lim(参考訳) 本稿では,バッチノルムを用いたcnnのレイヤレベルアクティベーション(layeract)機能を確立するための新しいアクティベーションメカニズムを提案する。 これらの関数は、入力のシフトによるアクティベーション出力の層レベルのゆらぎを低減し、既存の要素レベルのアクティベーション関数よりもノイズローバストに設計されている。 さらに,アクティベーションの飽和状態に依存しないノイズロバスト性を実現し,アクティベーション出力空間を制限し,効率的なトレーニングを複雑化する。 本稿では,要素レベルの活性化関数に比べ,層状関数がノイズロバスト性に優れることを示す解析と実験を行い,これらの関数がゼロライクな平均活性化を持つことを示す。 画像分類タスクのためのクリーンな3つのアウト・オブ・ディストリビューション・ベンチマークデータセットによる実験結果は、LayerAct関数がノイズの多いデータセット、要素レベルのアクティベーション関数よりも優れており、クリーンなデータセットのパフォーマンスもほとんどのケースで優れていることを示している。

In this work, we propose a novel activation mechanism aimed at establishing layer-level activation (LayerAct) functions for CNNs with BatchNorm. These functions are designed to be more noise-robust compared to existing element-level activation functions by reducing the layer-level fluctuation of the activation outputs due to shift in inputs. Moreover, the LayerAct functions achieve this noise-robustness independent of the activation's saturation state, which limits the activation output space and complicates efficient training. We present an analysis and experiments demonstrating that LayerAct functions exhibit superior noise-robustness compared to element-level activation functions, and empirically show that these functions have a zero-like mean activation. Experimental results with three clean and three out-of-distribution benchmark datasets for image classification tasks show that LayerAct functions excel in handling noisy datasets, outperforming element-level activation functions, while the performance on clean datasets is also superior in most cases.
翻訳日:2024-02-07 06:18:43 公開日:2024-02-04
# GeoDiffusion:オブジェクト検出データ生成のためのテキストプロンプト幾何制御

GeoDiffusion: Text-Prompted Geometric Control for Object Detection Data Generation ( http://arxiv.org/abs/2306.04607v7 )

ライセンス: Link先を確認
Kai Chen, Enze Xie, Zhe Chen, Yibo Wang, Lanqing Hong, Zhenguo Li, Dit-Yan Yeung(参考訳) 拡散モデルは、コンテンツを作成し、画像分類のようなタスクのためにデータを生成する素晴らしい能力のために、大きな注目を集めている。 しかし、高品質な物体検出データを生成するための拡散モデルの利用は、画像レベルの知覚的品質だけでなく、バウンディングボックスやカメラビューのような幾何学的条件も必要不可欠な領域である。 これまでの研究では、コピー・ペースト合成またはレイアウト・ツー・イメージ(l2i)生成を使い、セマンティックレイアウトを符号化するために特別に設計されたモジュールを使用してきた。 本稿では,様々な幾何学的条件をテキストプロンプトに柔軟に翻訳し,高品質な検出データ生成のための事前学習されたテキスト・ツー・イメージ(t2i)拡散モデルを可能にするシンプルなフレームワークgeodiffusionを提案する。 従来のl2i法とは異なり、geodiffusionはバウンディングボックスだけでなく、自動運転シーンのカメラビューなどの余分な幾何学的条件もエンコードできる。 大規模な実験では、GeoDiffusionは従来のL2I法よりも高速に4倍のトレーニング時間を維持する。 私たちの知る限りでは、幾何学的な条件でレイアウトから画像への拡散モデルを採用し、l2i生成画像が物体検出器の性能向上に有用であることを実証するのはこれが初めてです。

Diffusion models have attracted significant attention due to the remarkable ability to create content and generate data for tasks like image classification. However, the usage of diffusion models to generate the high-quality object detection data remains an underexplored area, where not only image-level perceptual quality but also geometric conditions such as bounding boxes and camera views are essential. Previous studies have utilized either copy-paste synthesis or layout-to-image (L2I) generation with specifically designed modules to encode the semantic layouts. In this paper, we propose the GeoDiffusion, a simple framework that can flexibly translate various geometric conditions into text prompts and empower pre-trained text-to-image (T2I) diffusion models for high-quality detection data generation. Unlike previous L2I methods, our GeoDiffusion is able to encode not only the bounding boxes but also extra geometric conditions such as camera views in self-driving scenes. Extensive experiments demonstrate GeoDiffusion outperforms previous L2I methods while maintaining 4x training time faster. To the best of our knowledge, this is the first work to adopt diffusion models for layout-to-image generation with geometric conditions and demonstrate that L2I-generated images can be beneficial for improving the performance of object detectors.
翻訳日:2024-02-07 06:17:53 公開日:2024-02-04
# フェアマルチエージェントバンド

Fair Multi-Agent Bandits ( http://arxiv.org/abs/2306.04498v2 )

ライセンス: Link先を確認
Amir Leshem(参考訳) 本稿では,同一のアームに同時にアクセスするエージェントに対して提供される衝突情報を除いて,エージェント同士が通信しない場合の,公平なマルチエージェントマルチアームバンディット学習の問題について検討する。 我々は、後悔する$O\left(N^3 \log \frac{B}{\Delta} f(\log T) \log T \right)$(有界な有界な報酬を仮定する)のアルゴリズムを提供する。 これは、o(f(\log t) \log t )$の順序の後悔に同じ上限を持つが、エージェントの数に指数関数依存である以前の結果を大幅に改善する。 その結果、分散オークションアルゴリズムを用いて、サンプル最適マッチングと新しい順序統計に基づく後悔分析を学習する。 シミュレーションの結果は、$\log T$に対する後悔の依存性を示す。

In this paper, we study the problem of fair multi-agent multi-arm bandit learning when agents do not communicate with each other, except collision information, provided to agents accessing the same arm simultaneously. We provide an algorithm with regret $O\left(N^3 \log \frac{B}{\Delta} f(\log T) \log T \right)$ (assuming bounded rewards, with unknown bound), where $f(t)$ is any function diverging to infinity with $t$. This significantly improves previous results which had the same upper bound on the regret of order $O(f(\log T) \log T )$ but an exponential dependence on the number of agents. The result is attained by using a distributed auction algorithm to learn the sample-optimal matching and a novel order-statistics-based regret analysis. Simulation results present the dependence of the regret on $\log T$.
翻訳日:2024-02-07 06:17:32 公開日:2024-02-04
# ReLUネットワークのサイズ非依存サンプル複雑性について

On Size-Independent Sample Complexity of ReLU Networks ( http://arxiv.org/abs/2306.01992v3 )

ライセンス: Link先を確認
Mark Sellke(参考訳) 一般化の観点からReLUニューラルネットワークを学習する際のサンプル複雑性について検討する。 重み行列のノルム制約が与えられたとき、関連する関数クラスのラデマッハ複雑性を推定する共通のアプローチがある。 以前の Golowich-Rakhlin-Shamir (2020) は、二乗根深さの係数を除いて、ネットワークサイズ(フロベニウスノルムの積とスケーリングする)の有界独立性を得た。 しばしば明示的な深さ依存性を持たない精細度を与える。

We study the sample complexity of learning ReLU neural networks from the point of view of generalization. Given norm constraints on the weight matrices, a common approach is to estimate the Rademacher complexity of the associated function class. Previously Golowich-Rakhlin-Shamir (2020) obtained a bound independent of the network size (scaling with a product of Frobenius norms) except for a factor of the square-root depth. We give a refinement which often has no explicit depth-dependence at all.
翻訳日:2024-02-07 06:16:36 公開日:2024-02-04
# STEVE-1:Minecraftにおけるテキスト・ツー・ビヘイビア生成モデル

STEVE-1: A Generative Model for Text-to-Behavior in Minecraft ( http://arxiv.org/abs/2306.00937v3 )

ライセンス: Link先を確認
Shalev Lifshitz, Keiran Paster, Harris Chan, Jimmy Ba, Sheila McIlraith(参考訳) テキスト命令に応答するAIモデルの構築は、特にシーケンシャルな意思決定タスクでは難しい。 本研究は,UnCLIPにインスパイアされた,命令ラベル付き軌道の大規模なデータセットを頼らずに,行動生成モデルを制御する手法を提案する。 この手法を用いることで,近距離のオープンテキストとマインクラフトの視覚的指示に従うことができるSTEVE-1と呼ばれる命令調整ビデオ事前訓練(VPT)モデルを作成する。 STEVE-1は、事前訓練されたVPTモデルをMineCLIPの潜伏空間のコマンドに従うように適応させ、テキストから潜伏コードを予測するために事前訓練する。 これにより、自己管理された行動クローニングと後向きのレザベリングを通じてVPTを微調整し、コストのかかる人間のテキストアノテーションの必要性を減らし、すべて60ドル程度で計算できます。 VPTやMineCLIPのような事前訓練されたモデルを活用し、テキスト条件付き画像生成のベストプラクティスを活用することで、STEVE-1はMinecraftで低レベルのコントロール(マウスとキーボード)と生のピクセル入力を備えたオープンエンドの命令フォロー用の新しいバーを設定します。 我々は,事前学習,分類子なし指導,データスケーリングなど,下流のパフォーマンスの重要な要因を明らかにする実験的なエビデンスを提供する。 モデルウェイト、トレーニングスクリプト、評価ツールを含むすべてのリソースが、さらなる研究のために利用可能です。

Constructing AI models that respond to text instructions is challenging, especially for sequential decision-making tasks. This work introduces a methodology, inspired by unCLIP, for instruction-tuning generative models of behavior without relying on a large dataset of instruction-labeled trajectories. Using this methodology, we create an instruction-tuned Video Pretraining (VPT) model called STEVE-1, which can follow short-horizon open-ended text and visual instructions in Minecraft. STEVE-1 is trained in two steps: adapting the pretrained VPT model to follow commands in MineCLIP's latent space, then training a prior to predict latent codes from text. This allows us to finetune VPT through self-supervised behavioral cloning and hindsight relabeling, reducing the need for costly human text annotations, and all for only $60 of compute. By leveraging pretrained models like VPT and MineCLIP and employing best practices from text-conditioned image generation, STEVE-1 sets a new bar for open-ended instruction-following in Minecraft with low-level controls (mouse and keyboard) and raw pixel inputs, far outperforming previous baselines and robustly completing 12 of 13 tasks in our early-game evaluation suite. We provide experimental evidence highlighting key factors for downstream performance, including pretraining, classifier-free guidance, and data scaling. All resources, including our model weights, training scripts, and evaluation tools are made available for further research.
翻訳日:2024-02-07 06:15:12 公開日:2024-02-04
# 重み付け最適化軌道による対人訓練の強化

Enhancing Adversarial Training via Reweighting Optimization Trajectory ( http://arxiv.org/abs/2306.14275v4 )

ライセンス: Link先を確認
Tianjin Huang, Shiwei Liu, Tianlong Chen, Meng Fang, Li Shen, Vlaod Menkovski, Lu Yin, Yulong Pei and Mykola Pechenizkiy(参考訳) 敵対的トレーニングがディープニューラルネットワークの堅牢性向上のデファクト手法になっているにもかかわらず、バニラ対人トレーニングが頑強なオーバーフィッティングに悩まされ、満足のいく堅牢な一般化をもたらすことはよく知られている。 これらの欠点に対処するいくつかのアプローチが提案されている。例えば、余分な正規化、敵の重みの摂動、そして過去数年間のさらなるデータによるトレーニングなどである。 しかし、強固な一般化改善はまだ十分ではない。 本稿では,この課題に新たな視点でアプローチし,歴史的最適化の軌跡を整理する。 本稿では, 時間内学習の最適化トラジェクトリを利用する「textbf{Weighted Optimization Trajectories (WOT)」という新しい手法を提案する。 我々は,様々な対人攻撃におけるWOTの有効性を実証するための広範囲な実験を行った。 以上の結果から,wotは既存の対向訓練手法とシームレスに統合され,強固なオーバーフィッティング問題を一貫して克服し,対向ロバスト性が向上した。 例えば、WOTはAA-$L_{\infty}$アタックのAT-PGDのロバスト精度を1.53\%$\sim$6.11\%向上させ、一方SVHN、CIFAR-10、CIFAR-100、Tiny-ImageNetデータセットのクリーン精度を0.55\%$\sim$5.47\%向上させる。

Despite the fact that adversarial training has become the de facto method for improving the robustness of deep neural networks, it is well-known that vanilla adversarial training suffers from daunting robust overfitting, resulting in unsatisfactory robust generalization. A number of approaches have been proposed to address these drawbacks such as extra regularization, adversarial weights perturbation, and training with more data over the last few years. However, the robust generalization improvement is yet far from satisfactory. In this paper, we approach this challenge with a brand new perspective -- refining historical optimization trajectories. We propose a new method named \textbf{Weighted Optimization Trajectories (WOT)} that leverages the optimization trajectories of adversarial training in time. We have conducted extensive experiments to demonstrate the effectiveness of WOT under various state-of-the-art adversarial attacks. Our results show that WOT integrates seamlessly with the existing adversarial training methods and consistently overcomes the robust overfitting issue, resulting in better adversarial robustness. For example, WOT boosts the robust accuracy of AT-PGD under AA-$L_{\infty}$ attack by 1.53\% $\sim$ 6.11\% and meanwhile increases the clean accuracy by 0.55\%$\sim$5.47\% across SVHN, CIFAR-10, CIFAR-100, and Tiny-ImageNet datasets.
翻訳日:2024-02-07 06:06:52 公開日:2024-02-04
# TrustGuard: 動的サポートを備えたGNNベースのロバストと説明可能な信頼評価

TrustGuard: GNN-based Robust and Explainable Trust Evaluation with Dynamicity Support ( http://arxiv.org/abs/2306.13339v4 )

ライセンス: Link先を確認
Jie Wang, Zheng Yan, Jiahe Lan, Elisa Bertino, Witold Pedrycz(参考訳) 信頼評価は、エンティティ間の信頼関係を評価し、意思決定を促進する。 機械学習(ML)は、その学習能力による信頼評価の大きな可能性を示している。 近年、新しいMLパラダイムであるグラフニューラルネットワーク(GNN)は、グラフデータを扱う上で優位性を示している。 これにより,信頼関係をグラフとしてモデル化できるため,信頼評価の活用を研究者が検討する動機となった。 しかし、gnnを用いた現在の信頼評価手法は、信頼の動的な性質を完全に満足できず、信頼関連攻撃の悪影響を見落とし、評価結果に説得力のある説明を与えることができない。 これらの問題に対処するために,信頼の動的性を支援するgnnベースの正確な信頼評価モデルであるtrustguardを提案する。 具体的には、TrustGuardは、スナップショット入力層、空間集約層、時間集約層、予測層を含む階層構造で設計されている。 このうち、空間集約層は局所信頼を強固に集約する防御機構を採用し、時間集約層は時間パターンを効果的に学習するための注意機構を適用している。 2つの実世界のデータセットに対する大規模な実験によると、TrustGuardは、攻撃があっても、シングルタイムスロットとマルチタイムスロットの信頼予測に関して、最先端のGNNベースの信頼評価モデルより優れている。 さらに、TrustGuardは、空間ビューと時間ビューの両方を可視化することで、評価結果を説明することができる。

Trust evaluation assesses trust relationships between entities and facilitates decision-making. Machine Learning (ML) shows great potential for trust evaluation owing to its learning capabilities. In recent years, Graph Neural Networks (GNNs), as a new ML paradigm, have demonstrated superiority in dealing with graph data. This has motivated researchers to explore their use in trust evaluation, as trust relationships among entities can be modeled as a graph. However, current trust evaluation methods that employ GNNs fail to fully satisfy the dynamic nature of trust, overlook the adverse effects of trust-related attacks, and cannot provide convincing explanations on evaluation results. To address these problems, we propose TrustGuard, a GNN-based accurate trust evaluation model that supports trust dynamicity, is robust against typical attacks, and provides explanations through visualization. Specifically, TrustGuard is designed with a layered architecture that contains a snapshot input layer, a spatial aggregation layer, a temporal aggregation layer, and a prediction layer. Among them, the spatial aggregation layer adopts a defense mechanism to robustly aggregate local trust, and the temporal aggregation layer applies an attention mechanism for effective learning of temporal patterns. Extensive experiments on two real-world datasets show that TrustGuard outperforms state-of-the-art GNN-based trust evaluation models with respect to trust prediction across single-timeslot and multi-timeslot, even in the presence of attacks. In addition, TrustGuard can explain its evaluation results by visualizing both spatial and temporal views.
翻訳日:2024-02-07 06:05:38 公開日:2024-02-04
# 理論的保証を伴う微分的プライベートドメイン適応

Differentially Private Domain Adaptation with Theoretical Guarantees ( http://arxiv.org/abs/2306.08838v2 )

ライセンス: Link先を確認
Raef Bassily, Corinna Cortes, Anqi Mao, Mehryar Mohri(参考訳) 多くのアプリケーションでは、学習者の自由にラベル付けされたデータはプライバシーの制約を受けており、比較的制限されている。 ターゲットドメインのより正確な予測器を導出するために、ターゲットドメインに近い別のドメインから利用可能なラベル付きデータを活用することがしばしば有益である。 これは、パブリックソースからプライベートターゲットドメインへのドメイン適応を監督する現代の問題である。 我々は,教師付き適応のための2つの$(\epsilon, \delta)$-differentially private adaptation algorithm を提案する。 最初のアルゴリズムは線形予測器を用いて回帰を設計し,凸最適化問題の解法を示した。 第二のアルゴリズムは、非凸であるがリプシッツと滑らかな損失関数に対するより一般的な解である。 我々の主な目的は理論分析であるが、まず、我々のアルゴリズムの非プライベートバージョンが適応ベースラインを上回り、次にターゲットサンプルサイズまたは$\epsilon$のより大きな値に対して、我々のプライベートアルゴリズムの性能が非プライベートな定式化のそれに近いことを示すいくつかの実験の結果を報告する。

In many applications, the labeled data at the learner's disposal is subject to privacy constraints and is relatively limited. To derive a more accurate predictor for the target domain, it is often beneficial to leverage publicly available labeled data from an alternative domain, somewhat close to the target domain. This is the modern problem of supervised domain adaptation from a public source to a private target domain. We present two $(\epsilon, \delta)$-differentially private adaptation algorithms for supervised adaptation, for which we make use of a general optimization problem, recently shown to benefit from favorable theoretical learning guarantees. Our first algorithm is designed for regression with linear predictors and shown to solve a convex optimization problem. Our second algorithm is a more general solution for loss functions that may be non-convex but Lipschitz and smooth. While our main objective is a theoretical analysis, we also report the results of several experiments first demonstrating that the non-private versions of our algorithms outperform adaptation baselines and next showing that, for larger values of the target sample size or $\epsilon$, the performance of our private algorithms remains close to that of the non-private formulation.
翻訳日:2024-02-07 06:04:08 公開日:2024-02-04
# hat-cl: 継続学習のためのタスク対応pytorchライブラリ

HAT-CL: A Hard-Attention-to-the-Task PyTorch Library for Continual Learning ( http://arxiv.org/abs/2307.09653v2 )

ライセンス: Link先を確認
Xiaotian Duan(参考訳) ニューラルネットワークが新しいタスクの学習中に得られた知識を失う破滅的な忘れ物は、継続的な学習において重要な課題となる。 ハード・アテンション・トゥ・ザ・タスク(HAT)機構はこの問題を緩和する可能性を示しているが、ユーザビリティと互換性の問題や既存のネットワークの再利用サポートの欠如によりその実践は複雑である。 本稿では,ユーザフレンドリなPyTorch互換のHAT-CLについて紹介する。 HAT-CLは勾配操作を自動化するだけでなく、PyTorchモジュールのHATモジュールへの変換を効率化する。 既存のアーキテクチャにシームレスに統合可能なモジュールの包括的なスイートを提供することで、これを実現する。 さらに hat-cl は,timm ライブラリとスムーズに統合可能な hat ネットワークも提供している。 hatの再設計と再実装以外にも,さまざまな実験で一貫して改善されている,新たなマスク操作テクニックも導入しています。 我々の研究は、HATメカニズムのより広範な応用の道を開き、多様なモデルやアプリケーションにわたる継続的な学習の新たな可能性を開く。

Catastrophic forgetting, the phenomenon in which a neural network loses previously obtained knowledge during the learning of new tasks, poses a significant challenge in continual learning. The Hard-Attention-to-the-Task (HAT) mechanism has shown potential in mitigating this problem, but its practical implementation has been complicated by issues of usability and compatibility, and a lack of support for existing network reuse. In this paper, we introduce HAT-CL, a user-friendly, PyTorch-compatible redesign of the HAT mechanism. HAT-CL not only automates gradient manipulation but also streamlines the transformation of PyTorch modules into HAT modules. It achieves this by providing a comprehensive suite of modules that can be seamlessly integrated into existing architectures. Additionally, HAT-CL offers ready-to-use HAT networks that are smoothly integrated with the TIMM library. Beyond the redesign and reimplementation of HAT, we also introduce novel mask manipulation techniques for HAT, which have consistently shown improvements across various experiments. Our work paves the way for a broader application of the HAT mechanism, opening up new possibilities in continual learning across diverse models and applications.
翻訳日:2024-02-07 05:55:05 公開日:2024-02-04
# 制限付き高次元QKDプロトコルの新しいセキュリティ証明

New Security Proof of a Restricted High-Dimensional QKD Protocol ( http://arxiv.org/abs/2307.09560v2 )

ライセンス: Link先を確認
Hasan Iqbal and Walter O. Krawec(参考訳) 高次元(hd)状態は量子暗号に適用するといくつかの興味深い性質を持つことが知られている。 量子鍵分布(QKD)では、これらの状態は耐雑音性と効率性を改善する可能性がある。 しかし、HD状態の生成と測定は技術的に難しいため、アリスとボブが量子能力に制限されるHD-QKDプロトコルを研究することが重要である。 本稿では,AliceとBobが相互に偏りのない全ベースで送信・測定する必要がない,特定のHD-QKDプロトコル(PRA 97 (4):042348, 2018)を再検討する。 ある意味では、このプロトコルは3つの状態bb84のhdバージョンである: 1つの完全基底はキー蒸留に使われるが、チャネルの忠実性をテストするために1つの状態だけを使用する。 このプロトコルの以前のセキュリティの証明は数値的な方法に依存しているため、高次元の評価は困難である。 本研究では,セキュリティの新たな証明を提供し,脱分極チャネルに対する明示的なキーレート方程式を与え,任意の高次元状態に対するキーレートの評価を可能にする。 さらに,本論文では,8次元以上の先行研究よりも優れた結果が得られ,HD状態が制限されたプロトコルの恩恵を受けることを示す。

High-dimensional (HD) states are known to have several interesting properties when applied to quantum cryptography. For quantum key distribution (QKD), these states have the potential to improve noise tolerance and efficiency. However, creating, and measuring, HD states is technologically challenging, thus making it important to study HD-QKD protocols where Alice and Bob are restricted in their quantum capabilities. In this paper, we revisit a particular HD-QKD protocol, introduced in (PRA 97 (4):042348, 2018), which does not require Alice and Bob to be capable of sending and measuring in full mutually unbiased bases. In a way, the protocol is a HD version of the three state BB84: one full basis is used for key distillation, but only a single state is used, from an alternative basis, for testing the fidelity of the channel. The previous proof of security for this protocol has relied on numerical methods, making it difficult to evaluate for high dimensions. In this work, we provide a new proof of security, and give an explicit key-rate equation for depolarization channels, allowing us to evaluate the key-rate for arbitrarily high dimensional states. Furthermore, our new proof produces better results than prior work for dimensions greater than eight, and shows that HD-states can benefit restricted protocols of this nature.
翻訳日:2024-02-07 05:54:46 公開日:2024-02-04
# padding-and-permuting fingerprinting codesによる微分プライベートアルゴリズムの滑らかな下限

Smooth Lower Bounds for Differentially Private Algorithms via Padding-and-Permuting Fingerprinting Codes ( http://arxiv.org/abs/2307.07604v3 )

ライセンス: Link先を確認
Naty Peter, Eliad Tsfadia, Jonathan Ullman(参考訳) Bun, Ullman, Vadhan (STOC 2014) が最初に導入したフィンガープリンティング引数は、サンプルの複雑さや約微分プライベート(DP)アルゴリズムの誤差を低くする最も広く使われている手法である。 しかし、差分プライバシーには、適切な下位境界が分かっていない問題が多く、私たちがしている問題においても、下位境界は滑らかではなく、エラーがしきい値より大きい場合は通常空白になる。 本研究では,非常に弱い精度を満足する差分プライベートアルゴリズムのサンプル複雑性に対して,スムーズな下界を生成するための新しいフレームワークとツールを提案する。 1)低精度政権におけるDP平均化の厳密な下限は,特にNissim, Stemmer, Vadhan (PODS 2016) が導入したプライベート1クラスタ問題に対する下限を意味する。 2) 近似k平均クラスタリングのためのDPアルゴリズムの加算誤差に対する下限は, 一定の乗算誤差に対して厳密な乗算誤差の関数である。 3) 低精度な状態における行列の上特異ベクトルをDPの下で推定する下界は、シンガルとシュタインケ(NeurIPS 2021)によって研究されたDP部分空間推定の特別な場合である。 我々の主な技術は、指紋コードにパディング・アンド・パーミュート変換を適用することである。 しかし、既存の指紋認証コード(例えばTardosのコード)へのブラックボックスアクセスを使って結果を証明する代わりに、Dwork et al. (FOCS 2015) や Bun et al. (SODA 2017) よりも強い新しい指紋認証補題を開発し、その下位境界を補題から直接証明する。 特に我々の補題は、独立した関心を持つ最適な率(多対数因子まで)で、より単純なフィンガープリントコード構成を与えます。

Fingerprinting arguments, first introduced by Bun, Ullman, and Vadhan (STOC 2014), are the most widely used method for establishing lower bounds on the sample complexity or error of approximately differentially private (DP) algorithms. Still, there are many problems in differential privacy for which we don't know suitable lower bounds, and even for problems that we do, the lower bounds are not smooth, and usually become vacuous when the error is larger than some threshold. In this work, we present a new framework and tools to generate smooth lower bounds on the sample complexity of differentially private algorithms satisfying very weak accuracy. We illustrate the applicability of our method by providing new lower bounds in various settings: 1. A tight lower bound for DP averaging in the low-accuracy regime, which in particular implies a lower bound for the private 1-cluster problem introduced by Nissim, Stemmer, and Vadhan (PODS 2016). 2. A lower bound on the additive error of DP algorithms for approximate k-means clustering, as a function of the multiplicative error, which is tight for a constant multiplication error. 3. A lower bound for estimating the top singular vector of a matrix under DP in low-accuracy regimes, which is a special case of DP subspace estimation studied by Singhal and Steinke (NeurIPS 2021). Our main technique is to apply a padding-and-permuting transformation to a fingerprinting code. However, rather than proving our results using a black-box access to an existing fingerprinting code (e.g., Tardos' code), we develop a new fingerprinting lemma that is stronger than those of Dwork et al. (FOCS 2015) and Bun et al. (SODA 2017), and prove our lower bounds directly from the lemma. Our lemma, in particular, gives a simpler fingerprinting code construction with optimal rate (up to polylogarithmic factors) that is of independent interest.
翻訳日:2024-02-07 05:53:52 公開日:2024-02-04
# 言語モデルのファクチュアリティ評価のためのベンチマークの作成

Generating Benchmarks for Factuality Evaluation of Language Models ( http://arxiv.org/abs/2307.06908v2 )

ライセンス: Link先を確認
Dor Muhlgay, Ori Ram, Inbal Magar, Yoav Levine, Nir Ratner, Yonatan Belinkov, Omri Abend, Kevin Leyton-Brown, Amnon Shashua, Yoav Shoham(参考訳) 言語モデル(LM)を特定のドメインにデプロイする前に、そのドメインで事実的に誤った情報を生成する傾向を測定することが重要である。 LLM生成の事実性評価のための既存の方法は、LM自体からサンプリングされた事実に焦点を当てており、評価された事実の集合を制御せず、ドメイン固有または稀な事実を過小に表現する可能性がある。 本稿では,lmの事実性を評価するためのスケーラブルな手法であるコーパス変換による事実評価を提案する。 FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。 我々は、Wiki-FACTOR、News-FACTOR、Expert-FACTORの3つのベンチマークを作成するためにフレームワークを使用します。 ご覧の通りです (i)我々のベンチマークスコアはモデルサイズによって増加し、LMが検索で拡張されたときに改善される。 (ii)ベンチマークスコアとパープレキシティは、必ずしもモデルランキングに一致しない。 (iii) パープレキシティとベンチマークスコアが一致しない場合、後者は、人間の注釈によって測定されるように、開放された世代の事実性をよりよく反映する。 私たちはデータとコードをhttps://github.com/AI21Labs/factorで公開しています。

Before deploying a language model (LM) within a given domain, it is important to measure its tendency to generate factually incorrect information in that domain. Existing methods for factuality evaluation of LLM generation focus on facts sampled from the LM itself, and thus do not control the set of evaluated facts and might under-represent domain specific or rare facts. We propose FACTOR: Factual Assessment via Corpus TransfORmation, a scalable approach for evaluating LM factuality. FACTOR automatically transforms a factual corpus of interest into a benchmark evaluating an LM's propensity to generate true facts from the corpus vs. similar but incorrect statements. We use our framework to create three benchmarks: Wiki-FACTOR, News-FACTOR and Expert-FACTOR. We show that: (i) our benchmark scores increase with model size and improve when the LM is augmented with retrieval; (ii) benchmark score and perplexity do not always agree on model ranking; (iii) when perplexity and benchmark score disagree, the latter better reflects factuality in open-ended generation, as measured by human annotators. We make our data and code publicly available in https://github.com/AI21Labs/factor.
翻訳日:2024-02-07 05:52:30 公開日:2024-02-04
# DIAGNOSIS:テキストと画像の拡散モデルにおける不正なデータ使用の検出

DIAGNOSIS: Detecting Unauthorized Data Usages in Text-to-image Diffusion Models ( http://arxiv.org/abs/2307.03108v2 )

ライセンス: Link先を確認
Zhenting Wang, Chen Chen, Lingjuan Lyu, Dimitris N. Metaxas, Shiqing Ma(参考訳) 最近のテキストから画像への拡散モデルは、高品質な画像を生成するのに驚くべき性能を示している。 しかし、トレーニングや微調整プロセス中に不正なデータの使用が懸念されている。 例えば、モデルトレーナーが特定のアーティストが作成した一連のイメージを収集し、許可を得てアーティストにクレジットを与えることなく類似の画像を生成することができるモデルを訓練しようとする場合である。 そこで本研究では,保護データセット上で訓練されたテキストから画像への拡散モデルに入力された暗記を植え付けることにより,不正なデータ使用を検出する手法を提案する。 具体的には、人間にほとんど知覚できないが拡散モデルにより捉え記憶できるステルス画像ワープ機能を用いて、これらの画像にユニークな内容を加えることにより、保護された画像を修正する。 モデルが注入されたコンテンツ(つまり生成された画像が注入後処理機能によって処理されているかどうか)を記憶しているかどうかを分析することで、不正に不正に利用されたモデルを検出することができる。 異なるモデルトレーニングや微調整法(lora,dreambooth,standard training)を用いた安定拡散とvq拡散の実験は,不正なデータ使用量検出における提案手法の有効性を示す。 コード:https://github.com/ZhentingWang/DIAGNOSIS

Recent text-to-image diffusion models have shown surprising performance in generating high-quality images. However, concerns have arisen regarding the unauthorized data usage during the training or fine-tuning process. One example is when a model trainer collects a set of images created by a particular artist and attempts to train a model capable of generating similar images without obtaining permission and giving credit to the artist. To address this issue, we propose a method for detecting such unauthorized data usage by planting the injected memorization into the text-to-image diffusion models trained on the protected dataset. Specifically, we modify the protected images by adding unique contents on these images using stealthy image warping functions that are nearly imperceptible to humans but can be captured and memorized by diffusion models. By analyzing whether the model has memorized the injected content (i.e., whether the generated images are processed by the injected post-processing function), we can detect models that had illegally utilized the unauthorized data. Experiments on Stable Diffusion and VQ Diffusion with different model training or fine-tuning methods (i.e, LoRA, DreamBooth, and standard training) demonstrate the effectiveness of our proposed method in detecting unauthorized data usages. Code: https://github.com/ZhentingWang/DIAGNOSIS.
翻訳日:2024-02-07 05:51:27 公開日:2024-02-04
# 離散非線形schr\"odinger方程式における創発的ssh物理、ソリトンおよび凝縮を誘導する密度依存ゲージ場

Density dependent gauge field inducing emergent SSH physics, solitons and condensates in a discrete nonlinear Schr\"odinger equation ( http://arxiv.org/abs/2307.02952v2 )

ライセンス: Link先を確認
William N. Faugno, Mario Salerno, Tomoki Ozawa(参考訳) 動的密度差依存ゲージ場を持つ離散非線形シュリンガー方程式について検討する。 平面波凝縮状態から局所ソリトン状態への基底状態遷移は、ゲージ結合が変化するにつれて起こる。 興味深いことに、凝縮物とソリトンが安定している状態が見つかる。 創発的なキラル対称性を同定し、対称性が保護されたゼロエネルギーエッジモードの存在につながる。 創発的なキラル対称性は、低エネルギーソリトンと高エネルギーソリトンを関連付ける。 これらの状態は、相互作用が反発的かつ魅力的に作用することを示している。

We investigate a discrete non-linear Schr\"odinger equation with dynamical, density-difference-dependent, gauge fields. We find a ground-state transition from a plane wave condensate to a localized soliton state as the gauge coupling is varied. Interestingly we find a regime in which the condensate and soliton are both stable. We identify an emergent chiral symmetry, which leads to the existence of a symmetry protected zero energy edge mode. The emergent chiral symmetry relates low and high energy solitons. These states indicate that the interaction acts both repulsively and attractively.
翻訳日:2024-02-07 05:51:04 公開日:2024-02-04
# 微調整は基盤モデルを損なう - 機能の保存が解決策になるかも知れない

Fine-tuning can cripple your foundation model; preserving features may be the solution ( http://arxiv.org/abs/2308.13320v2 )

ライセンス: Link先を確認
Jishnu Mukhoti, Yarin Gal, Philip H.S. Torr, Puneet K. Dokania(参考訳) 事前トレーニングされた基礎モデルは、膨大な容量と事前トレーニング中に大量のデータにさらされるため、現実世界の概念を多く習得したことが知られている。 これらの事前トレーニングされたモデルを下流タスクで極めて効果的にするための重要なステップは、関連するデータセットでそれらを微調整することだ。 様々なファインチューニング手法が考案され、非常に効果的であることが示されているが、ダウンストリームから$\textit{different}$というタスクの概念を認識できる微調整モデルの能力は、事前訓練されたモデルに比べて大幅に低下している。 これは、事前学習された概念を学習するためにかなりの量のリソースが使われたため、微調整の好ましくない効果である。 我々はこの現象を「概念の忘れ」と呼び、実験を通して、ほとんどのエンドツーエンドの微調整アプローチがこの副作用に大きく影響していることを示す。 そこで本研究では,下流タスクに関連する新しい概念を学習しながら,モデルが事前学習した知識を保存できるように,$\textit{LDIFS}$ (short for $\ell_2$ distance in feature space) というファインチューニング手法を設計することで,この問題に対する簡単な修正を提案する。 10個の微調整タスクに関する広範な実験を通して、LDIFSは概念の忘れを著しく減らすことを示した。 さらに,LDIFSは連続的な微調整や連続的な学習ベースラインと比較して,連続的な微調整を行う上で非常に有効であることを示す。

Pre-trained foundation models, due to their enormous capacity and exposure to vast amounts of data during pre-training, are known to have learned plenty of real-world concepts. An important step in making these pre-trained models extremely effective on downstream tasks is to fine-tune them on related datasets. While various fine-tuning methods have been devised and have been shown to be highly effective, we observe that a fine-tuned model's ability to recognize concepts on tasks $\textit{different}$ from the downstream one is reduced significantly compared to its pre-trained counterpart. This is an undesirable effect of fine-tuning as a substantial amount of resources was used to learn these pre-trained concepts in the first place. We call this phenomenon "concept forgetting" and via experiments show that most end-to-end fine-tuning approaches suffer heavily from this side effect. To this end, we propose a simple fix to this problem by designing a new fine-tuning method called $\textit{LDIFS}$ (short for $\ell_2$ distance in feature space) that, while learning new concepts related to the downstream task, allows a model to preserve its pre-trained knowledge as well. Through extensive experiments on 10 fine-tuning tasks we show that LDIFS significantly reduces concept forgetting. Additionally, we show that LDIFS is highly effective in performing continual fine-tuning on a sequence of tasks as well, in comparison with both fine-tuning as well as continual learning baselines.
翻訳日:2024-02-07 05:31:26 公開日:2024-02-04
# VIGC:ビジュアルインストラクション生成と修正

VIGC: Visual Instruction Generation and Correction ( http://arxiv.org/abs/2308.12714v3 )

ライセンス: Link先を確認
Bin Wang, Fan Wu, Xiao Han, Jiahui Peng, Huaping Zhong, Pan Zhang, Xiaoyi Dong, Weijia Li, Wei Li, Jiaqi Wang, Conghui He(参考訳) 視覚エンコーダと大言語モデル(LLM)の統合により、マルチモーダル大言語モデル(MLLM)が近年進歩している。 しかし、視覚言語タスクのための高品質な指導訓練データの不足は依然として課題である。 llavaのような現在のリードパラダイムは、データを生成するのに言語のみのgpt-4に依存しており、画像の詳細を理解するのに苦しむ、注釈付き画像キャプションと検出バウンディングボックスを必要とする。 この問題に対する実用的な解決策は、多モーダル大規模言語モデル(MLLM)を使用して視覚言語タスクの命令データを生成することである。 しかし、現在アクセス可能なMLLMは、不十分な応答を生成し、誤った情報を生成する傾向があるため、LLMのそれほど強力ではないことに注意する必要がある。 本稿では,この問題を解決するために,マルチモーダル大規模言語モデルが命令チューニングデータを生成し,その品質を段階的に向上できるヴィジュアルインストラクション生成・修正(vigc)フレームワークを提案する。 具体的には、視覚インストラクション生成(VIG)が視覚言語モデルをガイドし、多様なインストラクションチューニングデータを生成する。 生成品質を確保するために、Visual Instruction Correction (VIC)は、VIGが生成したデータの不正確性を補正する反復的な更新機構を採用し、幻覚のリスクを効果的に低減する。 VIGCが生成する多様で高品質なデータを活用することで、主流モデルを微調整し、さまざまな評価に基づいてデータ品質を検証する。 実験結果から,VIGCは言語のみのデータ生成手法の欠点を補うだけでなく,ベンチマーク性能を効果的に向上することが示された。 モデル、データセット、コードはhttps://opendatalab.github.io/VIGCで公開されている。

The integration of visual encoders and large language models (LLMs) has driven recent progress in multimodal large language models (MLLMs). However, the scarcity of high-quality instruction-tuning data for vision-language tasks remains a challenge. The current leading paradigm, such as LLaVA, relies on language-only GPT-4 to generate data, which requires pre-annotated image captions and detection bounding boxes, suffering from understanding image details. A practical solution to this problem would be to utilize the available multimodal large language models (MLLMs) to generate instruction data for vision-language tasks. However, it's worth noting that the currently accessible MLLMs are not as powerful as their LLM counterparts, as they tend to produce inadequate responses and generate false information. As a solution for addressing the current issue, this paper proposes the Visual Instruction Generation and Correction (VIGC) framework that enables multimodal large language models to generate instruction-tuning data and progressively enhance its quality on-the-fly. Specifically, Visual Instruction Generation (VIG) guides the vision-language model to generate diverse instruction-tuning data. To ensure generation quality, Visual Instruction Correction (VIC) adopts an iterative update mechanism to correct any inaccuracies in data produced by VIG, effectively reducing the risk of hallucination. Leveraging the diverse, high-quality data generated by VIGC, we finetune mainstream models and validate data quality based on various evaluations. Experimental results demonstrate that VIGC not only compensates for the shortcomings of language-only data generation methods, but also effectively enhances the benchmark performance. The models, datasets, and code are available at https://opendatalab.github.io/VIGC.
翻訳日:2024-02-07 05:30:58 公開日:2024-02-04
# xFakeBibs学習アルゴリズムを用いたChatGPTフェイク科学の検出

Detection of ChatGPT Fake Science with the xFakeBibs Learning Algorithm ( http://arxiv.org/abs/2308.11767v2 )

ライセンス: Link先を確認
Ahmed Abdeen Hamed and Xindong Wu(参考訳) ChatGPTは新しい現実になりつつある。 本稿では,ChatGPTによる出版物を科学者による出版と区別する方法を紹介する。 本研究の目的は,機械生成コンテンツの予測方法を示すネットワーク駆動型アルゴリズムを新たに設計することである。 前提は、ChatGPTコンテンツは独特な振る舞いを示し、科学的記事とは分離できるということである。 アルゴリズムは3つの疾患特異的な出版物で訓練され、各モデルは100の抽象物から構築された。 さらに、アルゴリズムはk-Foldsキャリブレーション(データの可用性に依存する)を行い、より低い上限範囲の受け入れを確立した。 ChatGPTのネットワークトレーニングモデルでは,実記事の抽象化モデルと比較してノード数が少なく,エッジ数も高かった。 アルゴリズムは単一モードで実行され、1つのタイプのデータセットのクラスを一度に予測し、94%に達した。 また、chatgptとpubmedabsの混合文書上でマルチモードで実行された。 このアルゴリズムは実記事の精度を100%と予測し、まれに96%~98%の精度で予測した。 しかし、chatgptコンテンツは3つの病気の全てのデータセットにおいて88%の精度で実際の出版物として誤分類されることが多かった。 以上の結果から,ChatGPTが生成するコンテンツと混ざった出版物が混ざり合う年は,より古い出版物の方が予測の精度が高い正しいクラスを検知する要因となる可能性が示唆された。

ChatGPT is becoming a new reality. In this paper, we demonstrate a method for distinguishing ChatGPT-generated publications from those produced by scientists. The objective of this work is to introduce a newly designed supervised network-driven algorithm that illustrates how to predict machine-generated content. The premise is that ChatGPT content exhibits behavior that is distinctive and can be set apart from scientific articles. The algorithm was trained and tested on three disease-specific publications, with each model constructed from 100 abstracts. Additionally, the algorithm underwent k-Folds calibration (depending on the availability of the data) to establish a lower-upper bound range of acceptance. The network training model of ChatGPT showed a lower number of nodes and a higher number of edges when compared with models of real article abstracts. The algorithm was executed in single-mode to predict the class of one type of dataset at a time and achieved >94%. It was also executed in multi-mode on mixed documents of ChatGPT and PubMed abstracts. The algorithm remarkably predicted real articles with a precision of 100% and, on rare occasions, 96%-98%. However, ChatGPT content was often misclassified as real publications with up to 88% accuracy in all datasets of the three diseases. Our results also showed that the year of publications mixed with ChatGPT-generated content may play a factor in detecting the correct class, where the older the publication, the better the prediction.
翻訳日:2024-02-07 05:29:35 公開日:2024-02-04
# R-C-P法:画像処理とマシンビジョンを用いた自動体積計算法

R-C-P Method: An Autonomous Volume Calculation Method Using Image Processing and Machine Vision ( http://arxiv.org/abs/2308.10058v2 )

ライセンス: Link先を確認
MA Muktadir, Sydney Parker, Sun Yi(参考訳) マシンビジョンと画像処理は、産業用ロボットから自動運転車まで、自律システムにおける状況認識のためのセンサーとしてしばしば使用される。 LiDAR(Light Detection and Ranging)やRadarのような3D深度センサーは、自律システムにとって素晴らしい発明である。 セットアップの複雑さのため、LiDARはいくつかの運用環境、例えば宇宙環境には適さないかもしれない。 この研究は、深度カメラの代わりに複数の2Dカメラでリアルタイムのボリュームと情報を変更したいという欲求に動機づけられた。 2台のカメラを用いて、矩形物体の寸法をリアルタイムで測定した。 画像処理とエッジ検出を用いてR-C-P法を開発した。 表面積に加えて、R-C-P法は不連続エッジや体積も検出する。 最後に、表面積の次元を計算するための方程式を提供するR-C-P法の例を示した。 物体とカメラの間の所定の距離情報を持つ方程式を用いて、視覚システムは実際の物体の寸法を提供する。

Machine vision and image processing are often used with sensors for situation awareness in autonomous systems, from industrial robots to self-driving cars. The 3D depth sensors, such as LiDAR (Light Detection and Ranging), Radar, are great invention for autonomous systems. Due to the complexity of the setup, LiDAR may not be suitable for some operational environments, for example, a space environment. This study was motivated by a desire to get real-time volumetric and change information with multiple 2D cameras instead of a depth camera. Two cameras were used to measure the dimensions of a rectangular object in real-time. The R-C-P (row-column-pixel) method is developed using image processing and edge detection. In addition to the surface areas, the R-C-P method also detects discontinuous edges or volumes. Lastly, experimental work is presented for illustration of the R-C-P method, which provides the equations for calculating surface area dimensions. Using the equations with given distance information between the object and the camera, the vision system provides the dimensions of actual objects.
翻訳日:2024-02-07 05:28:38 公開日:2024-02-04
# 言語はグラフを必要とするもの

Language is All a Graph Needs ( http://arxiv.org/abs/2308.07134v4 )

ライセンス: Link先を確認
Ruosong Ye, Caiqi Zhang, Runhui Wang, Shuyuan Xu, Yongfeng Zhang(参考訳) 大規模な事前訓練型言語モデルの出現は、さまざまなAI研究領域に革命をもたらした。 トランスフォーマーベースのLarge Language Models (LLM) は、コンピュータビジョンと自然言語処理の分野を統合するために、CNNとRNNを徐々に置き換えている。 画像、ビデオ、テキストなどの独立したデータサンプルと比較すると、グラフは通常、豊富な構造的および関係的な情報を含んでいる。 一方、言語、特に自然言語は最も表現力のある媒体の1つであり、複雑な構造を記述するのに優れている。 しかし、グラフ問題を生成言語モデリングフレームワークに組み込む作業は依然として非常に限られている。 LLMの隆盛を考えると、LLMがグラフの基礎モデルとしてGNNを置き換えることができるかどうかを検討することが不可欠である。 本稿では,自然言語命令に基づく高度にスケーラブルなプロンプトを用いたinstructglm(instruction-finetuned graph language model)を提案する。 自然言語を用いてグラフのマルチスケールな幾何学構造を記述し、LLMを微調整してグラフタスクを実行することで、生成グラフ学習を実現する。 提案手法は, ogbn-arxiv, Cora, PubMedデータセットに基づくGNNベースラインを網羅し, グラフ機械学習の新たな基盤モデルとして, 生成LDMに光を当てる。 私たちのコードはhttps://github.com/agiresearch/instructglm.comでオープンソースです。

The emergence of large-scale pre-trained language models has revolutionized various AI research domains. Transformers-based Large Language Models (LLMs) have gradually replaced CNNs and RNNs to unify fields of computer vision and natural language processing. Compared with independent data samples such as images, videos or texts, graphs usually contain rich structural and relational information. Meanwhile, language, especially natural language, being one of the most expressive mediums, excels in describing complex structures. However, existing work on incorporating graph problems into the generative language modeling framework remains very limited. Considering the rising prominence of LLMs, it becomes essential to explore whether LLMs can also replace GNNs as the foundation model for graphs. In this paper, we propose InstructGLM (Instruction-finetuned Graph Language Model) with highly scalable prompts based on natural language instructions. We use natural language to describe multi-scale geometric structure of the graph and then instruction finetune an LLM to perform graph tasks, which enables Generative Graph Learning. Our method surpasses all GNN baselines on ogbn-arxiv, Cora and PubMed datasets, underscoring its effectiveness and sheds light on generative LLMs as new foundation model for graph machine learning. Our code is open-sourced at https://github.com/agiresearch/InstructGLM.
翻訳日:2024-02-07 05:28:11 公開日:2024-02-04
# adapt and diffuse: 潜在拡散モデルによるサンプル適応型再構成

Adapt and Diffuse: Sample-adaptive Reconstruction via Latent Diffusion Models ( http://arxiv.org/abs/2309.06642v2 )

ライセンス: Link先を確認
Zalan Fabian, Berk Tinaz, Mahdi Soltanolkotabi(参考訳) 逆問題は、ノイズや(非線形でない)観測からクリーンな信号を回復することが目的である複数のアプリケーションで発生する。 再構成問題の難しさは、基底真理信号の構造、劣化の深刻度、上記間の複雑な相互作用など、複数の要因に依存する。 その結果, 復元作業の難易度において, サンプル・バイ・サンプルの自然な変動が生じ, 現代の技術では見落とされがちである。 我々のキーとなる観察は、既存の逆問題解決器のほとんどは、その計算力を再構築作業の難しさに適応させる能力に欠けており、性能が劣り、資源割り当てが無駄になるということである。 自動符号化器の潜時空間における雑音・劣化信号の劣化重大度を推定するために,重大度符号化と呼ばれる新しい手法を提案する。 推定重大度が真の汚損レベルと強く相関していることを示し,サンプル・バイ・サンプルに基づく復元問題の難しさを示唆する有用なヒントを与える。 さらに,予測した劣化性を利用して逆拡散サンプリング軌跡を微調整し,サンプル適応推定時間を実現する潜在拡散モデルに基づく再構成法を提案する。 我々のフレームワークは、遅延拡散に基づくベースラインソルバと組み合わせて、サンプル適応性と加速度を付与するラッパーとして機能する。 線形逆問題と非線形逆問題の両方で数値実験を行い,本手法がベースラインソルバの性能を大幅に向上し,平均サンプリング速度で最大10\times$Acceleratorを実現することを示した。

Inverse problems arise in a multitude of applications, where the goal is to recover a clean signal from noisy and possibly (non)linear observations. The difficulty of a reconstruction problem depends on multiple factors, such as the structure of the ground truth signal, the severity of the degradation and the complex interactions between the above. This results in natural sample-by-sample variation in the difficulty of a reconstruction task, which is often overlooked by contemporary techniques. Our key observation is that most existing inverse problem solvers lack the ability to adapt their compute power to the difficulty of the reconstruction task, resulting in subpar performance and wasteful resource allocation. We propose a novel method that we call severity encoding, to estimate the degradation severity of noisy, degraded signals in the latent space of an autoencoder. We show that the estimated severity has strong correlation with the true corruption level and can give useful hints at the difficulty of reconstruction problems on a sample-by-sample basis. Furthermore, we propose a reconstruction method based on latent diffusion models that leverages the predicted degradation severities to fine-tune the reverse diffusion sampling trajectory and thus achieve sample-adaptive inference times. Our framework acts as a wrapper that can be combined with any latent diffusion-based baseline solver, imbuing it with sample-adaptivity and acceleration. We perform numerical experiments on both linear and nonlinear inverse problems and demonstrate that our technique greatly improves the performance of the baseline solver and achieves up to $10\times$ acceleration in mean sampling speed.
翻訳日:2024-02-07 05:19:44 公開日:2024-02-04
# フレームワークに基づく大規模言語モデルの自由応答の質的分析:アルゴリズム的忠実性

Framework-Based Qualitative Analysis of Free Responses of Large Language Models: Algorithmic Fidelity ( http://arxiv.org/abs/2309.06364v3 )

ライセンス: Link先を確認
Aliya Amirova, Theodora Fteropoulli, Nafiso Ahmed, Martin R. Cowie, Joel Z. Leibo(参考訳) 現在、大規模生成言語モデル(LLM)を用いて、質的研究手法を用いて伝統的に分析されたようなインタビュー質問に対する無料応答をシミュレートすることが可能である。 質的方法論は、自然言語で自由に行われるオープンなインタビューや会話の手動分析を含む幅広い技術群を含んでいる。 ここでは, LLMが生成する人工シリコン参加者を, 実人口に一般化可能な洞察を生み出すための質的手法を用いて, 生産的に研究できるかどうかを考察する。 我々の分析における重要な概念はアルゴリズムの忠実さである。Argyle et al. (2023) によって導入された用語で、LLMが生成する人間のサブ集団の信念と態度を反映する程度を捉えている。 定義上、アルゴリズムの忠実度が高いことは、LSMから派生した潜在信念が現実の人間に一般化する可能性があることを示唆している。 そこで我々はLLMを用いて、特定の人口統計学的特徴に適合するシリコン参加者へのインタビューを生成した。 フレームワークに基づく定性分析を用いて,人間とシリコンの双方から得られた重要なテーマが極めて類似していることを示した。 しかし、インタビューの構造とトーンを分析すると、さらに顕著な違いが見つかりました。 また, aher et al. (2023) が記述した過正確な歪みの証拠も見いだした。 結論として,gpt-3.5は,ヒトに一般化する研究を期待するほどアルゴリズム的忠実性が不十分であることがわかった。 しかし、llm研究の急速なペースによって、将来これが変わる可能性がある。 そこで我々は,LLMに基づく質的研究の妥当性を評価するために,現在,先天的な規範を確立する必要性を強調している。

Today, using Large-scale generative Language Models (LLMs) it is possible to simulate free responses to interview questions like those traditionally analyzed using qualitative research methods. Qualitative methodology encompasses a broad family of techniques involving manual analysis of open-ended interviews or conversations conducted freely in natural language. Here we consider whether artificial "silicon participants" generated by LLMs may be productively studied using qualitative methods aiming to produce insights that could generalize to real human populations. The key concept in our analysis is algorithmic fidelity, a term introduced by Argyle et al. (2023) capturing the degree to which LLM-generated outputs mirror human sub-populations' beliefs and attitudes. By definition, high algorithmic fidelity suggests latent beliefs elicited from LLMs may generalize to real humans, whereas low algorithmic fidelity renders such research invalid. Here we used an LLM to generate interviews with silicon participants matching specific demographic characteristics one-for-one with a set of human participants. Using framework-based qualitative analysis, we showed the key themes obtained from both human and silicon participants were strikingly similar. However, when we analyzed the structure and tone of the interviews we found even more striking differences. We also found evidence of the hyper-accuracy distortion described by Aher et al. (2023). We conclude that the LLM we tested (GPT-3.5) does not have sufficient algorithmic fidelity to expect research on it to generalize to human populations. However, the rapid pace of LLM research makes it plausible this could change in the future. Thus we stress the need to establish epistemic norms now around how to assess validity of LLM-based qualitative research, especially concerning the need to ensure representation of heterogeneous lived experiences.
翻訳日:2024-02-07 05:19:15 公開日:2024-02-04
# 時間的ピラミッド圧縮増幅変換器による3次元姿勢推定

Refined Temporal Pyramidal Compression-and-Amplification Transformer for 3D Human Pose Estimation ( http://arxiv.org/abs/2309.01365v3 )

ライセンス: Link先を確認
Hanbing Liu, Wangmeng Xiang, Jun-Yan He, Zhi-Qi Cheng, Bin Luo, Yifeng Geng and Xuansong Xie(参考訳) ビデオシーケンスにおける人間の3dポーズを正確に推定するには、精度と構造が整ったアーキテクチャが必要である。 トランスの成功により,RTPCA(Refined Temporal Pyramidal Compression-and-Amplification)トランスを導入した。 時間次元の展開により、RTPCAは、時間的ピラミッド圧縮増幅(TPCA)構造を介してブロック内時間モデリングを拡張し、クロス層リファインメント(XLR)モジュールとのブロック間特徴相互作用を洗練する。 特にTPCAブロックは、時間的ピラミッドパラダイムを利用して、キーと値の表現能力を強化し、動きシーケンスから空間意味をシームレスに抽出する。 我々はこれらのTPCAブロックをXLRで縫合し、クエリ、キー、値の連続的な相互作用を通じてリッチなセマンティック表現を促進する。 この戦略は、他の変圧器ベースの方法に見られる典型的な欠陥と安定性に対処し、電流の流れを伴う初期段階の情報を具現化する。 計算オーバーヘッドが最小限であるHuman3.6M, HumanEva-I, MPI-INF-3DHPベンチマークに対して, 最先端の結果を達成し, RTPCAの有効性を示す。 ソースコードはhttps://github.com/hbing-l/RTPCAで入手できる。

Accurately estimating the 3D pose of humans in video sequences requires both accuracy and a well-structured architecture. With the success of transformers, we introduce the Refined Temporal Pyramidal Compression-and-Amplification (RTPCA) transformer. Exploiting the temporal dimension, RTPCA extends intra-block temporal modeling via its Temporal Pyramidal Compression-and-Amplification (TPCA) structure and refines inter-block feature interaction with a Cross-Layer Refinement (XLR) module. In particular, TPCA block exploits a temporal pyramid paradigm, reinforcing key and value representation capabilities and seamlessly extracting spatial semantics from motion sequences. We stitch these TPCA blocks with XLR that promotes rich semantic representation through continuous interaction of queries, keys, and values. This strategy embodies early-stage information with current flows, addressing typical deficits in detail and stability seen in other transformer-based methods. We demonstrate the effectiveness of RTPCA by achieving state-of-the-art results on Human3.6M, HumanEva-I, and MPI-INF-3DHP benchmarks with minimal computational overhead. The source code is available at https://github.com/hbing-l/RTPCA.
翻訳日:2024-02-07 05:17:28 公開日:2024-02-04
# Matbench Discovery -- 機械学習結晶の安定性予測を評価するフレームワーク

Matbench Discovery -- A framework to evaluate machine learning crystal stability predictions ( http://arxiv.org/abs/2308.14920v2 )

ライセンス: Link先を確認
Janosh Riebesell, Rhys E. A. Goodall, Philipp Benner, Yuan Chiang, Bowen Deng, Alpha A. Lee, Anubhav Jain, Kristin A. Persson(参考訳) Matbench Discoveryは、安定した無機結晶の高速探索における機械学習(ML)エネルギーモデルの展開をシミュレートする。 我々は接続の切り離しに対処する (i)熱力学的安定性と形成エネルギーと (ii) ドメイン内と分散外のパフォーマンス。 本稿では,今後のモデル提出を支援するPythonパッケージと,さまざまなパフォーマンス指標間のトレードオフに関するさらなる洞察をオンラインリーダボードに公開する。 材料発見においてmlの手法が最適かという疑問に答えるため、最初のリリースではランダムフォレスト、グラフニューラルネットワーク(gnn)、ワンショット予測器、反復ベイズ最適化器、普遍的原子間ポテンシャル(uip)を含む様々なモデルを調査した。 chgnet > m3gnet > mace > alignn > megnet > cgcnn > cgcnn+p > wrenformer > bowsr > voronoi tessellation fingerprints with random forest. chgnet > m3gnet > mace > alignn > megnet > cgcnn > cgcnn+p > wrenformer > bowsr > voronoi tesellation fingerprints with random forest. (英語) 上位3つのモデルは、ML誘導材料発見の勝利手法であるUIPであり、結晶の安定性の分類と発見促進因子(DAF)の最大5倍のF1スコアを、我々のテストセットのダミー選択と比較して最も安定な予測で達成する。 また、一般的に使用されるグローバルレグレッションメトリクスと、よりタスク関連分類メトリクスとの明確な切り離しも強調する。 正確な回帰器は、これらの正確な予測が、ほとんどの物質がある凸殻の上の0 eV/原子で決定境界に近くにある場合、予想外の高い偽陽性率の影響を受ける。 我々の結果は、安定性のヒット率の改善と実際に相関している分類指標に焦点を当てる必要性を強調した。

Matbench Discovery simulates the deployment of machine learning (ML) energy models in a high-throughput search for stable inorganic crystals. We address the disconnect between (i) thermodynamic stability and formation energy and (ii) in-domain vs out-of-distribution performance. Alongside this paper, we publish a Python package to aid with future model submissions and a growing online leaderboard with further insights into trade-offs between various performance metrics. To answer the question which ML methodology performs best at materials discovery, our initial release explores a variety of models including random forests, graph neural networks (GNN), one-shot predictors, iterative Bayesian optimizers and universal interatomic potentials (UIP). Ranked best-to-worst by their test set F1 score on thermodynamic stability prediction, we find CHGNet > M3GNet > MACE > ALIGNN > MEGNet > CGCNN > CGCNN+P > Wrenformer > BOWSR > Voronoi tessellation fingerprints with random forest. The top 3 models are UIPs, the winning methodology for ML-guided materials discovery, achieving F1 scores of ~0.6 for crystal stability classification and discovery acceleration factors (DAF) of up to 5x on the first 10k most stable predictions compared to dummy selection from our test set. We also highlight a sharp disconnect between commonly used global regression metrics and more task-relevant classification metrics. Accurate regressors are susceptible to unexpectedly high false-positive rates if those accurate predictions lie close to the decision boundary at 0 eV/atom above the convex hull where most materials are. Our results highlight the need to focus on classification metrics that actually correlate with improved stability hit rate.
翻訳日:2024-02-07 05:15:49 公開日:2024-02-04
# MentaLLaMA:大規模言語モデルを用いたソーシャルメディアのメンタルヘルス分析

MentaLLaMA: Interpretable Mental Health Analysis on Social Media with Large Language Models ( http://arxiv.org/abs/2309.13567v3 )

ライセンス: Link先を確認
Kailai Yang, Tianlin Zhang, Ziyan Kuang, Qianqian Xie, Jimin Huang, Sophia Ananiadou(参考訳) ウェブ技術の発展に伴い、ソーシャルメディアのテキストはメンタルヘルス分析の豊富な情報源になりつつある。 従来の差別的手法が低い解釈可能性の問題に対処するため、近年の大規模言語モデルは、ソーシャルメディア上でのメンタルヘルス分析の解釈のために研究されており、予測とともに詳細な説明を提供することを目的としている。 その結果、ChatGPTは正しい分類のための接近する人間による説明を生成できることがわかった。 しかし、llmsはゼロショット/フェウショット方式で分類性能が不十分である。 ドメイン固有の微調整は効果的なソリューションであるが、2つの課題に直面している。 1)高品質なトレーニングデータがない。 2)微調整コストを下げるために,解釈可能なメンタルヘルス分析のためのオープンソースLCMはリリースされなかった。 これらの問題を緩和するために、ソーシャルメディア上で105Kのデータサンプルを用いて、最初のマルチタスクおよびマルチソースのメンタルヘルスインストラクション(IMHI)データセットを構築した。 生のソーシャルメディアデータは、8つのメンタルヘルス分析タスクをカバーする10の既存ソースから収集される。 専門家が作成した数発のプロンプトとラベルを収集し,ChatGPTをプロンプトし,その応答から説明を得る。 説明の信頼性を確保するため,生成データの正確性,一貫性,品質について,厳密な自動評価を行う。 IMHIデータセットとLLaMA2ファンデーションモデルに基づいて、インストラクションフォロー機能を備えたメンタルヘルス分析のための最初のオープンソースLLMシリーズであるMentalLLaMAを訓練する。 また,imhi評価ベンチマークにおけるmentalllamaの性能を10のテストセットで評価し,予測の正確性と説明の質について検討した。 以上の結果から,MentalLLaMAは最先端の判別手法に精度でアプローチし,高品質な説明を生成することがわかった。

With the development of web technology, social media texts are becoming a rich source for automatic mental health analysis. As traditional discriminative methods bear the problem of low interpretability, the recent large language models have been explored for interpretable mental health analysis on social media, which aims to provide detailed explanations along with predictions. The results show that ChatGPT can generate approaching-human explanations for its correct classifications. However, LLMs still achieve unsatisfactory classification performance in a zero-shot/few-shot manner. Domain-specific finetuning is an effective solution, but faces 2 challenges: 1) lack of high-quality training data. 2) no open-source LLMs for interpretable mental health analysis were released to lower the finetuning cost. To alleviate these problems, we build the first multi-task and multi-source interpretable mental health instruction (IMHI) dataset on social media, with 105K data samples. The raw social media data are collected from 10 existing sources covering 8 mental health analysis tasks. We use expert-written few-shot prompts and collected labels to prompt ChatGPT and obtain explanations from its responses. To ensure the reliability of the explanations, we perform strict automatic and human evaluations on the correctness, consistency, and quality of generated data. Based on the IMHI dataset and LLaMA2 foundation models, we train MentalLLaMA, the first open-source LLM series for interpretable mental health analysis with instruction-following capability. We also evaluate the performance of MentalLLaMA on the IMHI evaluation benchmark with 10 test sets, where their correctness for making predictions and the quality of explanations are examined. The results show that MentalLLaMA approaches state-of-the-art discriminative methods in correctness and generates high-quality explanations.
翻訳日:2024-02-07 05:07:29 公開日:2024-02-04
# セマンティック情報を用いた話者ダイアリゼーションの改善:協調的制約の伝播

Improving Speaker Diarization using Semantic Information: Joint Pairwise Constraints Propagation ( http://arxiv.org/abs/2309.10456v2 )

ライセンス: Link先を確認
Luyao Cheng, Siqi Zheng, Qinglin Zhang, Hui Wang, Yafeng Chen, Qian Chen, Shiliang Zhang(参考訳) 話者ダイアリゼーションは,音声処理研究コミュニティにおいて注目されている。 主流話者ダイアリゼーションは、主に音響信号から抽出された話者の音声特性に依存し、しばしば意味情報の可能性を見落としている。 音声信号が音声の内容を効率的に伝達できることを考えると、これらの意味的手がかりを言語モデルを用いて完全に活用することに関心がある。 本研究では,クラスタリングに基づく話者ダイアリゼーションシステムにおいて,意味情報を有効に活用するための新しい手法を提案する。 まず,話者関連意味情報を抽出するための音声言語理解モジュールを導入し,これらの情報を用いてペアワイズ制約を構築する。 次に,これらの制約を話者ダイアリゼーションパイプラインに統合し,システム全体の性能を向上させるための新しい枠組みを提案する。 公開データセット上で行った広範囲な実験により,提案手法が音響のみの話者ダイアリゼーションシステムに対して一貫した優位性を示す。

Speaker diarization has gained considerable attention within speech processing research community. Mainstream speaker diarization rely primarily on speakers' voice characteristics extracted from acoustic signals and often overlook the potential of semantic information. Considering the fact that speech signals can efficiently convey the content of a speech, it is of our interest to fully exploit these semantic cues utilizing language models. In this work we propose a novel approach to effectively leverage semantic information in clustering-based speaker diarization systems. Firstly, we introduce spoken language understanding modules to extract speaker-related semantic information and utilize these information to construct pairwise constraints. Secondly, we present a novel framework to integrate these constraints into the speaker diarization pipeline, enhancing the performance of the entire system. Extensive experiments conducted on the public dataset demonstrate the consistent superiority of our proposed approach over acoustic-only speaker diarization systems.
翻訳日:2024-02-07 05:06:28 公開日:2024-02-04
# 多目的グラフアフォーアンスネットワーク:複合オブジェクトアフォーアンスによる目標指向計画の実現

Multi-Object Graph Affordance Network: Enabling Goal-Oriented Planning through Compound Object Affordances ( http://arxiv.org/abs/2309.10426v2 )

ライセンス: Link先を確認
Tuba Girgin, Emre Ugur(参考訳) 学習対象の余裕は、ロボット学習の分野で有効なツールである。 データ駆動型モデルは、単体またはペアオブジェクトの空き地を探究する一方で、複雑な形状の任意の数のオブジェクトからなる複合オブジェクトの空き地の調査において顕著なギャップがある。 本研究では,複合オブジェクトの価格をモデル化し,既存の化合物の上に新しいオブジェクトを配置する効果を予測するマルチオブジェクトグラフアフォーダンスネットワーク(MOGAN)を提案する。 特定の高さや特性の塔を建てるなど,異なるタスクを与えられた上で,探索ベースプランニングを用いて,適切な余裕のある対象のスタックアクションのシーケンスを探索した。 我々のシステムは、積み重ねられた球体、カップ、ポール、そしてポールを囲むリングを含む非常に複雑な複合物体の可利用性を正確にモデル化できることを示した。 シミュレーション環境と実環境の両方において,本システムの適用性を実証し,その利点を強調するベースラインモデルと比較した。

Learning object affordances is an effective tool in the field of robot learning. While the data-driven models delve into the exploration of affordances of single or paired objects, there is a notable gap in the investigation of affordances of compound objects that are composed of an arbitrary number of objects with complex shapes. In this study, we propose Multi-Object Graph Affordance Network (MOGAN) that models compound object affordances and predicts the effect of placing new objects on top of the existing compound. Given different tasks, such as building towers of specific heights or properties, we used a search based planning to find the sequence of stack actions with the objects of suitable affordances. We showed that our system was able to correctly model the affordances of very complex compound objects that include stacked spheres and cups, poles, and rings that enclose the poles. We demonstrated the applicability of our system in both simulated and real-world environments, comparing our systems with a baseline model to highlight its advantages.
翻訳日:2024-02-07 05:06:13 公開日:2024-02-04
# 大規模言語モデルにおけるSTSとNLIの再考

Rethinking STS and NLI in Large Language Models ( http://arxiv.org/abs/2309.08969v2 )

ライセンス: Link先を確認
Yuxia Wang, Minghan Wang, Preslav Nakov(参考訳) 近年、実践者がタスク固有のプロンプトを使用する大規模言語モデル(llm)が台頭しており、これは様々なタスクに有効であることが示されている。 しかし、セマンティックテキスト類似性(STS)と自然言語推論(NLI)に適用すると、LLMの有効性は低リソース領域の精度、モデルの過信、人間の判断の不一致を捉えるのが困難であることが判明した。 このことを念頭に置いて、私たちはLSMの時代においてSTSとNLIを再考しようとします。 臨床・生体領域におけるSTSとNLIの性能をまず評価し,LLMの予測的信頼度と集団的人間の意見の収集能力を評価する。 これらの古い問題は LLM の時代にも適切に対処されるべきである。

Recent years have seen the rise of large language models (LLMs), where practitioners use task-specific prompts; this was shown to be effective for a variety of tasks. However, when applied to semantic textual similarity (STS) and natural language inference (NLI), the effectiveness of LLMs turns out to be limited by low-resource domain accuracy, model overconfidence, and difficulty to capture the disagreements between human judgements. With this in mind, here we try to rethink STS and NLI in the era of LLMs. We first evaluate the performance of STS and NLI in the clinical/biomedical domain, and then we assess LLMs' predictive confidence and their capability of capturing collective human opinions. We find that these old problems are still to be properly addressed in the era of LLMs.
翻訳日:2024-02-07 05:04:39 公開日:2024-02-04
# 感覚分析のための自己学習方略:実証的研究

Self-training Strategies for Sentiment Analysis: An Empirical Study ( http://arxiv.org/abs/2309.08777v2 )

ライセンス: Link先を確認
Haochen Liu, Sai Krishna Rallabandi, Yijing Wu, Parag Pravin Dakle, Preethi Raghavan(参考訳) 感性分析は、テキストから主観的感情を識別し抽出する自然言語処理において重要な課題である。 近年,少量のラベル付きデータと大量のラベルなしデータを活用することで感情分析モデルを構築するための,経済的かつ効率的な手法として自己学習が登場している。 しかしながら、一連のトレーニングデータを考えると、それらを使って自己学習を行う方法は、モデルの最終的なパフォーマンスに大きな違いをもたらす。 我々はこの方法論を自己学習戦略と呼ぶ。 本稿では,感情分析のための様々な自己学習戦略に関する実証研究を行う。 まず,従来型小型言語モデル(slms)の性能に及ぼす自己学習戦略とハイパーパラメータの影響について検討する。 第2に,大規模言語モデル(LLM)を活用した自己学習の可能性についても検討する。 我々は,複数の自己学習戦略とLPMの介入を実験的に比較した。 3つの実世界感情分析データセットで大規模な実験を行う。

Sentiment analysis is a crucial task in natural language processing that involves identifying and extracting subjective sentiment from text. Self-training has recently emerged as an economical and efficient technique for developing sentiment analysis models by leveraging a small amount of labeled data and a large amount of unlabeled data. However, given a set of training data, how to utilize them to conduct self-training makes a significant difference in the final performance of the model. We refer to this methodology as the self-training strategy. In this paper, we present an empirical study of various self-training strategies for sentiment analysis. First, we investigate the influence of the self-training strategy and hyper-parameters on the performance of traditional small language models (SLMs) in various few-shot settings. Second, we also explore the feasibility of leveraging large language models (LLMs) to help self-training. We propose and empirically compare several self-training strategies with the intervention of LLMs. Extensive experiments are conducted on three real-world sentiment analysis datasets.
翻訳日:2024-02-07 05:04:23 公開日:2024-02-04
# 勾配多様性最大化によるフェデレーション最適化におけるハイブリッド不均質性への取り組み

Tackling Hybrid Heterogeneity on Federated Optimization via Gradient Diversity Maximization ( http://arxiv.org/abs/2310.02702v2 )

ライセンス: Link先を確認
Dun Zeng, Zenglin Xu, Yu Pan, Qifan Wang, Xiaoying Tang(参考訳) フェデレートラーニング(Federated Learning)とは、データサンプルを分散化し、複数のクライアントに分散する分散機械学習パラダイムである。 これらのサンプルは統計的に異質性を示し、これはデータ分布がクライアント間で独立で同一ではないことを意味する。 さらに、システムの不均一性(あるいはクライアントの計算能力の変動)は、連合学習にバイアスを導入する。 統計学とシステム不均一性の複合効果は、フェデレート最適化の効率を著しく低下させる。 しかし、ハイブリッドな異質性の影響は厳密には議論されていない。 本稿では,ハイブリッドな異種性が,サーバサイド最適化によるフェデレーション最適化に与える影響について検討する。 理論的には,サーバ更新方向の勾配の多様性を適応的に最大化することは,ハイブリッド不均一性の潜在的な負の結果を軽減するのに役立つ。 そこで我々は,新しいサーバサイド勾配型最適化器 \textsc{fedaware} を提案する。 ヘテロジニアス・フェデレーテッド・セッティングにおける集中的な実験により,提案するオプティマイザは,ハイブリッド・ヘテロゲニティの様々な程度にわたるフェデレーテッド・ラーニングの性能を著しく向上させることができることを示した。

Federated learning refers to a distributed machine learning paradigm in which data samples are decentralized and distributed among multiple clients. These samples may exhibit statistical heterogeneity, which refers to data distributions are not independent and identical across clients. Additionally, system heterogeneity, or variations in the computational power of the clients, introduces biases into federated learning. The combined effects of statistical and system heterogeneity can significantly reduce the efficiency of federated optimization. However, the impact of hybrid heterogeneity is not rigorously discussed. This paper explores how hybrid heterogeneity affects federated optimization by investigating server-side optimization. The theoretical results indicate that adaptively maximizing gradient diversity in server update direction can help mitigate the potential negative consequences of hybrid heterogeneity. To this end, we introduce a novel server-side gradient-based optimizer \textsc{FedAWARE} with theoretical guarantees provided. Intensive experiments in heterogeneous federated settings demonstrate that our proposed optimizer can significantly enhance the performance of federated learning across varying degrees of hybrid heterogeneity.
翻訳日:2024-02-07 04:55:39 公開日:2024-02-04
# フェデレーション最適化の強化:分散を低減した適応的不偏サンプリング

Enhanced Federated Optimization: Adaptive Unbiased Sampling with Reduced Variance ( http://arxiv.org/abs/2310.02698v2 )

ライセンス: Link先を確認
Dun Zeng, Zenglin Xu, Yu Pan, Xu Luo, Qifan Wang, Xiaoying Tang(参考訳) Federated Learning(FL)は、ローカルデータを収集することなく、複数のデバイスでグローバルモデルをトレーニングする分散学習パラダイムである。 FLでは、サーバは通常、トレーニングラウンド毎にクライアントのサブセットを選択し、リソース使用を最適化します。 このプロセスの中心は、クライアントの代表的な選択を確実にする非バイアスのクライアントサンプリング技術である。 現在の手法は主にランダムサンプリング法を利用しており、その効果にもかかわらずサンプリング分散に起因するゆるい上界による最適下界効率を実現する。 そこで本研究では,個別サンプリング手法を採用することで,適応型非バイアスクライアントサンプリングに着目し,オンライン分散削減戦略による収束率の向上を目的とした統合最適化フレームワークを提案する。 特に,独立サンプリング手法を用いた最初の適応型クライアントサンプリング器K-Vibを提案する。 k-vib は、セットされた通信予算 $k$ 内で、後悔に縛られた $\tilde{\mathcal{o}}\big(n^{\frac{1}{3}}t^{\frac{2}{3}}/k^{\frac{4}{3}}\big)$ の線形速度アップを達成する。 経験的研究により、K-Vibはベースラインアルゴリズムに比べて速度が2倍になり、フェデレート最適化において有意な可能性を示すことが示されている。

Federated Learning (FL) is a distributed learning paradigm to train a global model across multiple devices without collecting local data. In FL, a server typically selects a subset of clients for each training round to optimize resource usage. Central to this process is the technique of unbiased client sampling, which ensures a representative selection of clients. Current methods primarily utilize a random sampling procedure which, despite its effectiveness, achieves suboptimal efficiency owing to the loose upper bound caused by the sampling variance. In this work, by adopting an independent sampling procedure, we propose a federated optimization framework focused on adaptive unbiased client sampling, improving the convergence rate via an online variance reduction strategy. In particular, we present the first adaptive client sampler, K-Vib, employing an independent sampling procedure. K-Vib achieves a linear speed-up on the regret bound $\tilde{\mathcal{O}}\big(N^{\frac{1}{3}}T^{\frac{2}{3}}/K^{\frac{4}{3}}\big)$ within a set communication budget $K$. Empirical studies indicate that K-Vib doubles the speed compared to baseline algorithms, demonstrating significant potential in federated optimization.
翻訳日:2024-02-07 04:55:19 公開日:2024-02-04
# AlignDiff:行動カスタマイズ型拡散モデルによる異種人選好の調整

AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable Diffusion Model ( http://arxiv.org/abs/2310.02054v2 )

ライセンス: Link先を確認
Zibin Dong, Yifu Yuan, Jianye Hao, Fei Ni, Yao Mu, Yan Zheng, Yujing Hu, Tangjie Lv, Changjie Fan and Zhipeng Hu(参考訳) 多様な人間の嗜好を持つエージェントの行動を調整することは、人間の嗜好の固有の抽象性と変異性のため、強化学習(RL)において難しい問題である。 これらの問題に対処するために,人間フィードバック(rlhf)からrlを活用して人間の好みを定量化し,抽象性をカバーする新しいフレームワークであるaligneddiffを提案する。 AlignDiffはユーザーの行動と正確に一致し、効率的に切り替えることができる。 このフレームワークを構築するために、まず、多様な行動の属性の比較を含むマルチパースペクティブなヒューマンフィードバックデータセットを確立し、次に、定量化された相対強度を予測する属性強度モデルをトレーニングします。 行動データセットを相対的な強度で再現した後、我々は属性条件拡散モデルを訓練し、これは属性強度モデルのプランナーとして機能し、推論フェーズにおける優先順位調整のディレクタとして機能する。 我々は,様々なロコモーションタスクにおけるアライディフを評価し,他のベースラインと比較して,選好マッチング,スイッチング,カバーにおいてその優れた性能を示す。 人間の指示の下で見知らぬダウンストリームタスクを完了させる能力もまた、人間とAIのコラボレーションの可能性を示している。 さらなる可視化ビデオがhttps://aligndiff.github.io/で公開されている。

Aligning agent behaviors with diverse human preferences remains a challenging problem in reinforcement learning (RL), owing to the inherent abstractness and mutability of human preferences. To address these issues, we propose AlignDiff, a novel framework that leverages RL from Human Feedback (RLHF) to quantify human preferences, covering abstractness, and utilizes them to guide diffusion planning for zero-shot behavior customizing, covering mutability. AlignDiff can accurately match user-customized behaviors and efficiently switch from one to another. To build the framework, we first establish the multi-perspective human feedback datasets, which contain comparisons for the attributes of diverse behaviors, and then train an attribute strength model to predict quantified relative strengths. After relabeling behavioral datasets with relative strengths, we proceed to train an attribute-conditioned diffusion model, which serves as a planner with the attribute strength model as a director for preference aligning at the inference phase. We evaluate AlignDiff on various locomotion tasks and demonstrate its superior performance on preference matching, switching, and covering compared to other baselines. Its capability of completing unseen downstream tasks under human instructions also showcases the promising potential for human-AI collaboration. More visualization videos are released on https://aligndiff.github.io/.
翻訳日:2024-02-07 04:54:38 公開日:2024-02-04
# DeepZero: 深層モデルトレーニングにおけるゼロ階最適化のスケールアップ

DeepZero: Scaling up Zeroth-Order Optimization for Deep Model Training ( http://arxiv.org/abs/2310.02025v3 )

ライセンス: Link先を確認
Aochuan Chen, Yimeng Zhang, Jinghan Jia, James Diffenderfer, Jiancheng Liu, Konstantinos Parasyris, Yihua Zhang, Zheng Zhang, Bhavya Kailkhura, Sijia Liu(参考訳) zeroth-order(zo)最適化は、一階(fo)情報が取得困難あるいは不可能である場合、機械学習(ml)問題を解決する一般的なテクニックとなっている。 しかし、ZO最適化のスケーラビリティは未解決の問題であり、主にサンプルワイドの敵攻撃生成のような比較的小規模なML問題に限られている。 我々の知る限り、ディープニューラルネットワーク(DNN)のトレーニングにおけるZO最適化の有効性は、性能を著しく低下させることなく実証されていない。 この障害を克服するために,ZO最適化をDNNトレーニングにスクラッチから3つの主要なイノベーションまで拡張可能なZOディープラーニング(DL)フレームワークであるDeepZeroを開発した。 まず,学習精度と計算効率において,ランダム化ベクトル勾配推定よりも座標勾配推定(cge)の利点を示す。 第2に, CGE 以前のスパースDL を探索・活用するために, 有限差分のみを用いてモデル刈り込み手法を拡張したスペーサ誘導型ZOトレーニングプロトコルを提案する。 第3に,ZO訓練の実践的実装を進めるために,機能再利用法と前方並列化法を開発した。 CIFAR-10でトレーニングしたResNet-20では,DeepZeroがSOTA(State-of-the-art)の精度を実現し,FOトレーニング性能に初めて接近した。 さらに,認証された対角防御とDLに基づく偏微分方程式誤差補正の適用においてDeepZeroの実用性を示し,SOTAよりも10~20%向上した。 我々は,拡張性のあるZO最適化に関する今後の研究を刺激し,ブラックボックスによるDLの進展に寄与すると考えている。 コードはhttps://github.com/OPTML-Group/DeepZeroで入手できる。

Zeroth-order (ZO) optimization has become a popular technique for solving machine learning (ML) problems when first-order (FO) information is difficult or impossible to obtain. However, the scalability of ZO optimization remains an open problem: Its use has primarily been limited to relatively small-scale ML problems, such as sample-wise adversarial attack generation. To our best knowledge, no prior work has demonstrated the effectiveness of ZO optimization in training deep neural networks (DNNs) without a significant decrease in performance. To overcome this roadblock, we develop DeepZero, a principled ZO deep learning (DL) framework that can scale ZO optimization to DNN training from scratch through three primary innovations. First, we demonstrate the advantages of coordinatewise gradient estimation (CGE) over randomized vector-wise gradient estimation in training accuracy and computational efficiency. Second, we propose a sparsityinduced ZO training protocol that extends the model pruning methodology using only finite differences to explore and exploit the sparse DL prior in CGE. Third, we develop the methods of feature reuse and forward parallelization to advance the practical implementations of ZO training. Our extensive experiments show that DeepZero achieves state-of-the-art (SOTA) accuracy on ResNet-20 trained on CIFAR-10, approaching FO training performance for the first time. Furthermore, we show the practical utility of DeepZero in applications of certified adversarial defense and DL-based partial differential equation error correction, achieving 10-20% improvement over SOTA. We believe our results will inspire future research on scalable ZO optimization and contribute to advancing DL with black box. Codes are available at https://github.com/OPTML-Group/DeepZero.
翻訳日:2024-02-07 04:54:14 公開日:2024-02-04
# 強化学習における一般化のための意識に基づく時空間的抽象化

Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning ( http://arxiv.org/abs/2310.00229v3 )

ライセンス: Link先を確認
Mingde Zhao, Safa Alver, Harm van Seijen, Romain Laroche, Doina Precup, Yoshua Bengio(参考訳) 人間の意識に基づく計画に着想を得て,時空間的抽象化を用いたモデルベース強化学習エージェントskipperを提案する。 これにより、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に分解し、環境の関連部分のスパース決定と集中した計算を可能にする。 これは有向グラフとして表される抽象プロキシ問題の抽出に依存しており、頂点と辺は後から端から端まで学習される。 我々の理論分析は、適切な仮定の下で性能保証を提供し、我々のアプローチがどこに役立つかを確立する。 一般化にフォーカスした実験は、ゼロショット一般化におけるskipperの大きな利点を、既存の最先端の階層的計画法と比較して検証する。

Inspired by human conscious planning, we propose Skipper, a model-based reinforcement learning agent utilizing spatio-temporal abstractions to generalize learned skills in novel situations. It automatically decomposes the given task into smaller, more manageable subtasks, and hence enables sparse decision-making and focused computation on the relevant parts of the environment. This relies on the extraction of an abstracted proxy problem represented as a directed graph, in which vertices and edges are learned end-to-end from hindsight. Our theoretical analyses provide performance guarantees under appropriate assumptions and establish where our approach is expected to be helpful. Generalization-focused experiments validate Skipper's significant advantage in zero-shot generalization, compared to existing state-of-the-art hierarchical planning methods.
翻訳日:2024-02-07 04:53:06 公開日:2024-02-04
# HelmFluid: 解釈可能な流体予測のための学習ヘルムホルツダイナミクス

HelmFluid: Learning Helmholtz Dynamics for Interpretable Fluid Prediction ( http://arxiv.org/abs/2310.10565v2 )

ライセンス: Link先を確認
Lanxiang Xing, Haixu Wu, Yuezhou Ma, Jianmin Wang, Mingsheng Long(参考訳) 流体予測は、内在する高次元非線形動力学による長年の課題である。 従来の手法は通常、将来の予測のために直接速度場を推定するために深層モデルの非線形モデリング能力を利用する。 しかし、固有の物理的性質をスキップするが、表面の速度場を直接学習することは、モデルが正確で物理学的に信頼できる結果を生み出すのを圧倒する。 本稿では,HelmFluidを流体の高精度かつ解釈可能な予測器として提案する。 ヘルムホルツの定理にインスパイアされた我々はヘルムホルツの力学を学ぶためにヘルム力学ブロックを設計し、流体力学をより解けるカールフリーで発散のない部分に分解し、流体のポテンシャルとストリーム関数に物理的に対応する。 HelmDynamicsブロックをマルチスケールのマルチヘッド積分アーキテクチャに埋め込むことで、HelmFluidは学習したHelmholtzダイナミクスを複数の空間スケールの時間次元に沿って統合し、将来の流体を得ることができる。 従来の速度推定法と比較して、ヘルムフルドはヘルムホルツの定理から忠実に導かれ、物理的に解釈可能な証拠を持つ複素流体力学を解明する。 実験上、helmfluidは数値シミュレーションと実世界の観測ベンチマークの両方において、複雑な境界を持つシナリオでも一貫した最先端を達成している。

Fluid prediction is a long-standing challenge due to the intrinsic high-dimensional non-linear dynamics. Previous methods usually utilize the non-linear modeling capability of deep models to directly estimate velocity fields for future prediction. However, skipping over inherent physical properties but directly learning superficial velocity fields will overwhelm the model from generating precise or physics-reliable results. In this paper, we propose the HelmFluid toward an accurate and interpretable predictor for fluid. Inspired by the Helmholtz theorem, we design a HelmDynamics block to learn Helmholtz dynamics, which decomposes fluid dynamics into more solvable curl-free and divergence-free parts, physically corresponding to potential and stream functions of fluid. By embedding the HelmDynamics block into a Multiscale Multihead Integral Architecture, HelmFluid can integrate learned Helmholtz dynamics along temporal dimension in multiple spatial scales to yield future fluid. Compared with previous velocity estimating methods, HelmFluid is faithfully derived from Helmholtz theorem and ravels out complex fluid dynamics with physically interpretable evidence. Experimentally, HelmFluid achieves consistent state-of-the-art in both numerical simulated and real-world observed benchmarks, even for scenarios with complex boundaries.
翻訳日:2024-02-07 04:44:46 公開日:2024-02-04
# セットバックから知恵を得る - ミス分析による大規模言語モデルの整合

Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis ( http://arxiv.org/abs/2310.10477v5 )

ライセンス: Link先を確認
Kai Chen, Chunwei Wang, Kuo Yang, Jianhua Han, Lanqing Hong, Fei Mi, Hang Xu, Zhengying Liu, Wenyong Huang, Zhenguo Li, Dit-Yan Yeung, Lifeng Shang, Xin Jiang, Qun Liu(参考訳) 大規模言語モデル(llm)の急速な発展は、多くの機会をもたらしただけでなく、大きな課題ももたらした。 LLMが意図しないもしくは意図的な誘導によって有害または有害な物質を不注意に生成すると、これは特に明らかになる。 既存のアライメント手法は通常、人間が注釈付き、不完全な命令応答ペアを利用することで好ましい結果にllmを向ける。 逆に, 誤りの原因や回避方法を学習するために, LLMを誤った内容に意図的に公開する, 誤り解析に基づく新しいアライメント手法を提案する。 この場合、ミスはアライメントのために貴重なデータに再利用され、誤応答の発生を効果的に回避する。 外部モデルや人的アノテーションがなければ,本手法は,望ましくない誤りを識別し,生成した応答の安全性を向上させるモデル固有の能力を利用する。 実験結果から,本手法はモデル安全性を向上させるために既存のアライメント手法よりも優れていることがわかった。

The rapid development of large language models (LLMs) has not only provided numerous opportunities but also presented significant challenges. This becomes particularly evident when LLMs inadvertently generate harmful or toxic content, either unintentionally or because of intentional inducement. Existing alignment methods usually direct LLMs toward the favorable outcomes by utilizing human-annotated, flawless instruction-response pairs. Conversely, this study proposes a novel alignment technique based on mistake analysis, which deliberately exposes LLMs to erroneous content to learn the reasons for mistakes and how to avoid them. In this case, mistakes are repurposed into valuable data for alignment, effectively helping to avoid the production of erroneous responses. Without external models or human annotations, our method leverages a model's intrinsic ability to discern undesirable mistakes and improves the safety of its generated responses. Experimental results reveal that our method outperforms existing alignment approaches in enhancing model safety while maintaining the overall utility.
翻訳日:2024-02-07 04:44:20 公開日:2024-02-04
# Mirage: グラフ分類のためのモデル非依存グラフ蒸留

Mirage: Model-Agnostic Graph Distillation for Graph Classification ( http://arxiv.org/abs/2310.09486v3 )

ライセンス: Link先を確認
Mridul Gupta and Sahil Manchanda and Hariprasad Kodamana and Sayan Ranu(参考訳) 他のディープラーニングモデルと同様、GNNもデータと計算に飢えている。 低リソース環境での使用を可能にするため、大規模なデータセット上でGNNのトレーニングをスケールする必要がある。 グラフ蒸留は、モデル性能を著しく損なうことなく、元のトレーニングデータからより小さな合成訓練セットを構築することを目的としている。 1)既存のグラフ蒸留アルゴリズム自体が、グラフ蒸留の前提を損なう完全なデータセットによるトレーニングに依存している。 2) 蒸留プロセスは, ターゲットのGNNアーキテクチャやハイパーパラメータに特有であり, モデリングパイプラインの変化に対して堅牢ではない。 グラフ分類のためのMirageと呼ばれる蒸留アルゴリズムを設計することで,これらの制限を回避する。 MirageはメッセージパスGNNが入力グラフを複数の計算ツリーに分解するという知見に基づいて構築されている。 さらに, 計算木の周波数分布は自然に歪んでいて, このデータを簡潔な蒸留要約にまとめることができる。 計算データ自体を圧縮することにより、元のトレーニングセット上の勾配流をエミュレートする代わりに、日付ミレージ変換を教師なしかつアーキテクチャに依存しない蒸留アルゴリズムに変換する。 実世界のデータセットに対する広範囲なベンチマークは、Mirageの優位性を強調し、最先端のベースラインと比較して、一般化の正確さ、データ圧縮、蒸留効率の向上を示している。

GNNs, like other deep learning models, are data and computation hungry. There is a pressing need to scale training of GNNs on large datasets to enable their usage on low-resource environments. Graph distillation is an effort in that direction with the aim to construct a smaller synthetic training set from the original training data without significantly compromising model performance. While initial efforts are promising, this work is motivated by two key observations: (1) Existing graph distillation algorithms themselves rely on training with the full dataset, which undermines the very premise of graph distillation. (2) The distillation process is specific to the target GNN architecture and hyper-parameters and thus not robust to changes in the modeling pipeline. We circumvent these limitations by designing a distillation algorithm called Mirage for graph classification. Mirage is built on the insight that a message-passing GNN decomposes the input graph into a multiset of computation trees. Furthermore, the frequency distribution of computation trees is often skewed in nature, enabling us to condense this data into a concise distilled summary. By compressing the computation data itself, as opposed to emulating gradient flows on the original training set-a prevalent approach to date-Mirage transforms into an unsupervised and architecture-agnostic distillation algorithm. Extensive benchmarking on real-world datasets underscores Mirage's superiority, showcasing enhanced generalization accuracy, data compression, and distillation efficiency when compared to state-of-the-art baselines.
翻訳日:2024-02-07 04:44:01 公開日:2024-02-04
# 広DNNにおけるロバストオーバーフィッティングの理論解析:NTKアプローチ

Theoretical Analysis of Robust Overfitting for Wide DNNs: An NTK Approach ( http://arxiv.org/abs/2310.06112v2 )

ライセンス: Link先を確認
Shaopeng Fu, Di Wang(参考訳) Adversarial Training (AT)は、ディープニューラルネットワーク(DNN)の堅牢性を高めるための標準的手法である。 しかし、近年の研究では、dnnのロバスト性に対して長い時間、すなわち、ロバストな過剰フィッティングに苦しむことが実証されている。 本稿では,DNNに対するロバストなオーバーフィッティングの理論的説明を行う。 具体的には、ニューラル・タンジェント・カーネル(NTK)理論をATに非自明に拡張し、逆向きに訓練された広DNNが線形化されたDNNで十分に近似できることを証明する。 さらに、正方形損失に対しては、線形化DNNの閉形式ATダイナミクスを導出することができ、これは新たなAT縮退現象を呈する: 長期ATは、ATのないものに広くDNNを縮退させ、堅牢なオーバーフィッティングをもたらす。 この理論結果に基づき, 無限幅dnnに対する最初のatアルゴリズムであるadv-ntk法を更に設計する。 実世界のデータセットでの実験では、Adv-NTKは無限幅のDNNが有限幅のDNNと同等の堅牢性を高めるのに役立つことが示されています。 コードはhttps://github.com/fshp971/adv-ntkで入手できる。

Adversarial training (AT) is a canonical method for enhancing the robustness of deep neural networks (DNNs). However, recent studies empirically demonstrated that it suffers from robust overfitting, i.e., a long time AT can be detrimental to the robustness of DNNs. This paper presents a theoretical explanation of robust overfitting for DNNs. Specifically, we non-trivially extend the neural tangent kernel (NTK) theory to AT and prove that an adversarially trained wide DNN can be well approximated by a linearized DNN. Moreover, for squared loss, closed-form AT dynamics for the linearized DNN can be derived, which reveals a new AT degeneration phenomenon: a long-term AT will result in a wide DNN degenerates to that obtained without AT and thus cause robust overfitting. Based on our theoretical results, we further design a method namely Adv-NTK, the first AT algorithm for infinite-width DNNs. Experiments on real-world datasets show that Adv-NTK can help infinite-width DNNs enhance comparable robustness to that of their finite-width counterparts, which in turn justifies our theoretical findings. The code is available at https://github.com/fshp971/adv-ntk.
翻訳日:2024-02-07 04:42:32 公開日:2024-02-04
# 離間位置と文脈による変圧器内隠れ幾何の解明

Uncovering hidden geometry in Transformers via disentangling position and context ( http://arxiv.org/abs/2310.04861v2 )

ライセンス: Link先を確認
Jiajun Song and Yiqiao Zhong(参考訳) トランスフォーマーは入力トークンから意味を抽出するために広く使われているが、通常はブラックボックスモデルとして機能する。 本稿では,訓練されたトランスフォーマの隠れた状態(あるいは埋め込み)を解釈可能なコンポーネントに簡易かつ有益に分解する。 任意の層に対して、入力シーケンスサンプルの埋め込みベクトルはテンソル $\boldsymbol{h} \in \mathbb{R}^{C \times T \times d}$ で表される。 Given embedding vector $\boldsymbol{h}_{c,t} \in \mathbb{R}^d$ at sequence position $t \le T$ in a sequence (or context) $c \le C$, extracting the mean effects yields the decomposition \[ \boldsymbol{h}_{c,t} = \boldsymbol{\mu} + \mathbf{pos}_t + \mathbf{ctx}_c + \mathbf{resid}_{c,t} \] where $\boldsymbol{\mu}$ is the global mean vector, $\mathbf{pos}_t$ and $\mathbf{ctx}_c$ are the mean vectors across contexts and across positions respectively, and $\mathbf{resid}_{c,t}$ is the residual vector. 一般的なトランスフォーマーアーキテクチャや多種多様なテキストデータセットでは、(1)$(\mathbf{pos}_t)_{t}$が低次元で連続的でしばしばスパイラルな形状を成す、(2)$(\mathbf{ctx}_c)_c$は、コンテキストトピックに陥る明確なクラスタ構造を示し、(3)$(\mathbf{pos}_t)_{t}$と$(\mathbf{ctx}_c)_c$は互いにほぼ直交する。 我々は、スムース性は言語で訓練されたトランスフォーマーに広く浸透し有益であり、この分解によりモデル解釈性が向上すると主張している。

Transformers are widely used to extract semantic meanings from input tokens, yet they usually operate as black-box models. In this paper, we present a simple yet informative decomposition of hidden states (or embeddings) of trained transformers into interpretable components. For any layer, embedding vectors of input sequence samples are represented by a tensor $\boldsymbol{h} \in \mathbb{R}^{C \times T \times d}$. Given embedding vector $\boldsymbol{h}_{c,t} \in \mathbb{R}^d$ at sequence position $t \le T$ in a sequence (or context) $c \le C$, extracting the mean effects yields the decomposition \[ \boldsymbol{h}_{c,t} = \boldsymbol{\mu} + \mathbf{pos}_t + \mathbf{ctx}_c + \mathbf{resid}_{c,t} \] where $\boldsymbol{\mu}$ is the global mean vector, $\mathbf{pos}_t$ and $\mathbf{ctx}_c$ are the mean vectors across contexts and across positions respectively, and $\mathbf{resid}_{c,t}$ is the residual vector. For popular transformer architectures and diverse text datasets, empirically we find pervasive mathematical structure: (1) $(\mathbf{pos}_t)_{t}$ forms a low-dimensional, continuous, and often spiral shape across layers, (2) $(\mathbf{ctx}_c)_c$ shows clear cluster structure that falls into context topics, and (3) $(\mathbf{pos}_t)_{t}$ and $(\mathbf{ctx}_c)_c$ are mutually nearly orthogonal. We argue that smoothness is pervasive and beneficial to transformers trained on languages, and our decomposition leads to improved model interpretability.
翻訳日:2024-02-07 04:40:42 公開日:2024-02-04
# MicroNAS:マイクロコントローラ上での時系列分類のためのメモリと遅延制約付きハードウェア対応ニューラルネットワーク探索

MicroNAS: Memory and Latency Constrained Hardware-Aware Neural Architecture Search for Time Series Classification on Microcontrollers ( http://arxiv.org/abs/2310.18384v2 )

ライセンス: Link先を確認
Tobias King, Yexu Zhou, Tobias R\"oddiger, Michael Beigl(参考訳) ドメイン固有のニューラルネットワークの設計は、時間がかかり、エラーが発生し、コストがかかるタスクである。 ニューラルアーキテクチャサーチ(NAS)は、ドメイン固有のモデル開発を単純化するために存在するが、マイクロコントローラ上の時系列分類に関する文献のギャップがある。 そこで我々は,資源制約型マイクロコントローラ(MCU)の時系列分類問題を解くために,差別化可能なニューラルネットワーク探索(DNAS)の概念を適用した。 ドメイン固有のHW-NASシステムであるMicroNAS, DNAS, Latency Lookup Tables, dynamic convolutions, MCUの時系列分類用に設計された新しい検索空間を紹介する。 結果のシステムはハードウェア対応であり、実行レイテンシとピークメモリ消費に対するユーザ定義の制限を満たすニューラルネットワークアーキテクチャを生成することができる。 様々なmcusおよび標準ベンチマークデータセットに関する広範な研究は、micronasが最先端のデスクトップモデルに近いパフォーマンス(f1-score)を実現するmcuカスタマイズアーキテクチャを発見したことを示している。 また,DARTSのようなドメインに依存しないNASベースラインと比較して,メモリやレイテンシの制約に順応する手法の方が優れていることを示す。

Designing domain specific neural networks is a time-consuming, error-prone, and expensive task. Neural Architecture Search (NAS) exists to simplify domain-specific model development but there is a gap in the literature for time series classification on microcontrollers. Therefore, we adapt the concept of differentiable neural architecture search (DNAS) to solve the time-series classification problem on resource-constrained microcontrollers (MCUs). We introduce MicroNAS, a domain-specific HW-NAS system integration of DNAS, Latency Lookup Tables, dynamic convolutions and a novel search space specifically designed for time-series classification on MCUs. The resulting system is hardware-aware and can generate neural network architectures that satisfy user-defined limits on the execution latency and peak memory consumption. Our extensive studies on different MCUs and standard benchmark datasets demonstrate that MicroNAS finds MCU-tailored architectures that achieve performance (F1-score) near to state-of-the-art desktop models. We also show that our approach is superior in adhering to memory and latency constraints compared to domain-independent NAS baselines such as DARTS.
翻訳日:2024-02-07 04:31:38 公開日:2024-02-04
# RealFM:Federated ParticipationとContributionにインセンティブを与える現実的なメカニズム

RealFM: A Realistic Mechanism to Incentivize Federated Participation and Contribution ( http://arxiv.org/abs/2310.13681v2 )

ライセンス: Link先を確認
Marco Bornstein, Amrit Singh Bedi, Anit Kumar Sahu, Furqan Khan, and Furong Huang(参考訳) フェデレーション学習(FL)におけるエッジデバイス参加は、通常はデバイスサーバ間通信(例えばデバイスドロップアウト)のレンズの下で研究され、エッジデバイスからFLへの参加を望まないと仮定される。 その結果、現在のFLフレームワークは現実的な設定で実装する際に欠陥があり、その多くがフリーライダージレンマに遭遇している。 FLを現実的な状況に進める第1のメカニズムであるRealFMを提案する。(1)デバイスユーティリティを現実的にモデル化し、(2)データコントリビューションとデバイス参加をインセンティブ化し、(3)フリーライダージレンマを確実に取り除き、(4)データ均一性、データ共有、および金銭報酬支払いに関する仮定を緩和する。 以前のfl機構と比較して、realfmはモデル精度とユーティリティの非線形関係を可能にし、サーバと参加者デバイスによって得られるユーティリティを改善する。 実世界のデータでは、RealFMはデバイスユーティリティとサーバユーティリティ、データコントリビューションを、ベースラインと比較してそれぞれ3倍と4倍改善する。

Edge device participation in federating learning (FL) is typically studied under the lens of device-server communication (e.g., device dropout) and assumes an undying desire from edge devices to participate in FL. As a result, current FL frameworks are flawed when implemented in realistic settings, with many encountering the free-rider dilemma. In a step to push FL towards realistic settings, we propose RealFM: the first federated mechanism that (1) realistically models device utility, (2) incentivizes data contribution and device participation, (3) provably removes the free-rider dilemma, and (4) relaxes assumptions on data homogeneity, data sharing, and monetary reward payments. Compared to previous FL mechanisms, RealFM allows for a non-linear relationship between model accuracy and utility, which improves the utility gained by the server and participating devices. On real-world data, RealFM improves device and server utility, as well as data contribution, by over 3 and 4 magnitudes respectively compared to baselines.
翻訳日:2024-02-07 04:29:38 公開日:2024-02-04
# エージェント特異的効果:マルチエージェントMDPにおける因果効果伝搬解析

Agent-Specific Effects: A Causal Effect Propagation Analysis in Multi-Agent MDPs ( http://arxiv.org/abs/2310.11334v2 )

ライセンス: Link先を確認
Stelios Triantafyllou, Aleksa Sukovic, Debmalya Mandal, Goran Radanovic(参考訳) 行動と成果の因果関係を確立することは、説明責任のあるマルチエージェントの意思決定に不可欠である。 しかし、そのような関係に対するエージェントの貢献の解釈と定量化は大きな課題となる。 これらの課題は、エージェントの行動が結果に与える因果効果が、他のエージェントがその行動にどう反応するかに依存するマルチエージェントのシーケンシャルな意思決定の文脈において特に顕著である。 本稿では,エージェントの行動が他のエージェントに与える影響に因果的影響をもたらすための体系的アプローチを提案する。 我々は,マルチエージェントマルコフ決定プロセスに着目し,エージェント特異的効果 (ase) について紹介する。 次に, ASE (cf-ASE) の対実的対応に目を向け, cf-ASE の同定に十分な条件セットを提供し, その推定のための実用的なサンプリングベースアルゴリズムを提案する。 最後に,セプシス管理環境を含むシミュレーションベースのテストベッドを用いてcf-aseの有用性を実験的に評価した。

Establishing causal relationships between actions and outcomes is fundamental for accountable multi-agent decision-making. However, interpreting and quantifying agents' contributions to such relationships pose significant challenges. These challenges are particularly prominent in the context of multi-agent sequential decision-making, where the causal effect of an agent's action on the outcome depends on how other agents respond to that action. In this paper, our objective is to present a systematic approach for attributing the causal effects of agents' actions to the influence they exert on other agents. Focusing on multi-agent Markov decision processes, we introduce agent-specific effects (ASE), a novel causal quantity that measures the effect of an agent's action on the outcome that propagates through other agents. We then turn to the counterfactual counterpart of ASE (cf-ASE), provide a sufficient set of conditions for identifying cf-ASE, and propose a practical sampling-based algorithm for estimating it. Finally, we experimentally evaluate the utility of cf-ASE through a simulation-based testbed, which includes a sepsis management environment.
翻訳日:2024-02-07 04:28:12 公開日:2024-02-04
# 時系列予測のためのデコーダ専用基礎モデル

A decoder-only foundation model for time-series forecasting ( http://arxiv.org/abs/2310.10688v3 )

ライセンス: Link先を確認
Abhimanyu Das, Weihao Kong, Rajat Sen, Yichen Zhou(参考訳) 自然言語処理のための大規模言語モデル(nlp)の最近の進歩に動機づけられ、様々なパブリックデータセットにおけるゼロショット性能が各データセットに対する最先端の教師付き予測モデルの精度に近い予測のための時系列基礎モデルを設計する。 提案モデルは,大規模時系列コーパス上でパッチドデコーダ方式の注意モデルを事前学習し,予測履歴長,予測長,時間的粒度など,様々な予測にまたがってうまく機能する。

Motivated by recent advances in large language models for Natural Language Processing (NLP), we design a time-series foundation model for forecasting whose out-of-the-box zero-shot performance on a variety of public datasets comes close to the accuracy of state-of-the-art supervised forecasting models for each individual dataset. Our model is based on pretraining a patched-decoder style attention model on a large time-series corpus, and can work well across different forecasting history lengths, prediction lengths and temporal granularities.
翻訳日:2024-02-07 04:27:53 公開日:2024-02-04
# 言語モデルはスーパーマリオ:自由ランチとしての相同モデルから能力を吸収する

Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch ( http://arxiv.org/abs/2311.03099v2 )

ライセンス: Link先を確認
Le Yu, Bowen Yu, Haiyang Yu, Fei Huang, Yongbin Li(参考訳) 本稿では,言語モデル(LM)が,リトレーニングやGPUを使わずにホモロジーモデルからパラメータを同化することにより,新たな能力を得ることができることを示す。 まず,ほとんどのデルタパラメータ(微調整パラメータと事前訓練パラメータの差)をゼロに設定するためにdareを導入する。sft(supervised fine-tuning) lmsの能力に影響を与えず,デルタパラメータをpでランダムにドロップし,残りのパラメータを1/(1p)で再スケールして元の埋め込みを近似する。 そして,DAREを汎用的なプラグアンドプレイ手法として,パラメータ干渉を緩和するために複数のSFTホモロジーモデルのデルタパラメータをスペーシングし,パラメータ拡散により単一モデルにマージする。 我々は,エンコーダとデコーダをベースとしたLMを用いて実験を行い,(1) SFTデルタパラメータ値範囲は典型的には(0.005で)極端に冗長であり,DAREは90%あるいは99%を強制的に除去できることを示した。 2) DAREは複数のタスク固有のLMを1つのLMにマージする。 例えば、WizardLMとWizardMathの融合により、WizardLMのGSM8Kゼロショット精度は2.2から66.3に大幅に向上し、WizardMathの64.2性能を上回りながら命令追従能力を維持する。 合併したLMは、Open LLM Leaderboardで70億のパラメータを持つモデルの中でも第1位です。

In this paper, we unveil that Language Models (LMs) can acquire new capabilities by assimilating parameters from homologous models without retraining or GPUs. We first introduce DARE to set most delta parameters (i.e., the disparity between fine-tuned and pre-trained parameters) to zeros without affecting the abilities of Supervised Fine-Tuning (SFT) LMs, which randomly Drops delta parameters with a ratio p And REscales the remaining ones by 1/(1 - p) to approximate the original embeddings. Then, we use DARE as a versatile plug-and-play technique to sparsify delta parameters of multiple SFT homologous models for mitigating parameter interference and merge them into a single model by parameter fusing. We experiment with encoder- and decoder-based LMs, showing that: (1) SFT delta parameter value ranges are typically small (within 0.005) with extreme redundancy, and DARE can effortlessly eliminate 90% or even 99% of them. (2) DARE can merge multiple task-specific LMs into one LM with diverse capabilities. For instance, the amalgamation of WizardLM and WizardMath significantly enhances the GSM8K zero-shot accuracy of WizardLM from 2.2 to 66.3, retaining the instruction-following proficiency while surpassing WizardMath's 64.2 performance. Our merged LM also ranks first among models with 7 billion parameters on the Open LLM Leaderboard.
翻訳日:2024-02-07 04:20:18 公開日:2024-02-04
# CogVLM: 事前訓練された言語モデルのビジュアルエキスパート

CogVLM: Visual Expert for Pretrained Language Models ( http://arxiv.org/abs/2311.03079v2 )

ライセンス: Link先を確認
Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, Jie Tang(参考訳) 我々はオープンソースのビジュアル言語基盤モデルであるCogVLMを紹介する。 画像特徴を言語モデルの入力空間にマッピングする一般的な浅層アライメント法とは異なり、CogVLMは、注意層とFFN層でトレーニング可能なビジュアルエキスパートモジュールによって、凍結した事前学習言語モデルと画像エンコーダのギャップを埋める。 その結果、CogVLMはNLPタスクのパフォーマンスを犠牲にすることなく、視覚言語機能の深い融合を可能にする。 CogVLM-17Bは、NoCaps、Flicker30kキャプション、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA、TDIUCを含む10の古典的クロスモーダルベンチマークで最先端のパフォーマンスを達成し、VQAv2、OKVQA、TextVQA、COCOキャプティングなど、PaLI-X 55Bを上回り、マッチングする。 コードとチェックポイントはhttps://github.com/THUDM/CogVLMで公開されている。

We introduce CogVLM, a powerful open-source visual language foundation model. Different from the popular shallow alignment method which maps image features into the input space of language model, CogVLM bridges the gap between the frozen pretrained language model and image encoder by a trainable visual expert module in the attention and FFN layers. As a result, CogVLM enables deep fusion of vision language features without sacrificing any performance on NLP tasks. CogVLM-17B achieves state-of-the-art performance on 10 classic cross-modal benchmarks, including NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA and TDIUC, and ranks the 2nd on VQAv2, OKVQA, TextVQA, COCO captioning, etc., surpassing or matching PaLI-X 55B. Codes and checkpoints are available at https://github.com/THUDM/CogVLM.
翻訳日:2024-02-07 04:19:46 公開日:2024-02-04
# クラスタネットワーク干渉による個別政策評価と学習

Individualized Policy Evaluation and Learning under Clustered Network Interference ( http://arxiv.org/abs/2311.02467v2 )

ライセンス: Link先を確認
Yi Zhang, Kosuke Imai(参考訳) 現在、政策評価と学習に関する文献が多数存在するが、先行研究の多くは、ある単位の処理課題が別の単位の結果に影響を及ぼさないと仮定している。 残念ながら、干渉を無視することは、偏見のある政策評価と非効果的な学習政策につながる可能性がある。 例えば、多くの友人を持つ影響力のある個人を治療すると、ポジティブな流出効果が生じ、個別化された治療規則(ITR)の全体的な性能が向上する。 本稿では,集団ネットワーク干渉(部分的干渉)下での最適ITRの評価と学習の問題について考察する。 余剰効果に強い制約を課す従来の手法とは異なり、提案手法は、各ユニットの結果がクラスタ内の個々の処理の加算関数となる半パラメトリック構造モデルのみを仮定する。 このモデルでは、itrの実証的性能を評価するために使用できる推定器を提案する。 この推定器は標準逆確率重み推定器よりも実質的に効率的であり, 流出効果についての仮定を課さない。 学習ITRに対する有限サンプル残差を導出し、効率的な評価推定器の使用により学習ポリシーの性能が向上することを示す。 最後に,提案手法の利点を説明するためにシミュレーションと経験的研究を行う。

While there now exists a large literature on policy evaluation and learning, much of prior work assumes that the treatment assignment of one unit does not affect the outcome of another unit. Unfortunately, ignoring interference may lead to biased policy evaluation and ineffective learned policies. For example, treating influential individuals who have many friends can generate positive spillover effects, thereby improving the overall performance of an individualized treatment rule (ITR). We consider the problem of evaluating and learning an optimal ITR under clustered network interference (also known as partial interference) where clusters of units are sampled from a population and units may influence one another within each cluster. Unlike previous methods that impose strong restrictions on spillover effects, the proposed methodology only assumes a semiparametric structural model where each unit's outcome is an additive function of individual treatments within the cluster. Under this model, we propose an estimator that can be used to evaluate the empirical performance of an ITR. We show that this estimator is substantially more efficient than the standard inverse probability weighting estimator, which does not impose any assumption about spillover effects. We derive the finite-sample regret bound for a learned ITR, showing that the use of our efficient evaluation estimator leads to the improved performance of learned policies. Finally, we conduct simulation and empirical studies to illustrate the advantages of the proposed methodology.
翻訳日:2024-02-07 04:18:59 公開日:2024-02-04
# 言語モデルは言語錯誤によって引き起こせるか? 構文が簡単で 意味論が難しい

Can Language Models Be Tricked by Language Illusions? Easier with Syntax, Harder with Semantics ( http://arxiv.org/abs/2311.01386v2 )

ライセンス: Link先を確認
Yuhan Zhang, Edward Gibson, Forrest Davis(参考訳) 言語モデル(LM)は文法的判断タスクにおいて人間と大きく重なると議論されている。 しかし、人間が体系的に言語処理の誤りを犯すとき、lmsは言語の認知モデルのように振る舞うことを期待し、人間の行動を模倣すべきだろうか? 我々は、lmsが「言語錯覚」に関連するより微妙な判断を調査することによって、この疑問に答える。 比較錯視(例:「私より多くの人がロシアに行った」)、深度チャージ錯視(例:「頭部の損傷は無視できないほど単純すぎる」)、負極性アイテム(例:「信頼できる村人がいないと信じているハンターが熊を撃つ」)の3つの錯視を調べた。 その結果,ALMで表される確率は,高度な意味理解を必要とする比較と深さ電荷の錯覚と比較して,構造的依存性を調べるNPIイリュージョンによって「複雑化」されるという人間の判断と一致している可能性が示唆された。 人間の行動と完全に一致した単一のLMや測定結果は得られない。 最終的に、LMは人間の言語処理の認知モデルとしてのコントラストと、複雑な言語材料におけるニュアンスだが重要な情報を認識する能力の両方に制限されていることを示す。

Language models (LMs) have been argued to overlap substantially with human beings in grammaticality judgment tasks. But when humans systematically make errors in language processing, should we expect LMs to behave like cognitive models of language and mimic human behavior? We answer this question by investigating LMs' more subtle judgments associated with "language illusions" -- sentences that are vague in meaning, implausible, or ungrammatical but receive unexpectedly high acceptability judgments by humans. We looked at three illusions: the comparative illusion (e.g. "More people have been to Russia than I have"), the depth-charge illusion (e.g. "No head injury is too trivial to be ignored"), and the negative polarity item (NPI) illusion (e.g. "The hunter who no villager believed to be trustworthy will ever shoot a bear"). We found that probabilities represented by LMs were more likely to align with human judgments of being "tricked" by the NPI illusion which examines a structural dependency, compared to the comparative and the depth-charge illusions which require sophisticated semantic understanding. No single LM or metric yielded results that are entirely consistent with human behavior. Ultimately, we show that LMs are limited both in their construal as cognitive models of human language processing and in their capacity to recognize nuanced but critical information in complicated language materials.
翻訳日:2024-02-07 04:18:04 公開日:2024-02-04
# Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents

Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents ( http://arxiv.org/abs/2310.19923v4 )

ライセンス: Link先を確認
Michael G\"unther, Jackmin Ong, Isabelle Mohr, Alaeddine Abdessalem, Tanguy Abel, Mohammad Kalim Akram, Susana Guzman, Georgios Mastrapas, Saba Sturua, Bo Wang, Maximilian Werk, Nan Wang, Han Xiao(参考訳) テキスト埋め込みモデルは、文を意味情報をカプセル化する固定サイズの特徴ベクトルに変換する強力なツールとして登場した。 これらのモデルは、情報検索、セマンティッククラスタリング、テキストの再ランクといったタスクには不可欠ですが、既存のオープンソースモデル、特にBERTのようなアーキテクチャ上に構築されたモデルでは、長いドキュメントの表現に苦労し、しばしば切り詰められます。 この課題を緩和するための一般的なアプローチは、文書を埋め込むために小さな段落に分割することである。 しかし、この戦略によりベクトルの集合がより大きくなり、結果としてメモリ消費が増加し、計算集約的なベクトル探索がレイテンシが上昇する。 これらの課題に対処するため,我々は8192トークンまで対応可能なオープンソースのテキスト埋め込みモデルであるjina embeddeds 2を紹介する。 このモデルは,従来の512token制限を超越し,長文処理を行うように設計されている。 Jina Embeddings 2はMTEBベンチマークの様々な組み込み関連タスクにおける最先端のパフォーマンスを達成するだけでなく、OpenAIのプロプライエタリなada-002モデルのパフォーマンスと一致する。 さらに,この拡張コンテキストによって,narrativeqaなどのタスクのパフォーマンスが向上することを示す実験を行った。

Text embedding models have emerged as powerful tools for transforming sentences into fixed-sized feature vectors that encapsulate semantic information. While these models are essential for tasks like information retrieval, semantic clustering, and text re-ranking, most existing open-source models, especially those built on architectures like BERT, struggle to represent lengthy documents and often resort to truncation. One common approach to mitigate this challenge involves splitting documents into smaller paragraphs for embedding. However, this strategy results in a much larger set of vectors, consequently leading to increased memory consumption and computationally intensive vector searches with elevated latency. To address these challenges, we introduce Jina Embeddings 2, an open-source text embedding model capable of accommodating up to 8192 tokens. This model is designed to transcend the conventional 512-token limit and adeptly process long documents. Jina Embeddings 2 not only achieves state-of-the-art performance on a range of embedding-related tasks in the MTEB benchmark but also matches the performance of OpenAI's proprietary ada-002 model. Additionally, our experiments indicate that an extended context can enhance performance in tasks such as NarrativeQA.
翻訳日:2024-02-07 04:16:19 公開日:2024-02-04
# AnomalyCLIP:ゼロショット異常検出のための物体認識型プロンプト学習

AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection ( http://arxiv.org/abs/2310.18961v4 )

ライセンス: Link先を確認
Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen(参考訳) ゼロショット異常検出(ZSAD)は、ターゲットデータセットのトレーニングサンプルなしで異常を検出するために補助データを使用してトレーニングされた検出モデルを必要とする。 データプライバシなどさまざまな懸念があるため、データのトレーニングがアクセスできない場合、重要なタスクですが、前景オブジェクトや異常領域、さまざまな製品や組織における欠陥や腫瘍などのバックグラウンド特徴の出現が著しく変化するような、さまざまなドメインの異常に一般化する必要があるため、非常に難しいのです。 近年,クリップなどの大規模事前学習型視覚言語モデル(vlms)が,異常検出を含む様々な視覚課題において強いゼロショット認識能力を示している。 しかし、VLMは画像の異常や異常ではなく、前景オブジェクトのクラスセマンティクスをモデル化することに重点を置いているため、ZSAD性能は弱い。 本稿では、AnomalyCLIPと呼ばれる新しいアプローチを導入し、CLIPを異なる領域にわたる正確なZSADに適用する。 AnomalyCLIPの重要な洞察は、オブジェクトに依存しないテキストのプロンプトを学習し、前景のオブジェクトに関係なく画像の一般的な正規性と異常を捉えることである。 これにより、モデルがオブジェクトのセマンティクスよりも異常な画像領域に焦点を合わせ、様々な種類のオブジェクトに対する一般化された正規性と異常認識を可能にします。 17の現実世界の異常検出データセットに関する大規模実験では、様々な欠陥検査や医療画像領域からの多種多様なクラスセマンティクスのデータセットにおいて、異常を検出および分割する優れたゼロショット性能が得られた。 コードはhttps://github.com/zqhang/AnomalyCLIPで公開される。

Zero-shot anomaly detection (ZSAD) requires detection models trained using auxiliary data to detect anomalies without any training sample in a target dataset. It is a crucial task when training data is not accessible due to various concerns, \eg, data privacy, yet it is challenging since the models need to generalize to anomalies across different domains where the appearance of foreground objects, abnormal regions, and background features, such as defects/tumors on different products/organs, can vary significantly. Recently large pre-trained vision-language models (VLMs), such as CLIP, have demonstrated strong zero-shot recognition ability in various vision tasks, including anomaly detection. However, their ZSAD performance is weak since the VLMs focus more on modeling the class semantics of the foreground objects rather than the abnormality/normality in the images. In this paper we introduce a novel approach, namely AnomalyCLIP, to adapt CLIP for accurate ZSAD across different domains. The key insight of AnomalyCLIP is to learn object-agnostic text prompts that capture generic normality and abnormality in an image regardless of its foreground objects. This allows our model to focus on the abnormal image regions rather than the object semantics, enabling generalized normality and abnormality recognition on diverse types of objects. Large-scale experiments on 17 real-world anomaly detection datasets show that AnomalyCLIP achieves superior zero-shot performance of detecting and segmenting anomalies in datasets of highly diverse class semantics from various defect inspection and medical imaging domains. Code will be made available at https://github.com/zqhang/AnomalyCLIP.
翻訳日:2024-02-07 04:15:54 公開日:2024-02-04
# 予想通りのサンプル:Langevin Dynamicsによる予測的コーディング

Sample as You Infer: Predictive Coding With Langevin Dynamics ( http://arxiv.org/abs/2311.13664v2 )

ライセンス: Link先を確認
Umais Zahid, Qinghai Guo, Zafeirios Fountas(参考訳) 本稿では,計算神経科学の予測符号化(pc)フレームワークに基づく汎用的深層生成モデルにおけるパラメータ学習のための新しいアルゴリズムを提案する。 提案手法は,標準変分オートエンコーダ(VAE)トレーニングで得られた性能と超越性を実現するために,標準PCアルゴリズムを改良する。 pc推論手順にガウス雑音を注入することにより、過減衰ランジュバンサンプリングとして再設定し、より厳密な証拠下限(elbo)に対する最適化を容易にする。 本研究では,エンコーダネットワークを組み込むことで,ランゲヴィンサンプリングにおける温暖化開始を抑えることにより,エンコーダフリートレーニング法の改善と3つの異なる目的のテストを行う。 最後に, サンプリングステップサイズに対するロバスト性を高め, 曲率に対する感度を低下させるため, sgd文献からのリーマン多様体ランジュバンおよび適応オプティマイザに触発された, 軽量で容易に計算可能なプリコンディショニング形式を検証する。 提案手法は, 標準パラメータ化トリックベースELBOを訓練した者と比較し, VAEとの比較を行った。 我々は,SGDトレーニングのイテレーション回数のごく一部を集約しながら,サンプル品質など,多数の指標でパフォーマンスに優れるか,あるいは一致しているかを観察した。

We present a novel algorithm for parameter learning in generic deep generative models that builds upon the predictive coding (PC) framework of computational neuroscience. Our approach modifies the standard PC algorithm to bring performance on-par and exceeding that obtained from standard variational auto-encoder (VAE) training. By injecting Gaussian noise into the PC inference procedure we re-envision it as an overdamped Langevin sampling, which facilitates optimisation with respect to a tight evidence lower bound (ELBO). We improve the resultant encoder-free training method by incorporating an encoder network to provide an amortised warm-start to our Langevin sampling and test three different objectives for doing so. Finally, to increase robustness to the sampling step size and reduce sensitivity to curvature, we validate a lightweight and easily computable form of preconditioning, inspired by Riemann Manifold Langevin and adaptive optimizers from the SGD literature. We compare against VAEs by training like-for-like generative models using our technique against those trained with standard reparameterisation-trick-based ELBOs. We observe our method out-performs or matches performance across a number of metrics, including sample quality, while converging in a fraction of the number of SGD training iterations.
翻訳日:2024-02-07 04:09:39 公開日:2024-02-04
# 注意を再考する - トランスフォーマーの注意層に代わる、浅層フィードフォワードニューラルネットワークの探索

Rethinking Attention: Exploring Shallow Feed-Forward Neural Networks as an Alternative to Attention Layers in Transformers ( http://arxiv.org/abs/2311.10642v4 )

ライセンス: Link先を確認
Vukasin Bozic, Danilo Dordevic, Daniele Coppola, Joseph Thommes, Sidak Pal Singh(参考訳) 本研究は,sequence-to-sequenceタスクのための最先端アーキテクチャであるオリジナルのtransformerモデルにおいて,アテンション機構の挙動を模倣するために,標準的な浅層フィードフォワードネットワークを用いた場合の有効性の分析を行う。 トランスの注意機構のキー要素を単純なフィードフォワードネットワークに置き換え, 知識蒸留により元の成分を用いて学習する。 IWSLT2017データセットで実施した実験では,これらの“アテンションレストランスフォーマー”の能力が,元のアーキテクチャのパフォーマンスに匹敵することを示した。 厳密なアブレーション研究と、様々な代替ネットワークタイプとサイズの実験を通じて、我々のアプローチの生存可能性を支える洞察を提供する。 これは、アテンション機構をエミュレートする上での浅いフィードフォワードネットワークの適応性に光を当てるだけでなく、シーケンスからシーケンスへのタスクの複雑なアーキテクチャを合理化する可能性にも光を当てている。

This work presents an analysis of the effectiveness of using standard shallow feed-forward networks to mimic the behavior of the attention mechanism in the original Transformer model, a state-of-the-art architecture for sequence-to-sequence tasks. We substitute key elements of the attention mechanism in the Transformer with simple feed-forward networks, trained using the original components via knowledge distillation. Our experiments, conducted on the IWSLT2017 dataset, reveal the capacity of these "attentionless Transformers" to rival the performance of the original architecture. Through rigorous ablation studies, and experimenting with various replacement network types and sizes, we offer insights that support the viability of our approach. This not only sheds light on the adaptability of shallow feed-forward networks in emulating attention mechanisms but also underscores their potential to streamline complex architectures for sequence-to-sequence tasks.
翻訳日:2024-02-07 04:07:16 公開日:2024-02-04
# 散逸結合による非ヘルミタン皮膚効果と非相反性

Non-Hermitian skin effect and nonreciprocity induced by dissipative couplings ( http://arxiv.org/abs/2311.03803v2 )

ライセンス: Link先を確認
Xinyao Huang, Yaohua Li, Guo-Feng Zhang, Yong-Chun Liu(参考訳) 本研究では,非エルミート皮膚効果 (NHSE) を実現するメカニズムについて検討し, 左右結合の強度は等しく, 位相は複雑な共役を満足しない。 NHSEの以前の実現は、通常、不平等な左結合やオンサイトゲインと損失を必要とする。 この研究では、周期的散逸結合構造によって提供されるマルチチャネル干渉と組み合わせると、散逸結合は不等な左-右結合につながり、nhseを誘導する。 さらに, 散逸結合によって引き起こされる非エルミティティは, 余分なゲインロス型非エルミティ性をもたらすことなく, 完全に非相反性型非エルミティティに変換できることを示した。 これにより、追加挿入損失を発生させることなく一方向エネルギー伝送が可能となる。 我々の研究は、非エルミート位相効果の研究と方向光ネットワークの設計に新たな道を開く。

We study the mechanism for realizing non-Hermitian skin effect (NHSE) via dissipative couplings, in which the left-right couplings have equal strengths but the phases do not satisfy the complex conjugation. Previous realizations of NHSE typically require unequal left-right couplings or on-site gain and loss. In this work we find that when combined with the multichannel interference provided by a periodic dissipative-coherent coupling structure, the dissipative couplings can lead to unequal left-right couplings, inducing NHSE. Moreover, we show that the non-Hermiticity induced by dissipative couplings can be fully transformed into nonreciprocity-type non-Hermiticity without bringing extra gain-loss-type non-Hermiticity. Thus, this mechanism enables unidirectional energy transmission without introducing additional insertion loss. Our work opens a new avenue for the study of non-Hermitian topological effects and the design of directional optical networks.
翻訳日:2024-02-07 04:04:10 公開日:2024-02-04
# Elijah: 分散シフトによる拡散モデルによるバックドアの排除

Elijah: Eliminating Backdoors Injected in Diffusion Models via Distribution Shift ( http://arxiv.org/abs/2312.00050v2 )

ライセンス: Link先を確認
Shengwei An, Sheng-Yen Chou, Kaiyuan Zhang, Qiuling Xu, Guanhong Tao, Guangyu Shen, Siyuan Cheng, Shiqing Ma, Pin-Yu Chen, Tsung-Yi Ho, Xiangyu Zhang(参考訳) 拡散モデル (DM) は, 敵対的訓練を伴わずに, ノイズから高品質な画像を生成する能力により, 最先端の生成モデルとなっている。 しかし、最近の研究で報告されたようにバックドア攻撃に弱い。 データ入力(例えばガウスノイズ)にトリガー(例えば白いパッチ)が押されると、バックドアモデルは常にターゲット画像(例えば不適切な写真)を生成する。 しかし、DMからバックドアを緩和するための効果的な防衛戦略は未定である。 このギャップを埋めるために,DMの最初のバックドア検出・除去フレームワークを提案する。 DDPM, NCSN, LDMを含む3種類のDMを対象とし, 既存の3種類のバックドア攻撃に対して13のサンプリングを行った。 広範な実験により, モデルの有用性を著しく損なうことなく, 検出精度が100%に近く, バックドア効果がゼロに近くなることを示した。

Diffusion models (DM) have become state-of-the-art generative models because of their capability to generate high-quality images from noises without adversarial training. However, they are vulnerable to backdoor attacks as reported by recent studies. When a data input (e.g., some Gaussian noise) is stamped with a trigger (e.g., a white patch), the backdoored model always generates the target image (e.g., an improper photo). However, effective defense strategies to mitigate backdoors from DMs are underexplored. To bridge this gap, we propose the first backdoor detection and removal framework for DMs. We evaluate our framework Elijah on hundreds of DMs of 3 types including DDPM, NCSN and LDM, with 13 samplers against 3 existing backdoor attacks. Extensive experiments show that our approach can have close to 100% detection accuracy and reduce the backdoor effects to close to zero without significantly sacrificing the model utility.
翻訳日:2024-02-07 03:56:49 公開日:2024-02-04
# 推定リーンとデータ適応予測

Assumption-lean and Data-adaptive Post-Prediction Inference ( http://arxiv.org/abs/2311.14220v2 )

ライセンス: Link先を確認
Jiacheng Miao, Xinran Miao, Yixuan Wu, Jiwei Zhao, and Qiongshi Lu(参考訳) 現代の科学研究が直面する主な課題は金本位制のデータの入手が限られていることであり、費用と労力がかかる。 機械学習(ML)の急速な発展により、科学者は容易に得られる共変量でこれらの金標準結果を予測するためにMLアルゴリズムに依存してきた。 しかし、これらの予測結果は、予測手順によってもたらされた不正確さや不均質性を無視して、後続の統計分析で直接使用されることが多い。 これはおそらく偽陽性の発見と無効な科学的結論をもたらす。 本研究では、ML予測結果に基づいて、有効かつ強力な推論を可能にする仮定型およびデータ適応型ポストプレディション推論(POP-Inf)手法を提案する。 その「推定リーン」特性は、幅広い統計量のML予測を仮定せずに信頼できる統計的推測を保証する。 その"data-adaptive"機能は、ml-predictionの精度に関わらず、既存の予測後推論メソッドよりも効率性が向上する。 シミュレーションと大規模ゲノムデータを用いて,本手法の優位性と適用性を示す。

A primary challenge facing modern scientific research is the limited availability of gold-standard data which can be both costly and labor-intensive to obtain. With the rapid development of machine learning (ML), scientists have relied on ML algorithms to predict these gold-standard outcomes with easily obtained covariates. However, these predicted outcomes are often used directly in subsequent statistical analyses, ignoring imprecision and heterogeneity introduced by the prediction procedure. This will likely result in false positive findings and invalid scientific conclusions. In this work, we introduce an assumption-lean and data-adaptive Post-Prediction Inference (POP-Inf) procedure that allows valid and powerful inference based on ML-predicted outcomes. Its "assumption-lean" property guarantees reliable statistical inference without assumptions on the ML-prediction, for a wide range of statistical quantities. Its "data-adaptive'" feature guarantees an efficiency gain over existing post-prediction inference methods, regardless of the accuracy of ML-prediction. We demonstrate the superiority and applicability of our method through simulations and large-scale genomic data.
翻訳日:2024-02-07 03:52:28 公開日:2024-02-04
# 知識グラフを用いた会話推論のための大規模言語モデルの評価と強化

Evaluating and Enhancing Large Language Models for Conversational Reasoning on Knowledge Graphs ( http://arxiv.org/abs/2312.11282v2 )

ライセンス: Link先を確認
Yuxuan Huang, Lida Shi, Anqi Liu and Hao Xu(参考訳) 大規模言語モデル(LLM)の開発は、事前学習技術の進歩によって触媒されている。 これらのモデルは手動で設計したプロンプトを通じて堅牢な推論能力を示している。 本研究では,知識グラフ(KG)上で現在最先端のLLM(GPT-4)の会話推論能力を評価する。 しかし, LLMの性能は, KG環境認識の欠如と中間推論段階の効率的な最適化メカニズムの開発に困難があるため, 制約されている。 さらに,LLMを基盤としたKG推論エージェントであるLLM-ARKを導入し,KG経路の正確かつ適応的な予測を行う。 LLM-ARKはFTE(Full Textual Environment)のプロンプトを利用して、各推論ステップ内の状態を同化する。 逐次意思決定タスクとして,kgにおけるマルチホップ推論の課題を再検討する。 PPO(Proximal Policy Optimization)オンラインポリシー勾配強化学習アルゴリズムを用いて,豊かな報酬信号から学習できるように最適化した。 さらに、OpenDialKGデータセット上で、モデルとGPT-4の評価を行う。 実験の結果、LLaMA-2-7B-ARKは現在の最先端モデルよりも5.28ポイント優れており、ターゲット@1評価基準では36.39%であることがわかった。 一方, GPT-4は14.91%のスコアを示し, さらに本手法の有効性を示した。 私たちのコードはGitHub(https://github.com/Aipura/LLM-ARK)からアクセスできます。

The development of large language models (LLMs) has been catalyzed by advancements in pre-training techniques. These models have demonstrated robust reasoning capabilities through manually designed prompts. In this work, we evaluate the conversational reasoning capabilities of the current state-of-the-art LLM (GPT-4) on knowledge graphs (KGs). However, the performance of LLMs is constrained due to a lack of KG environment awareness and the difficulties in developing effective optimization mechanisms for intermediary reasoning stages. We further introduce LLM-ARK, a LLM grounded KG reasoning agent designed to deliver precise and adaptable predictions on KG paths. LLM-ARK leverages Full Textual Environment (FTE) prompt to assimilate state information within each reasoning step. We reframe the challenge of multi-hop reasoning on the KG as a sequential decision-making task. Utilizing the Proximal Policy Optimization (PPO) online policy gradient reinforcement learning algorithm, our model is optimized to learn from rich reward signals. Additionally, we conduct an evaluation of our model and GPT-4 on the OpenDialKG dataset. The experimental results reveal that LLaMA-2-7B-ARK outperforms the current state-of-the-art model by 5.28 percentage points, with a performance rate of 36.39% on the target@1 evaluation metric. Meanwhile, GPT-4 scored 14.91%, further demonstrating the effectiveness of our method. Our code is available on GitHub (https://github.com/Aipura/LLM-ARK) for further access.
翻訳日:2024-02-07 03:45:17 公開日:2024-02-04
# 自動運転のための大規模言語モデル:実世界実験

Large Language Models for Autonomous Driving: Real-World Experiments ( http://arxiv.org/abs/2312.09397v2 )

ライセンス: Link先を確認
Can Cui, Zichong Yang, Yupeng Zhou, Yunsheng Ma, Juanwu Lu, Lingxi Li, Yaobin Chen, Jitesh Panchal and Ziran Wang(参考訳) 自動運転システムは、現在、部分的に自動化された車両がすでに市場に出回っている技術分野において、ますます人気を集めており、「ドライバレス」機能を備えた完全な自動化時代が近づきつつある。 しかし、人間の指示を正確に理解し、特に運転手の代わりに乗客のみを乗せた自動運転車では、高いレベルのパーソナライゼーションを達成することは、自律運転システムの開発において難しい課題である。 本稿では,Large Language Model (LLM) ベースのフレームワークであるTalk-to-Drive (Talk2Drive) を導入し,人間からの音声コマンドを処理し,コンテキスト情報を用いて自律運転決定を行い,安全性,効率,快適性に対するパーソナライズされた好みを満たす。 まず、Talk2Driveのための音声認識モジュールを開発し、人間からの音声入力をテキスト命令に解釈し、推論のためにLLMに送信する。 次に、電気制御ユニット(ECU)の適切なコマンドを生成し、コードの実行において100%の成功率を達成する。 実世界の実験により、我々のフレームワークは様々なドライバーの乗っ取り率を最大90.1%削減できることが示された。 われわれの知る限りでは、Talk2DriveはLLMベースのシステムを現実の自動運転環境に導入した最初の例だ。

Autonomous driving systems are increasingly popular in today's technological landscape, where vehicles with partial automation have already been widely available on the market, and the full automation era with "driverless" capabilities is near the horizon. However, accurately understanding humans' commands, particularly for autonomous vehicles that have only passengers instead of drivers, and achieving a high level of personalization remain challenging tasks in the development of autonomous driving systems. In this paper, we introduce a Large Language Model (LLM)-based framework Talk-to-Drive (Talk2Drive) to process verbal commands from humans and make autonomous driving decisions with contextual information, satisfying their personalized preferences for safety, efficiency, and comfort. First, a speech recognition module is developed for Talk2Drive to interpret verbal inputs from humans to textual instructions, which are then sent to LLMs for reasoning. Then, appropriate commands for the Electrical Control Unit (ECU) are generated, achieving a 100% success rate in executing codes. Real-world experiments show that our framework can substantially reduce the takeover rate for a diverse range of drivers by up to 90.1%. To the best of our knowledge, Talk2Drive marks the first instance of employing an LLM-based system in a real-world autonomous driving environment.
翻訳日:2024-02-07 03:44:53 公開日:2024-02-04
# transmed: 大きな言語モデルによる生体画像分類のための視覚トランスフォーマーの拡張

TransMed: Large Language Models Enhance Vision Transformer for Biomedical Image Classification ( http://arxiv.org/abs/2312.07125v2 )

ライセンス: Link先を確認
Kaipeng Zheng, Weiran Huang, Lichao Sun(参考訳) ごく少数のサンプルを持つタスクにモデルを適用するために、数少ない学習が研究されている。 医用画像のアノテーションコストが高いため、特に臨床研究において重要な意味を持つ。 いくつかの研究は、医療画像の少数ショット学習を探求しているが、ドメイン固有の優先事項を得るためには、事前学習モデルに大量の医療画像が必要である。 vision foundationのモデルは最近、自然画像で目覚ましい成功を収めた。 したがって、自然画像から数発の臨床的タスクに急速に進歩する視覚基盤モデルを適用することは大きな約束である。 MedFMCは先日のNeurIPS 2023で、このトピックにもっと光を当てるためのチャレンジを組織した。 本研究では,課題解決法を提案する。 部分凍結によるファインチューニングの簡単な変形が顕著な性能を示した。 実証的な証拠は、このアプローチが限られたサンプルサイズで様々な一般的な微調整方法を上回ることを証明している。 さらに,性能向上のためのセマンティック・インシデントの利用の強化についても検討する。 大規模言語モデル(LLM)を用いてラベルを文脈化する新しい手法を提案する。 その結果,LLMが生成するコンテキストは類似のカテゴリに対するセマンティック埋め込みの識別を著しく向上させ,一般的に使用されるワンホットラベルや他のセマンティックインフォメーション手法と比較して1ショット設定で3%-5%の顕著な性能向上が得られた。 私たちのソリューションは、medfmcチャレンジの1位を確保します。

Few-shot learning has been studied to adapt models to tasks with very few samples. It holds profound significance, particularly in clinical tasks, due to the high annotation cost of medical images. Several works have explored few-shot learning on medical images, yet they still require a large number of medical images for pre-training models to gain domain-specific priors. Vision foundation models recently have achieved remarkable success in natural images. Hence, adapting rapidly advancing vision foundation models from natural images to few-shot clinical tasks holds great promise. MedFMC has recently organized a challenge to shed more light on this topic at NeurIPS 2023. In this work, we present our challenge solution. We observe that a simple variant of fine-tuning with partial freezing shows remarkable performance. Empirical evidence demonstrates that this approach could outperform various common fine-tuning methods under limited sample sizes. Additionally, we explore enhanced utilization of semantic supervision to boost performance. We propose a novel approach that contextualizes labels via large language models (LLMs). Our findings reveal that the context generated by LLMs significantly enhances the discrimination of semantic embeddings for similar categories, resulting in a notable performance improvement of 3%-5% in 1-shot settings compared to commonly employed one-hot labels and other semantic supervision methods. Our solution secures the 1st place in the MedFMC challenge.
翻訳日:2024-02-07 03:44:13 公開日:2024-02-04
# ヒューマン・ロボットインタラクションの授業における非言語行動とソーシャル・ゲイズの利用

Utilization of Non-verbal Behaviour and Social Gaze in Classroom Human-Robot Interaction Communications ( http://arxiv.org/abs/2312.06825v2 )

ライセンス: Link先を確認
Sahand Shaghaghi, Pourya Aliasghari, Bryan Tripp, Kerstin Dautenhahn, Chrystopher Nehaniv(参考訳) この要約は、よりシームレスな社会的相互作用を促進するために、ロボット認知アーキテクチャにおける人間にインスパイアされた社会的視線モデルの適応に焦点を当てたヒューマンロボットインタラクション(HRI)シナリオを探索する。 まず,本研究で検討したHRIシナリオについて述べるとともに,本研究で活用する社会的視線モデルについて述べる。 教室におけるHRIシナリオにおいて,このような注意モデルを活用する利点を強調した。 また、この社会的視線モデルに関する今後の研究の目的についても詳述する。

This abstract explores classroom Human-Robot Interaction (HRI) scenarios with an emphasis on the adaptation of human-inspired social gaze models in robot cognitive architecture to facilitate a more seamless social interaction. First, we detail the HRI scenarios explored by us in our studies followed by a description of the social gaze model utilized for our research. We highlight the advantages of utilizing such an attentional model in classroom HRI scenarios. We also detail the intended goals of our upcoming study involving this social gaze model.
翻訳日:2024-02-07 03:43:39 公開日:2024-02-04
# 機械学習を用いたIOTシステムのマルウェア検出

Malware Detection in IOT Systems Using Machine Learning Techniques ( http://arxiv.org/abs/2312.17683v2 )

ライセンス: Link先を確認
Ali Mehrban, Pegah Ahadian(参考訳) IoT環境でのマルウェア検出は堅牢な方法論を必要とする。 そこで本研究では,IoTマルウェア識別のためのCNN-LSTMハイブリッドモデルを導入し,その性能評価を行った。 k-foldクロスバリデーションを利用して、提案手法は95.5%の精度を達成し、既存の手法を上回った。 CNNアルゴリズムは優れた学習モデル構築を可能にし、LSTM分類器は高い分類精度を示した。 一般的な技術との比較分析は、提案されたモデルの有効性を示し、IoTセキュリティを強化する可能性を強調した。 この研究は、代替手段としてSVMの将来の探索を提唱し、分散検出戦略の必要性を強調し、より強力なIOTセキュリティのための予測分析の重要性を強調している。 この研究は、IoTエコシステムにおけるよりレジリエントなセキュリティ対策を開発するためのプラットフォームとして機能する。

Malware detection in IoT environments necessitates robust methodologies. This study introduces a CNN-LSTM hybrid model for IoT malware identification and evaluates its performance against established methods. Leveraging K-fold cross-validation, the proposed approach achieved 95.5% accuracy, surpassing existing methods. The CNN algorithm enabled superior learning model construction, and the LSTM classifier exhibited heightened accuracy in classification. Comparative analysis against prevalent techniques demonstrated the efficacy of the proposed model, highlighting its potential for enhancing IoT security. The study advocates for future exploration of SVMs as alternatives, emphasizes the need for distributed detection strategies, and underscores the importance of predictive analyses for a more powerful IOT security. This research serves as a platform for developing more resilient security measures in IoT ecosystems.
翻訳日:2024-02-07 03:32:46 公開日:2024-02-04
# llm-sap: 大規模言語モデル状況認識に基づく計画

LLM-SAP: Large Language Model Situational Awareness Based Planning ( http://arxiv.org/abs/2312.16127v4 )

ライセンス: Link先を確認
Liman Wang, Hanyang Zhong(参考訳) この研究は、大規模言語モデルにおける状況認識に基づく創発的計画能力の評価の先駆者である。 貢献します (i)標準化評価のための新しいベンチマーク及び指標 (ii)進行を促すユニークなデータセット、及び (iii)状況に敏感な計画作業において,複数エージェントスキームを促し,計画性能を著しく向上させるデモンストレーション。 位置決めされたエージェントと自動計画研究に配置し、ドメインの進歩をシミュレートしながらも、世界国家を環境誘導のない行動に効率的にマッピングする、固有の信頼性の課題を強調した。 スコープ外ではあるが、バリデーション方法論とデータ可用性に関する制限は、拡張計画コーパスの微調整や高速な潜在計画のトリガの最適化など、エキサイティングな方向性を示している。 厳密な比較による現在の手法の約束と限界を決定的に示すことで、位置付けられたエージェントに対する信頼できる目標指向の推論を触媒する。

This work pioneers evaluating emergent planning capabilities based on situational awareness in large language models. We contribute (i) novel benchmarks and metrics for standardized assessment; (ii) a unique dataset to spur progress; and (iii) demonstrations that prompting and multi-agent schemes significantly enhance planning performance in context-sensitive planning tasks. Positioning this within a situated agent and automated planning research, we highlight inherent reliability challenges--efficiently mapping world states to actions without environmental guidance remains open despite simulated domain advances. Although out-of-scope, limitations around validation methodology and data availability indicate exciting directions, including fine-tuning on expanded planning corpora and optimizations for triggering fast latent planning. By conclusively demonstrating current methods' promise and limitations via rigorous comparison, we catalyze investigating reliable goal-directed reasoning for situated agents.
翻訳日:2024-02-07 03:32:11 公開日:2024-02-04
# adanas: 自己教師付きニューラルネットワークによる適応的後処理による降雨予測

AdaNAS: Adaptively Post-processing with Self-supervised Neural Architecture Search for Ensemble Rainfall Forecasts ( http://arxiv.org/abs/2312.16046v2 )

ライセンス: Link先を確認
Yingpeng Wen, Weijiang Yu, Fudan Zheng, Dan Huang, Nong Xiao(参考訳) 数値気象予報(NWP)を用いた降雨予測の過去の処理後調査では,統計に基づく側面が中心であったが,学習に基づく側面はめったに研究されていない。 手作業で設計したいくつかのモデルは精度を上げるために提案されているが、ネットワークをカスタマイズし、繰り返し試して検証する必要がある。 そこで本研究では,AdaNASと呼ばれる手作業を伴わない自己教師型ニューラルネットワーク探索手法を提案し,降雨予報を行い,高精度に降雨予測を行う。 さらに,降雨エリアの予測を大幅に改善する雨量対応検索空間を設計する。 さらに,訓練中の騒音データの影響をなくすための降雨レベル正規化関数を提案する。 TIGGEと命名された大規模な降水ベンチマーク上で, \emph{None}, \emph{Light}, \emph{Moderate}, \emph{Heavy}, \emph{Violent} の検証実験が行われた。 最後に,提案したAdaNASモデルの平均平均平均二乗誤差(MAE)と平均根平均二乗誤差(RMSE)はそれぞれ0.98mm/日である。 さらに、提案したAdaNASモデルは、他のニューラルネットワーク探索手法や過去の研究と比較される。 比較の結果,降水量予測と強度分類の観点から,提案モデルの性能と優越性が明らかとなった。 具体的には, AdaNAS モデルでは, MAE と RMSE を 80.5\% と 80.3\% に改善した。

Previous post-processing studies on rainfall forecasts using numerical weather prediction (NWP) mainly focus on statistics-based aspects, while learning-based aspects are rarely investigated. Although some manually-designed models are proposed to raise accuracy, they are customized networks, which need to be repeatedly tried and verified, at a huge cost in time and labor. Therefore, a self-supervised neural architecture search (NAS) method without significant manual efforts called AdaNAS is proposed in this study to perform rainfall forecast post-processing and predict rainfall with high accuracy. In addition, we design a rainfall-aware search space to significantly improve forecasts for high-rainfall areas. Furthermore, we propose a rainfall-level regularization function to eliminate the effect of noise data during the training. Validation experiments have been performed under the cases of \emph{None}, \emph{Light}, \emph{Moderate}, \emph{Heavy} and \emph{Violent} on a large-scale precipitation benchmark named TIGGE. Finally, the average mean-absolute error (MAE) and average root-mean-square error (RMSE) of the proposed AdaNAS model are 0.98 and 2.04 mm/day, respectively. Additionally, the proposed AdaNAS model is compared with other neural architecture search methods and previous studies. Compared results reveal the satisfactory performance and superiority of the proposed AdaNAS model in terms of precipitation amount prediction and intensity classification. Concretely, the proposed AdaNAS model outperformed previous best-performing manual methods with MAE and RMSE improving by 80.5\% and 80.3\%, respectively.
翻訳日:2024-02-07 03:31:55 公開日:2024-02-04
# BiSwift: Edge上のマルチストリームビデオ分析のためのバンド幅オーケストレータ

BiSwift: Bandwidth Orchestrator for Multi-Stream Video Analytics on Edge ( http://arxiv.org/abs/2312.15740v2 )

ライセンス: Link先を確認
Lin Sun, Weijun Wang, Tingting Yuan, Liang Mi, Haipeng Dai, Yunxin Liu, Xiaoming Fu(参考訳) 監視と道路交通のための高精細(HD)カメラは、リアルタイム分析のための集中的な計算資源を必要としている。 近年,フロントエンドデバイスからバックエンドエッジサーバへのフレームのオフロードは,大きな可能性を秘めている。 マルチストリーム競合環境では、高い推論精度と高いスループットを確保するために、効率的な帯域管理と適切なスケジューリングが不可欠である。 この目的を達成するために、マルチレベルパイプラインと統合された適応型ハイブリッドコーデックによる同時リアルタイムビデオ分析をスケールするバイレベルフレームワークBiSwiftと、複数のビデオストリームのためのグローバル帯域幅コントローラを提案する。 低レベルのフロントエンド-バックエンド協調機構(adaptive hybrid codecと呼ばれる)は、精度をローカルに最適化し、ひとつのストリームに対するエンドツーエンドのビデオ分析を高速化する。 上位レベルのスケジューラは、グローバル帯域幅コントローラを介して複数のストリーム間の公平性を正確にすることを目的としている。 BiSwiftの評価は、NVIDIA RTX3070 (8G) GPUのみを備えたエッジデバイスで、9ストリームでリアルタイムのオブジェクト検出が可能であることを示している。 BiSwiftは10%$\sim$21%の精度を改善し、最先端のビデオ分析パイプラインと比較して1.2$\sim$9$\times$スループットを提供する。

High-definition (HD) cameras for surveillance and road traffic have experienced tremendous growth, demanding intensive computation resources for real-time analytics. Recently, offloading frames from the front-end device to the back-end edge server has shown great promise. In multi-stream competitive environments, efficient bandwidth management and proper scheduling are crucial to ensure both high inference accuracy and high throughput. To achieve this goal, we propose BiSwift, a bi-level framework that scales the concurrent real-time video analytics by a novel adaptive hybrid codec integrated with multi-level pipelines, and a global bandwidth controller for multiple video streams. The lower-level front-back-end collaborative mechanism (called adaptive hybrid codec) locally optimizes the accuracy and accelerates end-to-end video analytics for a single stream. The upper-level scheduler aims to accuracy fairness among multiple streams via the global bandwidth controller. The evaluation of BiSwift shows that BiSwift is able to real-time object detection on 9 streams with an edge device only equipped with an NVIDIA RTX3070 (8G) GPU. BiSwift improves 10%$\sim$21% accuracy and presents 1.2$\sim$9$\times$ throughput compared with the state-of-the-art video analytics pipelines.
翻訳日:2024-02-07 03:30:46 公開日:2024-02-04
# 構造化確率符号化

Structured Probabilistic Coding ( http://arxiv.org/abs/2312.13933v3 )

ライセンス: Link先を確認
Dou Hu, Lingwei Wei, Yaxin Liu, Wei Zhou, Songlin Hu(参考訳) 本稿では,対象タスクに関連する入力からコンパクトで情報的な表現を学ぶための新しい教師あり表現学習フレームワークであるstructured probabilistic coding (spc)を提案する。 SPCはエンコーダのみの確率的符号化技術であり、ターゲット空間から構造化正規化される。 事前訓練された言語モデルの一般化能力を高め、言語理解を向上させることができる。 具体的には,1つのモジュールで情報符号化とタスク予測を同時に行い,入力データから有効な情報をより完全に活用する。 出力空間における変分推論を用いてランダム性と不確実性を低減する。 さらに、確率的表現の学習過程をよりよく制御するために、潜在空間におけるクラス間の均一性を促進するために構造化正規化を提案する。 正規化項により、spcは潜在コードのガウス構造を保存でき、クラスが一様である隠れ空間をよりよくカバーすることができる。 12の自然言語理解タスクに関する実験結果から,SPCが事前学習した言語モデルの性能を効果的に向上することが示された。 大規模な実験により、SPCは出力表現の一般化能力、ラベルノイズに対する堅牢性、クラスタリング品質を向上させることができることが示された。

This paper presents a new supervised representation learning framework, namely structured probabilistic coding (SPC), to learn compact and informative representations from input related to the target task. SPC is an encoder-only probabilistic coding technology with a structured regularization from the target space. It can enhance the generalization ability of pre-trained language models for better language understanding. Specifically, our probabilistic coding simultaneously performs information encoding and task prediction in one module to more fully utilize the effective information from input data. It uses variational inference in the output space to reduce randomness and uncertainty. Besides, to better control the learning process of probabilistic representations, a structured regularization is proposed to promote uniformity across classes in the latent space. With the regularization term, SPC can preserve the Gaussian structure of the latent code and achieve better coverage of the hidden space with class uniformly. Experimental results on 12 natural language understanding tasks demonstrate that our SPC effectively improves the performance of pre-trained language models for classification and regression. Extensive experiments show that SPC can enhance the generalization capability, robustness to label noise, and clustering quality of output representations.
翻訳日:2024-02-07 03:30:07 公開日:2024-02-04
# プロトタイプマスクとコントラストを用いたマルチモーダル・フェデレーション学習

Multimodal Federated Learning with Missing Modality via Prototype Mask and Contrast ( http://arxiv.org/abs/2312.13508v2 )

ライセンス: Link先を確認
Guangyin Bao, Qi Zhang, Duoqian Miao, Zixuan Gong, Liang Hu, Ke Liu, Yang Liu, Chongyang Shi(参考訳) 現実のシナリオでは、マルチモーダルなフェデレート学習は複雑なモダリティの欠如という現実的な課題に直面し、フェデレートされたフレームワークの構築に制約を課し、モデル推論の精度を大幅に低下させる。 既存のモダリティに対処するソリューションでは、一般的にクライアント上でモダリティ固有のエンコーダを開発し、サーバ上でモダリティ融合モジュールを訓練する。 しかし、これらの手法は主に、単調なクライアントまたは完全なマルチモーダルなクライアントを持つ特定のシナリオに制約されており、複雑なモダリティの欠如シナリオを効果的に一般化するのに苦労している。 本稿では,fedavgベースのフェデレーション学習フレームワークにプロトタイプライブラリを導入することで,トレーニングとテストの両方においてモダリティの欠如に起因するグローバルモデルのパフォーマンス低下を緩和する能力をフレームワークに付与する。 提案手法はプロトタイプを欠落したモダリティを表すマスクとして利用し,タスク対応のトレーニング損失とモデル非依存なユニモダリティ推論戦略を定式化する。 また、現地での訓練を強化するために、プロトタイプに基づく近位項が構築されている。 実験結果は,本手法の最先端性能を示す。 ベースラインと比較すると,トレーニング中は3.7\%,トレーニング中は50\%,ユニモダリティ推論では23.8\%,推定精度は3.7\%向上した。 コードはhttps://github.com/BaoGuangYin/PmcmFLで入手できる。

In real-world scenarios, multimodal federated learning often faces the practical challenge of intricate modality missing, which poses constraints on building federated frameworks and significantly degrades model inference accuracy. Existing solutions for addressing missing modalities generally involve developing modality-specific encoders on clients and training modality fusion modules on servers. However, these methods are primarily constrained to specific scenarios with either unimodal clients or complete multimodal clients, struggling to generalize effectively in the intricate modality missing scenarios. In this paper, we introduce a prototype library into the FedAvg-based Federated Learning framework, thereby empowering the framework with the capability to alleviate the global model performance degradation resulting from modality missing during both training and testing. The proposed method utilizes prototypes as masks representing missing modalities to formulate a task-calibrated training loss and a model-agnostic uni-modality inference strategy. In addition, a proximal term based on prototypes is constructed to enhance local training. Experimental results demonstrate the state-of-the-art performance of our approach. Compared to the baselines, our method improved inference accuracy by 3.7\% with 50\% modality missing during training and by 23.8\% during uni-modality inference. Code is available at https://github.com/BaoGuangYin/PmcmFL.
翻訳日:2024-02-07 03:29:48 公開日:2024-02-04
# Zero-1-to-3:3つの診断対象に対する早期学生の1バッチによるドメインレベルのゼロショット認知診断

Zero-1-to-3: Domain-level Zero-shot Cognitive Diagnosis via One Batch of Early-bird Students towards Three Diagnostic Objectives ( http://arxiv.org/abs/2312.13434v3 )

ライセンス: Link先を確認
Weibo Gao, Qi Liu, Hao Wang, Linan Yue, Haoyang Bi, Yin Gu, Fangzhou Yao, Zheng Zhang, Xin Li, Yuanjing He(参考訳) 認知診断は、記録された実践クイズデータを探索することで、学生の認知状態を推定しようとする。 知的教育システムにおけるパーソナライズされた学習指導において重要な役割を果たす。 本稿では,新たに立ち上げられたドメインに学生の実践ログがないために生じる,ドメインレベルのゼロショット認知診断(DZCD)という,重要かつ実用的だがしばしば未発見の課題に焦点を当てる。 最近のクロスドメイン診断モデルはDZCDにとって有望な戦略であることが示されている。 これらの手法は主に、ドメイン間で学生状態を転送する方法に焦点を当てている。 しかし、生徒の表現に不注意な情報を組み込むことで、知識伝達の有効性を制限できる。 そこで本研究では,早期学習者の3つの診断目的に向けて,ドメインレベルのゼロショット認知診断フレームワークZero-1-to-3を提案する。 本手法は, 学生状態をドメイン共有部分とドメイン固有部分に分離する2つの正則化器を用いた診断モデルの事前学習から始める。 共有された認知信号は対象領域に転送することができ、新しい領域の認知的事前を豊かにすることにより、認知状態の伝播目標が保証される。 その後,早期学習者の行動パターンを解析し,ドメイン適応目標を達成し,冷間開始学生のための模擬実践ログを作成する戦略を考案した。 その結果, コールドスタート学生の認知状態は, 仮想データによる診断結果として洗練され, 診断目標と一致した。 最後に、実世界の6つのデータセットに対する広範な実験により、DZCDに対する我々のモデルの有効性と、その課題に対する実践的応用を強調した。 コードはhttps://github.com/bigdata-ustc/Zero-1-to-3で公開されている。

Cognitive diagnosis seeks to estimate the cognitive states of students by exploring their logged practice quiz data. It plays a pivotal role in personalized learning guidance within intelligent education systems. In this paper, we focus on an important, practical, yet often underexplored task: domain-level zero-shot cognitive diagnosis (DZCD), which arises due to the absence of student practice logs in newly launched domains. Recent cross-domain diagnostic models have been demonstrated to be a promising strategy for DZCD. These methods primarily focus on how to transfer student states across domains. However, they might inadvertently incorporate non-transferable information into student representations, thereby limiting the efficacy of knowledge transfer. To tackle this, we propose Zero-1-to-3, a domain-level zero-shot cognitive diagnosis framework via one batch of early-bird students towards three diagnostic objectives. Our approach initiates with pre-training a diagnosis model with dual regularizers, which decouples student states into domain-shared and domain-specific parts. The shared cognitive signals can be transferred to the target domain, enriching the cognitive priors for the new domain, which ensures the cognitive state propagation objective. Subsequently, we devise a strategy to generate simulated practice logs for cold-start students through analyzing the behavioral patterns from early-bird students, fulfilling the domain-adaption goal. Consequently, we refine the cognitive states of cold-start students as diagnostic outcomes via virtual data, aligning with the diagnosis-oriented goal. Finally, extensive experiments on six real-world datasets highlight the efficacy of our model for DZCD and its practical application in question recommendation. The code is publicly available at https://github.com/bigdata-ustc/Zero-1-to-3.
翻訳日:2024-02-07 03:29:21 公開日:2024-02-04
# 無質量スカラー場のスメア双分布に対する閉形式表現:相対論的量子情報に対する非摂動的および漸近的結果

Closed-form expressions for smeared bi-distributions of a massless scalar field: non-perturbative and asymptotic results in relativistic quantum information ( http://arxiv.org/abs/2312.13343v2 )

ライセンス: Link先を確認
T. Rick Perche(参考訳) 時空ガウステスト関数を用いて、ミンコフスキー時空の真空における無質量スカラー場のスミア・ワイトマン関数、ファインマン・プロパゲーター、グリーン関数、因果プロパゲーター、対称プロパゲーターの閉形式式を求める。 本研究では,ガウス時空領域の量子場と相互作用する局所量子系に適用し,異なる相対論的量子情報プロトコルについて検討する。 エンタングルメント収穫のプロトコルでは、ガウス時空領域で相互作用し、プロトコルの漸近的な結果を得るプローブによって得られるエンタングルメントの閉形式式が見つかる。 また、2つのギャップレス検出器のケースを再検討し、その相互作用領域間に双方向信号が存在する場合、検出器が絡み合う可能性があることを示し、検出器の最終状態に対する閉形式表現を提供する。

Using spacetime Gaussian test functions, we find closed-form expressions for the smeared Wightman function, Feynman propagator, retarded and advanced Green's functions, causal propagator and symmetric propagator of a massless scalar field in the vacuum of Minkowski spacetime. We apply our results to localized quantum systems which interact with a quantum field in Gaussian spacetime regions and study different relativistic quantum information protocols. In the protocol of entanglement harvesting, we find a closed-form expression for the entanglement that can be acquired by probes which interact in Gaussian spacetime regions and obtain asymptotic results for the protocol. We also revisit the case of two gapless detectors and show that the detectors can become entangled if there is two-way signalling between their interaction regions, providing closed-form expressions for the detectors' final state.
翻訳日:2024-02-07 03:28:51 公開日:2024-02-04
# beyond prototypes: より良い表現学習のためのセマンティックアンカー正規化

Beyond Prototypes: Semantic Anchor Regularization for Better Representation Learning ( http://arxiv.org/abs/2312.11872v2 )

ライセンス: Link先を確認
Yanqi Ge, Qiang Nie, Ye Huang, Yong Liu, Chengjie Wang, Feng Zheng, Wen Li, Lixin Duan(参考訳) 表現学習の究極の目標の1つは、クラス内のコンパクト性とクラス間の親和性を達成することである。 期待最大化パラダイムに従う多くの優れたメトリックベースおよびプロトタイプベース手法が提案されている。 しかし、彼らは必然的に学習プロセス、特にロングテール分散トレーニングデータにバイアスを導入する。 本稿では,このクラスプロトタイプが必ずしもトレーニング機能から派生したものではないことを明らかにし,事前定義されたクラスアンカーを特徴センタとして使用して,一方向的特徴学習を導く新しい視点を提案する。 しかし、事前定義されたアンカーはピクセルの特徴から大きな意味的距離を持つため、直接適用されない。 この問題に対処し,特徴学習から独立して機能セントロイドを生成するために,単純なセマンティックアンカー正規化(SAR)を提案する。 sarは、クラス化アウェアの補助的エントロピー損失を用いて、乱れ学習によるトレーニング中に意味空間における意味的アンカーのクラス間分離性を保証する。 これらのセマンティックアンカーに学習した特徴を引き付けることで、いくつかの利点が得られる。 1)クラス内コンパクト性と自然クラス間分離性 2 特徴学習から引き起こされたバイアス又は誤差を回避でき、かつ 3)長期化問題に対する堅牢性。 提案したSARは既存のモデルではプラグアンドプレイで使用することができる。 大規模な実験により、SARは以前の洗練されたプロトタイプベースの手法よりも優れた性能を示した。 実装はhttps://github.com/geyanqi/SARで公開されている。

One of the ultimate goals of representation learning is to achieve compactness within a class and well-separability between classes. Many outstanding metric-based and prototype-based methods following the Expectation-Maximization paradigm, have been proposed for this objective. However, they inevitably introduce biases into the learning process, particularly with long-tail distributed training data. In this paper, we reveal that the class prototype is not necessarily to be derived from training features and propose a novel perspective to use pre-defined class anchors serving as feature centroid to unidirectionally guide feature learning. However, the pre-defined anchors may have a large semantic distance from the pixel features, which prevents them from being directly applied. To address this issue and generate feature centroid independent from feature learning, a simple yet effective Semantic Anchor Regularization (SAR) is proposed. SAR ensures the interclass separability of semantic anchors in the semantic space by employing a classifier-aware auxiliary cross-entropy loss during training via disentanglement learning. By pulling the learned features to these semantic anchors, several advantages can be attained: 1) the intra-class compactness and naturally inter-class separability, 2) induced bias or errors from feature learning can be avoided, and 3) robustness to the long-tailed problem. The proposed SAR can be used in a plug-and-play manner in the existing models. Extensive experiments demonstrate that the SAR performs better than previous sophisticated prototype-based methods. The implementation is available at https://github.com/geyanqi/SAR.
翻訳日:2024-02-07 03:28:17 公開日:2024-02-04
# 暗号通貨価値の高度予測のための適応型ネットワークベースアプローチ

An adaptive network-based approach for advanced forecasting of cryptocurrency values ( http://arxiv.org/abs/2401.05441v2 )

ライセンス: Link先を確認
Ali Mehrban, Pegah Ahadian(参考訳) 本稿では,Adaptive Network Based Fuzzy Inference System (ANFIS)を用いて,今後7日間の暗号価格を予測するアーキテクチャについて述べる。 ビットコイン(btc)、ethereum(eth)、bitcoin支配(btc.d)、ethereum支配(eth.d)である。 データを教えるために使われる手法は、グリッド分割、減算クラスタリング、およびデータクラスタリングに使用されるファジィC平均クラスタリング(FCM)アルゴリズムと同様に、ハイブリッドおよびバックプロパゲーションアルゴリズムである。 本論文で設計したアーキテクチャ性能は、統計的評価基準の観点から異なる入力モデルとニューラルネットワークモデルと比較されている。 最後に,提案手法は,デジタル通貨の価格を短時間で予測できる。

This paper describes an architecture for predicting the price of cryptocurrencies for the next seven days using the Adaptive Network Based Fuzzy Inference System (ANFIS). Historical data of cryptocurrencies and indexes that are considered are Bitcoin (BTC), Ethereum (ETH), Bitcoin Dominance (BTC.D), and Ethereum Dominance (ETH.D) in a daily timeframe. The methods used to teach the data are hybrid and backpropagation algorithms, as well as grid partition, subtractive clustering, and Fuzzy C-means clustering (FCM) algorithms, which are used in data clustering. The architectural performance designed in this paper has been compared with different inputs and neural network models in terms of statistical evaluation criteria. Finally, the proposed method can predict the price of digital currencies in a short time.
翻訳日:2024-02-07 03:18:39 公開日:2024-02-04
# マルチユーザチャットアシスタント(muca:multi-user chat assistant) - llmを使用したグループ会話のフレームワーク

Multi-User Chat Assistant (MUCA): a Framework Using LLMs to Facilitate Group Conversations ( http://arxiv.org/abs/2401.04883v2 )

ライセンス: Link先を確認
Manqing Mao, Paishun Ting, Yijian Xiang, Mingyang Xu, Julia Chen, Jianzhe Lin(参考訳) 最近の大規模言語モデル(llm)の進歩は、チャットボット開発に新たな道を開いたが、既存の研究のほとんどは、主にユーザー入力後に答える「何」を決めることに焦点を当てたシングルユーザーチャットボットに集中している。 本稿では,マルチユーザのチャットボットが,より複雑な3w設計次元 – 応答する“what”,応答する“when”,応答する“who” – を持つことを確認した。 さらに,グループディスカッション用に特別に設計されたチャットボットのためのllmベースのフレームワークであるマルチユーザチャットアシスタント(muca)を提案する。 MUCAは、サブトピックジェネレータ、ダイアログアナライザー、Utterance Strategies Arbitratorの3つの主要なモジュールで構成されている。 これらのモジュールは、適切な応答内容、タイミング、および適切な受信者を決定する。 さらに,MUCAの最適化処理を容易にするために,実際のユーザ動作を模倣できるLLMベースのマルチユーザシミュレータ(MUS)を提案する。 これにより、チャットボットとシミュレートされたユーザ間の会話の高速なシミュレーションが可能になり、チャットボットフレームワークの初期の開発をより効率的にする。 MUCAは、ケーススタディやユーザスタディによる実験結果から、少数の中小規模の参加者との目標志向の会話において、適切なチャイムインタイミング、関連コンテンツ、ポジティブなユーザエンゲージメントを含む効果を示す。

Recent advancements in large language models (LLMs) have provided a new avenue for chatbot development, while most existing research has primarily centered on single-user chatbots that focus on deciding "What" to answer after user inputs. In this paper, we identified that multi-user chatbots have more complex 3W design dimensions -- "What" to say, "When" to respond, and "Who" to answer. Additionally, we proposed Multi-User Chat Assistant (MUCA), which is an LLM-based framework for chatbots specifically designed for group discussions. MUCA consists of three main modules: Sub-topic Generator, Dialog Analyzer, and Utterance Strategies Arbitrator. These modules jointly determine suitable response contents, timings, and the appropriate recipients. To make the optimizing process for MUCA easier, we further propose an LLM-based Multi-User Simulator (MUS) that can mimic real user behavior. This enables faster simulation of a conversation between the chatbot and simulated users, making the early development of the chatbot framework much more efficient. MUCA demonstrates effectiveness, including appropriate chime-in timing, relevant content, and positive user engagement, in goal-oriented conversations with a small to medium number of participants, as evidenced by case studies and experimental results from user studies.
翻訳日:2024-02-07 03:17:58 公開日:2024-02-04
# モデル編集は大規模言語モデルの一般的な能力を傷つける

Model Editing Can Hurt General Abilities of Large Language Models ( http://arxiv.org/abs/2401.04700v2 )

ライセンス: Link先を確認
Jia-Chen Gu, Hao-Xiang Xu, Jun-Yu Ma, Pan Lu, Zhen-Hua Ling, Kai-Wei Chang, Nanyun Peng(参考訳) 重要な課題の1つは、嘘や時代遅れの知識によって大きな言語モデル(LLM)の出力に幻覚が存在することである。 更新情報によるLLMの再学習は資源集約的であるため,モデル編集への関心が高まっている。 しかし、現在のモデル編集手法は様々なシナリオにおける編集性能の改善に有効であるが、LLMの一般的な能力に対する潜在的な副作用を見落としていることが多い。 本稿では、モデル編集が本質的にモデルの事実性を改善するという懸念を提起するが、これらの一般的な能力を著しく劣化させるコストがかかる可能性がある。 システム的には,8つのタスクカテゴリにまたがる3つのLSMに対して,4つの一般的な編集方法を評価することで副作用を分析する。 広範な実証研究により、現在のモデル編集手法とllmをうまく組み合わせることで事実性が向上し、推論や質問応答などの一般的な能力を維持することが困難であることが判明した。 興味深いことに、LLaMA-1 (7B) の編集に特定のメソッドを使用することで、選択されたすべてのタスクにおいて、1つの編集だけで大幅にパフォーマンスが低下した。 そこで,本研究では,LLM事前学習時に得られる一般能力の喪失を最小化し,モデル編集時に最終的に保存する研究の取り組みをさらに進める。

One critical challenge that has emerged is the presence of hallucinations in the output of large language models (LLMs) due to false or outdated knowledge. Since retraining LLMs with updated information is resource-intensive, there has been a growing interest in model editing. However, current model editing methods, while effective in improving editing performance in various scenarios, often overlook potential side effects on the general abilities of LLMs. In this paper, we raise concerns that model editing inherently improves the factuality of the model, but may come at the cost of a significant degradation of these general abilities. Systematically, we analyze side effects by evaluating four popular editing methods on three LLMs across eight representative task categories. Extensive empirical research reveals that current model editing methods are difficult to couple well with LLMs to simultaneously improve the factuality and maintain the general abilities such as reasoning, question answering, etc. Strikingly, the use of a specific method to edit LLaMA-1 (7B) resulted in a drastic performance degradation to nearly 0 on all selected tasks with just a single edit. Therefore, we advocate for more research efforts to minimize the loss of general abilities acquired during LLM pre-training and to ultimately preserve them during model editing.
翻訳日:2024-02-07 03:17:32 公開日:2024-02-04
# 言語モデルは、少なくとも部分的には数字を理解する

Language Models Understand Numbers, at Least Partially ( http://arxiv.org/abs/2401.03735v2 )

ライセンス: Link先を確認
Fangwei Zhu, Damai Dai, Zhifang Sui(参考訳) 大規模言語モデル(LLM)は様々なタスクにおいて顕著な能力を示してきたが、その不透明な内部メカニズムは数学的な問題での使用を妨げる。 本稿では,数学の基本要素である数を言語モデルが理解するかどうかという基本的な問題について検討する。 本研究では,LLMが隠れ状態の数値を圧縮して数学的問題を解決できるという仮定に基づいて,付加問題を含む合成データセットを構築し,線形プローブを用いて隠れ状態から入力番号を読み取る。 LLMにおける圧縮数の存在を支持する実験結果が得られた。 しかし,原数を正確に再構成することは困難であり,圧縮過程が損なわれない可能性がある。 さらなる実験により、LLMはエンコードされた数を使って算術演算を行え、計算能力はモデルのサイズに匹敵することを示した。 我々の予備的な研究は、LLMが数の部分的理解を示し、将来のモデルの数学的能力に関する知見を提供することを示唆している。

Large language models (LLMs) have exhibited impressive competence in various tasks, but their opaque internal mechanisms hinder their use in mathematical problems. In this paper, we study a fundamental question: whether language models understand numbers, a basic element in math. Based on an assumption that LLMs should be capable of compressing numbers in their hidden states to solve mathematical problems, we construct a synthetic dataset comprising addition problems and utilize linear probes to read out input numbers from the hidden states. Experimental results support the existence of compressed numbers in LLMs. However, it is difficult to precisely reconstruct the original numbers, indicating that the compression process may not be lossless. Further experiments show that LLMs can utilize encoded numbers to perform arithmetic computations, and the computational ability scales up with the model size. Our preliminary research suggests that LLMs exhibit a partial understanding of numbers, offering insights for future investigations about the models' mathematical capability.
翻訳日:2024-02-07 03:17:01 公開日:2024-02-04
# ニューラルコントロール:neural odeによるシステム同定と制御学習の同時実行

Neural Control: Concurrent System Identification and Control Learning with Neural ODE ( http://arxiv.org/abs/2401.01836v3 )

ライセンス: Link先を確認
Cheng Chi(参考訳) 連続時間力学系の制御は、一般に2段階のプロセスである: まず、微分方程式で系の力学を識別またはモデル化し、次に、最適制御関数と最適状態軌道を達成するために制御目標を最小化する。 しかしながら、動的モデリングの不正確さは、結果として生じる制御関数の準最適性をもたらす。 そこで本研究では,ニューラルネットワークを用いた動的同定と最適制御学習を組み合わせた未知の力学系の制御手法であるニューラルコントロール(NC)を提案する。 結合型ニューラルODE構造における2つのニューラルネットワーク間の興味深い相互作用を通じて、我々のモデルは、ターゲット状態へ導く最適な制御だけでなく、システムのダイナミクスも同時に学習する。 本実験は未知力学系の最適制御学習におけるモデルの有効性を示す。

Controlling continuous-time dynamical systems is generally a two step process: first, identify or model the system dynamics with differential equations, then, minimize the control objectives to achieve optimal control function and optimal state trajectories. However, any inaccuracy in dynamics modeling will lead to sub-optimality in the resulting control function. To address this, we propose a neural ODE based method for controlling unknown dynamical systems, denoted as Neural Control (NC), which combines dynamics identification and optimal control learning using a coupled neural ODE. Through an intriguing interplay between the two neural networks in coupled neural ODE structure, our model concurrently learns system dynamics as well as optimal controls that guides towards target states. Our experiments demonstrate the effectiveness of our model for learning optimal control of unknown dynamical systems.
翻訳日:2024-02-07 03:16:22 公開日:2024-02-04
# LoMA: ロスレス圧縮メモリ注意

LoMA: Lossless Compressed Memory Attention ( http://arxiv.org/abs/2401.09486v2 )

ライセンス: Link先を確認
Yumeng Wang, Zhenyang Xiao(参考訳) 大きな言語モデル(LLM)は、長いコンテキストを扱う場合のGPUメモリと計算リソースの要求が高いため、制限に直面します。 トランスフォーマーモデルのキー値キャッシュ(kv)をスパーシフィケーションすることは、リソースの使用を緩和する典型的な戦略であるが、情報を失うことは避けられない。 本稿では,kvキャッシュのロスレス圧縮を可能にする新しい手法であるロスレス圧縮メモリアテンション(loma)を導入する。 LoMAには、圧縮コンテキストに最適化された自己回帰生成アルゴリズムとともに、特別なトレーニングや微調整の事前処理が組み込まれている。 提案手法は,各$tc$生成トークンの圧縮比$c$と目標圧縮長$t$の後にKVキャッシュを圧縮し,補助モデルに依存しない単一推論パス内で発生する。 我々は,特定の入力,アテンションマスク,位置識別子を含む効率的なトレーニングスキームを考案し,その圧縮能力を再現した。 実験により、ロマは損失のないKVキャッシュ圧縮を達成し、計算消費とメモリ使用量を大幅に削減した。

Large Language Models (LLMs) face limitations due to the high demand on GPU memory and computational resources when handling long contexts. While sparsify the Key-Value (KV) cache of transformer model is a typical strategy to alleviate resource usage, it unavoidably results in the loss of information. We introduce Lossless Compressed Memory Attention (LoMA), a novel approach that enables lossless compression of the KV cache, thereby reducing the memory and computational demands during autoregressive generation. LoMA incorporates a specialized training or fine-tuning precedure alongside an autoregressive generation algorithm optimized for the compressed context. Our method compresses the KV cache after every $tc$ generated tokens with a compression ratio of $c$ and a target compressed length $t$, and this process occurs within a single inference pass without dependency on auxiliary models. We engineered an efficient training scheme involving specific inputs, attention masks, and position identifiers to instill this compression capability. Experimental validation has demonstrated that LoMA significantly reducing computational consumption and memory usage through achieving lossless KV cache compression.
翻訳日:2024-02-07 03:06:15 公開日:2024-02-04
# banglanet:畳み込みニューラルネットワークを用いたバングラ手書き文字認識

BanglaNet: Bangla Handwritten Character Recognition using Ensembling of Convolutional Neural Network ( http://arxiv.org/abs/2401.08035v2 )

ライセンス: Link先を確認
Chandrika Saha, Md Mostafijur Rahman(参考訳) 手書き文字認識は、その豊富な応用のために重要な課題である。 バングラ手書き文字の認識課題は、バングラ文字のカーソル的性質と複数の書き方を持つ複合文字の存在から特に困難である。 本稿では,いくつかの畳み込みニューラルネットワーク(CNN)のアンサンブルに基づく分類モデル,すなわちBanglaNetを提案し,Banglaの基本文字,複合文字,数値,修飾子を分類する。 inception, resnet, densenetといった最先端cnnモデルのアイデアに基づいた3つの異なるモデルが、拡張入力と非指定入力の両方でトレーニングされている。 最後に、これらのモデルはすべて、完成モデルを得るために平均化またはアンサンブル化されます。 cmaterdb、banglalekha-isolated、ekushの3つのベンチマークバングラ手書き文字データセットに関する厳密な実験は、最近のcnnベースの研究と比べてかなりの認識精度を示している。 上位1位は98.40%、97.65%、97.32%、上位3位は99.79%、99.74%、CMATERdb、BanglaLekha-Isolated、Ekushの99.56%である。

Handwritten character recognition is a crucial task because of its abundant applications. The recognition task of Bangla handwritten characters is especially challenging because of the cursive nature of Bangla characters and the presence of compound characters with more than one way of writing. In this paper, a classification model based on the ensembling of several Convolutional Neural Networks (CNN), namely, BanglaNet is proposed to classify Bangla basic characters, compound characters, numerals, and modifiers. Three different models based on the idea of state-of-the-art CNN models like Inception, ResNet, and DenseNet have been trained with both augmented and non-augmented inputs. Finally, all these models are averaged or ensembled to get the finishing model. Rigorous experimentation on three benchmark Bangla handwritten characters datasets, namely, CMATERdb, BanglaLekha-Isolated, and Ekush has exhibited significant recognition accuracies compared to some recent CNN-based research. The top-1 recognition accuracies obtained are 98.40%, 97.65%, and 97.32%, and the top-3 accuracies are 99.79%, 99.74%, and 99.56% for CMATERdb, BanglaLekha-Isolated, and Ekush datasets respectively.
翻訳日:2024-02-07 03:04:42 公開日:2024-02-04
# ミストラルに基づく局所言語理解のための大規模マレーシア語モデル

Large Malaysian Language Model Based on Mistral for Enhanced Local Language Understanding ( http://arxiv.org/abs/2401.13565v3 )

ライセンス: Link先を確認
Husein Zolkepli, Aisyah Razak, Kamarul Adha, Ariff Nazhan(参考訳) 本稿では,11億トークンに相当する32.6GBのデータセットを用いて,大規模言語モデルであるMistral 7Bの事前訓練の大幅な進歩を示す。 我々は,コンテキスト長の拡張,コンテキスト長4096および32768トークンのモデルのリリース,および特別な16384コンテキスト長命令調整モデルによるさらなる改良性能について検討し,マレーシアミストラルと呼ぶ。 本実験は,Mistral 7B言語理解能力に対する継続事前学習の有効性と拡張文脈長の影響を実証した。 さらに、16384のコンテキスト長命令を特別に調整したモデルをリリースし、ニュアンス言語を複雑に捉えられる可能性を示した。 さらに本研究では,ChatGPT3.5やClaude 2などの著名な言語モデルに対するマレーシアのMistralのベンチマークに寄与する。 マレーシアのミストラルがタタバハサ(マレー文法)検定において,特に指示を微調整した場合に優れた性能を示した。 すべてのモデルがhttps://huggingface.co/collections/mesolitica/malaysian-mistral-7b-6528f2ec825f4bba46c1700cでリリース

In this paper, we present significant advancements in the pretraining of Mistral 7B, a large-scale language model, using a dataset of 32.6 GB, equivalent to 1.1 billion tokens. We explore the impact of extending the context length, releasing models with context lengths of 4096 and 32768 tokens, and further refining performance with a specialized 16384 context length instruction-tuned model, we called it Malaysian Mistral. Our experiments demonstrate the efficacy of continue pretraining and the influence of extended context lengths on Mistral 7B's language understanding capabilities. Additionally, we release a model specifically tuned with a 16384 context length instruction, showcasing its potential for capturing nuanced language intricacies. Furthermore, our research contributes to the benchmarking of Malaysian Mistral against prominent language models, including ChatGPT3.5 and Claude 2. We present compelling results indicating Malaysian Mistral's superior performance on Tatabahasa (Malay grammar) test set, particularly when fine-tuned with instructions. All models released at https://huggingface.co/collections/mesolitica/malaysian-mistral-7b-6528f2ec825f4bba46c1700c
翻訳日:2024-02-07 02:55:39 公開日:2024-02-04
# AIエージェントへの可視性

Visibility into AI Agents ( http://arxiv.org/abs/2401.13138v3 )

ライセンス: Link先を確認
Alan Chan, Carson Ezell, Max Kaufmann, Kevin Wei, Lewis Hammond, Herbie Bradley, Emma Bluemke, Nitarshan Rajkumar, David Krueger, Noam Kolt, Lennart Heim, Markus Anderljung(参考訳) aiエージェントへの商業的、科学的、政府的、個人的活動の派遣が増加すると、既存の社会的なリスクを悪化させ、新たなリスクをもたらす可能性がある。 これらのリスクの理解と緩和には、既存のガバナンス構造を批判的に評価し、必要に応じてこれらの構造を改訂し、適応させ、主要なステークホルダーの説明責任を確保することが含まれる。 特定のAIエージェントが使われている場所、理由、方法、そして誰が使用されるのかに関する情報は、これらの目的に不可欠である。 本稿では,エージェント識別子,リアルタイム監視,アクティビティログという,AIエージェントの視認性を高めるための3つの尺度を評価する。 それぞれ、侵入性と情報性に異なる潜在的な実装について概説する。 ハードウェアやソフトウェアサービスプロバイダを含むサプライチェーンのさまざまなアクターを考慮し、分散デプロイメントのコンテキストを通じて、この措置をどのように適用するかを分析する。 最後に,当社のプライバシー対策と電力集中の意義について論じる。 措置の理解と負の影響軽減に関するさらなる取り組みは、AIエージェントのガバナンスのための基盤を構築するのに役立つ。

Increased delegation of commercial, scientific, governmental, and personal activities to AI agents -- systems capable of pursuing complex goals with limited supervision -- may exacerbate existing societal risks and introduce new risks. Understanding and mitigating these risks involves critically evaluating existing governance structures, revising and adapting these structures where needed, and ensuring accountability of key stakeholders. Information about where, why, how, and by whom certain AI agents are used, which we refer to as visibility, is critical to these objectives. In this paper, we assess three categories of measures to increase visibility into AI agents: agent identifiers, real-time monitoring, and activity logging. For each, we outline potential implementations that vary in intrusiveness and informativeness. We analyze how the measures apply across a spectrum of centralized through decentralized deployment contexts, accounting for various actors in the supply chain including hardware and software service providers. Finally, we discuss the implications of our measures for privacy and concentration of power. Further work into understanding the measures and mitigating their negative impacts can help to build a foundation for the governance of AI agents.
翻訳日:2024-02-07 02:54:40 公開日:2024-02-04
# 自己承認型技術的負債はセキュリティに何をもたらすのか? 混合手法の研究

What Can Self-Admitted Technical Debt Tell Us About Security? A Mixed-Methods Study ( http://arxiv.org/abs/2401.12768v2 )

ライセンス: Link先を確認
Nicol\'as E. D\'iaz Ferreyra, Mojtaba Shahin, Mansooreh Zahedi, Sodiq Quadri and Ricardo Scandariato(参考訳) SATD(Self-Admitted Technical Debt)は、ソフトウェアアーチファクト(例えば、コードコメントやコミットメッセージ)で報告される様々なサブ最適化設計と実装の選択を含む。 このような報告は、過去数十年間、ソフトウェアのメンテナンスと進化の研究の中心だった。 しかし、それらは潜在的に悪用可能な脆弱性やセキュリティ上の欠陥に関する恐ろしい情報源と見なすこともできる。 この研究は、技術と開発者中心の観点からsatdのセキュリティへの影響を調査します。 オープンソースソフトウェア(oss)のプロジェクトやリポジトリの脆弱性を特徴付けるために、satソース内で公開されているセキュリティポインタが使用できるかどうかを分析する。 一方で、このプラクティスの背景にあるモチベーション、その頻度、潜在的なネガティブな結果について、開発者の視点を掘り下げている。 我々は混合メソドのアプローチに従った。 一 94,455 SATDインスタンスを含む既存のデータセットの分析及び分析 (ii)OSS実践者222名によるオンライン調査。 データセット分析を通じて201のSATDインスタンスを収集し、それらをさまざまなCommon Weakness Enumeration(CWE)識別子にマッピングしました。 全体として、コミットメッセージ、プルリクエスト、コードコメント、イシューセクションで25種類のCWEが発見され、そのうち8つがMITREの最も危険なもののトップ25に含まれている。 この調査では、ソフトウェア実践者がsatの成果物にセキュリティポインタを配置することで、仲間間のセキュリティ文化を促進し、脆弱なコードセクションを見つけるのに役立つことが示されている。 しかし、脆弱性のエクスプロイトを促進する可能性があるため、そのようなプラクティスもリスクがあると考えている。 本研究は,SATDアーティファクトに散在するセキュリティポインタのコンテキスト整合性を維持することが,ゼロデイ攻撃に対する商用およびOSSソリューションの保護に重要であることを示唆している。

Self-Admitted Technical Debt (SATD) encompasses a wide array of sub-optimal design and implementation choices reported in software artefacts (e.g., code comments and commit messages) by developers themselves. Such reports have been central to the study of software maintenance and evolution over the last decades. However, they can also be deemed as dreadful sources of information on potentially exploitable vulnerabilities and security flaws. This work investigates the security implications of SATD from a technical and developer-centred perspective. On the one hand, it analyses whether security pointers disclosed inside SATD sources can be used to characterise vulnerabilities in Open-Source Software (OSS) projects and repositories. On the other hand, it delves into developers' perspectives regarding the motivations behind this practice, its prevalence, and its potential negative consequences. We followed a mixed-methods approach consisting of (i) the analysis of a preexisting dataset containing 94,455 SATD instances and (ii) an online survey with 222 OSS practitioners. We gathered 201 SATD instances through the dataset analysis and mapped them to different Common Weakness Enumeration (CWE) identifiers. Overall, 25 different types of CWEs were spotted across commit messages, pull requests, code comments, and issue sections, from which 8 appear among MITRE's Top-25 most dangerous ones. The survey shows that software practitioners often place security pointers across SATD artefacts to promote a security culture among their peers and help them spot flaky code sections, among other motives. However, they also consider such a practice risky as it may facilitate vulnerability exploits. Our findings suggest that preserving the contextual integrity of security pointers disseminated across SATD artefacts is critical to safeguard both commercial and OSS solutions against zero-day attacks.
翻訳日:2024-02-07 02:54:24 公開日:2024-02-04
# 対話型ビデオオブジェクトセグメンテーションのためのフレーム間の相乗的相互作用の探索

Explore Synergistic Interaction Across Frames for Interactive Video Object Segmentation ( http://arxiv.org/abs/2401.12480v2 )

ライセンス: Link先を確認
Kexin Li, Tao Jiang, Zongxin Yang, Yi Yang, Yueting Zhuang, Jun Xiao(参考訳) インタラクティブビデオオブジェクトセグメンテーション(iVOS)は、リアルタイムの人間とコンピュータのインタラクションを必要とする課題である。 ユーザエクスペリエンスを向上させるためには,ユーザの入力習慣,セグメンテーション品質,実行時間,メモリ消費などを検討することが重要である。 具体的には,複数のフレームを同時に受け入れ,フレーム間の相乗的インタラクション(siaf)を探索できるフレームワークを提案する。 具体的には,異なるオブジェクトを複数フレームで自由にアノテートできるAcross-Frame Interaction Moduleを設計した。 AFIモジュールは複数のインタラクティブフレーム間でスクリブル情報を移行し、マルチフレームマスクを生成する。 さらに,idクエリ機構を用いて複数のオブジェクトをバッチで処理する。 さらに,より効率的な伝播と軽量化のために,従来のマルチラウンド・フュージョン・モジュールの代替として,重要なインタラクション情報を格納する全ラウンドメモリを用いた再伝播戦略を考案した。 私たちのSwinB-SIAFは、DAVIS 2017(89.6%、J&F@60)で最先端のパフォーマンスを実現しています。 さらに、当社のr50-siafは、マルチオブジェクトシナリオにおいて最先端の競合製品よりも3倍以上高速です。

Interactive Video Object Segmentation (iVOS) is a challenging task that requires real-time human-computer interaction. To improve the user experience, it is important to consider the user's input habits, segmentation quality, running time and memory consumption.However, existing methods compromise user experience with single input mode and slow running speed. Specifically, these methods only allow the user to interact with one single frame, which limits the expression of the user's intent.To overcome these limitations and better align with people's usage habits, we propose a framework that can accept multiple frames simultaneously and explore synergistic interaction across frames (SIAF). Concretely, we designed the Across-Frame Interaction Module that enables users to annotate different objects freely on multiple frames. The AFI module will migrate scribble information among multiple interactive frames and generate multi-frame masks. Additionally, we employ the id-queried mechanism to process multiple objects in batches. Furthermore, for a more efficient propagation and lightweight model, we design a truncated re-propagation strategy to replace the previous multi-round fusion module, which employs an across-round memory that stores important interaction information. Our SwinB-SIAF achieves new state-of-the-art performance on DAVIS 2017 (89.6%, J&F@60). Moreover, our R50-SIAF is more than 3 faster than the state-of-the-art competitor under challenging multi-object scenarios.
翻訳日:2024-02-07 02:53:33 公開日:2024-02-04
# アフリカにおけるコンピュータビジョンデータセット,トピック,研究者に関する調査

A Survey on African Computer Vision Datasets, Topics and Researchers ( http://arxiv.org/abs/2401.11617v2 )

ライセンス: Link先を確認
Abdul-Hakeem Omotayo, Ashery Mbilinyi, Lukman Ismaila, Houcemeddine Turki, Mahmoud Abdien, Karim Gamal, Idriss Tondji, Yvan Pimi, Naome A. Etori, Marwa M. Matar, Clifford Broni-Bediako, Abigail Oppong, Mai Gamal, Eman Ehab, Gbetondji Dovonon, Zainab Akinjobi, Daniel Ajisafe, Oluwabukola G. Adegboro, Mennatullah Siam(参考訳) コンピュータビジョンは、オブジェクト検出、セマンティックセグメンテーション、および3D再構成などのタスクを含む。 アフリカのコミュニティと関係があるにもかかわらず、アフリカにおけるこの分野の研究は過去10年間のトップクラスの出版物の0.06%に過ぎない。 この研究は、アフリカから2012年から2022年までの63,000のスコパスによるコンピュータビジョンの出版を徹底的に分析した。 目的は、アフリカのコンピュータビジョンのトピック、データセット、研究者に関する調査を提供することである。 本研究の重要な側面は,これらの論文の要約を自動的に解析する大規模言語モデルを用いて,アフリカンコンピュータビジョンデータセットの識別と分類である。 また、課題やデータホスティングプラットフォームを通じて分散された非公式のアフリカコンピュータビジョンデータセットのコンパイルや、データセットカテゴリの完全な分類を提供する。 また,アフリカ地域ごとに異なるコンピュータビジョンのトピックスに着目し,それぞれ独自のフォーカス領域を示す。 さらに、アフリカ研究者のアフリカ大陸におけるコンピュータビジョン研究の現状と、彼らが緊急の注意が必要であると考えている構造的障壁に関する見解を、広範囲に調査した。 本研究は,アフリカ機関が提供または開始したコンピュータビジョンデータセットとトピックをカタログ化し,分類し,上位クラスのコンピュータビジョン会場における出版の障壁を特定する。 この調査は、アフリカ人の研究者や機関がアフリカ大陸におけるコンピュータビジョン研究を進めることの重要性を強調している。 また、研究トピックがアフリカのコミュニティのニーズに合致する必要性を強調している。

Computer vision encompasses a range of tasks such as object detection, semantic segmentation, and 3D reconstruction. Despite its relevance to African communities, research in this field within Africa represents only 0.06% of top-tier publications over the past decade. This study undertakes a thorough analysis of 63,000 Scopus-indexed computer vision publications from Africa, spanning from 2012 to 2022. The aim is to provide a survey of African computer vision topics, datasets and researchers. A key aspect of our study is the identification and categorization of African Computer Vision datasets using large language models that automatically parse abstracts of these publications. We also provide a compilation of unofficial African Computer Vision datasets distributed through challenges or data hosting platforms, and provide a full taxonomy of dataset categories. Our survey also pinpoints computer vision topics trends specific to different African regions, indicating their unique focus areas. Additionally, we carried out an extensive survey to capture the views of African researchers on the current state of computer vision research in the continent and the structural barriers they believe need urgent attention. In conclusion, this study catalogs and categorizes Computer Vision datasets and topics contributed or initiated by African institutions and identifies barriers to publishing in top-tier Computer Vision venues. This survey underscores the importance of encouraging African researchers and institutions in advancing computer vision research in the continent. It also stresses on the need for research topics to be more aligned with the needs of African communities.
翻訳日:2024-02-07 02:52:24 公開日:2024-02-04
# MobileARLoc: 広汎なマーカーレスモバイルARのためのオンデバイスロバスト絶対的位置決め

MobileARLoc: On-device Robust Absolute Localisation for Pervasive Markerless Mobile AR ( http://arxiv.org/abs/2401.11511v3 )

ライセンス: Link先を確認
Changkun Liu, Yukun Zhao, Tristan Braud(参考訳) 近年、絶対カメラのポーズ推定が大幅に改善され、AR(Pervasive markerless Augmented Reality)への道が開かれた。 しかしながら、正確な絶対ポーズ推定技術は計算量とストレージ量であり、計算オフロードを必要とする。 そのため、ARシステムは、サーバへの要求間の相対的なポーズを追跡するために、視覚慣性オドメトリー(VIO)に依存している。 しかし、VIOは漂流に悩まされ、しばしば絶対的な再配置を必要とする。 本稿では,絶対ポーズレグレッサ(apr)とローカルvioトラッキングシステムを組み合わせた,オンデバイス用大規模マーカーレスモバイルarのための新しいフレームワークであるmobilearlocを紹介する。 absolute pose regressor (aprs)は、精度を低下させるコストで、デバイス上でのポーズ推定を高速に行う。 APRの精度に対処し、VIOドリフトを減らすために、MobileARLocはフィードバックループを生成し、VIOのポーズ推定によってAPR予測が洗練される。 VIOシステムは、VIOドリフトを補うために使用されるAPRの信頼性の高い予測を識別する。 データセットシミュレーションによりMobileARLocを総合的に評価する。 MobileARLocは、基盤となるAPRと比較してエラーを半減し、デバイス上の推論速度を高速(80\,ms)にする。

Recent years have seen significant improvement in absolute camera pose estimation, paving the way for pervasive markerless Augmented Reality (AR). However, accurate absolute pose estimation techniques are computation- and storage-heavy, requiring computation offloading. As such, AR systems rely on visual-inertial odometry (VIO) to track the device's relative pose between requests to the server. However, VIO suffers from drift, requiring frequent absolute repositioning. This paper introduces MobileARLoc, a new framework for on-device large-scale markerless mobile AR that combines an absolute pose regressor (APR) with a local VIO tracking system. Absolute pose regressors (APRs) provide fast on-device pose estimation at the cost of reduced accuracy. To address APR accuracy and reduce VIO drift, MobileARLoc creates a feedback loop where VIO pose estimations refine the APR predictions. The VIO system identifies reliable predictions of APR, which are then used to compensate for the VIO drift. We comprehensively evaluate MobileARLoc through dataset simulations. MobileARLoc halves the error compared to the underlying APR and achieve fast (80\,ms) on-device inference speed.
翻訳日:2024-02-07 02:52:01 公開日:2024-02-04
# M2エンコーダ:大規模事前学習によるバイリンガル画像テキスト理解の改善

M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale Efficient Pretraining ( http://arxiv.org/abs/2401.15896v2 )

ライセンス: Link先を確認
Qingpei Guo, Furong Xu, Hanxiao Zhang, Wang Ren, Ziping Ma, Lin Ju, Jian Wang, Jingdong Chen, Ming Yang(参考訳) CLIPのようなビジョン言語基盤モデルは、人工知能の分野に革命をもたらした。 それでも、中国語と英語の両方でマルチ言語をサポートするVLMモデルは、大規模な事前学習データセットの相対的不足により、遅れている。 この目的に向けて,60億以上の画像テキストペアを持つ包括的バイリンガル(中国語-英語)データセットbm-6bを導入する。 このようなデータセットのスケールに対処するために,画像テキストコントラスト損失計算のための新しいグループ化アグリゲーション手法を提案し,通信オーバーヘッドとgpuメモリ要求を大幅に削減し,トレーニング速度を60%向上させる。 我々は,M^2$-Encoders(M-Squareと発音する)と呼ばれるBM-6Bの細粒度理解能力を向上したバイリンガル画像テキスト基盤モデルを事前訓練し,マルチモーダル検索と分類タスクのための新しいベンチマークを設定した。 特に、我々の最大の$M^2$-Encoder-10Bモデルは、ImageNet-CNで88.5%、ImageNet-CNで80.7%という、ゼロショットの分類設定でトップ1の精度を達成した。 m^2$-encoderシリーズは、これまでで最も包括的なバイリンガルな画像テキスト基礎モデルの1つです。

Vision-language foundation models like CLIP have revolutionized the field of artificial intelligence. Nevertheless, VLM models supporting multi-language, e.g., in both Chinese and English, have lagged due to the relative scarcity of large-scale pretraining datasets. Toward this end, we introduce a comprehensive bilingual (Chinese-English) dataset BM-6B with over 6 billion image-text pairs, aimed at enhancing multimodal foundation models to well understand images in both languages. To handle such a scale of dataset, we propose a novel grouped aggregation approach for image-text contrastive loss computation, which reduces the communication overhead and GPU memory demands significantly, facilitating a 60% increase in training speed. We pretrain a series of bilingual image-text foundation models with an enhanced fine-grained understanding ability on BM-6B, the resulting models, dubbed as $M^2$-Encoders (pronounced "M-Square"), set new benchmarks in both languages for multimodal retrieval and classification tasks. Notably, Our largest $M^2$-Encoder-10B model has achieved top-1 accuracies of 88.5% on ImageNet and 80.7% on ImageNet-CN under a zero-shot classification setting, surpassing previously reported SoTA methods by 2.2% and 21.1%, respectively. The $M^2$-Encoder series represents one of the most comprehensive bilingual image-text foundation models to date, so we are making it available to the research community for further exploration and development.
翻訳日:2024-02-07 02:44:20 公開日:2024-02-04
# Cyto R-CNN と CytoNuke データセット: 明視野組織像における信頼性の高い全細胞分画を目指して

Cyto R-CNN and CytoNuke Dataset: Towards reliable whole-cell segmentation in bright-field histological images ( http://arxiv.org/abs/2401.15638v2 )

ライセンス: Link先を確認
Johannes Raufeisen, Kunpeng Xie, Fabian H\"orst, Till Braunschweig, Jianning Li, Jens Kleesiek, Rainer R\"ohrig, Jan Egger, Bastian Leibe, Frank H\"olzle, Alexander Hermans and Behrus Puladi(参考訳) 背景: 医用画像解析において, 明視野組織スライドにおける細胞分画は重要な課題である。 正確なセグメンテーションにアクセスすることで、細胞形態と臨床観察との関係を調べることができる。 残念なことに、今日知られているほとんどのセグメンテーション法は核に限られており、細胞質をセグメンテーションすることができない。 材料と方法:我々は、明るい視野の画像で(核と細胞質の両方を含む)全細胞を正確に分割できる新しいネットワークアーキテクチャであるcyto r-cnnを提案する。 また,頭頸部扁平上皮癌細胞に対する数千の手動アノテーションからなる新しいデータセットCytoNukeも提示した。 このデータセットを用いて,cyto r-cnnの性能をqupathの組み込みアルゴリズム,stardist,cellposeなど,他の一般的なセルセグメンテーションアルゴリズムと比較した。 セグメンテーション性能を評価するため,AP50,AP75を算出し,全検出細胞に対する17形態および染色関連特性を測定した。 我々はこれらの測定をKolmogorov-Smirnovテストを用いて手動セグメンテーションのゴールド標準と比較した。 結果: Cyto R-CNN は 58.65% の AP50 と 11.56% の AP75 を全セルセグメンテーションで達成した(QuPath $19.46/0.91\%$; StarDist $45.33/2.32\%$; Cellpose $31.85/5.61\%$)。 Cyto R-CNNから派生したセル特徴は、金の標準値(\bar{D} = 0.15$)がQuPath$\bar{D} = 0.22$)、StarDist$\bar{D} = 0.25$)、Cellpose$\bar{D} = 0.23$)を上回っていることを示している。 結論:新たに提案したCyto R-CNNアーキテクチャは,どのモデルよりも信頼性の高いセル計測を提供しながら,全セルセグメンテーションにおいて現在のアルゴリズムより優れている。 これはデジタル病理ワークフローを改善し、診断を改善する可能性がある。 さらに,我々のデータセットは将来,さらなるモデル開発に利用することができる。

Background: Cell segmentation in bright-field histological slides is a crucial topic in medical image analysis. Having access to accurate segmentation allows researchers to examine the relationship between cellular morphology and clinical observations. Unfortunately, most segmentation methods known today are limited to nuclei and cannot segmentate the cytoplasm. Material & Methods: We present a new network architecture Cyto R-CNN that is able to accurately segment whole cells (with both the nucleus and the cytoplasm) in bright-field images. We also present a new dataset CytoNuke, consisting of multiple thousand manual annotations of head and neck squamous cell carcinoma cells. Utilizing this dataset, we compared the performance of Cyto R-CNN to other popular cell segmentation algorithms, including QuPath's built-in algorithm, StarDist and Cellpose. To evaluate segmentation performance, we calculated AP50, AP75 and measured 17 morphological and staining-related features for all detected cells. We compared these measurements to the gold standard of manual segmentation using the Kolmogorov-Smirnov test. Results: Cyto R-CNN achieved an AP50 of 58.65% and an AP75 of 11.56% in whole-cell segmentation, outperforming all other methods (QuPath $19.46/0.91\%$; StarDist $45.33/2.32\%$; Cellpose $31.85/5.61\%$). Cell features derived from Cyto R-CNN showed the best agreement to the gold standard ($\bar{D} = 0.15$) outperforming QuPath ($\bar{D} = 0.22$), StarDist ($\bar{D} = 0.25$) and Cellpose ($\bar{D} = 0.23$). Conclusion: Our newly proposed Cyto R-CNN architecture outperforms current algorithms in whole-cell segmentation while providing more reliable cell measurements than any other model. This could improve digital pathology workflows, potentially leading to improved diagnosis. Moreover, our published dataset can be used to develop further models in the future.
翻訳日:2024-02-07 02:43:51 公開日:2024-02-04
# 可観測性解析によるse(2)におけるマルチロボット相対ポーズ推定:拡張カルマンフィルタとロバストポーズグラフ最適化の比較

Multi-Robot Relative Pose Estimation in SE(2) with Observability Analysis: A Comparison of Extended Kalman Filtering and Robust Pose Graph Optimization ( http://arxiv.org/abs/2401.15313v3 )

ライセンス: Link先を確認
Kihoon Shin, Hyunjae Sim, Seungwon Nam, Yonghee Kim, Jae Hu and Kwang-Ki K. Kim(参考訳) 本研究では,協調的局所化と相対的ポーズ推定の可観測性分析に着目し,複数ロボットの局所化問題に対処する。 協調的なローカライゼーションは、各ロボットの情報をコミュニケーションネットワークとメッセージパッシングを通じて強化する。 対象ロボットからの計測データをエゴロボットに送信できる場合、両ロボットが非ゼロ線形速度を持つ場合、レンジのみまたはベアリングのみの測定により相対ポーズ推定の可観測性を達成できる。 対象ロボットからのオドメトリデータが直接伝達されるのではなく、egoロボットによって推定される場合、相対的なポーズ推定の可観測性を確保するためには、距離測定と軸受測定の両方が必要である。 ROS/Gazeboシミュレーションでは,4つのセンシング・通信構造について検討する。 本研究では,異なるロバストな損失関数を用いた拡張カルマンフィルタ (EKF) とポーズグラフ最適化 (PGO) を推定精度で比較した。 ハードウェア実験では、2つのUWBモジュールを備えたTurtlebot3が実世界のロボット間相対ポーズ推定に使われ、EKFとPGOの両方を適用して性能を比較する。

In this study, we address multi-robot localization issues, with a specific focus on cooperative localization and observability analysis of relative pose estimation. Cooperative localization involves enhancing each robot's information through a communication network and message passing. If odometry data from a target robot can be transmitted to the ego robot, observability of their relative pose estimation can be achieved through range-only or bearing-only measurements, provided both robots have non-zero linear velocities. In cases where odometry data from a target robot are not directly transmitted but estimated by the ego robot, both range and bearing measurements are necessary to ensure observability of relative pose estimation. For ROS/Gazebo simulations, we explore four sensing and communication structures. We compare extended Kalman filtering (EKF) and pose graph optimization (PGO) estimation using different robust loss functions (filtering and smoothing with varying batch sizes of sliding windows) in terms of estimation accuracy. In hardware experiments, two Turtlebot3 equipped with UWB modules are used for real-world inter-robot relative pose estimation, applying both EKF and PGO and comparing their performance.
翻訳日:2024-02-07 02:43:05 公開日:2024-02-04
# ネットワークトラフィック分析と機械学習技術によるランサムウェア脅威軽減

Ransomware threat mitigation through network traffic analysis and machine learning techniques ( http://arxiv.org/abs/2401.15285v2 )

ライセンス: Link先を確認
Ali Mehrban, Shirin Karimi Geransayeh(参考訳) 近年,ランサムウェアを用いたサイバー攻撃が顕著に増加している。 攻撃者はこの悪意あるソフトウェアを使ってネットワークに侵入し、コンピュータシステムを傷つける。 これにより、政府、民間企業、一般ユーザーを含む様々な組織に多大な損害を与えている。 これらの攻撃は、しばしば機密情報の喪失や露出、通常の操作の中断、永続的な脆弱性につながる。 本稿では,コンピュータネットワークにおけるランサムウェアの認識と識別方法に焦点を当てる。 このアプローチは、機械学習アルゴリズムの使用と、ネットワークトラフィックのパターンの分析に依存する。 このトラフィックを収集し、研究し、機械学習モデルを適用することで、ランサムウェアを正確に識別し、検出することができる。 本手法により,機械学習アルゴリズムは,ネットワークトラフィックに基づくランサムウェアを効果的に特定し,高い精度と精度を実現する。

In recent years, there has been a noticeable increase in cyberattacks using ransomware. Attackers use this malicious software to break into networks and harm computer systems. This has caused significant and lasting damage to various organizations, including government, private companies, and regular users. These attacks often lead to the loss or exposure of sensitive information, disruptions in normal operations, and persistent vulnerabilities. This paper focuses on a method for recognizing and identifying ransomware in computer networks. The approach relies on using machine learning algorithms and analyzing the patterns of network traffic. By collecting and studying this traffic, and then applying machine learning models, we can accurately identify and detect ransomware. The results of implementing this method show that machine learning algorithms can effectively pinpoint ransomware based on network traffic, achieving high levels of precision and accuracy.
翻訳日:2024-02-07 02:42:41 公開日:2024-02-04
# EAGLE: 投機的サンプリングは機能不確かさを再考する必要がある

EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty ( http://arxiv.org/abs/2401.15077v2 )

ライセンス: Link先を確認
Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang(参考訳) 自己回帰デコーディングは、LLM(Large Language Models)の推論に時間を要する。 本稿では,投機的サンプリングを再考し,二つの重要な観測結果を得る。 第一に、機能(第2から第2層)レベルでの自己回帰はトークンレベルよりも単純です。 第二に、機能(第2から第2層)レベルの固有の不確実性は、そのパフォーマンスを制約します。 これらの知見に基づき, 単純かつ高効率な投機的サンプリングフレームワークであるEAGLE(Extrapolation Algorithm for Greater Language-model efficiency)を導入する。 1回のステップで進行するトークンシーケンスを組み込むことで、EAGLEは不確実性を効果的に解決し、最小限のオーバーヘッドで正確に第2層から第2層までの特徴予測を可能にする。 我々は、VicunaとLLaMA2-Chatシリーズの全てのモデル、MoEモデルMixtral 8x7Bインストラクション、対話、コード生成、数学的推論、命令追従のタスクを含むEAGLEの包括的な評価を行った。 LLaMA2-Chat 70Bでは、EAGLEは2.7x-3.5xというレイテンシのスピードアップ比を達成した。

Autoregressive decoding makes the inference of Large Language Models (LLMs) time-consuming. In this paper, we reconsider speculative sampling and derive two key observations. Firstly, autoregression at the feature (second-to-top-layer) level is more straightforward than at the token level. Secondly, the inherent uncertainty in feature (second-to-top-layer) level autoregression constrains its performance. Based on these insights, we introduce EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), a simple yet highly efficient speculative sampling framework. By incorporating a token sequence advanced by one time step, EAGLE effectively resolves the uncertainty, enabling precise second-to-top-layer feature prediction with minimal overhead. We conducted comprehensive evaluations of EAGLE, including all models from the Vicuna and LLaMA2-Chat series, the MoE model Mixtral 8x7B Instruct, and tasks in dialogue, code generation, mathematical reasoning, and instruction following. For LLaMA2-Chat 70B, EAGLE achieved a latency speedup ratio of 2.7x-3.5x, doubled throughput, while maintaining the distribution of the generated text.
翻訳日:2024-02-07 02:42:10 公開日:2024-02-04
# ricciフロー誘導オートエンコーダによる学習時間依存ダイナミクス

Ricci flow-guided autoencoders in learning time-dependent dynamics ( http://arxiv.org/abs/2401.14591v2 )

ライセンス: Link先を確認
Andrew Gracyk(参考訳) 本稿では,時間的非線形力学,特に偏微分方程式 (PDE) を学習するための多様体ベースのオートエンコーダ法を提案する。 これはリッチフローを物理的に変形した設定でシミュレートすることで達成でき、多様体量はリッチフローが経験的に達成されるように一致させることができる。 我々の方法論では、多様体は訓練手順の一部として学習されるので、理想的な測地は識別されうるが、進化は静的な方法よりも共役な潜在表現を同時に引き起こす。 本稿では,周期性やランダム性,分布内誤差,外挿シナリオなどの望ましい特徴を包含するPDEを用いた数値実験について述べる。

We present a manifold-based autoencoder method for learning nonlinear dynamics in time, notably partial differential equations (PDEs), in which the manifold latent space evolves according to Ricci flow. This can be accomplished by simulating Ricci flow in a physics-informed setting, and manifold quantities can be matched so that Ricci flow is empirically achieved. With our methodology, the manifold is learned as part of the training procedure, so ideal geometries may be discerned, while the evolution simultaneously induces a more accommodating latent representation over static methods. We present our method on a range of numerical experiments consisting of PDEs that encompass desirable characteristics such as periodicity and randomness, remarking error on in-distribution and extrapolation scenarios.
翻訳日:2024-02-07 02:39:46 公開日:2024-02-04
# 量子力学の確率について

On probabilities in quantum mechanics ( http://arxiv.org/abs/2401.17717v2 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) これは量子力学の解釈に関する議論、一方のandrei khrennikov と反対側の blake stacey と r\"udiger schack の議論に関連する特定の概念を明らかにする試みである。 この議論の中心は、量子確率の概念である。 私はまずQBist学派で確率の概念を取り上げ、量子確率を計算するためのBorn公式についての私の自身の議論を参照する。 その関係において、量子論の基礎と解釈への私のアプローチの結果をスケッチします。 最終的な発言をする前に、QB主義を代替解釈の可能性として論じます。

This is an attempt to clarify certain concepts related to a debate on the interpretation of quantum mechanics, a debate between Andrei Khrennikov on the one side and Blake Stacey and R\"udiger Schack on the other side. Central to this debate is the notion of quantum probabilities. I first take up the probability concept in the QBist school, and then refer to my own arguments for the Born formula for calculating quantum probabilities. In that connection I also sketch some consequences of my approach towards the foundation and interpretation of quantum theory. I discuss my general views on QBism as a possible alternative interpretation before I give some final remarks.
翻訳日:2024-02-07 02:31:29 公開日:2024-02-04
# デダクティブビームサーチ:チェーンオブソート推論のためのデコード可能な推論

Deductive Beam Search: Decoding Deducible Rationale for Chain-of-Thought Reasoning ( http://arxiv.org/abs/2401.17686v2 )

ライセンス: Link先を確認
Tinghui Zhu, Kai Zhang, Jian Xie, Yu Su(参考訳) 近年の進歩は、大規模言語モデル(LLM)の推論能力を様々な手法、特にチェーン・オブ・シント(CoT)推論を通じて大幅に強化している。 しかし、従来の手法では中間段階の推論誤差に対処できず、累積誤差が生じる。 本稿では,畳み込み推論とステップワイズビーム探索とをシームレスに統合したデダクティブビーム探索(dbs)を提案する。 提案手法は検証器をデプロイし,推論ステップとその前提の再現性を検証し,エラーの蓄積を軽減する。 さらに,モデルの検証能力を増幅するスケーラブルで無労力のデータ構築手法を提案する。 広範な実験により,算術,コモンセンス,シンボリックを含む3種類の推論ジャンルから得られた8つの推論データセットにおいて,様々なスケール(7b,13b,70b,chatgpt)のllmのベース性能が著しく向上することが示された。 さらに,DBSが様々なモデルスケールで多様かつ微妙な推論誤差と頑健さを検出できることを示す。

Recent advancements have significantly augmented the reasoning capabilities of Large Language Models (LLMs) through various methodologies, especially chain-of-thought (CoT) reasoning. However, previous methods fail to address reasoning errors in intermediate steps, leading to accumulative errors. In this paper, we propose Deductive Beam Search (DBS), which seamlessly integrates CoT and deductive reasoning with step-wise beam search for LLMs. Our approach deploys a verifier, verifying the deducibility of a reasoning step and its premises, thus alleviating the error accumulation. Furthermore, we introduce a scalable and labor-free data construction method to amplify our model's verification capabilities. Extensive experiments demonstrate that our approach significantly enhances the base performance of LLMs of various scales (7B, 13B, 70B, and ChatGPT) across 8 reasoning datasets from 3 diverse reasoning genres, including arithmetic, commonsense, and symbolic. Moreover, our analysis proves DBS's capability of detecting diverse and subtle reasoning errors and robustness on different model scales.
翻訳日:2024-02-07 02:31:19 公開日:2024-02-04
# IGCN:マルチモーダルデータのための統合グラフ畳み込みネットワーク

IGCN: Integrative Graph Convolutional Networks for Multi-modal Data ( http://arxiv.org/abs/2401.17612v2 )

ライセンス: Link先を確認
Cagri Ozdemir, Mohammad Al Olaimat, Yashu Vashishath, Serdar Bozdag and Alzheimer's Disease Neuroimaging Initiative(参考訳) グラフニューラルネットワーク(GNN)の最近の進歩は、様々な種類のノードとエッジを含むマルチモーダルデータに対するグラフデータモデリングの大幅な増加につながっている。 近年,ネットワーク構造データに対する統合的予測法が開発されているが,これらの手法には制限がある。 マルチモーダルデータを含むノード分類タスクでは、あるデータモダリティが1つのクラスを予測する場合、他のクラスは異なるクラスの予測に優れる。 したがって、より優れた学習表現を得るためには、多モードデータの積分解析に高度な計算手法が必要である。 さらに、既存の統合ツールには、特定の予測の背後にある理論的根拠の包括的かつ凝集的な理解が欠けているため、モデル解釈可能性の向上には適さない。 これらの制約に対処し,マルチモーダルデータネットワークのための新しい統合型ニューラルネットワーク手法であるigcn(integrative graph convolutional networks)を導入する。 IGCNは複数のトポロジからノード埋め込みを学習し、ノード埋め込みに注意係数を割り当てることで、複数のノード埋め込みを重み付け形式に融合する。 提案するアテンションメカニズムは,特定のクラスを予測するために,各サンプルに対してより強調されるデータの種類を特定するのに役立つ。 したがって、IGCNは、異なるノード分類タスクにおいて、これまで知らなかった特徴を解き放つ可能性がある。 我々は、がんのサブタイプを予測するマルチオミクスデータセットやアルツハイマー病の進行を予測するマルチモーダル臨床データセットなど、さまざまなドメインのデータセットにiccnをベンチマークした。 実験の結果, IGCNは最先端法やベースライン法と同等以上の性能を示した。

Recent advances in Graph Neural Networks (GNN) have led to a considerable growth in graph data modeling for multi-modal data which contains various types of nodes and edges. Although some integrative prediction solutions have been developed recently for network-structured data, these methods have some restrictions. For a node classification task involving multi-modal data, certain data modalities may perform better when predicting one class, while others might excel in predicting a different class. Thus, to obtain a better learning representation, advanced computational methodologies are required for the integrative analysis of multi-modal data. Moreover, existing integrative tools lack a comprehensive and cohesive understanding of the rationale behind their specific predictions, making them unsuitable for enhancing model interpretability. Addressing these restrictions, we introduce a novel integrative neural network approach for multi-modal data networks, named Integrative Graph Convolutional Networks (IGCN). IGCN learns node embeddings from multiple topologies and fuses the multiple node embeddings into a weighted form by assigning attention coefficients to the node embeddings. Our proposed attention mechanism helps identify which types of data receive more emphasis for each sample to predict a certain class. Therefore, IGCN has the potential to unravel previously unknown characteristics within different node classification tasks. We benchmarked IGCN on several datasets from different domains, including a multi-omics dataset to predict cancer subtypes and a multi-modal clinical dataset to predict the progression of Alzheimer's disease. Experimental results show that IGCN outperforms or is on par with the state-of-the-art and baseline methods.
翻訳日:2024-02-07 02:30:54 公開日:2024-02-04
# 量子チェーク

Quantum Cheques ( http://arxiv.org/abs/2401.16116v2 )

ライセンス: Link先を確認
Mohammed Barhoush and Louis Salvail(参考訳) 公に検証可能な量子マネーは、量子暗号において中心的かつ挑戦的な目標である。 本研究では,より達成可能で技術的に実用的なQC(quantum cheques)という代替概念を提案する。 量子チェークは公開鍵を使用して検証できるが、単一のユーザによってのみ検証できる。 具体的には、支払い者は、そのIDを使用して特定の受信者の量子チェークに署名し、受信者は銀行の助けなしにそれを検証でき、支払い者は別のIDを持つ別のユーザに同じチェークを割り当てることができない。 量子マネーとは違って、QCは銀行によって発行されたチークがすべて古典的である場合にのみ量子通信を必要とする。 本稿では,LWE(Learning-with-errors)の仮定に基づいてQCを構築する方法を示す。 このプロセスでは、独立した関心を持つ2つの新しいプリミティブを構築します。 まず、LWEの下で「公に検証可能な削除付き署名」を構築する。 このプリミティブは、メッセージ$m$の署名を可能にするので、受信者は、$m$の署名を再現できないことを公に証明する古典的な文字列を生成できる。 次に、このプリミティブを使って '2-message signature token' を構築する方法を示す。 このプリミティブは、単一ビットに署名し、自己分解するために使用できるトークンの生成を可能にする。 最後に、2メッセージのシグネチャトークンをqcsの構築に使用できることを示す。

Publicly-verifiable quantum money has been a central and challenging goal in quantum cryptography. In this study, we propose an alternative notion called 'quantum cheques' (QCs) that is more achievable and technologically practical. A quantum cheque can be verified using a public-key but only by a single user. Specifically, the payer signs the quantum cheque for a particular recipient using their ID, and the recipient can validate it without the assistance of the bank, ensuring that the payer cannot assign the same cheque to another user with a different ID. Unlike quantum money, QCs only necessitate quantum communication when a cheque is issued by the bank, meaning all payments and deposits are entirely classical! We demonstrate how to construct QCs based on the well-studied learning-with-errors (LWE) assumption. In the process, we build two novel primitives which are of independent interest. Firstly, we construct 'signatures with publicly-verifiable deletion' under LWE. This primitive enables the signing of a message $m$ such that the recipient can produce a classical string that publicly proves the inability to reproduce a signature of $m$. We then demonstrate how this primitive can be used to construct '2-message signature tokens'. This primitive enables the production of a token that can be used to sign a single bit and then self-destructs. Finally, we show that 2-message signature tokens can be used to construct QCs.
翻訳日:2024-02-07 02:27:14 公開日:2024-02-04
# MoE-LLaVA:大型ビジョンランゲージモデルの専門家の混在

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models ( http://arxiv.org/abs/2401.15947v2 )

ライセンス: Link先を確認
Bin Lin, Zhenyu Tang, Yang Ye, Jiaxi Cui, Bin Zhu, Peng Jin, Jinfa Huang, Junwu Zhang, Munan Ning, Li Yuan(参考訳) 最近の進歩は、LVLM(Large Vision-Language Models)のスケールが、下流タスクのパフォーマンスを効果的に改善することを示している。 しかし、既存のスケーリング手法により、計算の各トークンに対してすべてのモデルパラメータがアクティブになり、大量のトレーニングとコストの推測が可能になる。 本研究では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。 この戦略は、マルチモーダルスパルシティ学習における性能低下の一般的な問題に革新的に対処し、不規則なパラメータを持つが一定の計算コストを持つスパースモデルを構築した。 さらに,MoEをベースとしたスパースLVLMアーキテクチャであるMoE-LLaVAについて述べる。 広範囲にわたる実験は、様々な視覚的理解と物体幻覚ベンチマークにおけるMoE-LLaVAの顕著な性能を示している。 注目すべきは、約3Bのわずかに活性化されたパラメータだけで、MoE-LLaVAは様々な視覚的理解データセット上でLLaVA-1.5-7Bに匹敵する性能を示し、オブジェクト幻覚ベンチマークではLLaVA-1.5-13Bを超えていることだ。 MoE-LLaVAを通じて、スパースLVLMのベースラインを確立し、より効率的で効果的なマルチモーダル学習システムの開発において、今後の研究に有用な洞察を提供する。 コードは \url{https://github.com/PKU-YuanGroup/MoE-LLaVA} で公開されている。

Recent advances demonstrate that scaling Large Vision-Language Models (LVLMs) effectively improves downstream task performances. However, existing scaling methods enable all model parameters to be active for each token in the calculation, which brings massive training and inferring costs. In this work, we propose a simple yet effective training strategy MoE-Tuning for LVLMs. This strategy innovatively addresses the common issue of performance degradation in multi-modal sparsity learning, consequently constructing a sparse model with an outrageous number of parameters but a constant computational cost. Furthermore, we present the MoE-LLaVA, a MoE-based sparse LVLM architecture, which uniquely activates only the top-k experts through routers during deployment, keeping the remaining experts inactive. Extensive experiments show the significant performance of MoE-LLaVA in a variety of visual understanding and object hallucination benchmarks. Remarkably, with only approximately 3B sparsely activated parameters, MoE-LLaVA demonstrates performance comparable to the LLaVA-1.5-7B on various visual understanding datasets and even surpasses the LLaVA-1.5-13B in object hallucination benchmark. Through MoE-LLaVA, we aim to establish a baseline for sparse LVLMs and provide valuable insights for future research in developing more efficient and effective multi-modal learning systems. Code is released at \url{https://github.com/PKU-YuanGroup/MoE-LLaVA}.
翻訳日:2024-02-07 02:26:53 公開日:2024-02-04
# double $\Lambda$-systemによる固体スピンのコヒーレント全光制御

Coherent all-optical control of a solid-state spin via a double $\Lambda$-system ( http://arxiv.org/abs/2402.00244v2 )

ライセンス: Link先を確認
C. Adambukulam and J. A. Scott and S. Q. Lim and I. Aharonovich and A. Morello and A. Laucht(参考訳) 全光学制御は、通常$\lambda$-systemで単一のラマン遷移によって実現されるカラーセンタースピンの高速量子演算を可能にする。 ここでは、ダイアモンド中のゲルマニウム空孔(gev)のスピンを制御するために、両方のラマン遷移を二重の$\lambda$-systemで同時に駆動する。 高速な演算を行い、2つのラマン遷移の間の量子干渉を観察し、GeVコヒーレンス(T_2^*=224\pm14$ ns, $T_2^{\rm H}=11.9\pm0.3$$\mu$s)を探索する。 重要なことは、double $\Lambda$-systemによる制御は他のカラーセンター、特にダイヤモンドにおけるグループIV欠陥にも適用可能である。

All-optical control enables fast quantum operations on color center spins that are typically realized via a single Raman transition in a $\Lambda$-system. Here, we simultaneously drive both Raman transitions in a double $\Lambda$-system to control the spin of a germanium vacancy (GeV) in diamond. In doing so, we achieve fast operations, observe the quantum interference between the two Raman transitions and probe the GeV coherence ($T_2^*=224\pm14$ ns, $T_2^{\rm H}=11.9\pm0.3$ $\mu$s). Importantly, control via a double $\Lambda$-system is applicable to other color centers and particularly, the group-IV defects in diamond.
翻訳日:2024-02-07 02:16:43 公開日:2024-02-04
# きめ細かいゼロショット学習:進歩、挑戦、展望

Fine-Grained Zero-Shot Learning: Advances, Challenges, and Prospects ( http://arxiv.org/abs/2401.17766v2 )

ライセンス: Link先を確認
Jingcai Guo, Zhijie Rao, Zhi Chen, Jingren Zhou, Dacheng Tao(参考訳) 最近のゼロショット学習(ZSL)アプローチは、よく知られた領域バイアスを緩和し、視覚・セマンティックスマッピングの問題と一致しないために、きめ細かい分析、すなわち、きめ細かなZSLを統合している。 特に、このパラダイムは既存の密集した細粒度メソッドとは異なるため、独特で非自明な課題を提起することができる。 しかし、私たちの知る限りでは、このトピックの体系的な要約はいまだに欠けている。 本稿では,この領域の文献を豊かにし,今後の展開のための健全な基盤を提供するため,zslにおける粒度解析の最近の進歩を概観する。 具体的には,まず,各カテゴリーを徹底的に分析した既存の手法と手法の分類法を提案する。 次に、ベンチマークを要約し、公開利用可能なデータセット、モデル、実装、およびライブラリとしての詳細を取り上げる。 最後に、関連するアプリケーションをスケッチします。 さらに,重要な課題を議論し,今後の方向性を示唆する。

Recent zero-shot learning (ZSL) approaches have integrated fine-grained analysis, i.e., fine-grained ZSL, to mitigate the commonly known seen/unseen domain bias and misaligned visual-semantics mapping problems, and have made profound progress. Notably, this paradigm differs from existing close-set fine-grained methods and, therefore, can pose unique and nontrivial challenges. However, to the best of our knowledge, there remains a lack of systematic summaries of this topic. To enrich the literature of this domain and provide a sound basis for its future development, in this paper, we present a broad review of recent advances for fine-grained analysis in ZSL. Concretely, we first provide a taxonomy of existing methods and techniques with a thorough analysis of each category. Then, we summarize the benchmark, covering publicly available datasets, models, implementations, and some more details as a library. Last, we sketch out some related applications. In addition, we discuss vital challenges and suggest potential future directions.
翻訳日:2024-02-07 02:14:40 公開日:2024-02-04
# ニューラルネットワークを用いたデータ駆動型アルゴリズム設計と分岐・切断への応用

Data-driven algorithm design using neural networks with applications to branch-and-cut ( http://arxiv.org/abs/2402.02328v1 )

ライセンス: Link先を確認
Hongyu Cheng, Sammy Khalife, Barbara Fiedorowicz, Amitabh Basu(参考訳) データ駆動型アルゴリズム設計(data-driven algorithm design)は、統計および機械学習技術を使用して、計算問題に対してアルゴリズムのクラスから選択するパラダイムである。 そこで本研究では,最良性能の1つのアルゴリズムを選択する代わりに,そのインスタンスに基づくアルゴリズムを選択できるというアイデアを導入することで,最近の研究成果を積み上げている。 特に、インスタンスの代表例が与えられた場合、問題のインスタンスを最も適切なアルゴリズムにマッピングするニューラルネットワークを学習する。 我々は,この概念を定式化し,データ駆動型アルゴリズム設計における最近の研究を機に,この学習問題の厳密なサンプル複雑性境界を導出する。 次に、このアプローチを混合整数最適化のためのブランチ・アンド・カットのフレームワークで良い決定をする問題に適用する。 言い換えれば、ニューラルネットワークは混合整数最適化インスタンスを入力として取り、そのインスタンスの小さな分岐とカットツリーをもたらす決定を出力する。 我々の計算結果は、従来のデータ駆動型アプローチと比較して、ニューラルネットワークをカットセレクションに使用する場合、分岐とカットのツリーサイズを削減できることを示す。

Data-driven algorithm design is a paradigm that uses statistical and machine learning techniques to select from a class of algorithms for a computational problem an algorithm that has the best expected performance with respect to some (unknown) distribution on the instances of the problem. We build upon recent work in this line of research by introducing the idea where, instead of selecting a single algorithm that has the best performance, we allow the possibility of selecting an algorithm based on the instance to be solved. In particular, given a representative sample of instances, we learn a neural network that maps an instance of the problem to the most appropriate algorithm {\em for that instance}. We formalize this idea and derive rigorous sample complexity bounds for this learning problem, in the spirit of recent work in data-driven algorithm design. We then apply this approach to the problem of making good decisions in the branch-and-cut framework for mixed-integer optimization (e.g., which cut to add?). In other words, the neural network will take as input a mixed-integer optimization instance and output a decision that will result in a small branch-and-cut tree for that instance. Our computational results provide evidence that our particular way of using neural networks for cut selection can make a significant impact in reducing branch-and-cut tree sizes, compared to previous data-driven approaches.
翻訳日:2024-02-06 20:54:17 公開日:2024-02-04
# CNS-Edit: 結合型ニューラル形状最適化による3次元形状編集

CNS-Edit: 3D Shape Editing via Coupled Neural Shape Optimization ( http://arxiv.org/abs/2402.02313v1 )

ライセンス: Link先を確認
Jingyu Hu, Ka-Hei Hui, Zhengzhe Liu, Hao Zhang, Chi-Wing Fu(参考訳) 本稿では,隠れ空間で暗黙的に3次元形状編集を行うための結合表現とニューラルボリューム最適化に基づく新しい手法を提案する。 この作品には3つの革新がある。 まず,3次元形状編集を支援するために,結合型ニューラル形状(CNS)表現を設計する。 この表現は、形状の高レベルなグローバルな意味をキャプチャする潜在コードと、編集によって与えられる局所的な形状変化に関連付ける空間的コンテキストを提供する3Dニューラル特徴量とを含む。 第2に,結合されたニューラルネットワーク形状最適化手順を定式化し,編集操作対象の表現における2つの結合成分を共最適化する。 最後に、様々な3次元形状編集演算子、すなわち、コピー、リサイズ、削除、ドラッグを提供し、それぞれをCNS最適化を導く目的へと導出する。 提案手法では,形状のセマンティクスを意識するだけでなく,既存のアプローチでは容易には達成できないような,多種多様な編集結果が得られる。 定量的および定性的な評価は、最先端のソリューションに対する我々のアプローチの強みを示すものである。

This paper introduces a new approach based on a coupled representation and a neural volume optimization to implicitly perform 3D shape editing in latent space. This work has three innovations. First, we design the coupled neural shape (CNS) representation for supporting 3D shape editing. This representation includes a latent code, which captures high-level global semantics of the shape, and a 3D neural feature volume, which provides a spatial context to associate with the local shape changes given by the editing. Second, we formulate the coupled neural shape optimization procedure to co-optimize the two coupled components in the representation subject to the editing operation. Last, we offer various 3D shape editing operators, i.e., copy, resize, delete, and drag, and derive each into an objective for guiding the CNS optimization, such that we can iteratively co-optimize the latent code and neural feature volume to match the editing target. With our approach, we can achieve a rich variety of editing results that are not only aware of the shape semantics but are also not easy to achieve by existing approaches. Both quantitative and qualitative evaluations demonstrate the strong capabilities of our approach over the state-of-the-art solutions.
翻訳日:2024-02-06 20:53:53 公開日:2024-02-04
# マルチモーダル大言語モデルに対する脱獄攻撃

Jailbreaking Attack against Multimodal Large Language Model ( http://arxiv.org/abs/2402.02309v1 )

ライセンス: Link先を確認
Zhenxing Niu and Haodong Ren and Xinbo Gao and Gang Hua and Rong Jin(参考訳) 本稿では,マルチモーダルな大規模言語モデル (MLLM) に対するジェイルブレイク攻撃に着目し,有害なユーザクエリに対する不適切な応答を生成するためにMLLMを誘導する。 最大可能性に基づくアルゴリズムが提案され、複数の未確認プロンプトや画像(すなわち、データユニバーサル特性)にわたるMLLMに対するジェイルブレイクを可能にする 'emph{image Jailbreaking Prompt} (imgJP) を見つける。 生成したimgJPは,MiniGPT-v2,LLaVA,InstructBLIP,mPLUG-Owl2など,さまざまなモデルにブラックボックス方式で移動可能である。 さらに,MLLM-jailbreakとLM-jailbreakの関連を明らかにする。 その結果,LLM-jailbreakに対する我々のアプローチを利用する構築法を導入し,現在の最先端手法よりも高い効率性を示した。 コードはここで入手できる。 textbf{Warning: 言語モデルによって生成されたコンテンツは、一部の読者にとって攻撃的かもしれない。 }

This paper focuses on jailbreaking attacks against multi-modal large language models (MLLMs), seeking to elicit MLLMs to generate objectionable responses to harmful user queries. A maximum likelihood-based algorithm is proposed to find an \emph{image Jailbreaking Prompt} (imgJP), enabling jailbreaks against MLLMs across multiple unseen prompts and images (i.e., data-universal property). Our approach exhibits strong model-transferability, as the generated imgJP can be transferred to jailbreak various models, including MiniGPT-v2, LLaVA, InstructBLIP, and mPLUG-Owl2, in a black-box manner. Moreover, we reveal a connection between MLLM-jailbreaks and LLM-jailbreaks. As a result, we introduce a construction-based method to harness our approach for LLM-jailbreaks, demonstrating greater efficiency than current state-of-the-art methods. The code is available here. \textbf{Warning: some content generated by language models may be offensive to some readers.}
翻訳日:2024-02-06 20:53:34 公開日:2024-02-04
# 時間依存共起による因果生存解析のための柔軟なベイズ的g-形式

A flexible Bayesian g-formula for causal survival analyses with time-dependent confounding ( http://arxiv.org/abs/2402.02306v1 )

ライセンス: Link先を確認
Xinyuan Chen, Liangyuan Hu, Fan Li(参考訳) 時系列観察研究における因果解析の一般的な目的は、仮説的介入のシナリオの下で因果的生存曲線を推定することである。 g-formulaはこの解析に特に有用なツールである。 従来のパラメトリック g-formula アプローチを強化するため,より適応性の高いベイズ型 g-formula 推定器を開発した。 この推定器は、縦方向予測と因果推論の両方を促進する。 ベイジアン加法的回帰木を時間進化する生成成分のモデリングに取り入れ、モデル不特定性によるバイアスを軽減することを目的としている。 具体的には, 離散生存データに対するg-formulaのより一般的なクラスを導入する。 これらの式は、次元縮小の有効な方法として機能し、時間変化のある共同設立者の配列を拡大する際には不可欠である縦バランススコアを組み込むことができる。 これらの縦バランススコアの最小定式化は、静的であれ動的であれ、治療体制の性質と関係している。 それぞれの治療体制に対して,ベイジアン加法回帰木フレームワークを基盤とした後方サンプリングアルゴリズムを提案する。 我々は,提案したベイズ型g-ホルムラ推定器の実験的性能をシミュレーションし,既存のパラメトリック推定器と比較した。 さらに,Yale New Haven Health Systemの電子健康記録から得られたデータを用いて,実世界のシナリオにおける本手法の実用性を実証した。

In longitudinal observational studies with a time-to-event outcome, a common objective in causal analysis is to estimate the causal survival curve under hypothetical intervention scenarios within the study cohort. The g-formula is a particularly useful tool for this analysis. To enhance the traditional parametric g-formula approach, we developed a more adaptable Bayesian g-formula estimator. This estimator facilitates both longitudinal predictive and causal inference. It incorporates Bayesian additive regression trees in the modeling of the time-evolving generative components, aiming to mitigate bias due to model misspecification. Specifically, we introduce a more general class of g-formulas for discrete survival data. These formulas can incorporate the longitudinal balancing scores, which serve as an effective method for dimension reduction and are vital when dealing with an expanding array of time-varying confounders. The minimum sufficient formulation of these longitudinal balancing scores is linked to the nature of treatment regimes, whether static or dynamic. For each type of treatment regime, we provide posterior sampling algorithms, which are grounded in the Bayesian additive regression trees framework. We have conducted simulation studies to illustrate the empirical performance of our proposed Bayesian g-formula estimators, and to compare them with existing parametric estimators. We further demonstrate the practical utility of our methods in real-world scenarios using data from the Yale New Haven Health System's electronic health records.
翻訳日:2024-02-06 20:53:14 公開日:2024-02-04
# エンド・ツー・エンド深層学習モデルによる効率的な数値波動伝播

Efficient Numerical Wave Propagation Enhanced by an End-to-End Deep Learning Model ( http://arxiv.org/abs/2402.02304v1 )

ライセンス: Link先を確認
Luis Kaiser, Richard Tsai, Christian Klingenberg(参考訳) 地震モデリングから医用画像まで、さまざまな科学的・工学的な領域において、高周波波動伝播のための高忠実で効率的な解の必要性が重要である。 ウェーブモデリングの最近の進歩は、高速だが不正確な粗い解法の精度を高めるニューラルネットワークの訓練に十分な精度のファインソルバ出力を使用する。 安定かつ高速な解法により、高周波数波成分の検索と修正を行う並列時間アルゴリズムであるPararealが利用可能となる。 本稿では,Nguyen と Tsai (2023) の業績を基盤として,数値解法と深層学習成分をエンドツーエンドフレームワークに統合する統一システムを提案する。 提案手法では,ニューラルネットワークアーキテクチャ,データ生成アルゴリズム,およびPararealスキームの改良について検討する。 その結果, 凝集構造は速度を犠牲にすることなく性能を著しく向上し, 正確な波動伝搬における時間的ダイナミクスとパラレアル反復の重要性が示された。

In a variety of scientific and engineering domains, ranging from seismic modeling to medical imaging, the need for high-fidelity and efficient solutions for high-frequency wave propagation holds great significance. Recent advances in wave modeling use sufficiently accurate fine solver outputs to train neural networks that enhance the accuracy of a fast but inaccurate coarse solver. A stable and fast solver further allows the use of Parareal, a parallel-in-time algorithm to retrieve and correct high-frequency wave components. In this paper we build upon the work of Nguyen and Tsai (2023) and present a novel unified system that integrates a numerical solver with deep learning components into an end-to-end framework. In the proposed setting, we investigate refinements to the neural network architecture, data generation algorithm and Parareal scheme. Our results show that the cohesive structure significantly improves performance without sacrificing speed, and demonstrate the importance of temporal dynamics, as well as Parareal iterations, for accurate wave propagation.
翻訳日:2024-02-06 20:52:51 公開日:2024-02-04
# 視覚トランスフォーマーを用いたpet/ct画像上のリンパ腫分離のためのマルチモーダル特徴融合ネットワーク

Vision Transformer-based Multimodal Feature Fusion Network for Lymphoma Segmentation on PET/CT Images ( http://arxiv.org/abs/2402.02349v1 )

ライセンス: Link先を確認
Huan Huang, Liheng Qiu, Shenmiao Yang, Longxi Li, Jiaofen Nan, Yanting Li, Chuang Han, Fubao Zhu, Chen Zhao, Weihua Zhou(参考訳) 背景】びまん性大細胞性b細胞リンパ腫(dlbcl)の分画は,画像解析における課題である。 従来のリンパ腫の分節法は、複雑なパターンとDLBCL病変の存在に苦慮する。 目的: 18f-fluorodeoxyglucose positron emission tomography (pet) と ct (ct) 画像を用いた悪性リンパ腫の鑑別法の開発を目標とする。 方法: 悪性リンパ腫のセグメンテーションアプローチでは, マルチモーダル・クロスアテンション・フュージョン (MMCAF) モジュールを介し, PETとCTデータを十分に融合したデュアルエンコーダを併用する。 本研究では,165例のDLBCL患者のPETおよびCTデータを解析した。 提案手法の性能と一般化能力を評価するために5倍のクロスバリデーションを用いた。 地上の真実は経験豊富な核医学の専門家によって注釈された。 総代謝性腫瘍容積 (TMTV) を算出し, 統計学的検討を行った。 結果: 本法では, DLBCLの病変セグメンテーションにおいて, ディス類似度係数0.9173$\pm$0.0071, ハウスドルフ距離2.71$\pm$0.25mm, 感度0.9462$\pm$0.0223, 特異度0.9986$\pm$0.0008の精度を示した。 また, TMTVでは, セグメンテーション結果と比較してPearson相関係数0.9030$\pm$0.0179, R-square0.8586$\pm$0.0173が観察された。 結語: 本研究は, pet と ct を用いたリンパ腫分画に対するmmcaf と vision transformer の利点を強調し, コンピュータ支援リンパ腫の診断と治療に大いに貢献する。

Background: Diffuse large B-cell lymphoma (DLBCL) segmentation is a challenge in medical image analysis. Traditional segmentation methods for lymphoma struggle with the complex patterns and the presence of DLBCL lesions. Objective: We aim to develop an accurate method for lymphoma segmentation with 18F-Fluorodeoxyglucose positron emission tomography (PET) and computed tomography (CT) images. Methods: Our lymphoma segmentation approach combines a vision transformer with dual encoders, adeptly fusing PET and CT data via multimodal cross-attention fusion (MMCAF) module. In this study, PET and CT data from 165 DLBCL patients were analyzed. A 5-fold cross-validation was employed to evaluate the performance and generalization ability of our method. Ground truths were annotated by experienced nuclear medicine experts. We calculated the total metabolic tumor volume (TMTV) and performed a statistical analysis on our results. Results: The proposed method exhibited accurate performance in DLBCL lesion segmentation, achieving a Dice similarity coefficient of 0.9173$\pm$0.0071, a Hausdorff distance of 2.71$\pm$0.25mm, a sensitivity of 0.9462$\pm$0.0223, and a specificity of 0.9986$\pm$0.0008. Additionally, a Pearson correlation coefficient of 0.9030$\pm$0.0179 and an R-square of 0.8586$\pm$0.0173 were observed in TMTV when measured on manual annotation compared to our segmentation results. Conclusion: This study highlights the advantages of MMCAF and vision transformer for lymphoma segmentation using PET and CT, offering great promise for computer-aided lymphoma diagnosis and treatment.
翻訳日:2024-02-06 20:40:29 公開日:2024-02-04
# 生成aiにおける著作権保護:技術的展望

Copyright Protection in Generative AI: A Technical Perspective ( http://arxiv.org/abs/2402.02333v1 )

ライセンス: Link先を確認
Jie Ren, Han Xu, Pengfei He, Yingqian Cui, Shenglai Zeng, Jiankun Zhang, Hongzhi Wen, Jiayuan Ding, Hui Liu, Yi Chang, Jiliang Tang(参考訳) 生成AIは近年急速に進歩し、テキスト、画像、オーディオ、コードなどの合成コンテンツを作成する能力を拡大している。 これらの深層生成モデル(dgms)によって生成されたコンテンツの忠実性と信頼性は、著作権に関する重大な懸念を引き起こしている。 DGMの著作権を効果的に保護する方法については、様々な法的議論があった。 この研究は、技術的観点から著作権保護の包括的概要を提供することで、この問題を掘り下げている。 データ所有者が保持するソースデータに関する著作権と、モデルビルダーが保持する生成モデルの著作権という、2つの異なる視点から検討する。 データ著作権については、データ所有者がコンテンツを保護し、DGMをこれらの権利を侵害することなく利用することができる方法を掘り下げる。 モデル著作権については,モデル盗難を防止し,特定のモデルによって生成されたアウトプットを識別するための戦略に拡張する。 最後に,既存の手法の限界を強調し,未調査領域を特定する。 さらに,著作権保護の将来に向けた今後の方向性についても論じ,ジェネレーティブAIの持続的・倫理的発展の重要性を浮き彫りにしている。

Generative AI has witnessed rapid advancement in recent years, expanding their capabilities to create synthesized content such as text, images, audio, and code. The high fidelity and authenticity of contents generated by these Deep Generative Models (DGMs) have sparked significant copyright concerns. There have been various legal debates on how to effectively safeguard copyrights in DGMs. This work delves into this issue by providing a comprehensive overview of copyright protection from a technical perspective. We examine from two distinct viewpoints: the copyrights pertaining to the source data held by the data owners and those of the generative models maintained by the model builders. For data copyright, we delve into methods data owners can protect their content and DGMs can be utilized without infringing upon these rights. For model copyright, our discussion extends to strategies for preventing model theft and identifying outputs generated by specific models. Finally, we highlight the limitations of existing techniques and identify areas that remain unexplored. Furthermore, we discuss prospective directions for the future of copyright protection, underscoring its importance for the sustainable and ethical development of Generative AI.
翻訳日:2024-02-06 20:39:49 公開日:2024-02-04
# minusformer: 逐次学習残差による時系列予測の改善

Minusformer: Improving Time Series Forecasting by Progressively Learning Residuals ( http://arxiv.org/abs/2402.02332v1 )

ライセンス: Link先を確認
Daojun Liang, Haixia Zhang, Dongfeng Yuan, Bingzheng Zhang and Minggao Zhang(参考訳) 本稿では,ユビキタス時系列(TS)予測モデルが過度なオーバーフィッティングの傾向にあることを示す。 この問題に対処するため,我々はTSの内在値を将来的な間隔で漸進的に再保存する非冗長アプローチを採用した。 具体的には,情報集約機構を減算に加えることにより,バニラトランスを改良する。 次に、補助出力分岐を元のモデルの各ブロックに組み込み、最終的な予測に繋がる高速道路を構築する。 このブランチにおけるその後のモジュールの出力は、事前に学習した結果を減らし、モデルが監視信号の残余を層ごとに学習できるようにする。 この設計は、入力と出力ストリームの学習駆動による漸進的な分解を促進し、モデルの汎用性、解釈性、過剰フィットに対するレジリエンスを高める。 モデル内のすべてのアグリゲーションはマイナス記号であるため、これはMinusformerと呼ばれる。 広範な実験により、提案手法は既存の最先端手法よりも優れており、様々なデータセットの平均性能が11.9%向上した。

In this paper, we find that ubiquitous time series (TS) forecasting models are prone to severe overfitting. To cope with this problem, we embrace a de-redundancy approach to progressively reinstate the intrinsic values of TS for future intervals. Specifically, we renovate the vanilla Transformer by reorienting the information aggregation mechanism from addition to subtraction. Then, we incorporate an auxiliary output branch into each block of the original model to construct a highway leading to the ultimate prediction. The output of subsequent modules in this branch will subtract the previously learned results, enabling the model to learn the residuals of the supervision signal, layer by layer. This designing facilitates the learning-driven implicit progressive decomposition of the input and output streams, empowering the model with heightened versatility, interpretability, and resilience against overfitting. Since all aggregations in the model are minus signs, which is called Minusformer. Extensive experiments demonstrate the proposed method outperform existing state-of-the-art methods, yielding an average performance improvement of 11.9% across various datasets.
翻訳日:2024-02-06 20:39:32 公開日:2024-02-04
# ゲームウィールウルフにおける大規模言語モデルのエンハンス推論

Enhance Reasoning for Large Language Models in the Game Werewolf ( http://arxiv.org/abs/2402.02330v1 )

ライセンス: Link先を確認
Shuang Wu, Liwen Zhu, Tao Yang, Shiwei Xu, Qiang Fu, Yang Wei, Haobo Fu(参考訳) 本稿では,LLMエージェントの推論能力を高めるために,Large Language Models(LLM)と外部Thinkerモジュールを統合する革新的なフレームワークを提案する。 迅速なエンジニアリングによるLLMの拡張とは異なり、Thinkerはデータベースからの知識を直接活用し、様々な最適化技術を採用している。 このフレームワークは、LLMが自然言語処理のような直感的なSystem-1タスクを処理する推論階層を形成し、Thinkerは複雑な論理解析とドメイン固有の知識を必要とするSystem-2タスクに焦点を当てている。 本フレームワークは,マルチシステム推論を必要とする9プレイヤーのWerewolfゲームを用いて提案する。 LLMとThinker間の通信プロトコルを導入し、18800人のセッションと強化学習のデータを用いてThinkerを訓練する。 実験では, 帰納的推論, 音声生成, オンラインゲーム評価におけるフレームワークの有効性を示す。 さらに、6B LLMを微調整して、Thinkerと統合した場合、GPT4を超えるようにします。 本稿では,これまでで最大のソーシャル・デダクション・ゲームデータセットを提供する。

This paper presents an innovative framework that integrates Large Language Models (LLMs) with an external Thinker module to enhance the reasoning capabilities of LLM-based agents. Unlike augmenting LLMs with prompt engineering, Thinker directly harnesses knowledge from databases and employs various optimization techniques. The framework forms a reasoning hierarchy where LLMs handle intuitive System-1 tasks such as natural language processing, while the Thinker focuses on cognitive System-2 tasks that require complex logical analysis and domain-specific knowledge. Our framework is presented using a 9-player Werewolf game that demands dual-system reasoning. We introduce a communication protocol between LLMs and the Thinker, and train the Thinker using data from 18800 human sessions and reinforcement learning. Experiments demonstrate the framework's effectiveness in deductive reasoning, speech generation, and online game evaluation. Additionally, we fine-tune a 6B LLM to surpass GPT4 when integrated with the Thinker. This paper also contributes the largest dataset for social deduction games to date.
翻訳日:2024-02-06 20:39:05 公開日:2024-02-04
# 音響キューの強化によるブートストラップ型オーディオ・ビジュアルセグメンテーション

Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues ( http://arxiv.org/abs/2402.02327v1 )

ライセンス: Link先を確認
Tianxiang Chen, Zhentao Tan, Tao Gong, Qi Chu, Yue Wu, Bin Liu, Le Lu, Jieping Ye, Nenghai Yu(参考訳) 視覚と音声を効果的に相互作用する方法は、マルチモーダリティ研究分野において大きな関心を集めている。 近年,ビデオフレーム内の音声オブジェクトをオーディオキューの指導下でセグメント化することを目的とした,新たなAVSタスクが提案されている。 しかし、既存のAVS手法のほとんどは、一方向のオーディオキューの統合が不十分なため、視覚的特徴がオーディオモダリティのそれを支配する傾向にあるモダリティの不均衡によって妨げられている。 この不均衡は、視覚的側面に対する特徴表現を歪め、共同視覚表現の学習を妨げるとともに、セグメント化の不正確さを引き起こす可能性がある。 この問題に対処するため,我々はAVSACを提案する。 双方向視覚デコーダ(bavd, bidirectional audio-visual decoder)と双方向ブリッジの統合,音声手がかりの強化,音声と視覚の連続的な相互作用の促進を特徴とする。 この双方向インタラクションは、モダリティの不均衡を狭め、より効果的なオーディオと視覚の統合表現の学習を促進する。 さらに,BAVDのきめ細かいガイダンスとして,音声・視覚的フレームワイド同期の戦略を提案する。 この戦略は視覚特徴における聴覚成分の共有を高め、よりバランスのとれた視聴覚表現学習に寄与する。 大規模な実験により,AVS性能のベンチマークが得られた。

How to effectively interact audio with vision has garnered considerable interest within the multi-modality research field. Recently, a novel audio-visual segmentation (AVS) task has been proposed, aiming to segment the sounding objects in video frames under the guidance of audio cues. However, most existing AVS methods are hindered by a modality imbalance where the visual features tend to dominate those of the audio modality, due to a unidirectional and insufficient integration of audio cues. This imbalance skews the feature representation towards the visual aspect, impeding the learning of joint audio-visual representations and potentially causing segmentation inaccuracies. To address this issue, we propose AVSAC. Our approach features a Bidirectional Audio-Visual Decoder (BAVD) with integrated bidirectional bridges, enhancing audio cues and fostering continuous interplay between audio and visual modalities. This bidirectional interaction narrows the modality imbalance, facilitating more effective learning of integrated audio-visual representations. Additionally, we present a strategy for audio-visual frame-wise synchrony as fine-grained guidance of BAVD. This strategy enhances the share of auditory components in visual features, contributing to a more balanced audio-visual representation learning. Extensive experiments show that our method attains new benchmarks in AVS performance.
翻訳日:2024-02-06 20:38:49 公開日:2024-02-04
# 逐次最適化における平滑な目的関数におけるモメンタムの役割

Role of Momentum in Smoothing Objective Function in Implicit Graduated Optimization ( http://arxiv.org/abs/2402.02325v1 )

ライセンス: Link先を確認
Naoki Sato and Hideaki Iiduka(参考訳) 運動量を持つ確率的勾配降下(sgd)は高速収束と優れた一般化性を持つが、理論的な説明は不足している。 本稿では,運動量を持つSGDが目的関数を滑らかにし,学習速度,バッチサイズ,運動量係数,確率勾配のばらつき,勾配ノルムの上界によって決定される度合いを示す。 この理論的な発見は運動量が一般化可能性を向上させる理由を明らかにし、運動量因子を含むハイパーパラメーターの役割に関する新たな洞察を提供する。 また、運動量を持つSGDの滑らか化特性を利用した暗黙的な漸進最適化アルゴリズムを提案し、運動量を持つSGDが目的関数を滑らかにすることを示す実験結果を提供する。

While stochastic gradient descent (SGD) with momentum has fast convergence and excellent generalizability, a theoretical explanation for this is lacking. In this paper, we show that SGD with momentum smooths the objective function, the degree of which is determined by the learning rate, the batch size, the momentum factor, the variance of the stochastic gradient, and the upper bound of the gradient norm. This theoretical finding reveals why momentum improves generalizability and provides new insights into the role of the hyperparameters, including momentum factor. We also present an implicit graduated optimization algorithm that exploits the smoothing properties of SGD with momentum and provide experimental results supporting our assertion that SGD with momentum smooths the objective function.
翻訳日:2024-02-06 20:38:28 公開日:2024-02-04
# 最適サブセット選択のための動的インクリメンタル最適化

Dynamic Incremental Optimization for Best Subset Selection ( http://arxiv.org/abs/2402.02322v1 )

ライセンス: Link先を確認
Shaogang Ren, Xiaoning Qian(参考訳) 最適なサブセット選択は、多くのスパース学習問題において'ゴールド標準'と見なされる。 この非滑らかな非凸問題に対する様々な最適化手法が提案されている。 本稿では,$\ell_0$-regularized問題系の双対形式について検討する。 原始問題構造と双対問題構造に基づいて,効率的な原始双対アルゴリズムを開発した。 この2値範囲推定とインクリメンタルな戦略を活用することで,アルゴリズムは冗長な計算を減らし,最適部分集合選択の解を改善することができる。 合成および実世界のデータセットに関する理論的解析と実験は、提案した解の効率性と統計的性質を検証する。

Best subset selection is considered the `gold standard' for many sparse learning problems. A variety of optimization techniques have been proposed to attack this non-smooth non-convex problem. In this paper, we investigate the dual forms of a family of $\ell_0$-regularized problems. An efficient primal-dual algorithm is developed based on the primal and dual problem structures. By leveraging the dual range estimation along with the incremental strategy, our algorithm potentially reduces redundant computation and improves the solutions of best subset selection. Theoretical analysis and experiments on synthetic and real-world datasets validate the efficiency and statistical properties of the proposed solutions.
翻訳日:2024-02-06 20:38:12 公開日:2024-02-04
# 雑音構造を持つグラフのアクティブラーニング

Active Learning for Graphs with Noisy Structures ( http://arxiv.org/abs/2402.02321v1 )

ライセンス: Link先を確認
Hongliang Chi, Cong Qi, Suhang Wang, Yao Ma(参考訳) グラフニューラルネットワーク(GNN)は、十分なラベル付きノードの可用性に大きく依存するノード分類などのタスクで大きな成功を収めている。 しかし、大規模グラフのラベル付けの過度なコストは、下流モデルの性能を最大化するための効率的なデータ選択を目的としたグラフのアクティブラーニングに焦点を合わせた。 特に、既存のほとんどの手法は信頼できるグラフトポロジーを仮定するが、現実のシナリオはしばしばノイズの多いグラフを示す。 これを踏まえると、ノイズの多いグラフのためのアクティブな学習フレームワークの設計は非常に必要であるが、クリーンなグラフのラベル付けと取得のためのデータの選択は、自然に2つのタスクに依存している。 上述した複雑さを考慮すると,データ選択とグラフ浄化を同時に行うための反復的アプローチと,前回のイテレーションから学習した最良の情報とを併用した,アクティブラーニングフレームワークであるGALCleanを提案する。 本稿では,GALCleanを,その設計と機構に関する理論的理解を提供する期待最大化アルゴリズムの例として要約する。 この理論は自然に拡張版 GALClean+ へと導かれる。 提案手法の有効性とロバスト性について,様々な種類のノイズグラフを用いて実験を行った。

Graph Neural Networks (GNNs) have seen significant success in tasks such as node classification, largely contingent upon the availability of sufficient labeled nodes. Yet, the excessive cost of labeling large-scale graphs led to a focus on active learning on graphs, which aims for effective data selection to maximize downstream model performance. Notably, most existing methods assume reliable graph topology, while real-world scenarios often present noisy graphs. Given this, designing a successful active learning framework for noisy graphs is highly needed but challenging, as selecting data for labeling and obtaining a clean graph are two tasks naturally interdependent: selecting high-quality data requires clean graph structure while cleaning noisy graph structure requires sufficient labeled data. Considering the complexity mentioned above, we propose an active learning framework, GALClean, which has been specifically designed to adopt an iterative approach for conducting both data selection and graph purification simultaneously with best information learned from the prior iteration. Importantly, we summarize GALClean as an instance of the Expectation-Maximization algorithm, which provides a theoretical understanding of its design and mechanisms. This theory naturally leads to an enhanced version, GALClean+. Extensive experiments have demonstrated the effectiveness and robustness of our proposed method across various types and levels of noisy graphs.
翻訳日:2024-02-06 20:38:05 公開日:2024-02-04
# Spin: GPUアクセラレーションを備えた効率的なセキュア計算フレームワーク

Spin: An Efficient Secure Computation Framework with GPU Acceleration ( http://arxiv.org/abs/2402.02320v1 )

ライセンス: Link先を確認
Wuxuan Jiang, Xiangjun Song, Shenbai Hong, Haijun Zhang, Wenxin Liu, Bo Zhao, Wei Xu, Yi Li(参考訳) マルチパーティ計算(MPC)フレームワークの精度と効率は依然として課題である。 SpinはGPUアクセラレーションされたMPCフレームワークで、複数の計算パーティと不正な多数対逆設定をサポートする。 我々は,機械学習に不可欠な非線形関数に対する最適化プロトコルと,トランスフォーマーモデルの基本単位である注目に特有のいくつかの新しい最適化を提案し,セキュリティを犠牲にすることなく,非自明なCNNトレーニングとトランスフォーマー推論を実行可能にする。 バックエンドレベルでは、GPU、CPU、RDMA対応のスマートネットワークカードを活用してアクセラレーションを行う。 総合的な評価によると、Spinはディープニューラルネットワークトレーニングの最先端技術よりも最大2\times$が高速である。 189万のパラメータを持つTransformerモデルでの推論では、Spinがより効率良く、通信が少なく、精度が向上する。

Accuracy and efficiency remain challenges for multi-party computation (MPC) frameworks. Spin is a GPU-accelerated MPC framework that supports multiple computation parties and a dishonest majority adversarial setup. We propose optimized protocols for non-linear functions that are critical for machine learning, as well as several novel optimizations specific to attention that is the fundamental unit of Transformer models, allowing Spin to perform non-trivial CNNs training and Transformer inference without sacrificing security. At the backend level, Spin leverages GPU, CPU, and RDMA-enabled smart network cards for acceleration. Comprehensive evaluations demonstrate that Spin can be up to $2\times$ faster than the state-of-the-art for deep neural network training. For inference on a Transformer model with 18.9 million parameters, our attention-specific optimizations enable Spin to achieve better efficiency, less communication, and better accuracy.
翻訳日:2024-02-06 20:37:43 公開日:2024-02-04
# インストラクションチューニングデータセットの多様性測定とサブセット選択

Diversity Measurement and Subset Selection for Instruction Tuning Datasets ( http://arxiv.org/abs/2402.02318v1 )

ライセンス: Link先を確認
Peiqi Wang, Yikang Shen, Zhen Guo, Matthew Stallone, Yoon Kim, Polina Golland, Rameswar Panda(参考訳) 我々は、より効率的に命令に従うように、大規模言語モデルの微調整のためのデータサブセットを選択することを目指している。 以前の研究は、データセットのキュレーションにおける多様性の重要性を強調してきたが、タスクの数などのヒューリスティックに頼っていた。 本稿では,サブセット選択のための命令チューニングデータセットの多様性と品質を推定するために,決定点プロセスを用いる。 興味のあるデータセットと最も多様な参照データセットとの距離であるログ決定距離でデータセットの多様性を測定することを提案する。 本実験は,正規化重量勾配空間におけるダイバーシティ尺度が下流の命令追従性能と相関することを示す。 したがって、データ選択が最も有用なタイミングを知らせたり、データセットのキュレーション戦略を分析するのに使うことができる。 各種指導調律データセットに対するアプローチの有用性を実証する。

We aim to select data subsets for the fine-tuning of large language models to more effectively follow instructions. Prior work has emphasized the importance of diversity in dataset curation but relied on heuristics such as the number of tasks. In this paper, we use determinantal point processes to capture the diversity and quality of instruction tuning datasets for subset selection. We propose to measure dataset diversity with log determinant distance that is the distance between the dataset of interest and a maximally diverse reference dataset. Our experiments demonstrate that the proposed diversity measure in the normalized weight gradient space is correlated with downstream instruction-following performance. Consequently, it can be used to inform when data selection is the most helpful and to analyze dataset curation strategies. We demonstrate the utility of our approach on various instruction tuning datasets.
翻訳日:2024-02-06 20:37:28 公開日:2024-02-04
# InViT: 不変Nested View Transformerを用いた一般化可能なルーティング問題の解法

INViT: A Generalizable Routing Problem Solver with Invariant Nested View Transformer ( http://arxiv.org/abs/2402.02317v1 )

ライセンス: Link先を確認
Han Fang, Zhihao Song, Paul Weng, Yutong Ban(参考訳) 近年,ルーティング問題を解くための高速ヒューリスティックスを学習する上で,深い強化学習が有望な成果を上げている。 一方、ほとんどの解法は、異なるスケールの未知の分布や分布への一般化に苦しむ。 この問題に対処するため,我々は,ネストした設計をエンコーダ内の不変ビューとともに強制し,学習した解法の一般化性を促進するinvariant nested view transformer (invit)と呼ばれる新しいアーキテクチャを提案する。 データ拡張によって強化されたポリシー勾配アルゴリズムを適用する。 提案したINViTは、様々な分布と異なる問題スケールを持つTSPおよびCVRP問題において、支配的な一般化性能を実現する。

Recently, deep reinforcement learning has shown promising results for learning fast heuristics to solve routing problems. Meanwhile, most of the solvers suffer from generalizing to an unseen distribution or distributions with different scales. To address this issue, we propose a novel architecture, called Invariant Nested View Transformer (INViT), which is designed to enforce a nested design together with invariant views inside the encoders to promote the generalizability of the learned solver. It applies a modified policy gradient algorithm enhanced with data augmentations. We demonstrate that the proposed INViT achieves a dominant generalization performance on both TSP and CVRP problems with various distributions and different problem scales.
翻訳日:2024-02-06 20:37:16 公開日:2024-02-04
# あなたの拡散モデルは 秘密裏に頑健な分類器です

Your Diffusion Model is Secretly a Certifiably Robust Classifier ( http://arxiv.org/abs/2402.02316v1 )

ライセンス: Link先を確認
Huanran Chen, Yinpeng Dong, Shitong Shao, Zhongkai Hao, Xiao Yang, Hang Su, Jun Zhu(参考訳) 拡散モデルは最近、ロバスト分類のための生成的分類器として採用されている。 しかし、拡散分類器の堅牢性に関する包括的な理論的理解はいまだに欠けており、将来のより強力な攻撃に弱いかどうか疑問視する。 本研究では,最先端認定ロバスト性を有する新しい拡散分類器であるノイズ拡散分類器~(ndcs)を提案する。 具体的には、拡散分類器を一般化し、これらの分布に対する証拠の下限(ELBO)を導出し、ELBOを用いて確率を近似し、ベイズの定理による分類確率を計算する。 これらの一般化拡散分類器をランダム化平滑化と統合し,非定数リプシッツ性を有する平滑化分類器を構成する。 実験の結果,提案したNDCの信頼性は良好であった。 特に,CIFAR-10では,それぞれ0.25および0.5未満の標準値を持つ逆摂動下で,80\%+と70\%+の確証されたロバスト性を,追加データを持たない単一オフザシェルフ拡散モデルを用いて達成した。

Diffusion models are recently employed as generative classifiers for robust classification. However, a comprehensive theoretical understanding of the robustness of diffusion classifiers is still lacking, leading us to question whether they will be vulnerable to future stronger attacks. In this study, we propose a new family of diffusion classifiers, named Noised Diffusion Classifiers~(NDCs), that possess state-of-the-art certified robustness. Specifically, we generalize the diffusion classifiers to classify Gaussian-corrupted data by deriving the evidence lower bounds (ELBOs) for these distributions, approximating the likelihood using the ELBO, and calculating classification probabilities via Bayes' theorem. We integrate these generalized diffusion classifiers with randomized smoothing to construct smoothed classifiers possessing non-constant Lipschitzness. Experimental results demonstrate the superior certified robustness of our proposed NDCs. Notably, we are the first to achieve 80\%+ and 70\%+ certified robustness on CIFAR-10 under adversarial perturbations with $\ell_2$ norm less than 0.25 and 0.5, respectively, using a single off-the-shelf diffusion model without any additional data.
翻訳日:2024-02-06 20:37:04 公開日:2024-02-04
# 金融における大規模言語モデル(finllms)の調査

A Survey of Large Language Models in Finance (FinLLMs) ( http://arxiv.org/abs/2402.02315v1 )

ライセンス: Link先を確認
Jean Lee, Nicholas Stevens, Soyeon Caren Han, Minseok Song(参考訳) 大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクで顕著な機能を示しており、金融サービスを含む複数のドメインから注目を集めている。 一般ドメイン LLM の広範な研究と金融への大きな可能性にもかかわらず、金融 LLM (FinLLM) の研究は限られている。 この調査は、FinLLMの歴史、テクニック、パフォーマンス、機会と課題を含む、包括的な概要を提供する。 まず,汎用ドメイン事前学習言語モデル(PLM)について,GPTシリーズ,選択したオープンソースLM,金融LMを含む現在のFinLLMまで,時系列的に概説する。 次に、金融PLMとFinLLMの5つの手法を比較し、トレーニング方法、トレーニングデータ、微調整方法を比較した。 第3に,6つのベンチマークタスクとデータセットのパフォーマンス評価を要約する。 さらに、より洗練されたFinLLMを開発するために、8つの高度な財務NLPタスクとデータセットを提供する。 最後に、幻覚、プライバシー、効率といったFinLLMが直面する機会と課題について論じる。 金融におけるAI研究を支援するため、GitHub上でアクセス可能なデータセットと評価ベンチマークのコレクションをコンパイルします。

Large Language Models (LLMs) have shown remarkable capabilities across a wide variety of Natural Language Processing (NLP) tasks and have attracted attention from multiple domains, including financial services. Despite the extensive research into general-domain LLMs, and their immense potential in finance, Financial LLM (FinLLM) research remains limited. This survey provides a comprehensive overview of FinLLMs, including their history, techniques, performance, and opportunities and challenges. Firstly, we present a chronological overview of general-domain Pre-trained Language Models (PLMs) through to current FinLLMs, including the GPT-series, selected open-source LLMs, and financial LMs. Secondly, we compare five techniques used across financial PLMs and FinLLMs, including training methods, training data, and fine-tuning methods. Thirdly, we summarize the performance evaluations of six benchmark tasks and datasets. In addition, we provide eight advanced financial NLP tasks and datasets for developing more sophisticated FinLLMs. Finally, we discuss the opportunities and the challenges facing FinLLMs, such as hallucination, privacy, and efficiency. To support AI research in finance, we compile a collection of accessible datasets and evaluation benchmarks on GitHub.
翻訳日:2024-02-06 20:36:38 公開日:2024-02-04
# 正規化スケーリング法則による大規模言語モデルからファインチューンへの選択

Selecting Large Language Model to Fine-tune via Rectified Scaling Law ( http://arxiv.org/abs/2402.02314v1 )

ライセンス: Link先を確認
Haowei Lin, Baizhou Huang, Haotian Ye, Qinyu Chen, Zihao Wang, Sujian Li, Jianzhu Ma, Xiaojun Wan, James Zou, Yitao Liang(参考訳) LLMのエコシステムは、オプションの海の中で、最も適切なトレーニング済みモデルを選択することの難しさを招いている。 制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。 本研究では,この資源制約付き選択タスクを,微調整性能の予測に応用し,スケーリング則と自然に結びつくことを示す。 事前学習とは異なり、微調整のスケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。 また,この相転移現象を理論的にも経験的にも捉えることができない理由についても述べる。 そこで本研究では,理論上の制約を克服し,実験結果に合致する「事前学習データサイズ」の概念を定式化したスケーリング則に導入する。 本法則を応用して,資源消費の数百倍の削減で最適に近いモデルを選択する新しいLCM選択アルゴリズムを提案する。

The ever-growing ecosystem of LLMs has posed a challenge in selecting the most appropriate pre-trained model to fine-tune amidst a sea of options. Given constrained resources, fine-tuning all models and making selections afterward is unrealistic. In this work, we formulate this resource-constrained selection task into predicting fine-tuning performance and illustrate its natural connection with scaling laws. Unlike pre-training, We find that the fine-tuning scaling curve includes not just the well-known "power phase" but also the previously unobserved "pre-power phase". We also explain why existing scaling laws fail to capture this phase transition phenomenon both theoretically and empirically. To address this, we introduce the concept of "pre-learned data size" into our rectified scaling law, which overcomes theoretical limitations and fits experimental results much better. By leveraging our law, we propose a novel LLM selection algorithm that selects the near-optimal model with hundreds of times less resource consumption, while other methods may provide negatively correlated selection.
翻訳日:2024-02-06 20:36:18 公開日:2024-02-04
# Timer: スケールでの時系列分析のためのトランスフォーマー

Timer: Transformers for Time Series Analysis at Scale ( http://arxiv.org/abs/2402.02368v1 )

ライセンス: Link先を確認
Yong Liu, Haoran Zhang, Chenyu Li, Xiangdong Huang, Jianmin Wang, Mingsheng Long(参考訳) 深層学習は時系列分析の進歩に大きく貢献している。 それでも、実世界の小さなサンプルシナリオでは、深いモデルはパフォーマンスのボトルネックに遭遇する可能性がある。 一方、大規模モデルはこれらのシナリオにおいて大規模な事前学習を通じて大きな力を発揮している。 大規模言語モデルの出現は、数ショットの一般化、スケーラビリティ、タスクの汎用性において前例のない能力を示すが、時系列モデルでは欠落している。 特定のデータセット上で小さなモデルをスクラッチからトレーニングする現在のプラクティスを変えるため、本論文は大規模時系列モデル(ltsm)の初期開発を目指している。 事前トレーニング中、最大10億のタイムポイントを持つ大規模データセットをキュレートし、異種時系列を単一系列シーケンス(S3)に統一し、LTSMに向けてGPTスタイルのアーキテクチャを開発する。 多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。 本研究の成果は時系列トランスフォーマー(timer)であり,大規模マルチドメインデータセットに対する自動回帰次トークン予測によって事前学習され,ltsmとして有望な能力を持つ下流シナリオに微調整される。

Deep learning has contributed remarkably to the advancement of time series analysis. Still, deep models can encounter performance bottlenecks in real-world small-sample scenarios, which can be concealed due to the performance saturation with small models on current benchmarks. Meanwhile, large models have demonstrated great powers in these scenarios through large-scale pre-training. Continuous progresses have been achieved as the emergence of large language models, exhibiting unprecedented ability in few-shot generalization, scalability, and task generality, which is however absent in time series models. To change the current practices of training small models on specific datasets from scratch, this paper aims at an early development of large time series models (LTSM). During pre-training, we curate large-scale datasets with up to 1 billion time points, unify heterogeneous time series into single-series sequence (S3) format, and develop the GPT-style architecture toward LTSMs. To meet diverse application needs, we convert forecasting, imputation, and anomaly detection of time series into a unified generative task. The outcome of this study is a Time Series Transformer (Timer), that is pre-trained by autoregressive next token prediction on large multi-domain datasets, and is fine-tuned to downstream scenarios with promising abilities as an LTSM.
翻訳日:2024-02-06 20:28:19 公開日:2024-02-04
# 分類・回帰問題におけるポテンシャルモデル性能向上のためのパラダイム 概念実証

A Paradigm for Potential Model Performance Improvement in Classification and Regression Problems. A Proof of Concept ( http://arxiv.org/abs/2402.02354v1 )

ライセンス: Link先を確認
Francisco Javier Lobo-Cabrera(参考訳) モデル予測性能の向上を目指す方法論を提示する。 この手法では、属性間の関係を相互の関数として捉える複数の補助モデルを生成する。 このような情報は、ターゲット予測を強化する可能性があるデータセットに付加的な情報列を生成するのに役立つ。 ケースの証明と関連するコードが提供される。

A methodology that seeks to enhance model prediction performance is presented. The method involves generating multiple auxiliary models that capture relationships between attributes as a function of each other. Such information serves to generate additional informative columns in the dataset that can potentially enhance target prediction. A proof of case and related code is provided.
翻訳日:2024-02-06 20:27:57 公開日:2024-02-04
# 地域表現の再検討

Region-Based Representations Revisited ( http://arxiv.org/abs/2402.02352v1 )

ライセンス: Link先を確認
Michal Shlapentokh-Rothman, Ansel Blume, Yao Xiao, Yuqun Wu, Sethuraman T V, Heyi Tao, Jae Yong Lee, Wilfredo Torres, Yu-Xiong Wang, Derek Hoiem(参考訳) 地域表現が認識に有効かどうかを検討する。 リージョンはかつては認識アプローチのメインステイだったが、ピクセルとパッチベースの機能は現在ではほぼ完全に使用されている。 近年のSAMのようなクラスに依存しないセグメンタは,DINOv2のような強力な教師なし表現と効果的に結合することができ,セグメンテーションやオブジェクトベース画像検索,マルチイメージ解析など,多種多様なタスクに利用できることを示す。 仮面と特徴が抽出されると、これらの表現は線形デコーダを使っても競合性能を実現し、カスタムクエリを必要とするアプリケーションに適している。 表現のコンパクトさは、ビデオ解析や他の多くの画像にまたがる推論を必要とする問題にも適している。

We investigate whether region-based representations are effective for recognition. Regions were once a mainstay in recognition approaches, but pixel and patch-based features are now used almost exclusively. We show that recent class-agnostic segmenters like SAM can be effectively combined with strong unsupervised representations like DINOv2 and used for a wide variety of tasks, including semantic segmentation, object-based image retrieval, and multi-image analysis. Once the masks and features are extracted, these representations, even with linear decoders, enable competitive performance, making them well suited to applications that require custom queries. The compactness of the representation also makes it well-suited to video analysis and other problems requiring inference across many images.
翻訳日:2024-02-06 20:27:54 公開日:2024-02-04
# ダウンリンクLEO衛星ネットワークのための干渉対応創発的ランダムアクセスプロトコル

Interference-Aware Emergent Random Access Protocol for Downlink LEO Satellite Networks ( http://arxiv.org/abs/2402.02350v1 )

ライセンス: Link先を確認
Chang-Yong Lim, Jihong Park, Jinho Choi, Ju-Hyung Lee, Daesub Oh, Heewook Kim(参考訳) 本稿では、低地球軌道(LEO)衛星ネットワークをダウンリンクするための多重アクセスプロトコルを訓練するためのマルチエージェント深部強化学習(MADRL)フレームワークを提案する。 既存の学習プロトコルであるeRACHの改良により,eRACH(Ce2RACH)のための集中型および圧縮型創発型シグナリング法(eRACH)が,MADRLトレーニングプロセスを通じて学習した追加のシグナリングメッセージを交換することにより,サテライト間干渉を軽減することができる。 Ce2RACHはeRACHに比べて最大36.65%高いスループットを実現し、メッセージの合理化コストはユーザ数と直線的に増加する。

In this article, we propose a multi-agent deep reinforcement learning (MADRL) framework to train a multiple access protocol for downlink low earth orbit (LEO) satellite networks. By improving the existing learned protocol, emergent random access channel (eRACH), our proposed method, coined centralized and compressed emergent signaling for eRACH (Ce2RACH), can mitigate inter-satellite interference by exchanging additional signaling messages jointly learned through the MADRL training process. Simulations demonstrate that Ce2RACH achieves up to 36.65% higher network throughput compared to eRACH, while the cost of signaling messages increase linearly with the number of users.
翻訳日:2024-02-06 20:27:39 公開日:2024-02-04
# ファインチューニング基礎モデルのためのリーマン事前条件付きLORA

Riemannian Preconditioned LoRA for Fine-Tuning Foundation Models ( http://arxiv.org/abs/2402.02347v1 )

ライセンス: Link先を確認
Fangzhao Zhang, Mert Pilanci(参考訳) 本研究では,Riemann プレコンディショナーを最適化ステップに導入することにより,ローランク適応(LoRA)微調整手順の強化について検討する。 具体的には、各勾配ステップに$r\times r$ preconditionerを導入し、$r$はLoRAランクである。 このプリコンディショナーは既存のオプティマイザコードに小さな変更を要し、事実上最小のストレージと実行時のオーバーヘッドを生成する。 大規模言語モデルとテキスト・画像拡散モデルの両方による実験結果から,SGDとAdamWの収束性と信頼性が著しく向上できることが示唆された。 さらに、トレーニングプロセスは、学習率などのハイパーパラメータ選択に対して、より堅牢になる。 理論的には、凸並列化における2層ReLUネットワークの微調整は、データ行列の条件数に依存しない収束率を持つことを示す。 この新しいリーマン型プリコンディショナーは、従来の低ランクマトリックスリカバリで研究され、我々の仕事で初めてディープラーニングタスクに導入されました。 コードをhttps://github.com/pilancilab/Riemannian_Preconditioned_LoRAでリリースします。

In this work we study the enhancement of Low Rank Adaptation (LoRA) fine-tuning procedure by introducing a Riemannian preconditioner in its optimization step. Specifically, we introduce an $r\times r$ preconditioner in each gradient step where $r$ is the LoRA rank. This preconditioner requires a small change to existing optimizer code and creates virtually minuscule storage and runtime overhead. Our experimental results with both large language models and text-to-image diffusion models show that with our preconditioner, the convergence and reliability of SGD and AdamW can be significantly enhanced. Moreover, the training process becomes much more robust to hyperparameter choices such as learning rate. Theoretically, we show that fine-tuning a two-layer ReLU network in the convex paramaterization with our preconditioner has convergence rate independent of condition number of the data matrix. This new Riemannian preconditioner, previously explored in classic low-rank matrix recovery, is introduced to deep learning tasks for the first time in our work. We release our code at https://github.com/pilancilab/Riemannian_Preconditioned_LoRA.
翻訳日:2024-02-06 20:27:24 公開日:2024-02-04
# β$-vae蒸留と拡散確率フィードバックを用いた閉ループ非教師なし表現乱れ

Closed-Loop Unsupervised Representation Disentanglement with $\beta$-VAE Distillation and Diffusion Probabilistic Feedback ( http://arxiv.org/abs/2402.02346v1 )

ライセンス: Link先を確認
Xin Jin, Bohan Li, BAAO Xie, Wenyao Zhang, Jinming Liu, Ziqiang Li, Tao Yang, Wenjun Zeng(参考訳) 表現の混乱は、AIが現実世界を根本的に理解し、差別と生成の両方に利益をもたらす可能性がある。 現在、未解決のコア問題が3つあります。 (i) ラベルアノテーションと合成データに重きを置くこと -- 自然シナリオの一般化に支障をきたすこと。 二 ヒューリスティック/手工芸の解禁制約により、最適な訓練トレードオフを適応的に達成することが困難となること。 三) 正確な評価基準の欠如、特に実ラベルフリーデータについて。 これらの課題に対処するために, \textbf{C}losed-\textbf{L}oop unsupervised representation \textbf{Dis}entanglement approach called \textbf{CL-Dis} を提案する。 具体的には、拡散に基づくオートエンコーダ(Diff-AE)をバックボーンとして使用し、$\beta$-VAEをコパイロットとして使用し、意味的不整合表現を抽出する。 拡散モデルの強い生成能力とVAEモデルの優れた解離能力は相補的である。 密接化を強化するため、VAEラテント蒸留と拡散度フィードバックを閉ループシステムで相互に相互に促進するために相互接続する。 次に、自己教師付き \textbf{Navigation} 戦略を導入し、非絡み付き潜在空間における解釈可能な意味方向を特定する。 最後に, コンテンツ追跡に基づく新しい指標を考案し, 絡み合い効果の評価を行った。 実画像操作や視覚解析といったアプリケーションにおけるCL-Disの優位性を示す実験がある。

Representation disentanglement may help AI fundamentally understand the real world and thus benefit both discrimination and generation tasks. It currently has at least three unresolved core issues: (i) heavy reliance on label annotation and synthetic data -- causing poor generalization on natural scenarios; (ii) heuristic/hand-craft disentangling constraints make it hard to adaptively achieve an optimal training trade-off; (iii) lacking reasonable evaluation metric, especially for the real label-free data. To address these challenges, we propose a \textbf{C}losed-\textbf{L}oop unsupervised representation \textbf{Dis}entanglement approach dubbed \textbf{CL-Dis}. Specifically, we use diffusion-based autoencoder (Diff-AE) as a backbone while resorting to $\beta$-VAE as a co-pilot to extract semantically disentangled representations. The strong generation ability of diffusion model and the good disentanglement ability of VAE model are complementary. To strengthen disentangling, VAE-latent distillation and diffusion-wise feedback are interconnected in a closed-loop system for a further mutual promotion. Then, a self-supervised \textbf{Navigation} strategy is introduced to identify interpretable semantic directions in the disentangled latent space. Finally, a new metric based on content tracking is designed to evaluate the disentanglement effect. Experiments demonstrate the superiority of CL-Dis on applications like real image manipulation and visual analysis.
翻訳日:2024-02-06 20:27:08 公開日:2024-02-04
# 立体球状スライスワッサースタイン距離

Stereographic Spherical Sliced Wasserstein Distances ( http://arxiv.org/abs/2402.02345v1 )

ライセンス: Link先を確認
Huy Tran, Yikun Bai, Abihith Kothapalli, Ashkan Shahbazi, Xinran Liu, Rocio Diaz Martin, Soheil Kolouri(参考訳) 球面確率分布の比較は、地質学、医学領域、コンピュータビジョン、深層表現学習など様々な分野に非常に興味を持っている。 確率測度を比較するためのワッサーシュタイン距離などの最適輸送ベース距離の有用性は、球面確率測度に対するこれらの距離の計算的に効率的なバリエーションを開発するための活発な研究を刺激している。 本稿では,立体射影法と一般化ラドン変換法を用いて球面測度を比較するための高速かつ高並列化可能な距離について紹介する。 立体射影による距離歪みを慎重に取り扱うとともに,提案する計量と回転不変変動の広範な理論的解析を行う。 最後に、提案手法の性能評価を行い、勾配流や自己教師付き学習を含む幅広い数値研究を通して、速度と精度の両面から、最近のベースラインと比較する。

Comparing spherical probability distributions is of great interest in various fields, including geology, medical domains, computer vision, and deep representation learning. The utility of optimal transport-based distances, such as the Wasserstein distance, for comparing probability measures has spurred active research in developing computationally efficient variations of these distances for spherical probability measures. This paper introduces a high-speed and highly parallelizable distance for comparing spherical measures using the stereographic projection and the generalized Radon transform, which we refer to as the Stereographic Spherical Sliced Wasserstein (S3W) distance. We carefully address the distance distortion caused by the stereographic projection and provide an extensive theoretical analysis of our proposed metric and its rotationally invariant variation. Finally, we evaluate the performance of the proposed metrics and compare them with recent baselines in terms of both speed and accuracy through a wide range of numerical studies, including gradient flows and self-supervised learning.
翻訳日:2024-02-06 20:26:41 公開日:2024-02-04
# 量子テレポーテーションにおけるノイズ緩和

Noise mitigation in quantum teleportation ( http://arxiv.org/abs/2402.02343v1 )

ライセンス: Link先を確認
Zi-Jian Xu, Jun-Hong An(参考訳) 量子テレポーテーション(quantum teleportation)は、多くの量子技術において重要な構成要素である。 しかし、ノイズによって引き起こされるデコヒーレンスによって量子テレポーテーションの実用的な実現は必然的に挑戦される。 本稿では,離散型および連続型の量子テレポーテーション方式に適用可能な雑音緩和機構を提案する。 2種類の量子テレポーテーションスキームの非マルコフ的デコヒーレンスダイナミクスを調査した結果、関連するサブシステムとそれらの貯水池からなる全系のエネルギースペクトルにおいて境界状態が形成される限り、その忠実性の量子的優位性は持続的に回復されることがわかった。 ノイズ緩和プロトコルに関する洞察に富んだ理解を提供するため,ノイズ耐性量子テレポーテーションの実現への道を開いた。

Permitting the transmission of unknown quantum states over long distances by using entanglement, quantum teleportation serves as an important building block for many quantum technologies. However, in the noisy intermediate-scale quantum era, the practical realization of quantum teleportation is inevitably challenged by the noise-induced decoherence. We here propose a noise mitigation mechanism applicable in both the discrete- and continuous-variable quantum teleportation schemes. Via investigating the non-Markovian decoherence dynamics of the two types of quantum teleportation schemes, we find that, as long as a bound state is formed in the energy spectrum of the total system consisting of the involved subsystems and their respective reservoirs, the quantum superiority of the fidelity is persistently recovered. Supplying an insightful understanding on the noise mitigation protocols, our result paves the way to the practical realization of noise-tolerant quantum teleportation.
翻訳日:2024-02-06 20:26:25 公開日:2024-02-04
# metaoptimize: ステップサイズや他のメタパラメータを最適化するフレームワーク

MetaOptimize: A Framework for Optimizing Step Sizes and Other Meta-parameters ( http://arxiv.org/abs/2402.02342v1 )

ライセンス: Link先を確認
Arsalan Sharifnassab, Saber Salehkaleybar, Richard Sutton(参考訳) 本稿では,機械学習アルゴリズムにおけるメタパラメータ(ハイパーパラメータ)の最適化という課題に対処する。 計算コストのかかる従来のメタパラメータ探索手法から離れ、トレーニング中にメタパラメータ、特にステップサイズ(学習率)を動的に調整するメタ最適化フレームワークを導入する。 より具体的には、metaoptimizeは任意の一階最適化アルゴリズムをラップし、ステップサイズをオンザフライで調整することで、トレーニングにおけるステップサイズによる長期的な影響を考慮した、特定の後悔を最小限に抑えることができる。 また,MetaOptimizeの低複雑性な変種を導入し,複数の最適化アルゴリズムへの適応性とともに,さまざまな機械学習アプリケーションにまたがる手作り学習率の最高のスケジュールに匹敵する性能を示す。

This paper addresses the challenge of optimizing meta-parameters (i.e., hyperparameters) in machine learning algorithms, a critical factor influencing training efficiency and model performance. Moving away from the computationally expensive traditional meta-parameter search methods, we introduce MetaOptimize framework that dynamically adjusts meta-parameters, particularly step sizes (also known as learning rates), during training. More specifically, MetaOptimize can wrap around any first-order optimization algorithm, tuning step sizes on the fly to minimize a specific form of regret that accounts for long-term effect of step sizes on training, through a discounted sum of future losses. We also introduce low complexity variants of MetaOptimize that, in conjunction with its adaptability to multiple optimization algorithms, demonstrate performance competitive to those of best hand-crafted learning rate schedules across various machine learning applications.
翻訳日:2024-02-06 20:26:10 公開日:2024-02-04
# 深層学習におけるパラメータ効率の良い微調整のための視覚プロンプトからのセマンティックプロキシの学習

Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning ( http://arxiv.org/abs/2402.02340v1 )

ライセンス: Link先を確認
Li Ren, Chen Chen, Liqiang Wang, Kien Hua(参考訳) ディープラーニング(Deep Metric Learning, DML)は、機械学習コミュニティの注目を集めてきた。 既存のソリューションは、トレーニング済みのモデルを従来のイメージデータセットで微調整することに集中している。 大規模データセットからトレーニングされた最近の事前学習モデルの成功により、これまで得られた知識を維持しながら、ローカルデータ領域のDMLタスクにモデルを適応することは困難である。 本稿では,DMLタスクの事前学習モデルを微調整するためのパラメータ効率の手法について検討する。 特に,事前学習された視覚トランスフォーマー (vit) における学習視覚プロンプト (vpt) に基づく新しい効果的なフレームワークを提案する。 従来のプロキシベースのDMLパラダイムに基づいて、入力画像とViTからのセマンティック情報を組み込むことでプロキシを強化し、各クラスに対する視覚的プロンプトを最適化する。 我々は,意味情報を用いた新しい近似が代表的能力よりも優れていることを実証し,メートル法学習性能を向上した。 提案するフレームワークは,一般的なDMLベンチマークを評価することで,効率的かつ効果的であることを示す。 特に,我々の微調整手法は,dmlの最新の完全微調整作業と同等あるいはそれ以上の性能を達成できるが,全体のパラメータの微調整は少ない。

Deep Metric Learning (DML) has long attracted the attention of the machine learning community as a key objective. Existing solutions concentrate on fine-tuning the pre-trained models on conventional image datasets. As a result of the success of recent pre-trained models trained from larger-scale datasets, it is challenging to adapt the model to the DML tasks in the local data domain while retaining the previously gained knowledge. In this paper, we investigate parameter-efficient methods for fine-tuning the pre-trained model for DML tasks. In particular, we propose a novel and effective framework based on learning Visual Prompts (VPT) in the pre-trained Vision Transformers (ViT). Based on the conventional proxy-based DML paradigm, we augment the proxy by incorporating the semantic information from the input image and the ViT, in which we optimize the visual prompts for each class. We demonstrate that our new approximations with semantic information are superior to representative capabilities, thereby improving metric learning performance. We conduct extensive experiments to demonstrate that our proposed framework is effective and efficient by evaluating popular DML benchmarks. In particular, we demonstrate that our fine-tuning method achieves comparable or even better performance than recent state-of-the-art full fine-tuning works of DML while tuning only a small percentage of total parameters.
翻訳日:2024-02-06 20:25:52 公開日:2024-02-04
# 人間の3次元姿勢推定のための不確かさを意識したテスト時間最適化

Uncertainty-Aware Testing-Time Optimization for 3D Human Pose Estimation ( http://arxiv.org/abs/2402.02339v1 )

ライセンス: Link先を確認
Ti Wang, Mengyuan Liu, Hong Liu, Bin Ren, Yingxuan You, Wenhao Li, Nicu Sebe, Xia Li(参考訳) データ駆動手法は3次元人間のポーズ推定で成功を収めているが、しばしばドメインギャップに苦しみ、限定的な一般化を示す。 対照的に、最適化に基づく手法は特定のケースの微調整に優れるが、全体的な性能はデータ駆動方式に劣る。 従来の最適化手法は2次元空間におけるアライメントのみを保証するプロジェクション制約に依存しており、オーバーフィッティングの問題につながる可能性がある。 そこで本研究では,事前学習モデルの事前情報を保持し,ジョイントの不確実性を用いた過剰フィッティング問題を緩和する,不確実性対応テスト時間最適化(uao)フレームワークを提案する。 具体的には,各3次元関節の不確かさを定量化しつつ,対応する3次元ポーズを推定する効果的な2次元から3次元ネットワークを設計する。 テスト中の最適化のために提案された最適化フレームワークは、事前訓練されたモデルを凍結し、遅延状態のみを最適化する。 投影損失は、生成されたポーズが高品質な最適化のために2次元空間によく整列することを保証するために使われる。 さらに,各関節の不確実性を利用して,各関節がどの程度の最適化が可能かを決定する。 提案手法の有効性と優位性は,Human3.6M と MPI-INF-3DHP の2つの挑戦的データセットに対する広範な実験により検証された。 特に、我々のアプローチは、Human3.6Mの4.5%という大きなマージンで、これまでの最高の結果を上回っている。 ソースコードはオープンソースになります。

Although data-driven methods have achieved success in 3D human pose estimation, they often suffer from domain gaps and exhibit limited generalization. In contrast, optimization-based methods excel in fine-tuning for specific cases but are generally inferior to data-driven methods in overall performance. We observe that previous optimization-based methods commonly rely on projection constraint, which only ensures alignment in 2D space, potentially leading to the overfitting problem. To address this, we propose an Uncertainty-Aware testing-time Optimization (UAO) framework, which keeps the prior information of pre-trained model and alleviates the overfitting problem using the uncertainty of joints. Specifically, during the training phase, we design an effective 2D-to-3D network for estimating the corresponding 3D pose while quantifying the uncertainty of each 3D joint. For optimization during testing, the proposed optimization framework freezes the pre-trained model and optimizes only a latent state. Projection loss is then employed to ensure the generated poses are well aligned in 2D space for high-quality optimization. Furthermore, we utilize the uncertainty of each joint to determine how much each joint is allowed for optimization. The effectiveness and superiority of the proposed framework are validated through extensive experiments on two challenging datasets: Human3.6M and MPI-INF-3DHP. Notably, our approach outperforms the previous best result by a large margin of 4.5% on Human3.6M. Our source code will be open-sourced.
翻訳日:2024-02-06 20:25:29 公開日:2024-02-04
# ネットワークのための大規模言語モデル適応

Large Language Model Adaptation for Networking ( http://arxiv.org/abs/2402.02338v1 )

ライセンス: Link先を確認
Duo Wu, Xianda Wang, Yaqi Qiao, Zhi Wang, Junchen Jiang, Shuguang Cui, Fangxin Wang(参考訳) 多くのネットワークタスクでは、複雑な予測とシステムの最適化問題を解決するためにディープラーニング(DL)を採用している。 しかし、DLベースのアルゴリズムの現在の設計哲学は、異なるネットワークタスクのためのディープニューラルネットワーク(DNN)の手動設計のために、エンジニアリングのオーバーヘッドが集中的に伴う。 さらに、DNNは目に見えないデータ分散/環境の一般化性能が低い傾向にある。 近年の大規模言語モデル(LLM)の成功に触発されたこの研究は、より持続可能な設計哲学を探求するために、ネットワークへのLLM適応を初めて研究した。 膨大な事前学習された知識と強力な推論能力により、LLMは基礎モデルとして機能し、より優れたパフォーマンスと様々なタスクのより強力な一般化を期待できる。 本稿では,ネットワーク問題を解決するためにLLMを効率的に適用する最初のLLM適応フレームワークであるNetLLMを提案する。 NetLLMは、LLMでタスク固有の情報を処理する方法、回答生成の効率向上、ネットワークのドメイン知識獲得など、LLM適応における多くの実践的な課題に対処する。 ネットワーク関連ユースケースとして、ビューポート予測(VP)、適応ビットレートストリーミング(ABR)、クラスタジョブスケジューリング(CJS)の3つを挙げ、ネットワークへのLLM適応におけるNetLLMの有効性を示す。 その結果,適応LLMはVPが10.1-36.6%,ABRが14.5-36.6%,CJSが6.8-41.3%,一般化性能が優れていることがわかった。

Many networking tasks now employ deep learning (DL) to solve complex prediction and system optimization problems. However, current design philosophy of DL-based algorithms entails intensive engineering overhead due to the manual design of deep neural networks (DNNs) for different networking tasks. Besides, DNNs tend to achieve poor generalization performance on unseen data distributions/environments. Motivated by the recent success of large language models (LLMs), for the first time, this work studies the LLM adaptation for networking to explore a more sustainable design philosophy. With the massive pre-trained knowledge and powerful inference ability, LLM can serve as the foundation model, and is expected to achieve "one model for all" with even better performance and stronger generalization for various tasks. In this paper, we present NetLLM, the first LLM adaptation framework that efficiently adapts LLMs to solve networking problems. NetLLM addresses many practical challenges in LLM adaptation, from how to process task-specific information with LLMs, to how to improve the efficiency of answer generation and acquiring domain knowledge for networking. Across three networking-related use cases - viewport prediction (VP), adaptive bitrate streaming (ABR) and cluster job scheduling (CJS), we showcase the effectiveness of NetLLM in LLM adaptation for networking. Results show that the adapted LLM surpasses state-of-the-art algorithms by 10.1-36.6% for VP, 14.5-36.6% for ABR, 6.8-41.3% for CJS, and also achieves superior generalization performance.
翻訳日:2024-02-06 20:25:03 公開日:2024-02-04
# ビデオ検索のためのビデオ編集

Video Editing for Video Retrieval ( http://arxiv.org/abs/2402.02335v1 )

ライセンス: Link先を確認
Bin Zhu, Kevin Flanagan, Adriano Fragomeni, Michael Wray, Dima Damen(参考訳) 事前学習された視覚言語モデルは、大規模なWebビデオからビデオテキスト検索のパフォーマンスを向上する上で大きなメリットを示しているが、細調整は、開始時と終了時に手動の注釈付きクリップで重要な役割を果たす。 この問題に対処するために、ビデオテキスト検索のためのより安価なアノテーションソースであるシングルタイムスタンプを探索する。 タイムスタンプからのクリップをヒューリスティックな方法で初期化し、検索モデルをウォームアップする。 そこで, ビデオクリップ編集手法を提案し, 初期粗境界を改良し, 検索性能を向上させる。 ビデオクリップ編集のための学生-教師ネットワークを導入する。 教師モデルはトレーニングセットのクリップを編集するために使われ、生徒モデルは編集されたクリップでトレーニングします。 教師の体重は、生徒のパフォーマンスが向上した後、生徒から更新される。 本手法はモデル非依存であり,任意の検索モデルに適用できる。 我々は3つの最先端検索モデル(COOT, VideoCLIP, CLIP4Clip)に基づいて実験を行った。 3つのビデオ検索データセット、YouCook2、DiDeMo、ActivityNet-Captionsで行った実験では、編集済みクリップは3つの検索モデルすべてにわたって、初期クリップよりも検索性能を一貫して改善している。

Though pre-training vision-language models have demonstrated significant benefits in boosting video-text retrieval performance from large-scale web videos, fine-tuning still plays a critical role with manually annotated clips with start and end times, which requires considerable human effort. To address this issue, we explore an alternative cheaper source of annotations, single timestamps, for video-text retrieval. We initialise clips from timestamps in a heuristic way to warm up a retrieval model. Then a video clip editing method is proposed to refine the initial rough boundaries to improve retrieval performance. A student-teacher network is introduced for video clip editing. The teacher model is employed to edit the clips in the training set whereas the student model trains on the edited clips. The teacher weights are updated from the student's after the student's performance increases. Our method is model agnostic and applicable to any retrieval models. We conduct experiments based on three state-of-the-art retrieval models, COOT, VideoCLIP and CLIP4Clip. Experiments conducted on three video retrieval datasets, YouCook2, DiDeMo and ActivityNet-Captions show that our edited clips consistently improve retrieval performance over initial clips across all the three retrieval models.
翻訳日:2024-02-06 20:24:36 公開日:2024-02-04
# 深層学習に必要な算数的特徴相互作用

Arithmetic Feature Interaction Is Necessary for Deep Tabular Learning ( http://arxiv.org/abs/2402.02334v1 )

ライセンス: Link先を確認
Yi Cheng, Renjun Hu, Haochao Ying, Xing Shi, Jian Wu, Wei Lin(参考訳) 最近まで、表データにおける深層モデルの効果的な帰納的バイアスの問題は未解決のままである。 本稿では,表層学習に算術的特徴相互作用が必要であるという仮説を考察する。 この点をテストするために、軽度の特徴相互作用を仮定した合成表式データセットを作成し、AMFormerと呼ばれる算術的特徴相互作用を実現する変換器アーキテクチャを検証した。 その結果、AMFormerは、きめ細かい表データモデリング、トレーニングにおけるデータ効率、一般化において、優れた性能を発揮することがわかった。 これは、並列加法と乗法的注意演算子とプロンプトベース最適化により、算術的な特徴を持つ拡張空間における表型サンプルの分離が容易になったためである。 実世界のデータに関する広範な実験は、amformerの一貫性のある有効性、効率性、理論的根拠を検証し、表データによる深層学習に対する強い帰納的バイアスを確立したことを示唆している。 コードはhttps://github.com/aigc-apps/amformerで入手できる。

Until recently, the question of the effective inductive bias of deep models on tabular data has remained unanswered. This paper investigates the hypothesis that arithmetic feature interaction is necessary for deep tabular learning. To test this point, we create a synthetic tabular dataset with a mild feature interaction assumption and examine a modified transformer architecture enabling arithmetical feature interactions, referred to as AMFormer. Results show that AMFormer outperforms strong counterparts in fine-grained tabular data modeling, data efficiency in training, and generalization. This is attributed to its parallel additive and multiplicative attention operators and prompt-based optimization, which facilitate the separation of tabular samples in an extended space with arithmetically-engineered features. Our extensive experiments on real-world data also validate the consistent effectiveness, efficiency, and rationale of AMFormer, suggesting it has established a strong inductive bias for deep learning on tabular data. Code is available at https://github.com/aigc-apps/AMFormer.
翻訳日:2024-02-06 20:24:14 公開日:2024-02-04
# 再構成可能な光ネットワークを用いた多重全光置換演算

Multiplexed all-optical permutation operations using a reconfigurable diffractive optical network ( http://arxiv.org/abs/2402.02397v1 )

ライセンス: Link先を確認
Guangdong Ma, Xilin Yang, Bijie Bai, Jingxi Li, Yuhang Li, Tianyi Gan, Che-Yung Shen, Yijie Zhang, Yuzhu Li, Mona Jarrahi, Aydogan Ozcan(参考訳) 大規模かつ高次元の置換操作は、通信や暗号化といった様々な用途において重要である。 ここでは、全光回折計算を用いて、差動光学ネットワークにおける層回転による入力場と出力場の間の高次元の置換演算を実行する。 ディープラーニングによって設計された再構成可能な多重化材料では、すべての回折層は0,90,180,270度の4つの方向を持つ。 これらの回転可能な層のそれぞれのユニークな組み合わせは、特定の置換操作に適した回折設計の異なる回転状態を表す。 したがって、k層回転可能な回折材料は、4^kの独立置換操作を全て光学的に行うことができる。 元の入力情報は、特定の逆置換行列を出力パターンに適用して復号することができ、他の逆演算を適用すると情報の損失につながる。 k=4ロタブル回折層を用いて256個のランダム選択置換行列を近似することにより,この再構成可能な多重拡散型設計の実現可能性を示した。 また,terahertz放射と3dプリント回折層を用いて,この再構成可能な回折ネットワークを実験的に検証した。 提案した回転多重化拡散プロセッサの設計は、機械的再構成性のために特に有用であり、単一の製造プロセスを通じて多機能表現を提供する。

Large-scale and high-dimensional permutation operations are important for various applications in e.g., telecommunications and encryption. Here, we demonstrate the use of all-optical diffractive computing to execute a set of high-dimensional permutation operations between an input and output field-of-view through layer rotations in a diffractive optical network. In this reconfigurable multiplexed material designed by deep learning, every diffractive layer has four orientations: 0, 90, 180, and 270 degrees. Each unique combination of these rotatable layers represents a distinct rotation state of the diffractive design tailored for a specific permutation operation. Therefore, a K-layer rotatable diffractive material is capable of all-optically performing up to 4^K independent permutation operations. The original input information can be decrypted by applying the specific inverse permutation matrix to output patterns, while applying other inverse operations will lead to loss of information. We demonstrated the feasibility of this reconfigurable multiplexed diffractive design by approximating 256 randomly selected permutation matrices using K=4 rotatable diffractive layers. We also experimentally validated this reconfigurable diffractive network using terahertz radiation and 3D-printed diffractive layers, providing a decent match to our numerical results. The presented rotation-multiplexed diffractive processor design is particularly useful due to its mechanical reconfigurability, offering multifunctional representation through a single fabrication process.
翻訳日:2024-02-06 20:15:33 公開日:2024-02-04
# PromptRR: 単体反射除去用プロンプト発電機としての拡散モデル

PromptRR: Diffusion Models as Prompt Generators for Single Image Reflection Removal ( http://arxiv.org/abs/2402.02374v1 )

ライセンス: Link先を確認
Tao Wang, Wanglong Lu, Kaihao Zhang, Wenhan Luo, Tae-Kyun Kim, Tong Lu, Hongdong Li, Ming-Hsuan Yang(参考訳) ディープラーニングを用いた既存の単一画像反射除去法(SIRR)は、画像のキー低周波(LF)と高周波(HF)の違いを見逃しがちであり、反射除去の有効性に影響を及ぼす。 この問題に対処するために,周波数情報を新しい視覚的プロンプトとして用いた新しいプロンプト誘導反射除去(PromptRR)フレームワークを提案する。 特に,提案手法では,リフレクション除去プロセスをプロンプト生成と後続のプロンプトガイド修復に分離する。 提案手法は,まず,提案手法を用いて,地上の映像をLFおよびHFプロンプトに符号化する周波数プロンプトエンコーダを訓練する。 次に、拡散モデル(DM)をプロンプト生成器として採用し、プレトレーニング周波数プロンプトエンコーダによって推定されるLFおよびHFプロンプトを生成する。 本稿では,PromptFormerネットワークに特別なプロンプトを組み込み,新しいTransformerベースのプロンプトブロックを用いて,改良されたリフレクション除去に向けてモデルを効果的に操る。 ベンチマークの結果から,本手法は最先端手法よりも優れていることが示された。 コードとモデルはhttps://github.com/taowangzj/promptrrで入手できる。

Existing single image reflection removal (SIRR) methods using deep learning tend to miss key low-frequency (LF) and high-frequency (HF) differences in images, affecting their effectiveness in removing reflections. To address this problem, this paper proposes a novel prompt-guided reflection removal (PromptRR) framework that uses frequency information as new visual prompts for better reflection performance. Specifically, the proposed framework decouples the reflection removal process into the prompt generation and subsequent prompt-guided restoration. For the prompt generation, we first propose a prompt pre-training strategy to train a frequency prompt encoder that encodes the ground-truth image into LF and HF prompts. Then, we adopt diffusion models (DMs) as prompt generators to generate the LF and HF prompts estimated by the pre-trained frequency prompt encoder. For the prompt-guided restoration, we integrate specially generated prompts into the PromptFormer network, employing a novel Transformer-based prompt block to effectively steer the model toward enhanced reflection removal. The results on commonly used benchmarks show that our method outperforms state-of-the-art approaches. The codes and models are available at https://github.com/TaoWangzj/PromptRR.
翻訳日:2024-02-06 20:15:15 公開日:2024-02-04
# 連続変数系における非断熱ホロノミック量子演算

Non-adiabatic holonomic quantum operations in continuous variable systems ( http://arxiv.org/abs/2402.02373v1 )

ライセンス: Link先を確認
Hao-Long Zhang, Yi-Hao Kang, Fan Wu, Zhen-Biao Yang, Shi-Biao Zheng(参考訳) 物理系で生成する幾何学的位相を利用する量子演算は、その潜在的堅牢性のために好まれる。 非退化固有状態の系がハミルトニアンに支配される断熱的に循環的な進化を行うと、ベリー位相と呼ばれる幾何学的位相が得られる。 非断熱的循環的進化はアハロノフ・アンダン幾何学相を生成する。 アベリア幾何学相の2つのタイプは、位相因子が行列値となり、異なるループに関連する変換が非可換である非アベリアの場合まで拡張される。 アベリア式および非アベリア式(ホロノミック式)の演算は、限定的な(例えば2つの)エネルギーレベルを持つ離散変数系において、量子ビットを形成する。 連続系におけるそれらの発展は、主にそれゆえ研究されているが、大きなヒルベルト空間を持つボソニックモード(例えば猫状態)は、フォールトトレラント量子計算において潜在的な利点をもたらす。 ここでは,cat符号を持つ連続変数系における非断熱ホロノミック量子論理演算を実現するための実現可能なスキームを提案する。 KPO(Kerr Parametric Oscillator)に適用した単光と2光の駆動を組み合わせた任意の1量子(2量子)ゲートを構築する。 提案手法は, 従来提案されていたアデバティックホロノミックプロトコルの長期運用時間に依存する要件を緩和し, 非アデバティックなアベリアンプロトコルは, 猫の大きさやアデバティックキュートに依存している。

Quantum operations by utilizing the underlying geometric phases produced in physical systems are favoured due to its potential robustness. When a system in a non-degenerate eigenstate undergoes an adiabatically cyclic evolution dominated by its Hamiltonian, it will get a geometric phase, referred to as the Berry Phase. While a non-adiabatically cyclic evolution produces an Aharonov-Anandan geometric phase. The two types of Abelian geometric phases are extended to the non-Abelian cases, where the phase factors become matrix-valued and the transformations associated with different loops are non-commutable. Abelian and non-Abelian (holonomic) operations are prevalent in discrete variable systems, whose limited (say, two) energy levels, form the qubit. While their developments in continuous systems have also been investigated, mainly due to that, bosonic modes (in, such as, cat states) with large Hilbert spaces, provide potential advantages in fault-tolerant quantum computation. Here we propose a feasible scheme to realize non-adiabatic holonomic quantum logic operations in continuous variable systems with cat codes. We construct arbitrary single-qubit (two-qubit) gates with the combination of single- and two-photon drivings applied to a Kerr Parametric Oscillator (KPO) (the coupled KPOs). Our scheme relaxes the requirements of the previously proposed adiabatic holonomic protocol dependent on long operation time, and the non-adiabatic Abelian ones relying on a slight cat size or an ancilla qutrit.
翻訳日:2024-02-06 20:14:53 公開日:2024-02-04
# AutoTimes: 大規模言語モデルによる自動回帰時系列予測

AutoTimes: Autoregressive Time Series Forecasters via Large Language Models ( http://arxiv.org/abs/2402.02370v1 )

ライセンス: Link先を確認
Yong Liu, Guo Qin, Xiangdong Huang, Jianmin Wang, Mingsheng Long(参考訳) 時系列の基礎モデルは、大規模時系列の可用性の限界と、拡張性のある事前学習の過小評価のため、完全には開発されていない。 時系列と自然言語の類似した逐次構造に基づいて,大規模言語モデル(LLM)を時系列に活用する可能性を示す研究が増えている。 それでも、事前の手法は時系列と自然言語の整合性を見落とし、LLMポテンシャルの不十分な利用をもたらす可能性がある。 言語モデリングから得られた汎用トークン遷移をフル活用するために,パラメータを更新することなくLPMの取得と利用と整合した自動回帰時系列予測器として,LLMを再利用するAutoTimesを提案する。 連続予測器はフレキシブルな直列長を処理でき、一般的なモデルとして競合性能を達成することができる。 さらに,この手法をマルチモーダルシナリオに適用するために,対応するタイムスタンプを利用するトークンワイドプロンプトを提案する。 解析により,LLMのゼロショットおよびインコンテキスト学習機能を引き継ぐことができる。 実証的に、AutoTimesは優れたメソッドの汎用性を示し、より大きなLLM、追加のテキスト、命令として時系列をベースとしたパフォーマンスの向上を実現している。

Foundation models of time series have not been fully developed due to the limited availability of large-scale time series and the underexploration of scalable pre-training. Based on the similar sequential structure of time series and natural language, increasing research demonstrates the feasibility of leveraging large language models (LLM) for time series. Nevertheless, prior methods may overlook the consistency in aligning time series and natural language, resulting in insufficient utilization of the LLM potentials. To fully exploit the general-purpose token transitions learned from language modeling, we propose AutoTimes to repurpose LLMs as Autoregressive Time series forecasters, which is consistent with the acquisition and utilization of LLMs without updating the parameters. The consequent forecasters can handle flexible series lengths and achieve competitive performance as prevalent models. Further, we present token-wise prompting that utilizes corresponding timestamps to make our method applicable to multimodal scenarios. Analysis demonstrates our forecasters inherit zero-shot and in-context learning capabilities of LLMs. Empirically, AutoTimes exhibits notable method generality and achieves enhanced performance by basing on larger LLMs, additional texts, or time series as instructions.
翻訳日:2024-02-06 20:14:25 公開日:2024-02-04
# m$^3$face:人間の顔の生成と編集のための統合マルチモーダル多言語フレームワーク

M$^3$Face: A Unified Multi-Modal Multilingual Framework for Human Face Generation and Editing ( http://arxiv.org/abs/2402.02369v1 )

ライセンス: Link先を確認
Mohammadreza Mofayezi, Reza Alipour, Mohammad Ali Kakavand, Ehsaneddin Asgari(参考訳) 人間の顔の生成と編集は、コンピュータビジョンとデジタルワールドの時代に欠かせない課題である。 近年の研究では、顔のセグメンテーションを用いて画像生成を導くなど、マルチモーダルな顔生成と編集が著しく進歩している。 しかし、一部のユーザーが手動で条件付きモダリティを作成するのは困難かもしれない。 そこで本稿では,顔生成と編集を制御可能なマルチモーダル多言語フレームワークであるM3Faceを紹介する。 このフレームワークにより、ユーザはテキスト入力のみを使用して、セマンティックセグメンテーションや顔ランドマークなどの制御モダリティを自動的に生成し、その後に顔画像を生成することができる。 我々は、フレームワークの顔生成と編集機能を示すために、広範囲な定性的かつ定量的な実験を行う。 さらに,M3CelebAデータセットは,高品質な画像,セマンティックセグメンテーション,顔のランドマーク,さまざまなキャプションを含む大規模マルチモーダル・多言語顔データセットである。 コードとデータセットは公開時にリリースされる。

Human face generation and editing represent an essential task in the era of computer vision and the digital world. Recent studies have shown remarkable progress in multi-modal face generation and editing, for instance, using face segmentation to guide image generation. However, it may be challenging for some users to create these conditioning modalities manually. Thus, we introduce M3Face, a unified multi-modal multilingual framework for controllable face generation and editing. This framework enables users to utilize only text input to generate controlling modalities automatically, for instance, semantic segmentation or facial landmarks, and subsequently generate face images. We conduct extensive qualitative and quantitative experiments to showcase our frameworks face generation and editing capabilities. Additionally, we propose the M3CelebA Dataset, a large-scale multi-modal and multilingual face dataset containing high-quality images, semantic segmentations, facial landmarks, and different captions for each image in multiple languages. The code and the dataset will be released upon publication.
翻訳日:2024-02-06 20:14:05 公開日:2024-02-04
# 自己監督型バイナリセマンティックセマンティックセグメンテーションのための医用画像の本質的特性の探索

Exploring Intrinsic Properties of Medical Images for Self-Supervised Binary Semantic Segmentation ( http://arxiv.org/abs/2402.02367v1 )

ライセンス: Link先を確認
Pranav Singh and Jacopo Cirrone(参考訳) 自己教師付き学習の最近の進歩は、ラベルのないデータを補助タスクに活用する可能性を解き放ち、有益な優先事項の学習を促進する。 これは、ラベル付きデータが不足している医療画像分析のような分野で特に有利である。 この手法は分類タスクに有効であるが、医用画像分割のようなより複雑な応用には限界がある。 本稿では,医用画像セグメンテーションのための専用自己教師付きフレームワークであるmedsass(dynamic self-adaptive semantic segmentation)によって拡張された医用画像を紹介する。 我々は,MedSASSを4つの医学データセットにまたがる既存の最先端手法に対して評価し,その優位性を示した。 MedSASSは既存のCNNベースの自己監督手法を3.83%上回り、ViTベースの手法のパフォーマンスに匹敵する。 さらに、MedSASSがエンコーダとデコーダの両方をカバーするエンドツーエンドでトレーニングされている場合、CNNでは14.4%、ViTベースのアーキテクチャでは6%の大幅な改善がなされている。

Recent advancements in self-supervised learning have unlocked the potential to harness unlabeled data for auxiliary tasks, facilitating the learning of beneficial priors. This has been particularly advantageous in fields like medical image analysis, where labeled data are scarce. Although effective for classification tasks, this methodology has shown limitations in more complex applications, such as medical image segmentation. In this paper, we introduce Medical imaging Enhanced with Dynamic Self-Adaptive Semantic Segmentation (MedSASS), a dedicated self-supervised framework tailored for medical image segmentation. We evaluate MedSASS against existing state-of-the-art methods across four diverse medical datasets, showcasing its superiority. MedSASS outperforms existing CNN-based self-supervised methods by 3.83% and matches the performance of ViT-based methods. Furthermore, when MedSASS is trained end-to-end, covering both encoder and decoder, it demonstrates significant improvements of 14.4% for CNNs and 6% for ViT-based architectures compared to existing state-of-the-art self-supervised strategies.
翻訳日:2024-02-06 20:13:47 公開日:2024-02-04
# Transolver: 一般測地におけるPDEのための高速変圧器ソルバー

Transolver: A Fast Transformer Solver for PDEs on General Geometries ( http://arxiv.org/abs/2402.02366v1 )

ライセンス: Link先を確認
Haixu Wu, Huakun Luo, Haowen Wang, Jianmin Wang, Mingsheng Long(参考訳) トランスフォーマーは様々な分野にまたがる多くのマイルストーンに力を与え、最近偏微分方程式(pdes)を解くために応用されている。 しかし、pdesは通常、複雑なジオメトリを持つ大規模メッシュに分解されるため、トランスフォーマーが巨大な個々の点から直接複雑な物理的相関を捉えることは困難である。 表面的および非弱視的メッシュを超えて、より基本的な考え方に基づいてTransolverを提示する。 具体的には,異なる物理状態のメッシュポイントが同じスライスに記述されるような,柔軟な形状の学習可能な一連のスライスに,離散領域を適応的に分割する新しい物理学的アプローチを提案する。 スライスから符号化された物理認識トークンに注意を向けることにより、Transovlerは複雑な幾何学の下で複雑な物理的相関を効果的に捉えることができ、また、内因的幾何学的一般モデリング能力を持つソルバを有効活用し、線形複雑度で効率的に計算することができる。 Transolverは6つの標準ベンチマークで22倍の相対的な利得で一貫した最先端を実現し、自動車や翼の設計を含む大規模産業シミュレーションにも優れている。

Transformers have empowered many milestones across various fields and have recently been applied to solve partial differential equations (PDEs). However, since PDEs are typically discretized into large-scale meshes with complex geometries, it is challenging for Transformers to capture intricate physical correlations directly from massive individual points. Going beyond superficial and unwieldy meshes, we present Transolver based on a more foundational idea, which is learning intrinsic physical states hidden behind discretized geometries. Specifically, we propose a new Physics-Attention to adaptively split the discretized domain into a series of learnable slices of flexible shapes, where mesh points under similar physical states will be ascribed to the same slice. By calculating attention to physics-aware tokens encoded from slices, Transovler can effectively capture intricate physical correlations under complex geometrics, which also empowers the solver with endogenetic geometry-general modeling capacity and can be efficiently computed in linear complexity. Transolver achieves consistent state-of-the-art with 22\% relative gain across six standard benchmarks and also excels in large-scale industrial simulations, including car and airfoil designs.
翻訳日:2024-02-06 20:13:22 公開日:2024-02-04
# インテクスト学習の展開する景観

The Developmental Landscape of In-Context Learning ( http://arxiv.org/abs/2402.02364v1 )

ライセンス: Link先を確認
Jesse Hoogland, George Wang, Matthew Farrugia-Roberts, Liam Carroll, Susan Wei, Daniel Murfet(参考訳) 本稿では,言語モデルや線形回帰タスクで学習した場合に,コンテクスト内学習が個別発達段階のトランスフォーマーに現れることを示す。 パラメータ空間と関数空間の両方における人口減少の幾何を探索することにより,これらの段階を分離するマイルストーンを検出する2つの方法を提案する。 本研究では,これらの手法を用いて,行動指標と構造指標を用いて,その妥当性を実証する。

We show that in-context learning emerges in transformers in discrete developmental stages, when they are trained on either language modeling or linear regression tasks. We introduce two methods for detecting the milestones that separate these stages, by probing the geometry of the population loss in both parameter space and function space. We study the stages revealed by these new methods using a range of behavioral and structural metrics to establish their validity.
翻訳日:2024-02-06 20:13:01 公開日:2024-02-04
# ニューラルネットワーク内の対称性の統一:transformer,feedforward,neural ode

Unification of Symmetries Inside Neural Networks: Transformer, Feedforward and Neural ODE ( http://arxiv.org/abs/2402.02362v1 )

ライセンス: Link先を確認
Koji Hashimoto, Yuji Hirono, Akiyoshi Sannai(参考訳) トランスフォーマーを含むニューラルネットワークの内部動作を理解することは、機械学習において最も難しいパズルの1つだ。 本研究では,ゲージ対称性(ゲージ対称性)の原理をニューラルネットワークアーキテクチャに適用することにより,新しいアプローチを提案する。 物理観測可能なモデル関数について、様々な機械学習モデルのパラメトリック冗長性はゲージ対称性として解釈できる。 我々は神経オデムのパラメトリック冗長性を数学的に定式化し、それらのゲージ対称性がアインシュタインの重力理論において基本的な役割を果たす時空微分同相写像によって与えられることを見つける。 ニューラルネットワークをフィードフォワードニューラルネットワークの連続的なバージョンと見なすと、フィードフォワードニューラルネットワークのパラメトリック冗長性は、実際にニューラルネットワークの微分同相性へと持ち上げられることを示す。 我々はさらに解析をトランスモデルに拡張し、ニューラルODEとそのゲージ対称性と自然な対応を見出す。 ゲージ対称性の概念は、物理学を通して深層学習モデルの複雑な振る舞いに光を当て、様々な機械学習アーキテクチャを解析するための統一的な視点を提供する。

Understanding the inner workings of neural networks, including transformers, remains one of the most challenging puzzles in machine learning. This study introduces a novel approach by applying the principles of gauge symmetries, a key concept in physics, to neural network architectures. By regarding model functions as physical observables, we find that parametric redundancies of various machine learning models can be interpreted as gauge symmetries. We mathematically formulate the parametric redundancies in neural ODEs, and find that their gauge symmetries are given by spacetime diffeomorphisms, which play a fundamental role in Einstein's theory of gravity. Viewing neural ODEs as a continuum version of feedforward neural networks, we show that the parametric redundancies in feedforward neural networks are indeed lifted to diffeomorphisms in neural ODEs. We further extend our analysis to transformer models, finding natural correspondences with neural ODEs and their gauge symmetries. The concept of gauge symmetries sheds light on the complex behavior of deep learning models through physics and provides us with a unifying perspective for analyzing various machine learning architectures.
翻訳日:2024-02-06 20:12:53 公開日:2024-02-04
# pruner:デュアルアウェアネスを持つ効率的なクロスプラットフォームテンソルコンパイラ

Pruner: An Efficient Cross-Platform Tensor Compiler with Dual Awareness ( http://arxiv.org/abs/2402.02361v1 )

ライセンス: Link先を確認
Liang Qiao, Jun Shi, Xiaoyu Hao, Xi Fang, Minfan Zhao, Ziqi Zhu, Junshi Chen, Hong An, Bing Li, Honghui Yuan and Xinyang Wang(参考訳) Deep Learning Accelerators (DLAs) のテンソルプログラム最適化は、効率的なモデル展開に不可欠である。 検索ベースのディープラーニングコンパイラ(Deep Learning Compilers, DLC)は手作業に比べて大きなパフォーマンス向上を遂げているが, 検索効率の低下とクロスプラットフォーム適応性の低下という難しさに悩まされている。 本稿では,ハードウェア/ソフトウェアの共同設計原則に従って,テンソルプログラムの最適化を階層的に促進する$\textbf{Pruner}$を提案する。 Prunerは、パラメータ化静的アナライザ($\textbf{PSA}$)とパターン対応コストモデル($\textbf{PaCM}$)の2つの主要コンポーネントから構成される。 前者はハードウェア対応で定式的な性能解析ツールとして機能し、検索空間のプルーニングを誘導し、後者は臨界データフローパターンに従ってテンソルプログラムのパフォーマンス予測を可能にする。 さらに,効率的なクロスプラットフォーム適応を実現するため,Siameseネットワークを用いたMomentum Transfer Learning(\textbf{MTL}$)戦略を設計し,事前学習したコストモデルのロバスト性を改善するための双方向フィードバック機構を確立する。 広範な実験結果から,提案するprunerは,リソースオーバーヘッドの少ないオンラインシナリオとオフラインシナリオの両方において,様々なtensorプログラムのチューニングタスクにおいて有効性と進歩を示した。 コードはhttps://github.com/qiaolian9/prunerで入手できる。

Tensor program optimization on Deep Learning Accelerators (DLAs) is critical for efficient model deployment. Although search-based Deep Learning Compilers (DLCs) have achieved significant performance gains compared to manual methods, they still suffer from the persistent challenges of low search efficiency and poor cross-platform adaptability. In this paper, we propose $\textbf{Pruner}$, following hardware/software co-design principles to hierarchically boost tensor program optimization. Pruner comprises two primary components: a Parameterized Static Analyzer ($\textbf{PSA}$) and a Pattern-aware Cost Model ($\textbf{PaCM}$). The former serves as a hardware-aware and formulaic performance analysis tool, guiding the pruning of the search space, while the latter enables the performance prediction of tensor programs according to the critical data-flow patterns. Furthermore, to ensure effective cross-platform adaptation, we design a Momentum Transfer Learning ($\textbf{MTL}$) strategy using a Siamese network, which establishes a bidirectional feedback mechanism to improve the robustness of the pre-trained cost model. The extensive experimental results demonstrate the effectiveness and advancement of the proposed Pruner in various tensor program tuning tasks across both online and offline scenarios, with low resource overhead. The code is available at https://github.com/qiaolian9/Pruner.
翻訳日:2024-02-06 20:12:34 公開日:2024-02-04
# より高速な超線形収束速度をもつインクリメンタル準ニュートン法

Incremental Quasi-Newton Methods with Faster Superlinear Convergence Rates ( http://arxiv.org/abs/2402.02359v1 )

ライセンス: Link先を確認
Zhuanghua Liu and Luo Luo and Bryan Kian Hsiang Low(参考訳) 各成分関数は強凸であり、リプシッツ連続勾配とヘッシアンを持つ有限サム最適化問題を考える。 最近提案されたインクリメンタル準ニュートン法はBFGSの更新に基づいて,問題の条件数に依存する局所超線形収束率を達成する。 本稿では,対称 rank-1 更新をインクリメンタル・フレームワークに組み込むことにより,より効率的な準ニュートン法を提案する。 さらに,Hessian近似のブロック更新を適用し,より高速な局所収束率を実現することにより,本手法を向上することができる。 数値実験により,提案手法はベースライン法よりも有意に優れていた。

We consider the finite-sum optimization problem, where each component function is strongly convex and has Lipschitz continuous gradient and Hessian. The recently proposed incremental quasi-Newton method is based on BFGS update and achieves a local superlinear convergence rate that is dependent on the condition number of the problem. This paper proposes a more efficient quasi-Newton method by incorporating the symmetric rank-1 update into the incremental framework, which results in the condition-number-free local superlinear convergence rate. Furthermore, we can boost our method by applying the block update on the Hessian approximation, which leads to an even faster local convergence rate. The numerical experiments show the proposed methods significantly outperform the baseline methods.
翻訳日:2024-02-06 20:12:08 公開日:2024-02-04
# マルチモーダル因果構造学習と根本原因分析

Multi-modal Causal Structure Learning and Root Cause Analysis ( http://arxiv.org/abs/2402.02357v1 )

ライセンス: Link先を確認
Lecheng Zheng, Zhengzhang Chen, Jingrui He, Haifeng Chen(参考訳) 根本原因分析(RCA)は, 迅速な復旧, 損失の最小化, 複雑なシステムのスムーズな運用と管理の確保に不可欠である。 従来のデータ駆動型RCA法、特に因果探索法は、主に根本原因の追跡のための依存性や因果グラフの構築に重点を置いてきた。 しかしながら、これらの手法は単一のモダリティからのデータのみに依存するため、しばしば不足し、結果として準最適解となる。 本研究では,根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。 ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。 異なるモダリティにまたがる複雑な関係を探索するために,共有潜在空間内のモダリティ不変およびモダリティ固有表現を抽出するためのコントラスト学習に基づくアプローチを提案する。 さらに、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンス指標対応アテンション機構を導入する。 最後に,システム障害伝播のシミュレーションと潜在的な根本原因の同定に再起動を伴うランダムウォークを用いる。 提案手法の有効性を実世界の3つのデータセットで検証した。

Effective root cause analysis (RCA) is vital for swiftly restoring services, minimizing losses, and ensuring the smooth operation and management of complex systems. Previous data-driven RCA methods, particularly those employing causal discovery techniques, have primarily focused on constructing dependency or causal graphs for backtracking the root causes. However, these methods often fall short as they rely solely on data from a single modality, thereby resulting in suboptimal solutions. In this work, we propose Mulan, a unified multi-modal causal structure learning method for root cause localization. We leverage a log-tailored language model to facilitate log representation learning, converting log sequences into time-series data. To explore intricate relationships across different modalities, we propose a contrastive learning-based approach to extract modality-invariant and modality-specific representations within a shared latent space. Additionally, we introduce a novel key performance indicator-aware attention mechanism for assessing modality reliability and co-learning a final causal graph. Finally, we employ random walk with restart to simulate system fault propagation and identify potential root causes. Extensive experiments on three real-world datasets validate the effectiveness of our proposed framework.
翻訳日:2024-02-06 20:11:55 公開日:2024-02-04
# 分散化非凸最適化

Decentralized Sum-of-Nonconvex Optimization ( http://arxiv.org/abs/2402.02356v1 )

ライセンス: Link先を確認
Zhuanghua Liu and Bryan Kian Hsiang Low(参考訳) 非凸関数、すなわち非凸成分の平均である凸関数を最小化する最適化問題を考える。 このような問題に対する既存の確率的アルゴリズムは、単一のマシンと集中的なシナリオにのみ焦点をあてる。 本稿では,分散環境における非凸最適化について検討する。 この問題に対するPMGT-SVRGアルゴリズムの新たな理論的解析を行い、それらのアプローチの線形収束性を証明する。 しかし、PMGT-SVRGアルゴリズムの収束速度は条件数に線形依存しており、不条件問題に対しては望ましくない。 そこで本研究では,svrgアルゴリズムに加速度,勾配追従,マルチコンセンサス混合の手法を組み込んだ,確率的分散一階アルゴリズムを提案する。 提案手法の収束率は条件数に二乗根依存性を持つ。 数値実験により,合成データと実世界データの両方における提案アルゴリズムの理論的保証が検証された。

We consider the optimization problem of minimizing the sum-of-nonconvex function, i.e., a convex function that is the average of nonconvex components. The existing stochastic algorithms for such a problem only focus on a single machine and the centralized scenario. In this paper, we study the sum-of-nonconvex optimization in the decentralized setting. We present a new theoretical analysis of the PMGT-SVRG algorithm for this problem and prove the linear convergence of their approach. However, the convergence rate of the PMGT-SVRG algorithm has a linear dependency on the condition number, which is undesirable for the ill-conditioned problem. To remedy this issue, we propose an accelerated stochastic decentralized first-order algorithm by incorporating the techniques of acceleration, gradient tracking, and multi-consensus mixing into the SVRG algorithm. The convergence rate of the proposed method has a square-root dependency on the condition number. The numerical experiments validate the theoretical guarantee of our proposed algorithms on both synthetic and real-world datasets.
翻訳日:2024-02-06 20:11:33 公開日:2024-02-04
# symbol:シンボリック方程式学習によるフレキシブルブラックボックスオプティマイザの生成

Symbol: Generating Flexible Black-Box Optimizers through Symbolic Equation Learning ( http://arxiv.org/abs/2402.02355v1 )

ライセンス: Link先を確認
Jiacheng Chen, Zeyuan Ma, Hongshu Guo, Yining Ma, Jie Zhang, Yue-jiao Gong(参考訳) 最近のメタラーニングによるブラックボックス最適化(MetaBBO)手法は、ニューラルネットワークを利用して従来のブラックボックスオプティマイザのメタ学習構成を行う。 その成功にもかかわらず、事前に定義された手作りオプティマイザの制限によって必然的に制限される。 本稿では,記号方程式学習によるブラックボックスオプティマイザの自動発見を促進する新しいフレームワークであるtextsc{Symbol}を提案する。 具体的には、特定のタスクや最適化ステップに対して閉形式最適化ルールを動的に生成できるシンボリック方程式生成器(seg)を提案する。 次に,強化学習に基づく3つの戦略を開発し,SEGを効率的にメタ学習する。 広範な実験により、textsc{Symbol} が生成する最適化器は、最先端のBBOとMetaBBOのベースラインを超えるだけでなく、問題次元、人口規模、最適化水平線の異なる全く見えないタスクにわたって、例外的にゼロショットの一般化能力を示すことが明らかになった。 さらに,本フレームワークと,それが生成する最適化ルールの詳細な分析を行い,その望ましい柔軟性と解釈可能性を強調した。

Recent Meta-learning for Black-Box Optimization (MetaBBO) methods harness neural networks to meta-learn configurations of traditional black-box optimizers. Despite their success, they are inevitably restricted by the limitations of predefined hand-crafted optimizers. In this paper, we present \textsc{Symbol}, a novel framework that promotes the automated discovery of black-box optimizers through symbolic equation learning. Specifically, we propose a Symbolic Equation Generator (SEG) that allows closed-form optimization rules to be dynamically generated for specific tasks and optimization steps. Within \textsc{Symbol}, we then develop three distinct strategies based on reinforcement learning, so as to meta-learn the SEG efficiently. Extensive experiments reveal that the optimizers generated by \textsc{Symbol} not only surpass the state-of-the-art BBO and MetaBBO baselines, but also exhibit exceptional zero-shot generalization abilities across entirely unseen tasks with different problem dimensions, population sizes, and optimization horizons. Furthermore, we conduct in-depth analyses of our \textsc{Symbol} framework and the optimization rules that it generates, underscoring its desirable flexibility and interpretability.
翻訳日:2024-02-06 20:11:19 公開日:2024-02-04
# EuLagNet:ラグランジアンダイナミクスを用いたユーレリア流体予測

EuLagNet: Eulerian Fluid Prediction with Lagrangian Dynamics ( http://arxiv.org/abs/2402.02425v1 )

ライセンス: Link先を確認
Qilong Ma, Haixu Wu, Lanxiang Xing, Jianmin Wang, Mingsheng Long(参考訳) 将来の流体を正確に予測することは、気象学、海洋学、空気力学など幅広い分野において重要である。 しかしながら、流体は通常ユーレウスの視点で観測されるため、その活発で複雑なダイナミクスは深刻な曖昧さと静的格子に構築され、予測に角質の挑戦をもたらす。 本稿では, タングルサム流体力学に対処する新しいラグランジアン誘導パラダイムを提案する。 Eulerian-Lagrangian Dual Recurrent Network (EuLagNet) はユーレリア・ラグランジアン・デュアル・リカレント・ネットワーク(EuLagNet)であり, 適応サンプリングされた鍵粒子の複数のスケールでの運動を追跡し, 時間とともに動的情報を統合することで, マルチスケールの流体力学を捉える。 具体的には、EuLagブロックを用いて学習したユーレリアとラグランジアンの特徴を各時点と規模で伝達し、追跡された粒子の動きをユーレリアの観測から推定し、それらの蓄積されたダイナミクス情報をユーレリアのフィールドに組み込んで将来の予測を導く。 主要粒子の追跡は流体力学の明確かつ解釈可能な手がかりを提供するだけでなく,大規模格子間の複雑な相関のモデル化を不要とし,効率を向上させる。 実験では、EuLagNetは3つの挑戦的な流体予測タスクに優れ、2Dと3Dの両方をカバーする。

Accurately predicting the future fluid is important to extensive areas, such as meteorology, oceanology and aerodynamics. However, since the fluid is usually observed from an Eulerian perspective, its active and intricate dynamics are seriously obscured and confounded in static grids, bringing horny challenges to the prediction. This paper introduces a new Lagrangian-guided paradigm to tackle the tanglesome fluid dynamics. Instead of solely predicting the future based on Eulerian observations, we propose the Eulerian-Lagrangian Dual Recurrent Network (EuLagNet), which captures multiscale fluid dynamics by tracking movements of adaptively sampled key particles on multiple scales and integrating dynamics information over time. Concretely, a EuLag Block is presented to communicate the learned Eulerian and Lagrangian features at each moment and scale, where the motion of tracked particles is inferred from Eulerian observations and their accumulated dynamics information is incorporated into Eulerian fields to guide future prediction. Tracking key particles not only provides a clear and interpretable clue for fluid dynamics but also makes our model free from modeling complex correlations among massive grids for better efficiency. Experimentally, EuLagNet excels in three challenging fluid prediction tasks, covering both 2D and 3D, simulated and real-world fluids.
翻訳日:2024-02-06 20:03:50 公開日:2024-02-04
# GNSSシナリオにおける無人航空機ナビゲーションのアングルロバスト性

Angle Robustness Unmanned Aerial Vehicle Navigation in GNSS-Denied Scenarios ( http://arxiv.org/abs/2402.02405v1 )

ライセンス: Link先を確認
Yuxin Wang, Zunlei Feng, Haofei Zhang, Yang Gao, Jie Lei, Li Sun, Mingli Song(参考訳) 地球航法衛星システム(GNSS)からの信号が極端に受信できないため、無人航空機(UAV)の正確で堅牢な航法は難しい課題である。 最近出現した視覚ベースのナビゲーションは、GNSSベースのナビゲーションに代わる有望で実現可能な代替手段である。 しかし、既存の視覚ベースの技術は、環境障害や不正確な位置予測による飛行偏差に対処するには不十分である。 本稿では,ポイント・ツー・ポイントのナビゲーションタスクにおける飛行偏差に対処するための新しい角度ロバスト性ナビゲーションパラダイムを提案する。 さらに,適応機能強化モジュール,クロスナレッジ注意誘導モジュール,ロバストなタスク指向ヘッドモジュール,高精度ナビゲーションのための方向角を正確に予測するモデルを提案する。 視覚に基づくナビゲーション手法を評価するため,UAV_AR368と呼ばれる新しいデータセットを収集した。 さらに,Google Earth を用いたシミュレーション飛行試験装置 (SFTI) を設計し,異なる飛行環境をシミュレートし,実際の飛行試験に伴うコストを削減する。 実験結果から, 理想的な状況下での到達率を26.0%, 45.6%向上させることにより, 提案モデルが技術水準を上回る結果を得た。

Due to the inability to receive signals from the Global Navigation Satellite System (GNSS) in extreme conditions, achieving accurate and robust navigation for Unmanned Aerial Vehicles (UAVs) is a challenging task. Recently emerged, vision-based navigation has been a promising and feasible alternative to GNSS-based navigation. However, existing vision-based techniques are inadequate in addressing flight deviation caused by environmental disturbances and inaccurate position predictions in practical settings. In this paper, we present a novel angle robustness navigation paradigm to deal with flight deviation in point-to-point navigation tasks. Additionally, we propose a model that includes the Adaptive Feature Enhance Module, Cross-knowledge Attention-guided Module and Robust Task-oriented Head Module to accurately predict direction angles for high-precision navigation. To evaluate the vision-based navigation methods, we collect a new dataset termed as UAV_AR368. Furthermore, we design the Simulation Flight Testing Instrument (SFTI) using Google Earth to simulate different flight environments, thereby reducing the expenses associated with real flight testing. Experiment results demonstrate that the proposed model outperforms the state-of-the-art by achieving improvements of 26.0% and 45.6% in the success rate of arrival under ideal and disturbed circumstances, respectively.
翻訳日:2024-02-06 20:03:22 公開日:2024-02-04
# 任意の量子ビット接続制約を持つ量子回路コンパイルにおける奥行きオーバーヘッドのフルキャラクタリゼーション

Full Characterization of the Depth Overhead for Quantum Circuit Compilation with Arbitrary Qubit Connectivity Constraint ( http://arxiv.org/abs/2402.02403v1 )

ライセンス: Link先を確認
Pei Yuan, Shengyu Zhang(参考訳) 量子コンピュータの物理的実装では、2量子ビット演算は特定の量子ビットに対してのみ適用できる。 量子回路をそのような量子ビット接続制約に適合させると、回路深さが増加する。 様々なコンパイルアルゴリズムが研究されたが、この深さのオーバーヘッドはいまだに解明されていない。 本稿では,30年間にわたって研究されてきたグラフ理論測度である制約グラフのルーティング数によって,深度オーバーヘッドを完全に特徴づける。 また、異なるグラフ間のリダクションアルゴリズムも提供し、1つのグラフのコンパイルを別のグラフに転送できるようにします。 これらの結果は、既存のルーティングアルゴリズムと組み合わせることで、量子コンピューティングでよく見られるすべての接続グラフに対して漸近的に最適なコンパイルを与える。

In some physical implementations of quantum computers, 2-qubit operations can be applied only on certain pairs of qubits. Compilation of a quantum circuit into one compliant to such qubit connectivity constraint results in an increase of circuit depth. Various compilation algorithms were studied, yet what this depth overhead is remains elusive. In this paper, we fully characterize the depth overhead by the routing number of the underlying constraint graph, a graph-theoretic measure which has been studied for 3 decades. We also give reduction algorithms between different graphs, which allow compilation for one graph to be transferred to one for another. These results, when combined with existing routing algorithms, give asymptotically optimal compilation for all commonly seen connectivity graphs in quantum computing.
翻訳日:2024-02-06 20:03:01 公開日:2024-02-04
# AIによる甲状腺結節のコンピュータ支援診断モデル:ChatGPTスタイルアシスタント

AI-Generated Content Enhanced Computer-Aided Diagnosis Model for Thyroid Nodules: A ChatGPT-Style Assistant ( http://arxiv.org/abs/2402.02401v1 )

ライセンス: Link先を確認
Jincao Yao (1 and 2 and 3 and 4 and 5 and 6), Yunpeng Wang (7), Zhikai Lei (8), Kai Wang (9), Xiaoxian Li (10) Jianhua Zhou (10), Xiang Hao (7), Jiafei Shen (1 and 2), Zhenping Wang (9), Rongrong Ru (11), Yaqing Chen (11), Yahan Zhou (6), Chen Chen (1 and 2), Yanming Zhang (12 and 13), Ping Liang (14), Dong Xu (1 and 2 and 3 and 4 and 5 and 6) ((1) Department of Radiology, Zhejiang Cancer Hospital, Hangzhou, 310022, China (2) Hangzhou Institute of Medicine (HIM), Chinese Academy of Sciences, Hangzhou, 310000, China,(3) Key Laboratory of Head and Neck Cancer Translational Research of Zhejiang Province, Hangzhou, 310022, China,(4) Zhejiang Provincial Research Center for Cancer Intelligent Diagnosis and Molecular Technology, Hangzhou, 310000, China, (5) Wenling Medical Big Data and Artificial Intelligence Research Institute, 24th Floor, Machang Road, Taizhou, 310061, China,(6) Taizhou Key Laboratory of Minimally Invasive Interventional Therapy and Artificial Intelligence, Taizhou Campus of Zhejiang Cancer Hospital (Taizhou Cancer Hospital), Taizhou, 317502, China,(7) College of Optical Science and Engineering, Zhejiang University, No.38 of Zheda Road, Hangzhou, Zhejiang Province, China,(8) Zhejiang Provincial Hospital of Chinese Medicine, 54 Youdian Road, Hangzhou, 310003, China,(9) Department of Ultrasound, The Affiliated Dongyang Hospital of Wenzhou Medical University, Dongyang, 322100, China,(10) Department of Ultrasound, Sun Yat sen University Cancer Center, State Key Laboratory of Oncology in South China, Collaborative Innovation Center for Cancer Medicine, Guangzhou, 510060, China, (11) Affiliated Xiaoshan Hospital, Hangzhou Normal University, No.728 North Yucai Road, Hangzhou, 311202, China,(12) Zhejiang Provincial People's Hospital Affiliated People's Hospital, Hangzhou Medical College, Hangzhou, 314408, China,(13) Key Laboratory of Endocrine Gland Diseases of Zhejiang Province, Hangzhou, 314408, China,(14) Department of Ultrasound, Chinese PLA General Hospital, Chinese PLA Medical School, Beijing, 100853, China)(参考訳) ThyGPTと命名されたAIGC-CADモデルを開発した。 このモデルはchatgptのアーキテクチャに触発され、放射線科医がセマンティックレベルの人間と機械の相互作用を通じて甲状腺結節のリスクを評価するのに役立つ。 19,165例の甲状腺結節超音波検査を行ない,モデルの訓練と検証を容易にするデータセットを組み立てた。 訓練後、ThyGPTは甲状腺結節を自動的に評価し、ヒトとコンピュータの相互作用を通じて医師と効果的なコミュニケーションを行うことができた。 ThyGPTの性能は、受信動作特性(ROC)曲線、曲線下面積(AUC)、感度、特異性などの確立された指標を用いて厳密に定量化した。 実験の結果,ThyGPTを補充した放射線科医は,従来の診断方法と分離したモデルの性能を用いて,仲間の診断能力を著しく上回った。 これらの結果は、ThyGPTによって実証されたAIGC-CADシステムは、今後数年で放射線科医の診断ワークフローを根本的に変えることを約束していることを示唆している。

An artificial intelligence-generated content-enhanced computer-aided diagnosis (AIGC-CAD) model, designated as ThyGPT, has been developed. This model, inspired by the architecture of ChatGPT, could assist radiologists in assessing the risk of thyroid nodules through semantic-level human-machine interaction. A dataset comprising 19,165 thyroid nodule ultrasound cases from Zhejiang Cancer Hospital was assembled to facilitate the training and validation of the model. After training, ThyGPT could automatically evaluate thyroid nodule and engage in effective communication with physicians through human-computer interaction. The performance of ThyGPT was rigorously quantified using established metrics such as the receiver operating characteristic (ROC) curve, area under the curve (AUC), sensitivity, and specificity. The empirical findings revealed that radiologists, when supplemented with ThyGPT, markedly surpassed the diagnostic acumen of their peers utilizing traditional methods as well as the performance of the model in isolation. These findings suggest that AIGC-CAD systems, exemplified by ThyGPT, hold the promise to fundamentally transform the diagnostic workflows of radiologists in forthcoming years.
翻訳日:2024-02-06 20:02:51 公開日:2024-02-04
# FreDF: 周波数領域で予測することを学ぶ

FreDF: Learning to Forecast in Frequency Domain ( http://arxiv.org/abs/2402.02399v1 )

ライセンス: Link先を確認
Hao Wang, Licheng Pan, Zhichao Chen, Degui Yang, Sen Zhang, Yifei Yang, Xinggao Liu, Haoxuan Li, Dacheng Tao(参考訳) 時系列モデリングは、歴史的およびラベルのシーケンスにおける自己相関の存在によって独特に挑戦される。 現在の研究は主に歴史的シーケンスにおける自己相関を扱うことに焦点を当てているが、しばしばラベルシーケンスにおける自己相関の存在を無視する。 特に、新興予測モデルは直接予測(DF)パラダイムに主に準拠し、ラベルシーケンス内の条件独立性を想定した多段階予測を生成する。 この仮定はラベルシーケンスの固有の自己相関を無視し、DFベースのモデルの性能を制限する。 このギャップに対応するために、周波数領域の予測を学習することでラベル自己相関の複雑さを回避できる周波数強調直接予測(FreDF)を導入する。 実験の結果、FreDFはiTransformerを含む既存の最先端手法よりも大幅に優れており、様々な予測モデルと互換性があることがわかった。

Time series modeling is uniquely challenged by the presence of autocorrelation in both historical and label sequences. Current research predominantly focuses on handling autocorrelation within the historical sequence but often neglects its presence in the label sequence. Specifically, emerging forecast models mainly conform to the direct forecast (DF) paradigm, generating multi-step forecasts under the assumption of conditional independence within the label sequence. This assumption disregards the inherent autocorrelation in the label sequence, thereby limiting the performance of DF-based models. In response to this gap, we introduce the Frequency-enhanced Direct Forecast (FreDF), which bypasses the complexity of label autocorrelation by learning to forecast in the frequency domain. Our experiments demonstrate that FreDF substantially outperforms existing state-of-the-art methods including iTransformer and is compatible with a variety of forecast models.
翻訳日:2024-02-06 20:02:31 公開日:2024-02-04
# DeLLMa: 大規模言語モデルで不確実性の下で意思決定を行うフレームワーク

DeLLMa: A Framework for Decision Making Under Uncertainty with Large Language Models ( http://arxiv.org/abs/2402.02392v1 )

ライセンス: Link先を確認
Ollie Liu, Deqing Fu, Dani Yogatama, Willie Neiswanger(参考訳) 大規模言語モデル(LLM)は、ビジネス、エンジニアリング、医療といった分野を含む、社会全体でますます使われている。 これらの分野は不確実性の下で意思決定に苦しむことが多い。 本稿では,このような意思決定問題に対して LLM を直接的に促すと,特に問題複雑性が増大するにつれて,結果が低下することを示す。 この制限を克服するために,不確実な環境での意思決定精度を高めるためのフレームワークであるDeLLMa(Decision-making Large Language Model Assistant)を提案する。 DeLLMaは、決定理論とユーティリティ理論の原理に基づいて多段階の足場作成手順を伴い、最適かつ人間に理解可能な意思決定プロセスを提供する。 実際の農業と財務データを含む意思決定環境に関する枠組みを検証する。 以上の結果から,DeLLMaはLLM判定性能を大幅に向上し,競合手法よりも40%の精度向上が達成できることがわかった。

Large language models (LLMs) are increasingly used across society, including in domains like business, engineering, and medicine. These fields often grapple with decision-making under uncertainty, a critical yet challenging task. In this paper, we show that directly prompting LLMs on these types of decision-making problems yields poor results, especially as the problem complexity increases. To overcome this limitation, we propose DeLLMa (Decision-making Large Language Model assistant), a framework designed to enhance decision-making accuracy in uncertain environments. DeLLMa involves a multi-step scaffolding procedure, drawing upon principles from decision theory and utility theory, to provide an optimal and human-auditable decision-making process. We validate our framework on decision-making environments involving real agriculture and finance data. Our results show that DeLLMa can significantly improve LLM decision-making performance, achieving up to a 40% increase in accuracy over competing methods.
翻訳日:2024-02-06 20:02:17 公開日:2024-02-04
# KICGPT:知識グラフ補完のための文脈における知識付き大規模言語モデル

KICGPT: Large Language Model with Knowledge in Context for Knowledge Graph Completion ( http://arxiv.org/abs/2402.02389v1 )

ライセンス: Link先を確認
Yanbin Wei, Qiushi Huang, James T. Kwok, Yu Zhang(参考訳) 知識グラフ補完(KGC)は、知識グラフの不完全性と下流アプリケーションのサポートに不可欠である。 KGC向けに多くのモデルが提案されている。 それらは、トリプルベースとテキストベースという2つの主要なクラスに分類できる。 トリプルベースの手法は、構造情報と不均衡なエンティティ分布のため、ロングテールエンティティに苦しむ。 テキストベースの手法はこの問題を軽減するが、言語モデルのコストのかかるトレーニングと、その効率を制限した知識グラフの特定の微調整が必要である。 本稿では,これらの制約を緩和するために,大規模言語モデル(LLM)と3次元KGCレトリバーを統合したKICGPTを提案する。 追加のトレーニングオーバーヘッドを伴わずに、ロングテール問題を軽減する。 KICGPTはKnowledge Promptと呼ばれるコンテキスト内学習戦略を使用しており、LLMを導くために構造的知識をデモにエンコードする。 ベンチマークデータセットの実証結果は、KICGPTの有効性を示し、トレーニングオーバーヘッドは小さく、微調整はない。

Knowledge Graph Completion (KGC) is crucial for addressing knowledge graph incompleteness and supporting downstream applications. Many models have been proposed for KGC. They can be categorized into two main classes: triple-based and text-based approaches. Triple-based methods struggle with long-tail entities due to limited structural information and imbalanced entity distributions. Text-based methods alleviate this issue but require costly training for language models and specific finetuning for knowledge graphs, which limits their efficiency. To alleviate these limitations, in this paper, we propose KICGPT, a framework that integrates a large language model (LLM) and a triple-based KGC retriever. It alleviates the long-tail problem without incurring additional training overhead. KICGPT uses an in-context learning strategy called Knowledge Prompt, which encodes structural knowledge into demonstrations to guide the LLM. Empirical results on benchmark datasets demonstrate the effectiveness of KICGPT with smaller training overhead and no finetuning.
翻訳日:2024-02-06 20:02:01 公開日:2024-02-04
# 検証支援型反復的インコンテキスト学習によるソリューション指向エージェントベースモデル生成

Solution-oriented Agent-based Models Generation with Verifier-assisted Iterative In-context Learning ( http://arxiv.org/abs/2402.02388v1 )

ライセンス: Link先を確認
Tong Niu, Weihao Zhang, Rong Zhao(参考訳) エージェントベースモデル(abms)は、複雑なシステムによって引き起こされる課題に対処し、様々な目的を達成することを目的とした仮説的なソリューションやポリシーを提案し検証するための重要なパラダイムである。 このプロセスは労働集約的な取り組みと多分野の専門知識を必要とする。 大きな言語モデル(LLM)は、ドメイン間の知識とプログラミング能力をカプセル化することで、このプロセスの難しさを軽減できる可能性がある。 しかし、LSMはシーケンシャルな情報を扱うのに優れており、ABMに固有の複雑な相互作用や非線形力学を解析することは困難である。 また, LLMの自己評価能力の欠如により, LLMのみに依存しているため, この処理を効果的に行うには不十分である。 本稿では、ターゲット問題に対する自動モデリングおよびソリューション生成のための汎用ソリューション指向ABM生成フレームワークであるSAGEを提案する。 専門家の手工芸やリソース集約型ニューラルネットワークトレーニングに依存するアプローチとは異なり、SAGEは、大規模な言語モデル(LLM)を用いた検証支援反復型インコンテキスト学習プロセスを確立し、さまざまなドメインシナリオからの複雑な要求に対処するために、独自のクロスドメイン知識を活用する。 SAGEでは、ABMの複雑な構造を表わす半構造化概念表現と、シナリオのモデル化においてLLMを導く客観的表現を導入し、文脈内学習を通じて仮説解を提案する。 モデル実行可能性とソリューション実現性を確保するため、SAGEは、複雑な相互作用やABMの非線形ダイナミクスに合わせた2段階の検証器を考案し、反復生成最適化を推進した。 さらに, オープンソースからのソリューション指向abmの評価データセットを構築し, 様々な領域にわたる実用モデルを含む。

Agent-based models (ABMs) stand as an essential paradigm for proposing and validating hypothetical solutions or policies aimed at addressing challenges posed by complex systems and achieving various objectives. This process demands labor-intensive endeavors and multidisciplinary expertise. Large language models (LLMs) encapsulating cross-domain knowledge and programming proficiency could potentially alleviate the difficulty of this process. However, LLMs excel in handling sequential information, making it challenging for analyzing the intricate interactions and nonlinear dynamics inherent in ABMs. Additionally, due to the lack of self-evaluation capability of LLMs, relying solely on LLMs is insufficient to effectively accomplish this process. In this paper, we present SAGE, a general solution-oriented ABM generation framework designed for automatic modeling and generating solutions for targeted problems. Unlike approaches reliant on expert handcrafting or resource-intensive neural network training, SAGE establishes a verifier-assisted iterative in-context learning process employing large language models (LLMs) to leverages their inherent cross-domain knowledge for tackling intricate demands from diverse domain scenarios. In SAGE, we introduce an semi-structured conceptual representation expliciting the intricate structures of ABMs and an objective representation to guide LLMs in modeling scenarios and proposing hypothetical solutions through in-context learning. To ensure the model executability and solution feasibility, SAGE devises a two-level verifier with chain-of-thought prompting tailored to the complex interactions and non-linear dynamics of ABMs, driving the iterative generation optimization. Moreover, we construct an evaluation dataset of solution-oriented ABMs from open sources.It contains practical models across various domains.
翻訳日:2024-02-06 20:01:45 公開日:2024-02-04
# 視覚チューニングのためのプロンプトのパワーの再検討

Revisiting the Power of Prompt for Visual Tuning ( http://arxiv.org/abs/2402.02382v1 )

ライセンス: Link先を確認
Yuzhu Wang, Lechao Cheng, Chaowei Fang, Dingwen Zhang, Manni Duan, Meng Wang(参考訳) ビジュアルプロンプトチューニング(VPT)は、学習可能なプロンプトトークンを組み込んだ有望なソリューションである。 しかし、vstとその変種は、しばしば自己教師付き事前学習におけるプロンプト初期化、プロンプト長さ、サブパー性能といった課題に遭遇し、文脈適応の成功を妨げている。 本研究は,訓練中のプロンプトとパッチトークンの相関関係を探究することで開始する。 プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあり,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。 戦略初期化は、以前の初期化のスタンドインであり、微調整のパフォーマンスが大幅に向上する。 さらに改良するために,VPTに比べて計算コストがほとんど増加せず,優れた性能を維持した合理化パイプラインによるトークン構築を最適化する。 徹底的な実験は,提案手法が既存の手法を著しく上回っていることを示す。 例えば、FGVCとVTAB-1Kベンチマークで学習可能なパラメータの0.4%未満を使用して、24タスク中19タスクで完全な微調整を達成している。 特に,本手法は自己指導型プレトレーニングの適応性を著しく向上させ,タスク性能が少なくとも10%から30%向上した。 さらに,提案したSPTは,モデルキャパシティやトレーニングデータサイズとともに,長さやスケールの促進に頑健であることを示す実験結果を得た。 最後に、トレーニング済みモデルのダウンストリームタスクへの適応を容易にする、ターゲットデータの量に関する洞察に富んだ調査を行う。

Visual prompt tuning (VPT) is a promising solution incorporating learnable prompt tokens to customize pre-trained models for downstream tasks. However, VPT and its variants often encounter challenges like prompt initialization, prompt length, and subpar performance in self-supervised pretraining, hindering successful contextual adaptation. This study commences by exploring the correlation evolvement between prompts and patch tokens during proficient training. Inspired by the observation that the prompt tokens tend to share high mutual information with patch tokens, we propose initializing prompts with downstream token prototypes. The strategic initialization, a stand-in for the previous initialization, substantially improves performance in fine-tuning. To refine further, we optimize token construction with a streamlined pipeline that maintains excellent performance with almost no increase in computational expenses compared to VPT. Exhaustive experiments show our proposed approach outperforms existing methods by a remarkable margin. For instance, it surpasses full fine-tuning in 19 out of 24 tasks, using less than 0.4% of learnable parameters on the FGVC and VTAB-1K benchmarks. Notably, our method significantly advances the adaptation for self-supervised pretraining, achieving impressive task performance gains of at least 10% to 30%. Besides, the experimental results demonstrate the proposed SPT is robust to prompt lengths and scales well with model capacity and training data size. We finally provide an insightful exploration into the amount of target data facilitating the adaptation of pre-trained models to downstream tasks.
翻訳日:2024-02-06 20:01:17 公開日:2024-02-04
# 分散協調ルーティングによるコンピューティングとネットワークコンバージェンスシステムの実現

Empowering Computing and Networks Convergence System with Distributed Cooperative Routing ( http://arxiv.org/abs/2402.02381v1 )

ライセンス: Link先を確認
Yujiao Hu, Qingmin Jia, Meng Shen, Renchao Xie, Tao Huang, F.Richard Yu(参考訳) インテリジェントなアプリケーションの出現と、コンピュータとネットワークの分野における最近の進歩により、コンピューティングとネットワークの収束(cnc)システムの開発が進められている。 しかし、既存の研究は、コンピューティングとネットワークリソースの包括的スケジューリング最適化を達成できなかった。 この不足は、エンドツーエンドのサービスパターンで保証できないコンピューティング要求のいくつかの要件をもたらし、CNCシステムの開発に悪影響を及ぼす。 本稿では,CNCシステムのための分散協調型ルーティングフレームワークを提案する。 フレームワークには、トレーディングプレーン、マネジメントプレーン、コントロールプレーン、フォワードプレーンが含まれる。 平面間協調型エンド・ツー・エンドルーティングスキームは、ルーティング計画を行いながら異種サーバの計算効率とネットワーク混雑度の両方を考慮し、リクエストの実行場所と対応するルーティングパスを決定する。 シミュレーションの結果は、CNCシステムにおける計算要求のスケジューリングにおけるルーティング方式の性能を裏付けるものである。

The emergence of intelligent applications and recent advances in the fields of computing and networks are driving the development of computing and networks convergence (CNC) system. However, existing researches failed to achieve comprehensive scheduling optimization of computing and network resources. This shortfall results in some requirements of computing requests unable to be guaranteed in an end-to-end service pattern, negatively impacting the development of CNC systems. In this article, we propose a distributed cooperative routing framework for the CNC system to ensure the deadline requirements and minimize the computation cost of requests. The framework includes trading plane, management plane, control plane and forwarding plane. The cross-plane cooperative end-to-end routing schemes consider both computation efficiency of heterogeneous servers and the network congestion degrees while making routing plan, thereby determining where to execute requests and corresponding routing paths. Simulations results substantiates the performance of our routing schemes in scheduling computing requests in the CNC system.
翻訳日:2024-02-06 20:00:50 公開日:2024-02-04
# 教室対話の分析における大規模言語モデルの評価

Evaluating Large Language Models in Analysing Classroom Dialogue ( http://arxiv.org/abs/2402.02380v1 )

ライセンス: Link先を確認
Yun Long, Haifeng Luo, Yu Zhang(参考訳) 本研究は,大規模言語モデル(LLM),特に GPT-4 を教室内対話の分析に適用し,診断と品質改善の両面において重要な研究課題である。 教育研究における伝統的質的手法の知識集約的かつ労働集約的性質を認識し,llmが分析プロセスを合理化し,強化する可能性について検討した。 この研究は、数学と中国語の授業を通して教室の対話を包含する中学のデータセットを含んでいる。 これらの対話は、教育専門家が手作業でコーディングし、カスタマイズされたGPT-4モデルを用いて分析した。 本研究は,手動アノテーションとGPT-4の出力を比較し,教育対話の分析の有効性を評価することを目的とした。 人間のコーダとGPT-4間の時間効率、コーダ間合意、およびコーダ間信頼性を評価する。 結果から、gpt-4による時間節約と、モデルと人間のコーダ間のコーディングの一貫性の高まりが示され、特定のコードに多少の相違がある。 これらの知見は、LLMの教育評価とファシリテーションにおける強みを浮き彫りにした。

This study explores the application of Large Language Models (LLMs), specifically GPT-4, in the analysis of classroom dialogue, a crucial research task for both teaching diagnosis and quality improvement. Recognizing the knowledge-intensive and labor-intensive nature of traditional qualitative methods in educational research, this study investigates the potential of LLM to streamline and enhance the analysis process. The study involves datasets from a middle school, encompassing classroom dialogues across mathematics and Chinese classes. These dialogues were manually coded by educational experts and then analyzed using a customised GPT-4 model. This study focuses on comparing manual annotations with the outputs of GPT-4 to evaluate its efficacy in analyzing educational dialogues. Time efficiency, inter-coder agreement, and inter-coder reliability between human coders and GPT-4 are evaluated. Results indicate substantial time savings with GPT-4, and a high degree of consistency in coding between the model and human coders, with some discrepancies in specific codes. These findings highlight the strong potential of LLM in teaching evaluation and facilitation.
翻訳日:2024-02-06 20:00:34 公開日:2024-02-04
# エンティティ・センターの視点からの事前学習型テキスト・レイアウトモデルの評価再考

Rethinking the Evaluation of Pre-trained Text-and-Layout Models from an Entity-Centric Perspective ( http://arxiv.org/abs/2402.02379v1 )

ライセンス: Link先を確認
Chong Zhang, Yixi Zhao, Chenshu Yuan, Yi Tu, Ya Guo, Qi Zhang(参考訳) 最近開発されたPTLM(Pre-trained text-and-layout model)は、視覚的にリッチな文書における複数の情報抽出タスクにおいて顕著な成功を収めている。 しかし, 評価パイプラインは, PTLMの情報抽出能力を評価する上では, ベンチマーク内のアノテーションが不十分であるため, 十分な堅牢性は得られない。 そこで我々は,PTLMの情報抽出能力を評価するために,理想的なベンチマークに必要な基準を主張する。 次に,EC-FUNSDを紹介した。EC-FUNSDは,視覚的にリッチなドキュメント上でのセマンティックエンティティ認識とエンティティリンクの評価を目的とした,エンティティ中心のベックマークである。 このデータセットには、ドキュメントレイアウトの多様なフォーマットと、セマンティック駆動エンティティとその関係のアノテーションが含まれている。 さらに、このデータセットは、funsdのブロックレベルのアノテーションから生じるセグメンテーションとエンティティの誤った結合アノテーションを分離する。 実験結果から,最新のPTLMは,データセットバイアスを除去すると性能が急激に低下するため,ベンチマークに適合する傾向を示した。

Recently developed pre-trained text-and-layout models (PTLMs) have shown remarkable success in multiple information extraction tasks on visually-rich documents. However, the prevailing evaluation pipeline may not be sufficiently robust for assessing the information extraction ability of PTLMs, due to inadequate annotations within the benchmarks. Therefore, we claim the necessary standards for an ideal benchmark to evaluate the information extraction ability of PTLMs. We then introduce EC-FUNSD, an entity-centric benckmark designed for the evaluation of semantic entity recognition and entity linking on visually-rich documents. This dataset contains diverse formats of document layouts and annotations of semantic-driven entities and their relations. Moreover, this dataset disentangles the falsely coupled annotation of segment and entity that arises from the block-level annotation of FUNSD. Experiment results demonstrate that state-of-the-art PTLMs exhibit overfitting tendencies on the prevailing benchmarks, as their performance sharply decrease when the dataset bias is removed.
翻訳日:2024-02-06 20:00:17 公開日:2024-02-04
# noah: 画像分類のためのペアワイズオブジェクトカテゴリの注意を学習する

NOAH: Learning Pairwise Object Category Attentions for Image Classification ( http://arxiv.org/abs/2402.02377v1 )

ライセンス: Link先を確認
Chao Li, Aojun Zhou, Anbang Yao(参考訳) 画像分類タスクのための現代のディープニューラルネットワーク(DNN)は通常、特徴抽出のためのバックボーンと、特徴符号化とクラス述語のためのヘッドの2つの部分で構成される。 メインストリームDNNのヘッド構造は類似の機能符号化パイプラインを採用し,グローバルな機能依存を生かし,ローカルな機能を無視する。 本稿では, 特徴符号化問題を再考し, 対物カテゴリー注意(POCA, pairwise object category attention)と呼ばれる新しい形の点積注意(NOAH)を提案し, 空間的に密接なカテゴリー別注意を効果的に活用し, 拡張分類性能を向上させる。 NOAHは、ローカルからグローバルスケールでPOCAを学ぶために、機能分割、変換、マージ操作の巧妙な組み合わせを導入している。 ドロップイン設計では、NOAHは様々な種類のDNNの既存のヘッドを置き換え、類似したモデル効率を維持しながら分類性能を向上させることができる。 畳み込みニューラルネットワーク,視覚変換器,多層パーセプトロンにまたがる25のDNNアーキテクチャを用いた画像ネット分類ベンチマークにおけるNOAHの有効性を検証する。 例えば、mobilenetv2 (0.5x)|deit-tiny (0.5x)|gmlp-tiny (0.5x) に対する3.14\%|5.3\%|1.9\% top-1精度の改善である。 NOAHはまた、中規模および大規模DNNに適用する場合によく一般化する。 さらに、NOAHは、MS-COCOデータセット上の大規模なResNet101|ViT-Largeに対して3.6\%|1.1\% mAPの改善を示すなど、他の一般的なマルチクラスおよびマルチラベルイメージ分類ベンチマークや、異なるトレーニングレシシシで有効であることを示す。 プロジェクトページ:https://github.com/OSVAI/NOAH。

A modern deep neural network (DNN) for image classification tasks typically consists of two parts: a backbone for feature extraction, and a head for feature encoding and class predication. We observe that the head structures of mainstream DNNs adopt a similar feature encoding pipeline, exploiting global feature dependencies while disregarding local ones. In this paper, we revisit the feature encoding problem, and propose Non-glObal Attentive Head (NOAH) that relies on a new form of dot-product attention called pairwise object category attention (POCA), efficiently exploiting spatially dense category-specific attentions to augment classification performance. NOAH introduces a neat combination of feature split, transform and merge operations to learn POCAs at local to global scales. As a drop-in design, NOAH can be easily used to replace existing heads of various types of DNNs, improving classification performance while maintaining similar model efficiency. We validate the effectiveness of NOAH on ImageNet classification benchmark with 25 DNN architectures spanning convolutional neural networks, vision transformers and multi-layer perceptrons. In general, NOAH is able to significantly improve the performance of lightweight DNNs, e.g., showing 3.14\%|5.3\%|1.9\% top-1 accuracy improvement to MobileNetV2 (0.5x)|Deit-Tiny (0.5x)|gMLP-Tiny (0.5x). NOAH also generalizes well when applied to medium-size and large-size DNNs. We further show that NOAH retains its efficacy on other popular multi-class and multi-label image classification benchmarks as well as in different training regimes, e.g., showing 3.6\%|1.1\% mAP improvement to large ResNet101|ViT-Large on MS-COCO dataset. Project page: https://github.com/OSVAI/NOAH.
翻訳日:2024-02-06 19:59:57 公開日:2024-02-04
# 教師付き学習保証付き変分量子AdaBoost

Variational Quantum AdaBoost with Supervised Learning Guarantee ( http://arxiv.org/abs/2402.02376v1 )

ライセンス: Link先を確認
Yabo Wang, Xin Wang, Bo Qi and Daoyi Dong(参考訳) パラメータ化量子回路に基づく変分量子アルゴリズムは量子優位性を実現することを約束するが、ノイズの多い中間スケール量子(NISQ)時代には、量子回路の量子ビット数と深さの制限によりその能力は大幅に制限される。 したがって、これらの変分量子アルゴリズムは教師あり学習における弱い学習者と見なすことができる。 アンサンブルメソッドは、弱い学習者を結合してより正確なものを構築するための機械学習の一般的なテクニックである。 本稿では,変分量子適応促進(AdaBoost)の学習保証を理論的に検証し,数値的に検証する。 具体的には,2値分類における変分量子AdaBoostの予測誤差が,昇降ラウンド数の増加とサンプルサイズの増加に伴って減少することを示す。 さらに,量子畳み込みニューラルネットワークを用いることにより,変動量子アダブーストが予測精度を向上できるだけでなく,ノイズの影響を緩和できることを示す。 我々の研究は、現在のNISQ時代において、適切なアンサンブル法を導入することは、量子機械学習アルゴリズムの性能向上に特に有用であることを示している。

Although variational quantum algorithms based on parameterized quantum circuits promise to achieve quantum advantages, in the noisy intermediate-scale quantum (NISQ) era, their capabilities are greatly constrained due to limited number of qubits and depth of quantum circuits. Therefore, we may view these variational quantum algorithms as weak learners in supervised learning. Ensemble methods are a general technique in machine learning for combining weak learners to construct a more accurate one. In this paper, we theoretically prove and numerically verify a learning guarantee for variational quantum adaptive boosting (AdaBoost). To be specific, we theoretically depict how the prediction error of variational quantum AdaBoost on binary classification decreases with the increase of the number of boosting rounds and sample size. By employing quantum convolutional neural networks, we further demonstrate that variational quantum AdaBoost can not only achieve much higher accuracy in prediction, but also help mitigate the impact of noise. Our work indicates that in the current NISQ era, introducing appropriate ensemble methods is particularly valuable in improving the performance of quantum machine learning algorithms.
翻訳日:2024-02-06 19:59:17 公開日:2024-02-04
# 乱れANOVA分解に基づく高速かつ解釈可能な支援ベクトル分類

Fast and interpretable Support Vector Classification based on the truncated ANOVA decomposition ( http://arxiv.org/abs/2402.02438v1 )

ライセンス: Link先を確認
Kseniya Akhalaya, Franziska Nestler, Daniel Potts(参考訳) サポートベクトルマシン(SVM)は、高次元空間において多くのデータポイントを扱う必要がある分散データの分類を行うための重要なツールである。 三角関数やウェーブレットに基づく特徴写像を用いて,SVMを原始形式で解くことを提案する。 小次元設定では、Fast Fourier Transform (FFT) と関連する手法は、考慮された基底関数を扱うための強力なツールである。 成長する次元に対して、古典的なFFTベースの手法は次元性の呪いのために非効率になる。 したがって、私たちは自分自身を多変数基底関数に制限し、それぞれが少数の次元にのみ依存する。 これは、よく知られた効果の空間性や、分散データからの分散解析(ANOVA)分解における関数の再構成に関する最近の結果によって動機付けられ、結果として得られるモデルは特徴の重要性や結合性の観点からも解釈可能である。 小さな重ね合わせ次元の使用は、計算努力がもはや指数関数的にではなく、次元に関して多項式的にのみ増大する結果をもたらす。 基底係数に関する疎度を強制するために、頻繁に適用される $\ell_2$-norm と、さらに $\ell_1$-norm 正規化を用いる。 発見された分類関数は基底関数の線型結合であり、その分散は関数の古典的 ANOVA 分解の観点から解析することができる。 数値例に基づいて,モデル仮定に完全に適合する関数の符号を復元できることを示す。 精度と解釈可能性の明確さの両面で,$\ell_1$-norm正規化によるより良い結果が得られる。

Support Vector Machines (SVMs) are an important tool for performing classification on scattered data, where one usually has to deal with many data points in high-dimensional spaces. We propose solving SVMs in primal form using feature maps based on trigonometric functions or wavelets. In small dimensional settings the Fast Fourier Transform (FFT) and related methods are a powerful tool in order to deal with the considered basis functions. For growing dimensions the classical FFT-based methods become inefficient due to the curse of dimensionality. Therefore, we restrict ourselves to multivariate basis functions, each one of them depends only on a small number of dimensions. This is motivated by the well-known sparsity of effects and recent results regarding the reconstruction of functions from scattered data in terms of truncated analysis of variance (ANOVA) decomposition, which makes the resulting model even interpretable in terms of importance of the features as well as their couplings. The usage of small superposition dimensions has the consequence that the computational effort no longer grows exponentially but only polynomially with respect to the dimension. In order to enforce sparsity regarding the basis coefficients, we use the frequently applied $\ell_2$-norm and, in addition, $\ell_1$-norm regularization. The found classifying function, which is the linear combination of basis functions, and its variance can then be analyzed in terms of the classical ANOVA decomposition of functions. Based on numerical examples we show that we are able to recover the signum of a function that perfectly fits our model assumptions. We obtain better results with $\ell_1$-norm regularization, both in terms of accuracy and clarity of interpretability.
翻訳日:2024-02-06 19:52:00 公開日:2024-02-04
# 不確実性認識器

Uncertainty-Aware Perceiver ( http://arxiv.org/abs/2402.02433v1 )

ライセンス: Link先を確認
EuiYul Song(参考訳) 知覚器は、その入力と二次スケーラビリティとの関係について、メモリと計算時間に関するアーキテクチャ上の仮定はほとんどない。 実際、PerceiverモデルはResNet-50やViTとある程度の精度で競合する。 しかし、Perceiverは予測の不確実性やキャリブレーションを考慮していない。 Perceiverはまた、そのパフォーマンスを3つのデータセット、3つのモデル、1つの評価基準、1つのハイパーパラメータ設定で一般化する。 さらに悪いことに、Perceiverの他のモデルに対する相対的な性能改善は限界がある。 さらに、アーキテクチャの事前の削減は重要ではなく、品質に匹敵するものではない。 そこで私は,不確実性推定を行い,その性能を3つの指標で測定する,不確実性認識型知覚器の5つの変異を考案した。 CIFAR-10とCIFAR-100の実験により、不確実性認識パーシーバーはパーシーバーに比べて性能が大幅に向上した。

The Perceiver makes few architectural assumptions about the relationship among its inputs with quadratic scalability on its memory and computation time. Indeed, the Perceiver model outpaces or is competitive with ResNet-50 and ViT in terms of accuracy to some degree. However, the Perceiver does not take predictive uncertainty and calibration into account. The Perceiver also generalizes its performance on three datasets, three models, one evaluation metric, and one hyper-parameter setting. Worst of all, the Perceiver's relative performance improvement against other models is marginal. Furthermore, its reduction of architectural prior is not substantial; is not equivalent to its quality. Thereby, I invented five mutations of the Perceiver, the Uncertainty-Aware Perceivers, that obtain uncertainty estimates and measured their performance on three metrics. Experimented with CIFAR-10 and CIFAR-100, the Uncertainty-Aware Perceivers make considerable performance enhancement compared to the Perceiver.
翻訳日:2024-02-06 19:51:34 公開日:2024-02-04
# 手動・手動インタラクション認識のための相互励振学習

Learning Mutual Excitation for Hand-to-Hand and Human-to-Human Interaction Recognition ( http://arxiv.org/abs/2402.02431v1 )

ライセンス: Link先を確認
Mengyuan Liu, Chen Chen, Songtao Wu, Fanyang Meng, Hong Liu(参考訳) 手動インタラクションや人間と人間のインタラクションを含む対話的行動を認識することは、ビデオ分析や人間とロボットのインタラクションの分野で様々な応用に注目が集まっている。 骨格データからトポロジを認識した特徴をモデル化するグラフ畳み込みの成功を考えると、近年の手法では、グラフ畳み込みを個別のエンティティ上で動作させ、対話的行動認識に遅延融合を用いることが多い。 そこで本研究では,相互励起グラフ畳み込み(me-GC)層を積み重ねた相互励起グラフ畳み込みネットワーク(me-GCN)を提案する。 具体的には、me-GCは相互トポロジ励起モジュールを使用して、まず個々のエンティティから隣接行列を抽出し、それらの間の相互制約を適応的にモデル化する。 さらに、me-gcは上記のアイデアを拡張し、さらに相互特徴励起モジュールを使用して、ペアワイズエンティティから深い特徴を抽出およびマージする。 グラフ畳み込みと比較して,提案するme-GCは各層とグラフ畳み込み操作の各段階の相互情報を徐々に学習する。 Assembely101データセットと、NTU60-Interaction(英語版)とNTU120-Interaction(英語版)の2つの大規模人対人インタラクションデータセットに対する大規模な実験により、提案手法の優位性を一貫して検証し、最先端のGCNベースおよびトランスフォーマーベースの手法より優れていた。

Recognizing interactive actions, including hand-to-hand interaction and human-to-human interaction, has attracted increasing attention for various applications in the field of video analysis and human-robot interaction. Considering the success of graph convolution in modeling topology-aware features from skeleton data, recent methods commonly operate graph convolution on separate entities and use late fusion for interactive action recognition, which can barely model the mutual semantic relationships between pairwise entities. To this end, we propose a mutual excitation graph convolutional network (me-GCN) by stacking mutual excitation graph convolution (me-GC) layers. Specifically, me-GC uses a mutual topology excitation module to firstly extract adjacency matrices from individual entities and then adaptively model the mutual constraints between them. Moreover, me-GC extends the above idea and further uses a mutual feature excitation module to extract and merge deep features from pairwise entities. Compared with graph convolution, our proposed me-GC gradually learns mutual information in each layer and each stage of graph convolution operations. Extensive experiments on a challenging hand-to-hand interaction dataset, i.e., the Assembely101 dataset, and two large-scale human-to-human interaction datasets, i.e., NTU60-Interaction and NTU120-Interaction consistently verify the superiority of our proposed method, which outperforms the state-of-the-art GCN-based and Transformer-based methods.
翻訳日:2024-02-06 19:51:20 公開日:2024-02-04
# 超高速道路セグメンテーションにおける低レベル表現の活用

Exploiting Low-level Representations for Ultra-Fast Road Segmentation ( http://arxiv.org/abs/2402.02430v1 )

ライセンス: Link先を確認
Huan Zhou, Feng Xue, Yucong Li, Shi Gong, Yiqun Li, Yu Zhou(参考訳) 組込みプラットフォーム上でのリアルタイムおよび精度の実現は常に道路分割手法の追求であった。 そのため、多くの軽量ネットワークが提案されている。 しかし、道路は「物」(特定の識別可能な物体)ではなく「地中」であるという事実を無視し、ハイレベルな特徴ではなく低レベルな道路を表現できる可能性を探るきっかけとなる。 意外なことに、主流ネットワークモデルの第一段階は、セグメント化のための道路のほとんどのピクセルを表すのに十分である。 そこで我々は,低レベル道路分割ネットワーク(LFD-RoadSeg)を提案する。 具体的には、LFD-RoadSegは両側構造を採用している。 空間詳細分岐はまずResNet-18の第1段までに道路の低レベル特徴表現を抽出するように設計されている。 低レベル特徴において、道路と誤認されるテクスチャレス領域を抑制するために、コンテキスト意味分枝を高速にコンテキスト特徴を抽出するように設計する。 この目的のために、第2ブランチでは、入力画像を非対称にダウンサンプルし、ResNet-18の第3ステージに匹敵する受容場を実現するために集約モジュールを設計する。 最後に、低レベル特徴から道路を区分するために、低レベル表現とコンテキスト特徴の間の画素毎の注意度を計算し、この注意による非ロード低レベル応答を抑制する選択的融合モジュールを提案する。 KITTI-RoadSegでは、LFD-RoadSegは最大F1測定値(MaxF)95.21%、平均精度93.71%を達成し、Jetson TX2ではTITAN Xpで238FPS、Jetson TX2では54FPSに到達した。 ソースコードはhttps://github.com/zhouhuan-hust/lfd-roadsegで入手できる。

Achieving real-time and accuracy on embedded platforms has always been the pursuit of road segmentation methods. To this end, they have proposed many lightweight networks. However, they ignore the fact that roads are "stuff" (background or environmental elements) rather than "things" (specific identifiable objects), which inspires us to explore the feasibility of representing roads with low-level instead of high-level features. Surprisingly, we find that the primary stage of mainstream network models is sufficient to represent most pixels of the road for segmentation. Motivated by this, we propose a Low-level Feature Dominated Road Segmentation network (LFD-RoadSeg). Specifically, LFD-RoadSeg employs a bilateral structure. The spatial detail branch is firstly designed to extract low-level feature representation for the road by the first stage of ResNet-18. To suppress texture-less regions mistaken as the road in the low-level feature, the context semantic branch is then designed to extract the context feature in a fast manner. To this end, in the second branch, we asymmetrically downsample the input image and design an aggregation module to achieve comparable receptive fields to the third stage of ResNet-18 but with less time consumption. Finally, to segment the road from the low-level feature, a selective fusion module is proposed to calculate pixel-wise attention between the low-level representation and context feature, and suppress the non-road low-level response by this attention. On KITTI-Road, LFD-RoadSeg achieves a maximum F1-measure (MaxF) of 95.21% and an average precision of 93.71%, while reaching 238 FPS on a single TITAN Xp and 54 FPS on a Jetson TX2, all with a compact model size of just 936k parameters. The source code is available at https://github.com/zhouhuan-hust/LFD-RoadSeg.
翻訳日:2024-02-06 19:50:47 公開日:2024-02-04
# 文脈に基づくオフラインメタ強化学習における情報理論の枠組みに向けて

Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning ( http://arxiv.org/abs/2402.02429v1 )

ライセンス: Link先を確認
Lanqing Li, Hai Zhang, Xinyu Zhang, Shatong Zhu, Junqiao Zhao, Pheng-Ann Heng(参考訳) オフラインRLとメタRLの結婚により、オフラインメタ強化学習(OMRL)の出現は、RLエージェントのマルチタスクと迅速な適応を可能にするとともに、知識を安全に獲得する上で大きな可能性を秘めている。 その中のひとつとして、コンテキストベースのOMRL(COMRL)は、効率的なタスク表現に基づく普遍的なポリシーの学習を目指している。 本研究では,COMRLの分野におけるいくつかの重要なマイルストーンを考察することにより,これらの一見独立した方法論を統合情報理論フレームワークに統合することを提案する。 最も重要なことは、既存のCOMRLアルゴリズムが、タスク変数 $\boldsymbol{M}$ と、その潜在表現 $\boldsymbol{Z}$ を、様々な近似境界を実装することによって、本質的に同じ相互情報目的を最適化していることである。 理論的な洞察と情報ボトルネックの原理に基づいて、我々はUNICORNと呼ばれる新しいアルゴリズムに到達し、RLベンチマーク、コンテキストシフトシナリオ、データ品質、ディープラーニングアーキテクチャの幅広い範囲にわたる顕著な一般化を示す。 我々は,新しい最適性境界とCOMRLアルゴリズムの道を開くことができると考えている。

As a marriage between offline RL and meta-RL, the advent of offline meta-reinforcement learning (OMRL) has shown great promise in enabling RL agents to multi-task and quickly adapt while acquiring knowledge safely. Among which, Context-based OMRL (COMRL) as a popular paradigm, aims to learn a universal policy conditioned on effective task representations. In this work, by examining several key milestones in the field of COMRL, we propose to integrate these seemingly independent methodologies into a unified information theoretic framework. Most importantly, we show that the pre-existing COMRL algorithms are essentially optimizing the same mutual information objective between the task variable $\boldsymbol{M}$ and its latent representation $\boldsymbol{Z}$ by implementing various approximate bounds. Based on the theoretical insight and the information bottleneck principle, we arrive at a novel algorithm dubbed UNICORN, which exhibits remarkable generalization across a broad spectrum of RL benchmarks, context shift scenarios, data qualities and deep learning architectures, attaining the new state-of-the-art. We believe that our framework could open up avenues for new optimality bounds and COMRL algorithms.
翻訳日:2024-02-06 19:50:10 公開日:2024-02-04
# ハイブリッド予測統合型自動運転計画

Hybrid-Prediction Integrated Planning for Autonomous Driving ( http://arxiv.org/abs/2402.02426v1 )

ライセンス: Link先を確認
Haochen Liu, Zhiyu Huang, Wenhui Huang, Haohan Yang, Xiaoyu Mo, and Chen Lv(参考訳) 自動運転システムは、複雑なシナリオでインフォームドな意思決定を行うために、周囲の環境を十分に理解し、予測する能力を必要とします。 学習ベースシステムの最近の進歩は、予測と計画モジュールの統合の重要性を強調している。 しかし、この統合は3つの大きな課題をもたらした: 予測のみによる固有のトレードオフ、予測パターン間の一貫性、予測と計画における社会的一貫性。 これらの課題に対処するために,新しい3つのモジュールを持つハイブリッド予測統合計画(HPP)システムを導入する。 まず,共同占有率とエージェントワイズ知覚を整合させるために,辺縁条件占有率予測を導入する。 提案するMS-OccFormerモジュールは,エージェントの動作予測から一貫した認識を伴って,占有率予測の多段階アライメントを実現する。 第2に,ゲーム理論に基づく運動予測器であるgtformerを提案する。 第3に、ハイブリッド予測パターンはEgo Plannerと並列に統合され、予測ガイダンスによって最適化される。 HPPはnuScenesデータセットで最先端のパフォーマンスを実現し、予測と計画におけるエンドツーエンドのパラダイムに対して、優れた精度と一貫性を示す。 さらに、Waymo Open Motion DatasetおよびCARLAベンチマークにおいて、HPPの長期オープンループおよびクローズループ性能をテストし、精度と互換性を向上した他の統合予測および計画パイプラインを上回った。

Autonomous driving systems require the ability to fully understand and predict the surrounding environment to make informed decisions in complex scenarios. Recent advancements in learning-based systems have highlighted the importance of integrating prediction and planning modules. However, this integration has brought forth three major challenges: inherent trade-offs by sole prediction, consistency between prediction patterns, and social coherence in prediction and planning. To address these challenges, we introduce a hybrid-prediction integrated planning (HPP) system, which possesses three novelly designed modules. First, we introduce marginal-conditioned occupancy prediction to align joint occupancy with agent-wise perceptions. Our proposed MS-OccFormer module achieves multi-stage alignment per occupancy forecasting with consistent awareness from agent-wise motion predictions. Second, we propose a game-theoretic motion predictor, GTFormer, to model the interactive future among individual agents with their joint predictive awareness. Third, hybrid prediction patterns are concurrently integrated with Ego Planner and optimized by prediction guidance. HPP achieves state-of-the-art performance on the nuScenes dataset, demonstrating superior accuracy and consistency for end-to-end paradigms in prediction and planning. Moreover, we test the long-term open-loop and closed-loop performance of HPP on the Waymo Open Motion Dataset and CARLA benchmark, surpassing other integrated prediction and planning pipelines with enhanced accuracy and compatibility.
翻訳日:2024-02-06 19:49:47 公開日:2024-02-04
# Uni-RLHF: 多様なヒューマンフィードバックによる強化学習のためのユニバーサルプラットフォームとベンチマークスイート

Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback ( http://arxiv.org/abs/2402.02423v1 )

ライセンス: Link先を確認
Yifu Yuan, Jianye Hao, Yi Ma, Zibin Dong, Hebin Liang, Jinyi Liu, Zhixin Feng, Kai Zhao, Yan Zheng(参考訳) Reinforcement Learning with Human Feedback (RLHF) は、人選好の調整による手作業による報酬設計を必要とせず、タスクを実行する上で大きな注目を集めている。 様々な環境において,多様なフィードバックタイプや学習方法を検討することが重要である。 しかし、標準化されたアノテーションプラットフォームや広く使用されている統一ベンチマークがないため、RLHFの進歩を様々なフィードバックで定量化することは困難である。 このギャップを埋めるために、RLHFに適したシステム実装であるUni-RLHFを導入する。 実際の人間のフィードバックから完全なワークフローを提供することを目標とし、実践的な問題の進展を促進する。 Uni-RLHF には3つのパッケージがある。 1)ユニバーサルマルチフィードバックアノテーションプラットフォーム, 2)大規模クラウドソース型フィードバックデータセット,および 3) モジュール型のオフラインRLHFベースライン実装。 Uni-RLHFは、様々なフィードバックタイプに適したユーザフレンドリーなアノテーションインターフェースを開発し、様々な主要なRL環境と互換性がある。 そして、クラウドソーシングされたアノテーションの体系的なパイプラインを構築し、30以上の一般的なタスクにまたがる1500万以上のステップからなる大規模なアノテートデータセットを作成しました。 広範な実験を通じて、収集されたデータセットの結果は、よく設計された手作業による報酬に比べて、競争力のあるパフォーマンスを示している。 さまざまな設計選択を評価し、その強みと潜在的な改善領域について洞察を提供する。 リアルな人間のフィードバックに基づいて、より堅牢で信頼性の高いRLHFソリューションの開発を容易にするために、貴重なオープンソースプラットフォーム、データセット、ベースラインを構築したいと考えています。 webサイトはhttps://uni-rlhf.github.io/で入手できる。

Reinforcement Learning with Human Feedback (RLHF) has received significant attention for performing tasks without the need for costly manual reward design by aligning human preferences. It is crucial to consider diverse human feedback types and various learning methods in different environments. However, quantifying progress in RLHF with diverse feedback is challenging due to the lack of standardized annotation platforms and widely used unified benchmarks. To bridge this gap, we introduce Uni-RLHF, a comprehensive system implementation tailored for RLHF. It aims to provide a complete workflow from real human feedback, fostering progress in the development of practical problems. Uni-RLHF contains three packages: 1) a universal multi-feedback annotation platform, 2) large-scale crowdsourced feedback datasets, and 3) modular offline RLHF baseline implementations. Uni-RLHF develops a user-friendly annotation interface tailored to various feedback types, compatible with a wide range of mainstream RL environments. We then establish a systematic pipeline of crowdsourced annotations, resulting in large-scale annotated datasets comprising more than 15 million steps across 30+ popular tasks. Through extensive experiments, the results in the collected datasets demonstrate competitive performance compared to those from well-designed manual rewards. We evaluate various design choices and offer insights into their strengths and potential areas of improvement. We wish to build valuable open-source platforms, datasets, and baselines to facilitate the development of more robust and reliable RLHF solutions based on realistic human feedback. The website is available at https://uni-rlhf.github.io/.
翻訳日:2024-02-06 19:49:23 公開日:2024-02-04
# 2024年における大規模言語モデルの実態

Factuality of Large Language Models in the Year 2024 ( http://arxiv.org/abs/2402.02420v1 )

ライセンス: Link先を確認
Yuxia Wang, Minghan Wang, Muhammad Arslan Manzoor, Georgi Georgiev, Rocktim Jyoti Das, Preslav Nakov(参考訳) 大規模な言語モデル(llm)は、特にチャットのインストラクション調整を行う場合には、日々の生活の一部となり、複数のソースから情報を検索、抽出、統合するプロセスから解放され、様々な質問に対して一箇所で簡単に答えることができます。 残念なことに、多くの場合、LLMの応答は実際には正しくないため、現実のシナリオでは適用性が制限される。 その結果,近年,LLMの実態評価と改善に関する研究が注目されている。 本研究では,LLMの事実性を改善するための潜在的な解決策を指摘し,オープンエンドテキスト生成における事実性の自動評価のための障害を解析し,課題とその関連要因を特定することを目的として,既存の作業を批判的に分析する。 今後の研究の行方についても,さらに見通しを述べています。

Large language models (LLMs), especially when instruction-tuned for chat, have become part of our daily lives, freeing people from the process of searching, extracting, and integrating information from multiple sources by offering a straightforward answer to a variety of questions in a single place. Unfortunately, in many cases, LLM responses are factually incorrect, which limits their applicability in real-world scenarios. As a result, research on evaluating and improving the factuality of LLMs has attracted a lot of research attention recently. In this survey, we critically analyze existing work with the aim to identify the major challenges and their associated causes, pointing out to potential solutions for improving the factuality of LLMs, and analyzing the obstacles to automated factuality evaluation for open-ended text generation. We further offer an outlook on where future research should go.
翻訳日:2024-02-06 19:49:02 公開日:2024-02-04
# 説明可能なベイズ型マルチパースペクティブ生成検索

eXplainable Bayesian Multi-Perspective Generative Retrieval ( http://arxiv.org/abs/2402.02418v1 )

ライセンス: Link先を確認
EuiYul Song, Philhoon Oh, Sangryul Kim, James Thorne(参考訳) 現代の決定論的検索パイプラインは最先端のパフォーマンスを達成することを優先しているが、意思決定における解釈可能性に欠けることが多い。 これらのモデルは不確実性を評価する上での課題に直面し、自信過剰な予測に繋がる。 これらの限界を克服するために,不確実性校正と解釈性を検索パイプラインに統合する。 具体的には,検索パイプライン内の不確かさを校正するためにベイズ手法とマルチパースペクティブ検索を導入する。 LIMEやSHAPといった手法を取り入れて,ブラックボックス・リランカモデルの挙動を解析する。 これらの説明手法から導かれる重要なスコアは、ベースリランカモデルを強化するための補足的関連スコアとなる。 本研究では,不確かさの校正と質問応答とFact Checkingタスクの解釈により得られた性能向上を評価する。 提案手法は3つのKILTデータセットにまたがる大幅な性能向上を示す。

Modern deterministic retrieval pipelines prioritize achieving state-of-the-art performance but often lack interpretability in decision-making. These models face challenges in assessing uncertainty, leading to overconfident predictions. To overcome these limitations, we integrate uncertainty calibration and interpretability into a retrieval pipeline. Specifically, we introduce Bayesian methodologies and multi-perspective retrieval to calibrate uncertainty within a retrieval pipeline. We incorporate techniques such as LIME and SHAP to analyze the behavior of a black-box reranker model. The importance scores derived from these explanation methodologies serve as supplementary relevance scores to enhance the base reranker model. We evaluate the resulting performance enhancements achieved through uncertainty calibration and interpretable reranking on Question Answering and Fact Checking tasks. Our methods demonstrate substantial performance improvements across three KILT datasets.
翻訳日:2024-02-06 19:48:47 公開日:2024-02-04
# Aligner: 弱補正による効率的なアライメントの実現

Aligner: Achieving Efficient Alignment through Weak-to-Strong Correction ( http://arxiv.org/abs/2402.02416v1 )

ライセンス: Link先を確認
Jiaming Ji, Boyuan Chen, Hantao Lou, Donghai Hong, Borong Zhang, Xuehai Pan, Juntao Dai, Yaodong Yang(参考訳) 大規模言語モデル(LLM)の整合化への取り組みは、主にRLHF法(Reinforcement Learning from Human Feedback)を通じて行われる。 しかし、RLHFはトレーニング報酬モデル、アクター-批評家工学といった大きな課題に直面しており、重要なことにLLMパラメータへのアクセスが必要である。 ここでは、アライメントとアンアライメントされた回答の間の補正残差を学習することにより、RLHFプロセス全体をバイパスする新しい効率的なアライメントパラダイムであるAlignerを紹介する。 私たちのAlignerには、いくつかの大きな利点があります。 まず、教師付き学習を通じてクエリ・アンサー・コレクションデータセットに基づいてトレーニングされる自動回帰Seq2seqモデルであり、最小限のリソースでパラメータ効率の高いアライメントソリューションを提供する。 第2に、Alignerは弱いから強い一般化を促進し、Alignerの監督信号による大規模な事前訓練モデルの微調整は、強い性能向上を示す。 第3に、Alignerはモデルに依存しないプラグイン・アンド・プレイモジュールとして機能する。 注目すべきは、Aligner-7Bは11種類のLDMを平均で18%、無害で23%改善する(GPT-4は26.9%、LLMは17.5%)。 Llama2-70Bを(弱い)Aligner-7Bの監督で微調整すると、Llama2は8.2%、無害は61.6%改善できる。 データセットとコードは \url{https://aligner2024.github.io}を参照。

Efforts to align Large Language Models (LLMs) are mainly conducted via Reinforcement Learning from Human Feedback (RLHF) methods. However, RLHF encounters major challenges including training reward models, actor-critic engineering, and importantly, it requires access to LLM parameters. Here we introduce Aligner, a new efficient alignment paradigm that bypasses the whole RLHF process by learning the correctional residuals between the aligned and the unaligned answers. Our Aligner offers several key advantages. Firstly, it is an autoregressive seq2seq model that is trained on the query-answer-correction dataset via supervised learning; this offers a parameter-efficient alignment solution with minimal resources. Secondly, the Aligner facilitates weak-to-strong generalization; finetuning large pretrained models by Aligner's supervisory signals demonstrates strong performance boost. Thirdly, Aligner functions as a model-agnostic plug-and-play module, allowing for its direct application on different open-source and API-based models. Remarkably, Aligner-7B improves 11 different LLMs by 18% in helpfulness and 23% in harmlessness on average (GPT-4 by 26.9% and 17.5%). When finetuning (strong) Llama2-70B with (weak) Aligner-7B's supervision, we can improve Llama2 by 8.2% in helpfulness and 61.6% in harmlessness. See our dataset and code at \url{https://aligner2024.github.io}.
翻訳日:2024-02-06 19:48:36 公開日:2024-02-04
# 量子シークレット共有強化: 匿名かつセキュアな通信にw状態を活用する

Quantum Secret Sharing Enhanced: Utilizing W States for Anonymous and Secure Communication ( http://arxiv.org/abs/2402.02413v1 )

ライセンス: Link先を確認
Guo-Dong Li, Wen-Chuan Cheng, Qing-Le Wang, Long Cheng, Ying Mao, and Heng-Yue Jia(参考訳) 量子秘密共有 (quantum secret sharing, qss) は、量子力学の原理と秘密情報共有を融合した結果である。 送信側は受信側間で秘密を共有でき、受信側は必要に応じて秘密をまとめて回収することができる。 これらの量子プロトコルの実用性を高めるために、量子匿名秘密共有(QASS)という革新的な概念が進歩している。 本稿では,リカバリ可能性,リカバリセキュリティ,リカバリ匿名性を確保しつつ,シークレットを共有できるw状態を利用したqassプロトコルを提案する。 我々は、我々のプロトコルを厳格に評価し、その正確性を検証し、アクティブな敵を含むシナリオに対するセキュリティを強化した。 これは不正受信機や非受信機に対する考慮を含む。 さらに、実世界の通信チャネルに固有の不完全性を認識し、ある種のノイズが存在する量子ネットワークにおいて、プロトコルのセキュリティと有効性を徹底的に分析した。 調査の結果,W状態はノイズ干渉の緩和に優れた性能を示し,実用化に適していることがわかった。

Quantum secret sharing (QSS) is the result of merging the principles of quantum mechanics with secret information sharing. It enables a sender to share a secret among receivers, and the receivers can then collectively recover the secret when the need arises. To enhance the practicality of these quantum protocols, an innovative concept of quantum anonymous secret sharing (QASS) is advanced. In this paper, we propose a QASS protocol via W states, which can share secrets while ensuring recover-ability, recover-security, and recover-anonymity. We have rigorously evaluated our protocols, verifying their accuracy and fortifying their security against scenarios involving the active adversary. This includes considerations for dishonest receivers and non-receivers. Moreover, acknowledging the imperfections inherent in real-world communication channels, we have also undertaken an exhaustive analysis of our protocol's security and effectiveness in a quantum network where some form of noise is present. Our investigations reveal that W states exhibit good performance in mitigating noise interference, making them apt for practical applications.
翻訳日:2024-02-06 19:48:09 公開日:2024-02-04
# ハイパースペクトル画像融合のための物理誘起劣化モデル

Physics-Inspired Degradation Models for Hyperspectral Image Fusion ( http://arxiv.org/abs/2402.02411v1 )

ライセンス: Link先を確認
Jie Lian and Lizhi Wang and Lin Zhu and Renwei Dian and Zhiwei Xiong and Hua Huang(参考訳) 低空間分解能ハイパースペクトル像 (LR-HSI) と高空間分解能マルチスペクトル像 (HR-MSI) との融合は研究の関心を高めている。 しかし、ほとんどの融合法は融合アルゴリズム自体にのみ焦点をあて、劣化モデルを見落とし、現実的なシナリオでは不満足な性能をもたらす。 このギャップを埋めるために、空間劣化ネットワーク(SpaDN)とスペクトル劣化ネットワーク(SpeDN)からなるLR-HSIとHR-MSIの劣化をモデル化する物理インスパイアされた分解モデル(PIDM)を提案する。 SpaDNとSpeDNは2つの洞察に基づいて設計されている。 まず,空間ゆがみとスペクトル変調演算を用いてレンズ収差をシミュレートし,空間劣化過程とスペクトル劣化過程に不均一性を導入する。 第2に,非対称ダウンサンプリングと並列ダウンサンプリングを用いて画像の空間分解能とスペクトル分解能を分離し,空間分解過程とスペクトル分解過程との整合性を確保する。 SpaDNとSpeDNが確立されると、ネットワークパラメータを最適化し、融合法のためのプラグアンドプレイソリューションを提供する自己教師付きトレーニング戦略を採用する。 提案したPIDMは,既存の核融合法の核融合性能を向上させることができることを示す。

The fusion of a low-spatial-resolution hyperspectral image (LR-HSI) with a high-spatial-resolution multispectral image (HR-MSI) has garnered increasing research interest. However, most fusion methods solely focus on the fusion algorithm itself and overlook the degradation models, which results in unsatisfactory performance in practical scenarios. To fill this gap, we propose physics-inspired degradation models (PIDM) to model the degradation of LR-HSI and HR-MSI, which comprises a spatial degradation network (SpaDN) and a spectral degradation network (SpeDN). SpaDN and SpeDN are designed based on two insights. First, we employ spatial warping and spectral modulation operations to simulate lens aberrations, thereby introducing non-uniformity into the spatial and spectral degradation processes. Second, we utilize asymmetric downsampling and parallel downsampling operations to separately reduce the spatial and spectral resolutions of the images, thus ensuring the matching of spatial and spectral degradation processes with specific physical characteristics. Once SpaDN and SpeDN are established, we adopt a self-supervised training strategy to optimize the network parameters and provide a plug-and-play solution for fusion methods. Comprehensive experiments demonstrate that our proposed PIDM can boost the fusion performance of existing fusion methods in practical scenarios.
翻訳日:2024-02-06 19:47:50 公開日:2024-02-04
# GLaPE:大規模言語モデルのゴールドラベルに依存しないプロンプト評価と最適化

GLaPE: Gold Label-agnostic Prompt Evaluation and Optimization for Large Language Model ( http://arxiv.org/abs/2402.02408v1 )

ライセンス: Link先を確認
Xuanchang Zhang, Zhuosheng Zhang, Hai Zhao(参考訳) 大規模言語モデル(llms)の急速な進歩にもかかわらず、そのタスクパフォーマンスは迅速な設計に敏感である。 近年の研究では、LLM自体を最適化器として活用し、タスク精度を最大化する最適なプロンプトを特定している。 しかしながら、プロンプトを評価する際には、各プロンプトのタスク精度を計算するために、手動でアノテートした金のラベルに大きく依存している。 本研究は,ゴールドラベルへの依存を軽減するため,ゴールドラベルに依存しないプロンプト評価(GLaPE)を提案する。 自己整合性と解答精度の相関関係から,初期評価スコアとして自己整合性を採用する。 その後,同一回答を生成するプロンプトのスコアを洗練し,相互に一貫性を持たせる。 実験結果から,GLaPEは,ゴールドラベルが存在しない場合でも,精度の均一な信頼性評価を提供することがわかった。 さらに6つの一般的な推論タスクにおいて,glapeベースのプロンプト最適化は,精度ベースのタスクに匹敵する効果的なプロンプトを生成する。 コードはhttps://github.com/thunderous77/GLaPEで公開されている。

Despite the rapid progress of large language models (LLMs), their task performance remains sensitive to prompt design. Recent studies have explored leveraging the LLM itself as an optimizer to identify optimal prompts that maximize task accuracy. However, when evaluating prompts, such approaches heavily rely on elusive manually annotated gold labels to calculate task accuracy for each candidate prompt, which hinders the widespread implementation and generality. To overcome the limitation, this work proposes a gold label-agnostic prompt evaluation (GLaPE) to alleviate dependence on gold labels. Motivated by the observed correlation between self-consistency and the accuracy of the answer, we adopt self-consistency as the initial evaluation score. Subsequently, we refine the scores of prompts producing identical answers to be mutually consistent. Experimental results show that GLaPE provides reliable evaluations uniform with accuracy, even in the absence of gold labels. Moreover, on six popular reasoning tasks, our GLaPE-based prompt optimization yields effective prompts comparable to accuracy-based ones. The code is publicly available at https://github.com/thunderous77/GLaPE.
翻訳日:2024-02-06 19:47:24 公開日:2024-02-04
# データセットのポリトープ構造によるニューラルネットワークアーキテクチャの定義

Defining Neural Network Architecture through Polytope Structures of Dataset ( http://arxiv.org/abs/2402.02407v1 )

ライセンス: Link先を確認
Sangmin Lee, Abbas Mammadov, Jong Chul Ye(参考訳) ニューラルネットワークにおける現在の理論的および実証的研究は、複雑なデータセットは完全な分類のために大規模なネットワークアーキテクチャを必要とすることを示唆している。 本稿では、ニューラルネットワーク幅の上下境界を定義することでこの問題に対処し、問題となるデータセットのポリトープ構造から情報を得る。 また,これらの原理を簡素な複体や特定の多様体形状に適用し,データセットの幾何学的複雑性に応じてネットワーク幅の要件がどのように変化するかを説明する。 さらに,学習したニューラルネットワークからデータセットのポリトープ構造を推定できる逆条件を探索するアルゴリズムを開発した。 本アルゴリズムにより,MNIST,Fashion-MNIST,CIFAR10などの一般的なデータセットを,顔数が少ない2つのポリトープで効率的にカプセル化できることが確認された。

Current theoretical and empirical research in neural networks suggests that complex datasets require large network architectures for thorough classification, yet the precise nature of this relationship remains unclear. This paper tackles this issue by defining upper and lower bounds for neural network widths, which are informed by the polytope structure of the dataset in question. We also delve into the application of these principles to simplicial complexes and specific manifold shapes, explaining how the requirement for network width varies in accordance with the geometric complexity of the dataset. Moreover, we develop an algorithm to investigate a converse situation where the polytope structure of a dataset can be inferred from its corresponding trained neural networks. Through our algorithm, it is established that popular datasets such as MNIST, Fashion-MNIST, and CIFAR10 can be efficiently encapsulated using no more than two polytopes with a small number of faces.
翻訳日:2024-02-06 19:47:05 公開日:2024-02-04
# vm-unet:医療画像分割のためのvision mamba unet

VM-UNet: Vision Mamba UNet for Medical Image Segmentation ( http://arxiv.org/abs/2402.02491v1 )

ライセンス: Link先を確認
Jiacheng Ruan, Suncheng Xiang(参考訳) 医用画像セグメンテーションの分野では、cnnベースとトランスフォーマーベースの両方のモデルが広く研究されている。 しかし、cnnは長距離モデリング能力の限界を示し、トランスフォーマーは二次計算の複雑さによって妨げられている。 近年,mambaに代表される状態空間モデル(ssm)が有望なアプローチとして登場している。 長距離相互作用をモデル化するだけでなく、線形計算の複雑さも維持する。 本稿では,状態空間モデルを活用した医療画像分割のためのu字型アーキテクチャモデルであるvision mamba unet (vm-unet)を提案する。 具体的には、Visual State Space(VSS)ブロックを基盤ブロックとして導入し、広いコンテキスト情報をキャプチャし、非対称エンコーダデコーダ構造を構築する。 我々はISIC17,ISIC18,Synapseデータセットの総合的な実験を行い,VM-UNetが医用画像分割タスクにおいて競争力を発揮することを示す。 我々の知る限り、これは純粋なSSMモデルに基づいて構築された最初の医用画像分割モデルである。 我々は,より効率的かつ効果的なSSMセグメンテーションシステムの構築に向けて,ベースラインを確立することを目的としている。 私たちのコードはhttps://github.com/JCruan519/VM-UNetで利用可能です。

In the realm of medical image segmentation, both CNN-based and Transformer-based models have been extensively explored. However, CNNs exhibit limitations in long-range modeling capabilities, whereas Transformers are hampered by their quadratic computational complexity. Recently, State Space Models (SSMs), exemplified by Mamba, have emerged as a promising approach. They not only excel in modeling long-range interactions but also maintain a linear computational complexity. In this paper, leveraging state space models, we propose a U-shape architecture model for medical image segmentation, named Vision Mamba UNet (VM-UNet). Specifically, the Visual State Space (VSS) block is introduced as the foundation block to capture extensive contextual information, and an asymmetrical encoder-decoder structure is constructed. We conduct comprehensive experiments on the ISIC17, ISIC18, and Synapse datasets, and the results indicate that VM-UNet performs competitively in medical image segmentation tasks. To our best knowledge, this is the first medical image segmentation model constructed based on the pure SSM-based model. We aim to establish a baseline and provide valuable insights for the future development of more efficient and effective SSM-based segmentation systems. Our code is available at https://github.com/JCruan519/VM-UNet.
翻訳日:2024-02-06 19:40:25 公開日:2024-02-04
# エレガントな関節計測に基づく量子テレポーテーション

Quantum teleportation based on the elegant joint measurement ( http://arxiv.org/abs/2402.02462v1 )

ライセンス: Link先を確認
Dong Ding, Ming-Xing Yu, Ying-Qiu He, Hao-Sen Ji, Ting Gao, Feng-Li Yan(参考訳) ベル状態測定(BSM)の一般化として、エレガントな関節測定(EJM)は、微妙な位相係数$\theta \in [0,\pi/2]$でパラメータ化された新しい2ビット関節測定の一種である。 EJMに基づく量子テレポーテーションを探求し、量子絡み合いは量子チャネルだけでなく、量子テレポーテーションのための量子ジョイント測定も提供するというギシンの考えに着想を得た。 これは望ましくない非単位量子進化によって引き起こされる確率的テレポーテーションである。 このシナリオには2つの興味深い特徴がある。 まず、従来のテレポーテーションシナリオを超えて、現在のシナリオに含めることができます。 第二に、BSMはシングル入力と4つの結果と異なり、調整可能な入力設定や、送信者(またはコントローラ)のための複数の測定設定を提供することができる。 さらに、いくつかのユニタリ演算と非ユニタリ量子ゲートを利用する現在のシナリオを実現するために、実現可能な量子回路を詳細に示す。

As a generalization of the well-known Bell state measurement (BSM), the elegant joint measurement (EJM) is a kind of novel two-qubit joint measurement, parameterized by a subtle phase factor $\theta \in [0,\pi/2]$. We explore quantum teleportation based on the EJM, inspired by Gisin's idea that quantum entanglement not only provides quantum channel and also quantum joint measurement for quantum teleportation. It is a probabilistic teleportation caused by undesired nonunitary quantum evolution. There are two interesting features in the present scenario. First, it goes beyond the conventional teleportation scenario, which can be included in the present scenario. Second, different from the BSM being single input and four outcomes, it can provide an adjustable input setting or even multiple measurement settings for the sender (or the controller). Moreover, we show in detail the feasible quantum circuits to realize the present scenario, where a few unitary operations and a nonunitary quantum gate are being utilized.
翻訳日:2024-02-06 19:40:04 公開日:2024-02-04
# 医療におけるマルチモーダル機械学習アプローチの見直し

Review of multimodal machine learning approaches in healthcare ( http://arxiv.org/abs/2402.02460v1 )

ライセンス: Link先を確認
Felix Krones, Umar Marikkar, Guy Parsons, Adam Szmul, Adam Mahdi(参考訳) 医療における機械学習の手法は、伝統的に単一のモダリティからのデータを使用することに重点を置いており、意思決定を改善するために複数の情報源を統合する臨床実践を効果的に再現する能力を制限する。 臨床医は通常、患者の人口統計情報、検査データ、バイタルサイン、様々な画像データモダリティを含む様々なデータソースを使用して、インフォームドな意思決定を行い、彼らの発見を文脈づける。 機械学習の最近の進歩により、マルチモーダルデータのより効率的な導入が促進され、臨床医のアプローチをより良く表現できるアプリケーションが生まれた。 本稿では,医療におけるマルチモーダル機械学習のアプローチを概観し,最近の文献を概観する。 臨床診断に使用される様々なデータ形態について,特に画像データに着目して検討する。 融合技術を評価し、既存のマルチモーダルデータセットを探索し、一般的なトレーニング戦略を検討する。

Machine learning methods in healthcare have traditionally focused on using data from a single modality, limiting their ability to effectively replicate the clinical practice of integrating multiple sources of information for improved decision making. Clinicians typically rely on a variety of data sources including patients' demographic information, laboratory data, vital signs and various imaging data modalities to make informed decisions and contextualise their findings. Recent advances in machine learning have facilitated the more efficient incorporation of multimodal data, resulting in applications that better represent the clinician's approach. Here, we provide a review of multimodal machine learning approaches in healthcare, offering a comprehensive overview of recent literature. We discuss the various data modalities used in clinical diagnosis, with a particular emphasis on imaging data. We evaluate fusion techniques, explore existing multimodal datasets and examine common training strategies.
翻訳日:2024-02-06 19:39:44 公開日:2024-02-04
# 最小トレース要因分析について -新音節への古歌-

On Minimum Trace Factor Analysis -- An Old Song Sung to a New Tune ( http://arxiv.org/abs/2402.02459v1 )

ライセンス: Link先を確認
C. Li, A. Shkolnik(参考訳) 主成分分析(PCA)や因子分析などの次元化手法は、データ科学における多くの問題の中心となっている。 しかし、大きなヘテロスケダティックノイズを持つデータに対して頑健な低次元近似を求める上で、真面目でよく理解された課題がある。 本稿では,1940年のリーダーマンの研究にさかのぼる根を持つ凸最適化法であるMTFA(Minimum Trace Factor Analysis)の緩和版を紹介する。 この緩和は、ヘテロスケダス性摂動に過度に適合しないのに特に効果的であり、ファクター解析においてよく引用されるヘイウッドのケースと、既存のスペクトル法に対する最近同定された「条件の帰結」に対処する。 提案手法は,結果の低階部分空間の精度と,その行列を計算するアルゴリズムの収束率に関する理論的保証を提供する。 我々は,HeteroPCA,Lasso,Soft-Imputeなど,既存の手法と多くの興味深い関係を築き,すでに大きな文献の低階行列推定における重要なギャップを埋める。 数値実験の結果は, ヘテロスパイク性雑音に対する最近の提案に比較して評価された。

Dimensionality reduction methods, such as principal component analysis (PCA) and factor analysis, are central to many problems in data science. There are, however, serious and well-understood challenges to finding robust low dimensional approximations for data with significant heteroskedastic noise. This paper introduces a relaxed version of Minimum Trace Factor Analysis (MTFA), a convex optimization method with roots dating back to the work of Ledermann in 1940. This relaxation is particularly effective at not overfitting to heteroskedastic perturbations and addresses the commonly cited Heywood cases in factor analysis and the recently identified "curse of ill-conditioning" for existing spectral methods. We provide theoretical guarantees on the accuracy of the resulting low rank subspace and the convergence rate of the proposed algorithm to compute that matrix. We develop a number of interesting connections to existing methods, including HeteroPCA, Lasso, and Soft-Impute, to fill an important gap in the already large literature on low rank matrix estimation. Numerical experiments benchmark our results against several recent proposals for dealing with heteroskedastic noise.
翻訳日:2024-02-06 19:39:30 公開日:2024-02-04
# 大規模言語モデル(llms)によるより効果的なテンソルネットワーク構造探索アルゴリズムの発見

Discovering More Effective Tensor Network Structure Search Algorithms via Large Language Models (LLMs) ( http://arxiv.org/abs/2402.02456v1 )

ライセンス: Link先を確認
Junhua Zeng, Guoxu Zhou, Chao Li, Zhun Sun, Qibin Zhao(参考訳) テンソルネットワーク構造探索(TN-SS)は、高次元問題を表現するために適切なテンソルネットワーク(TN)構造を探すことを目的としており、様々な機械学習アプリケーションにおけるTNの有効性を大いに促進している。 それでも既存のアルゴリズムで満足なTN構造を見つけることは難しい。 より効率的なアルゴリズムを開発し、人間の労働集約的な開発プロセスを避けるため、TN-SSアルゴリズムの自動設計のための大規模言語モデル(LLM)に埋め込まれた知識を探索する。 我々のアプローチはGPTN-SSと呼ばれ、進化的な方法で動作するLLMベースのプロンプトシステムを活用している。 実世界のデータから得られた実験結果は、GPTN-SSが既存の手法から得られた知見を効果的に活用し、探索と利用のバランスを改善する新しいTN-SSアルゴリズムを開発することを実証している。 これらのアルゴリズムは、自然な画像圧縮とモデルパラメータ圧縮のための高品質なTN構造を探索し、その性能の一般化性を示す。

Tensor network structure search (TN-SS), aiming at searching for suitable tensor network (TN) structures in representing high-dimensional problems, largely promotes the efficacy of TN in various machine learning applications. Nonetheless, finding a satisfactory TN structure using existing algorithms remains challenging. To develop more effective algorithms and avoid the human labor-intensive development process, we explore the knowledge embedded in large language models (LLMs) for the automatic design of TN-SS algorithms. Our approach, dubbed GPTN-SS, leverages an elaborate crafting LLM-based prompting system that operates in an evolutionary-like manner. The experimental results, derived from real-world data, demonstrate that GPTN-SS can effectively leverage the insights gained from existing methods to develop novel TN-SS algorithms that achieve a better balance between exploration and exploitation. These algorithms exhibit superior performance in searching the high-quality TN structures for natural image compression and model parameters compression while also demonstrating generalizability in their performance.
翻訳日:2024-02-06 19:39:09 公開日:2024-02-04
# 分散型識別子と検証基準に関する調査

A Survey on Decentralized Identifiers and Verifiable Credentials ( http://arxiv.org/abs/2402.02455v1 )

ライセンス: Link先を確認
Carlo Mazzocca, Abbas Acar, Selcuk Uluagac, Rebecca Montanari, Paolo Bellavista, Mauro Conti(参考訳) デジタルアイデンティティは、常に、当事者間のセキュアで信頼できるコミュニケーションを実装するためのキーストーンとみなされてきた。 進化を続けるデジタルランドスケープは、エンティティのデジタル化の仕方にも影響を与えた多くの技術変革を経てきた。 このデジタル進化の間、アイデンティティ管理は集中型アプローチから分散型アプローチへと移行した。 この旅の最後の時代はSSI(Self-Sovereign Identity)によって表現される。 SSIは、最近World Wide Web Community (W3C)によって標準化された分散識別子(DID)と検証資格(VC)を活用している。 これらの技術は、よりセキュアで分散化されたデジタルIDシステムを構築する可能性を秘めており、多くの分散参加者を含む通信のセキュリティ強化に大きく貢献している。 DIDとVCの範囲は個人を超えて、クラウド、エッジ、IoT(Internet of Things)リソースを含む幅広いエンティティを含んでいる点に注意が必要だ。 しかし、その斬新さのため、既存の文献では、DIDとVCがSSIシステムを超えて、異なるアプリケーションドメインでどのように採用されているかに関する包括的な調査が欠けている。 本稿では,様々な視点から,このような技術の概要を概観する。 具体的には、まずDIDとVCの背景を提供します。 そして、利用可能な実装を分析し、これらの技術がさまざまなユースケースシナリオでどのように使われているのかを詳細にレビューします。 さらに,世界各国の規制やイニシアティブについても検討する。 最後に、現実のシナリオや今後の研究方向性への導入を妨げるいくつかの課題を示す。

Digital identity has always been considered the keystone for implementing secure and trustworthy communications among parties. The ever-evolving digital landscape has gone through many technological transformations that have also affected the way entities are digitally identified. During this digital evolution, identity management has shifted from centralized to decentralized approaches. The last era of this journey is represented by the emerging Self-Sovereign Identity (SSI), which gives users full control over their data. SSI leverages decentralized identifiers (DIDs) and verifiable credentials (VCs), which have been recently standardized by the World Wide Web Community (W3C). These technologies have the potential to build more secure and decentralized digital identity systems, remarkably contributing to strengthening the security of communications that typically involve many distributed participants. It is worth noting that the scope of DIDs and VCs extends beyond individuals, encompassing a broad range of entities including cloud, edge, and Internet of Things (IoT) resources. However, due to their novelty, existing literature lacks a comprehensive survey on how DIDs and VCs have been employed in different application domains, which go beyond SSI systems. This paper provides readers with a comprehensive overview of such technologies from different perspectives. Specifically, we first provide the background on DIDs and VCs. Then, we analyze available implementations and offer an in-depth review of how these technologies have been employed across different use-case scenarios. Furthermore, we examine recent regulations and initiatives that have been emerging worldwide. Finally, we present some challenges that hinder their adoption in real-world scenarios and future research directions.
翻訳日:2024-02-06 19:38:50 公開日:2024-02-04
# 深い線形ネットワークにおける入射バイアスの初期化の役割について

On the Role of Initialization on the Implicit Bias in Deep Linear Networks ( http://arxiv.org/abs/2402.02454v1 )

ライセンス: Link先を確認
Oria Gruber, Haim Avron(参考訳) deep learning(dl)の経験的成功にもかかわらず、その効果に関する理論的な理解は限られている。 注目すべきパラドックスの1つは、従来の知恵は完璧なデータ適合を阻害するが、ディープニューラルネットワークはまさにそれを行うように設計されているが、効果的に一般化する。 本研究は,遊びにおける暗黙のバイアスに起因したこの現象の探索に焦点をあてた。 ステップサイズ、重み初期化、最適化アルゴリズム、パラメータ数など、暗黙のバイアスのさまざまな源が特定されている。 本研究では,重量初期化から生じる暗黙のバイアスを調査することに注力する。 そこで本研究では,様々な文脈において未決定線形系を解くことの問題点について検討し,深層ネットワークを用いた解法における初期化の影響について検討する。 その結果,最適化と一般化のパラドックスにおける初期化の役割が解明され,DLの性能特性のより包括的な理解に寄与した。

Despite Deep Learning's (DL) empirical success, our theoretical understanding of its efficacy remains limited. One notable paradox is that while conventional wisdom discourages perfect data fitting, deep neural networks are designed to do just that, yet they generalize effectively. This study focuses on exploring this phenomenon attributed to the implicit bias at play. Various sources of implicit bias have been identified, such as step size, weight initialization, optimization algorithm, and number of parameters. In this work, we focus on investigating the implicit bias originating from weight initialization. To this end, we examine the problem of solving underdetermined linear systems in various contexts, scrutinizing the impact of initialization on the implicit regularization when using deep networks to solve such systems. Our findings elucidate the role of initialization in the optimization and generalization paradoxes, contributing to a more comprehensive understanding of DL's performance characteristics.
翻訳日:2024-02-06 19:38:26 公開日:2024-02-04
# AIアート ニューラル・コンステレーション:AI生成と人間のアートの集合的かつコントラスト的状態を明らかにする

AI Art Neural Constellation: Revealing the Collective and Contrastive State of AI-Generated and Human Art ( http://arxiv.org/abs/2402.02453v1 )

ライセンス: Link先を確認
Faizan Farooq Khan, Diana Kim, Divyansh Jha, Youssef Mohamed, Hanna H Chang, Ahmed Elgammal, Luba Elliott, Mohamed Elhoseiny(参考訳) 様々な芸術表現に対するランダムな信号の創造的可能性の発見は、芸術創造の方法としての生成的機械学習の最近の成功の土台である。 新たな芸術メディアをよりよく理解するために,人間の芸術遺産の文脈内でAI生成芸術を位置づけるための包括的な分析を行う。 私たちの比較分析は,6,000ウィキアートと3,200のai生成アートに対して,芸術原理,リキビリティ,感情に関する注釈からなる,'artconstellation'と呼ばれる広範なデータセットに基づいています。 様々な最先端生成モデルを訓練した後、アートサンプルを作成し、スタイル分類のために訓練されたディープCNNの最後の隠蔽層上のWikiArtデータと比較する。 我々は、神経表現を解釈するための様々な技術原理を積極的に検討し、人間とAI生成技術の比較知識の推進に利用した。 意味分析の鍵となる発見は、1800-2000年に作られた現代美術の原理概念とaiが生成したアートワークが視覚的に関連していることである。 さらに,CLIP空間におけるOF-Distribution (OOD) とIn-Distribution (ID) の検出により,AI生成したアートアートがランドスケープや幾何学的抽象図形を描く際にはIDであり,機械アートが変形した図形とねじれた図形で構成されている場合にはOODとして検出されることがわかった。 機械生成芸術は不完全かつ縮小されたフィギュレーションによって特徴付けられる。 最後に,感情経験に関する人間調査を行った。 色彩構成と慣れ親しんだ主題は、芸術鑑賞におけるライカビリティと感情の重要な要素である。 我々は,「ArtNeuralConstellation」と呼ぶ,人間とAIが生成するアートを対比する分析フレームワークとして,方法論全体と収集データセットを提案する。 コードは、https://github.com/faixan-khan/ArtNeuralConstellationで入手できる。

Discovering the creative potentials of a random signal to various artistic expressions in aesthetic and conceptual richness is a ground for the recent success of generative machine learning as a way of art creation. To understand the new artistic medium better, we conduct a comprehensive analysis to position AI-generated art within the context of human art heritage. Our comparative analysis is based on an extensive dataset, dubbed ``ArtConstellation,'' consisting of annotations about art principles, likability, and emotions for 6,000 WikiArt and 3,200 AI-generated artworks. After training various state-of-the-art generative models, art samples are produced and compared with WikiArt data on the last hidden layer of a deep-CNN trained for style classification. We actively examined the various art principles to interpret the neural representations and used them to drive the comparative knowledge about human and AI-generated art. A key finding in the semantic analysis is that AI-generated artworks are visually related to the principle concepts for modern period art made in 1800-2000. In addition, through Out-Of-Distribution (OOD) and In-Distribution (ID) detection in CLIP space, we find that AI-generated artworks are ID to human art when they depict landscapes and geometric abstract figures, while detected as OOD when the machine art consists of deformed and twisted figures. We observe that machine-generated art is uniquely characterized by incomplete and reduced figuration. Lastly, we conducted a human survey about emotional experience. Color composition and familiar subjects are the key factors of likability and emotions in art appreciation. We propose our whole methodologies and collected dataset as our analytical framework to contrast human and AI-generated art, which we refer to as ``ArtNeuralConstellation''. Code is available at: https://github.com/faixan-khan/ArtNeuralConstellation
翻訳日:2024-02-06 19:38:10 公開日:2024-02-04
# 低リソースシナリオにおけるPoSタグのモデリング

Surfing the modeling of PoS taggers in low-resource scenarios ( http://arxiv.org/abs/2402.02449v1 )

ライセンス: Link先を確認
Manuel Vilares Ferro, V\'ictor M. Darriba Bilbao, Francisco J. Ribadas-Pena, Jorge Gra\~na Gil(参考訳) 深層構造技術の適用に向けた最近の傾向は、自然言語処理における巨大なモデルの限界を明らかにしている。 これにより、従来の機械学習アルゴリズムに対する関心が再燃し、特定の状況、特に低リソース環境において競争力があることが証明された。 並行して、モデル選択は、トレーニングや計算リソースが不足している領域に関わるプロセスについて話すときに、合理的なコストでパフォーマンスを高めるために不可欠なタスクになっています。 この背景に対して,学習曲線の早期推定を,リソース・リーン環境における非深層学習者の利用を特徴とするシナリオにおいて,最も適切なモデルを選択するための実践的メカニズムとして評価する。 トレーニングと検証資源の広範囲な利用条件下で評価された公式近似モデルに基づいて,そのようなアプローチの信頼性を,より異なる,より要求の高い運用環境下で検証する。 西部イベロロマンスグループに属する言語であるガリシア語に対するPoSタグ生成のケーススタディとして、実験結果は我々の期待と一致している。

The recent trend towards the application of deep structured techniques has revealed the limits of huge models in natural language processing. This has reawakened the interest in traditional machine learning algorithms, which have proved still to be competitive in certain contexts, in particular low-resource settings. In parallel, model selection has become an essential task to boost performance at reasonable cost, even more so when we talk about processes involving domains where the training and/or computational resources are scarce. Against this backdrop, we evaluate the early estimation of learning curves as a practical mechanism for selecting the most appropriate model in scenarios characterized by the use of non-deep learners in resource-lean settings. On the basis of a formal approximation model previously evaluated under conditions of wide availability of training and validation resources, we study the reliability of such an approach in a different and much more demanding operationalenvironment. Using as case study the generation of PoS taggers for Galician, a language belonging to the Western Ibero-Romance group, the experimental results are consistent with our expectations.
翻訳日:2024-02-06 19:37:32 公開日:2024-02-04
# MLPerfトレーニングを破る: BERTの最適化を事例として

Breaking MLPerf Training: A Case Study on Optimizing BERT ( http://arxiv.org/abs/2402.02447v1 )

ライセンス: Link先を確認
Yongdeok Kim, Jaehyung Ahn, Myeongwoo Kim, Changin Choi, Heejae Kim, Narankhuu Tuvshinjargal, Seungwon Lee, Yanzi Zhang, Yuan Pei, Xiongzhan Linghu, Jingkun Ma, Lin Chen, Yuehua Dai, Sungjoo Yoo(参考訳) 大規模な分散トレーニングのスピードアップには,ロードバランシングや通信,オプティマイザなど,トレーニングのさまざまなコンポーネントの改善が必要だ。 本稿では,各コンポーネントを個別に改良し,BERTトレーニング性能の新たなレベルに導く,BERTモデルの高速大規模学習手法を提案する。 トレーニングデータセットはさまざまな長さのサンプルによって特徴づけられるため、分散BERTトレーニングではロードバランシングが不可欠である。 分散トレーニングの規模に比例する通信コストは、有用な計算によって隠蔽される必要がある。 さらに、adam、lambなどのオプティマイザは、大規模分散トレーニングのコンテキストにおいて、慎重に再評価される必要がある。 本研究では,(1)負荷分散のためのデータセット階層化に基づくローカルプリソート,(2)allreduce前のバケットワイズ勾配クリッピング,(2)勾配計算と同期の重なりとallreduce前の勾配クリッピングの高速トレーニングの恩恵を受ける,という2つの新しいアイデアを提案する。 また、ハイパーパラメータ最適化による既存のオプティマイザの再評価を行い、adamを活用することで、既存のメソッドよりも大きなバッチによる高速なトレーニングに寄与します。 提案手法はすべて組み合わせて,1024 nvidia a100 gpu上で,最大25.1秒 (22.3) のmlperf bertトレーニングを,他の上位2(1)のmlperf v1.1 (v2.0) への提案よりも1.33x (1.13x) と1.57倍高速に行う。 実装と評価結果はMLPerf v1.1~v2.1で利用可能である。

Speeding up the large-scale distributed training is challenging in that it requires improving various components of training including load balancing, communication, optimizers, etc. We present novel approaches for fast large-scale training of BERT model which individually ameliorates each component thereby leading to a new level of BERT training performance. Load balancing is imperative in distributed BERT training since its training datasets are characterized by samples with various lengths. Communication cost, which is proportional to the scale of distributed training, needs to be hidden by useful computation. In addition, the optimizers, e.g., ADAM, LAMB, etc., need to be carefully re-evaluated in the context of large-scale distributed training. We propose two new ideas, (1) local presorting based on dataset stratification for load balancing and (2) bucket-wise gradient clipping before allreduce which allows us to benefit from the overlap of gradient computation and synchronization as well as the fast training of gradient clipping before allreduce. We also re-evaluate existing optimizers via hyperparameter optimization and utilize ADAM, which also contributes to fast training via larger batches than existing methods. Our proposed methods, all combined, give the fastest MLPerf BERT training of 25.1 (22.3) seconds on 1,024 NVIDIA A100 GPUs, which is 1.33x (1.13x) and 1.57x faster than the other top two (one) submissions to MLPerf v1.1 (v2.0). Our implementation and evaluation results are available at MLPerf v1.1~v2.1.
翻訳日:2024-02-06 19:37:17 公開日:2024-02-04
# LQER:LLMの低域量子化誤差再構成

LQER: Low-Rank Quantization Error Reconstruction for LLMs ( http://arxiv.org/abs/2402.02446v1 )

ライセンス: Link先を確認
Cheng Zhang, Jianyi Cheng, George A. Constantinides, and Yiren Zhao(参考訳) 大規模言語モデル(LLM)の学習後の量子化は困難である。 本稿では,量子化と低ランク近似を組み合わせたLQER(Low-rank Quantization Error Reduction)を導入する。 lqerは、アクティベーション誘起スケールマトリックスを利用して、量子化誤差の特異値分布を望ましい分布に向けて推進し、知識蒸留、グリッド探索、勾配ベース反復最適化を必要とせず、様々なllmおよび下流タスクでほぼ損失のないw4a8量子化を可能にする。 既存の方法とは異なり、LQERの計算パターンは、不規則なメモリ位置から高精度な重みを収集する特別なScatterおよびGatherプロセスを必要としない。 我々のW4A8 LLMは6つの人気下流タスクでほぼ無作為なパフォーマンスを実現し、一方1.36$\times$のハードウェアリソースは最先端の最先端手法よりも少ない。 論文が受け入れられたら、フレームワークをオープンソースにします。

Post-training quantization of Large Language Models (LLMs) is challenging. In this work, we introduce Low-rank Quantization Error Reduction (LQER), which combines quantization and low-rank approximation to recover the model capability. LQER leverages an activation-induced scale matrix to drive the singular value distribution of quantization error towards a desirable distribution, which enables nearly-lossless W4A8 quantization on various LLMs and downstream tasks without the need for knowledge distillation, grid search, or gradient-base iterative optimization. Unlike existing methods, the computation pattern of LQER eliminates the need for specialized Scatter and Gather processes to collect high-precision weights from irregular memory locations. Our W4A8 LLMs achieve near-lossless performance on six popular downstream tasks, while using 1.36$\times$ fewer hardware resources than the leading state-of-the-art method. We will open-source our framework once the paper is accepted.
翻訳日:2024-02-06 19:36:47 公開日:2024-02-04
# BECLR: コントラストの少ない学習のバッチ化

BECLR: Batch Enhanced Contrastive Few-Shot Learning ( http://arxiv.org/abs/2402.02444v1 )

ライセンス: Link先を確認
Stylianos Poulakakis-Daktylidis and Hadi Jamali-Rad(参考訳) 非常に少ないラベル付きサンプルから素早く学習することは、深層表現学習の時代に機械と人間を分離する基本的な属性である。 Unsupervised few-shot Learning (U-FSL) は、トレーニング時にアノテーションへの依存を捨てることで、このギャップを埋めようとしている。 U-FSLの領域における対照的な学習手法の成功により、我々は事前学習と下流推論の段階において、それらの欠点に構造的にアプローチする。 本稿では,事前学習段階における正のサンプリングと教師なしコントラスト学習への暗黙のクラスレベルの洞察の活用のために,高度に分離可能な潜在表現空間を促進する新しい動的クラスタメモリ(dyce)モジュールを提案する。 そして、数発の推論段階におけるサンプルバイアスの問題に、何か見過ごされながら批判的な問題に取り組もう。 本稿では,FSLアプローチがサンプルバイアスに最も悩まされるローショットシナリオにおいて,OpTA(Optimal Transport-based Distribution Alignment)戦略を反復的に提案し,この問題に効果的に対処できることを実証する。 後に、dyce と opta は、新しいエンドツーエンドアプローチ(beclr という造語)の2つの相互に絡み合っており、相互の影響を構成的に拡大していると論じた。 次に、BECLRが既存のすべてのU-FSLベンチマークにまたがる新しい最先端のステート・オブ・ザ・アートを(私たちの知る限りでは)設定し、現在のベースライン(コードベース:https://github.com/stypoumic/BECLR.com/stypoumic/BECLR.comで利用可能なコードベース)の最高のパフォーマンスを著しく上回ります。

Learning quickly from very few labeled samples is a fundamental attribute that separates machines and humans in the era of deep representation learning. Unsupervised few-shot learning (U-FSL) aspires to bridge this gap by discarding the reliance on annotations at training time. Intrigued by the success of contrastive learning approaches in the realm of U-FSL, we structurally approach their shortcomings in both pretraining and downstream inference stages. We propose a novel Dynamic Clustered mEmory (DyCE) module to promote a highly separable latent representation space for enhancing positive sampling at the pretraining phase and infusing implicit class-level insights into unsupervised contrastive learning. We then tackle the, somehow overlooked yet critical, issue of sample bias at the few-shot inference stage. We propose an iterative Optimal Transport-based distribution Alignment (OpTA) strategy and demonstrate that it efficiently addresses the problem, especially in low-shot scenarios where FSL approaches suffer the most from sample bias. We later on discuss that DyCE and OpTA are two intertwined pieces of a novel end-to-end approach (we coin as BECLR), constructively magnifying each other's impact. We then present a suite of extensive quantitative and qualitative experimentation to corroborate that BECLR sets a new state-of-the-art across ALL existing U-FSL benchmarks (to the best of our knowledge), and significantly outperforms the best of the current baselines (codebase available at: https://github.com/stypoumic/BECLR).
翻訳日:2024-02-06 19:36:27 公開日:2024-02-04
# ReLUに基づく非線形行列分解のためのモーメント高速化アルゴリズム

A Momentum Accelerated Algorithm for ReLU-based Nonlinear Matrix Decomposition ( http://arxiv.org/abs/2402.02442v1 )

ライセンス: Link先を確認
Qingsong Wang, Chunfeng Cui, Deren Han(参考訳) 近年,ニューラルネットワークとの密接な関係から非線形行列分解(NMD)の探索への関心が高まっている。 NMDは、要素ごとの非線形関数を持つスパース非負行列から低ランク行列を求める。 典型的な選択は、Rectified Linear Unit (ReLU) アクティベーション機能である。 既存の ReLU-NMD モデル (ReLU-NMD) の過剰適合に対処するため,Tikhonov 正規化 ReLU-NMD モデル(ReLU-NMD-T)を提案する。 次に,relu-nmd-tモデルを扱う運動量加速アルゴリズムを提案する。 既存のほとんどの研究とは別個の特徴は、我々のアルゴリズムに正と負の運動量パラメータの両方を組み込むことである。 実世界のデータセットに関する数値実験では,提案するモデルとアルゴリズムの有効性を示す。 さらに、コードはhttps://github.com/nothing2wang/NMD-TMで入手できる。

Recently, there has been a growing interest in the exploration of Nonlinear Matrix Decomposition (NMD) due to its close ties with neural networks. NMD aims to find a low-rank matrix from a sparse nonnegative matrix with a per-element nonlinear function. A typical choice is the Rectified Linear Unit (ReLU) activation function. To address over-fitting in the existing ReLU-based NMD model (ReLU-NMD), we propose a Tikhonov regularized ReLU-NMD model, referred to as ReLU-NMD-T. Subsequently, we introduce a momentum accelerated algorithm for handling the ReLU-NMD-T model. A distinctive feature, setting our work apart from most existing studies, is the incorporation of both positive and negative momentum parameters in our algorithm. Our numerical experiments on real-world datasets show the effectiveness of the proposed model and algorithm. Moreover, the code is available at https://github.com/nothing2wang/NMD-TM.
翻訳日:2024-02-06 19:35:41 公開日:2024-02-04
# TopoX: トポロジカルドメインでの機械学習のためのPythonパッケージスイート

TopoX: A Suite of Python Packages for Machine Learning on Topological Domains ( http://arxiv.org/abs/2402.02441v1 )

ライセンス: Link先を確認
Mustafa Hajij, Mathilde Papillon, Florian Frantzen, Jens Agerberg, Ibrahem AlJabea, Ruben Ballester, Claudio Battiloro, Guillermo Bern\'ardez, Tolga Birdal, Aiden Brent, Peter Chin, Sergio Escalera, Odin Hoff Gardaa, Gurusankar Gopalakrishnan, Devendra Govil, Josef Hoppe, Maneel Reddy Karri, Jude Khouja, Manuel Lecha, Neal Livesay, Jan Mei{\ss}ner, Soham Mukherjee, Alexander Nikitin, Theodore Papamarkou, Jaro Pr'{i}lepok, Karthikeyan Natesan Ramamurthy, Paul Rosen, Aldo Guzm'{a}n-S'{a}enz, Alessandro Salatiello, Shreyas N. Samaga, Michael T. Schaub, Luca Scofano, Indro Spinelli, Lev Telyatnikov, Quang Truong, Robin Walters, Maosheng Yang, Olga Zaghen, Ghada Zamzmi, Ali Zia, Nina Miolane(参考訳) グラフを拡張するトポロジ領域(ハイパーグラフ、単純化、セル、パス、コンビネータ)で、信頼性が高くユーザフレンドリーなビルディングブロックと機械学習を提供するPythonソフトウェアスイートであるtopoxを紹介します。 topoxは以下の3つのパッケージで構成されている: toponetxは、ノード、エッジ、高次セルの操作を含む、これらのドメインの構築と計算を容易にする。 topoembedxは、node2vecのような一般的なグラフベースの埋め込みアルゴリズムに似た、トポロジカルドメインをベクトル空間に埋め込む方法を提供する。 topoxの広範囲にドキュメント化され、ユニットテストされたソースコードは、MITライセンス下でhttps://github.com/pyt-teamで入手できる。

We introduce topox, a Python software suite that provides reliable and user-friendly building blocks for computing and machine learning on topological domains that extend graphs: hypergraphs, simplicial, cellular, path and combinatorial complexes. topox consists of three packages: toponetx facilitates constructing and computing on these domains, including working with nodes, edges and higher-order cells; topoembedx provides methods to embed topological domains into vector spaces, akin to popular graph-based embedding algorithms such as node2vec; topomodelx is built on top of PyTorch and offers a comprehensive toolbox of higher-order message passing functions for neural networks on topological domains. The extensively documented and unit-tested source code of topox is available under MIT license at https://github.com/pyt-team.
翻訳日:2024-02-06 19:35:26 公開日:2024-02-04
# DiffStitch: 拡散に基づく軌道スティッチによるオフライン強化学習の促進

DiffStitch: Boosting Offline Reinforcement Learning with Diffusion-based Trajectory Stitching ( http://arxiv.org/abs/2402.02439v1 )

ライセンス: Link先を確認
Guanghe Li, Yixiang Shan, Zhengbang Zhu, Ting Long, Weinan Zhang(参考訳) オフライン強化学習(rl)では,学習方針の性能はオフラインデータセットの品質に大きく依存する。 しかし、多くの場合、オフラインデータセットは、非常に限られた最適軌跡を含んでいるため、エージェントが高次領域に遷移する能力を取得する必要があるため、オフラインRLアルゴリズムの課題となる。 この問題に対処するため,Diffusion-based Trajectory Stitching (DiffStitch)を導入し,トラジェクトリ間の縫合遷移を系統的に生成する新しい拡散ベースデータ拡張パイプラインを提案する。 DiffStitchは、ローリワード軌道と高リワード軌道を効果的に接続し、オフラインRLアルゴリズムが直面する課題に対処するために、グローバルに最適な軌道を形成する。 D4RLデータセット上で実施された実証実験は、DiffStitchのRL手法における有効性を示した。 特に、DiffStitchはワンステップ法(IQL)、模倣学習法(TD3+BC)、軌道最適化法(DT)の性能を大幅に向上させた。

In offline reinforcement learning (RL), the performance of the learned policy highly depends on the quality of offline datasets. However, in many cases, the offline dataset contains very limited optimal trajectories, which poses a challenge for offline RL algorithms as agents must acquire the ability to transit to high-reward regions. To address this issue, we introduce Diffusion-based Trajectory Stitching (DiffStitch), a novel diffusion-based data augmentation pipeline that systematically generates stitching transitions between trajectories. DiffStitch effectively connects low-reward trajectories with high-reward trajectories, forming globally optimal trajectories to address the challenges faced by offline RL algorithms. Empirical experiments conducted on D4RL datasets demonstrate the effectiveness of DiffStitch across RL methodologies. Notably, DiffStitch demonstrates substantial enhancements in the performance of one-step methods (IQL), imitation learning methods (TD3+BC), and trajectory optimization methods (DT).
翻訳日:2024-02-06 19:35:09 公開日:2024-02-04
# ニューラルネットワークにおけるオンライン指標の相関による早期停止

Early stopping by correlating online indicators in neural networks ( http://arxiv.org/abs/2402.02513v1 )

ライセンス: Link先を確認
Manuel Vilares Ferro, Yerai Doval Mosquera, Francisco J. Ribadas Pena, Victor M. Darriba Bilbao(参考訳) ニューラルネットワークにおける一般化誤差を最小限に抑えるため,学習者のトレーニング時に過度に適合する現象を識別する新しい手法が正式に導入された。 これにより、信頼性が高く信頼性の高い早期停止条件のサポートが可能になり、この種のモデリングの予測能力が向上する。 提案手法は,オンライン指標の収集における時間的相関,すなわち仮説の集合が一致したかどうかを示す特徴関数をカナリア判断から構築した独立した停止条件の範囲に関連づけて,過剰適合の有無を評価する。 このようにして、学習プロセスの中断という観点から意思決定の正式な基盤を提供する。 従来の1つの基準に焦点をあてたアプローチとは対照的に,独立した評価の補助的特性を活用して,より広い操作範囲と診断信頼性を求める。 停止条件の有効性を示すために,我々は自然言語処理の分野で働くことを選択した。 ケーススタディでは、ドメイン内で最も要求の多い複雑なタスクの一つであるパーサ生成に注目します。 カナリア関数としてのクロスバリデーションの選択は、オーバーフィッティング識別に基づく最も代表的な早期停止条件と実際の比較を可能にし、最適なバイアスおよび分散制御に向けた有望な出発点を示す。

In order to minimize the generalization error in neural networks, a novel technique to identify overfitting phenomena when training the learner is formally introduced. This enables support of a reliable and trustworthy early stopping condition, thus improving the predictive power of that type of modeling. Our proposal exploits the correlation over time in a collection of online indicators, namely characteristic functions for indicating if a set of hypotheses are met, associated with a range of independent stopping conditions built from a canary judgment to evaluate the presence of overfitting. That way, we provide a formal basis for decision making in terms of interrupting the learning process. As opposed to previous approaches focused on a single criterion, we take advantage of subsidiarities between independent assessments, thus seeking both a wider operating range and greater diagnostic reliability. With a view to illustrating the effectiveness of the halting condition described, we choose to work in the sphere of natural language processing, an operational continuum increasingly based on machine learning. As a case study, we focus on parser generation, one of the most demanding and complex tasks in the domain. The selection of cross-validation as a canary function enables an actual comparison with the most representative early stopping conditions based on overfitting identification, pointing to a promising start toward an optimal bias and variance control.
翻訳日:2024-02-06 19:29:17 公開日:2024-02-04
# robot trajectron: 軌道予測に基づくロボット操作のための共有制御

Robot Trajectron: Trajectory Prediction-based Shared Control for Robot Manipulation ( http://arxiv.org/abs/2402.02499v1 )

ライセンス: Link先を確認
Pinhao Song, Pengteng Li, Erwin Aertbelien, Renaud Detry(参考訳) 私たちは問題に対処する (a)動き開始数秒を基準に、腕が動きに到達する軌道を予測すること、及び (b)この予測器を利用して共有制御操作作業を容易にし、期待する動きの方向に支援することで操作者の認知負荷を軽減させる。 当社の新しいインテント推定器である \emph{robot trajectron} (rt) は、最近の位置、速度、加速度履歴に基づいて、ロボットの予測軌道を確率論的に表現する。 アームダイナミクスを考慮に入れれば、RTは腕の位置のみを使用する他のSOTAモデルよりも操作者の意図を捉えることができ、操作者の意図が変化しやすいタスクを支援するのに特に適している。 我々は、RTの予測能力と潜在的到達目標の位置の表現を組み合わせた、新しい共有制御ソリューションを導出する。 本実験は意図推定と共有制御におけるRTの有効性を示す。 実験をサポートするコードとデータをhttps://github.com/mousecpn/robot-trajectron.gitで公開します。

We address the problem of (a) predicting the trajectory of an arm reaching motion, based on a few seconds of the motion's onset, and (b) leveraging this predictor to facilitate shared-control manipulation tasks, easing the cognitive load of the operator by assisting them in their anticipated direction of motion. Our novel intent estimator, dubbed the \emph{Robot Trajectron} (RT), produces a probabilistic representation of the robot's anticipated trajectory based on its recent position, velocity and acceleration history. Taking arm dynamics into account allows RT to capture the operator's intent better than other SOTA models that only use the arm's position, making it particularly well-suited to assist in tasks where the operator's intent is susceptible to change. We derive a novel shared-control solution that combines RT's predictive capacity to a representation of the locations of potential reaching targets. Our experiments demonstrate RT's effectiveness in both intent estimation and shared-control tasks. We will make the code and data supporting our experiments publicly available at https://github.com/mousecpn/Robot-Trajectron.git.
翻訳日:2024-02-06 19:28:48 公開日:2024-02-04
# X線-CT画像融合のための完全微分相関駆動2D/3Dレジストレーション

Fully Differentiable Correlation-driven 2D/3D Registration for X-ray to CT Image Fusion ( http://arxiv.org/abs/2402.02498v1 )

ライセンス: Link先を確認
Minheng Chen, Zhirun Zhang, Shuheng Gu, Zhangyang Ge and Youyong Kong(参考訳) 画像ベース剛性2D/3Dレジストレーションは, 蛍光ガイド下外科手術において重要な技術である。 近年, 特徴抽出と勾配流伝達のプロセスは制御性や解釈性に欠ける一方で, 学習に基づく完全微分可能な手法が有益である。 これらの問題を緩和するため,両分岐CNN変換器エンコーダを用いて,低周波グローバル特徴を高周波局所特徴から抽出・分離する,完全微分型相関駆動ネットワークを提案する。 組込み情報に基づく低周波特徴と高周波特徴の分解に対して相関による損失がさらに提案される。 また,凸形状の類似度関数を近似する学習戦略を本研究に適用した。 提案手法を社内データセットで検証した結果,既存の完全微分可能な学習ベース登録手法と,従来の最適化ベースラインとを比較検討した。

Image-based rigid 2D/3D registration is a critical technique for fluoroscopic guided surgical interventions. In recent years, some learning-based fully differentiable methods have produced beneficial outcomes while the process of feature extraction and gradient flow transmission still lack controllability and interpretability. To alleviate these problems, in this work, we propose a novel fully differentiable correlation-driven network using a dual-branch CNN-transformer encoder which enables the network to extract and separate low-frequency global features from high-frequency local features. A correlation-driven loss is further proposed for low-frequency feature and high-frequency feature decomposition based on embedded information. Besides, a training strategy that learns to approximate a convex-shape similarity function is applied in our work. We test our approach on a in-house datasetand show that it outperforms both existing fully differentiable learning-based registration approaches and the conventional optimization-based baseline.
翻訳日:2024-02-06 19:28:19 公開日:2024-02-04
# 条件付きスピンスクイージングのための確率マスター方程式の厳密な数値解法

Exact Numerical Solution of Stochastic Master Equations for Conditional Spin Squeezing ( http://arxiv.org/abs/2402.02495v1 )

ライセンス: Link先を確認
ZhiQing Zhang, Yuan Zhang, HaiZhong Guo, ChongXin Shan, Gang Chen and Klaus M{\o}lmer(参考訳) 確率マスター方程式は、しばしば原子アンサンブルの条件付きスピンスクイージングを記述するために用いられるが、指数関数的に増大するヒルベルト空間のため、原子数が少ない系に限る。 本稿では、同一密度行列要素を集合量子数で特徴づけられる単一の量にマッピングすることで、同一原子を持つ系に対するこれらの方程式の正確な数値解を示し、これをホモダイン検出による悪い空洞における100個の原子を持つ系に適用する。 本研究では, スピンスクイーズが集合密度行列要素のガウス的分布によって鮮明に説明できることを実証し, プローブ場強度と偏光, 検出効率, 自然放出速度, 原子数の影響について検討した。 我々の正確なアプローチは、ガウス状態形式や確率的平均場アプローチのような、より多くの原子を持つ系に適用される近似的なアプローチをゲージする上で重要な役割を果たす。

Stochastic master equations are often used to describe conditional spin squeezing of atomic ensemble, but are limited so far to the systems with few atoms due to the exponentially increased Hilbert space. In this article, we present an exact numerical solution of these equations for systems with identical atoms by mapping identical density matrix elements to a single quantity characterized by collective quantum numbers, and apply it to the system with hundred atoms in a bad cavity subject to a homodyne detection. We demonstrate that the spin squeezing can be vividly illustrated by the Gaussian-like distribution of the collective density matrix elements, and we examine the influence of the probe field strength and polarization, the detection efficiency, the spontaneous emission rate and the number of atoms. Our exact approach can play an important role in gauging the approximate approaches applied for systems with more atoms, such as Gaussian-state formalism and stochastic mean-field approach, and it permits also exploration of entanglement effects beyond these approaches.
翻訳日:2024-02-06 19:27:52 公開日:2024-02-04
# 複素ネットワークにおけるネクタイ強度と近傍トポロジーの相互作用:グラノヴェッターの理論とそれ以上

Interplay between tie strength and neighbourhood topology in complex networks: Granovetter's theory and beyond ( http://arxiv.org/abs/2402.02487v1 )

ライセンス: Link先を確認
Maciej J Mrowinski and Kamil P. Orzechowski and Agata Fronczak and Piotr Fronczak(参考訳) グラノヴェッターの弱い関係理論は、エッジウェイトとネットワークのトポロジーの間に相関関係が存在するべきという非常に重要な社会理論である。 より具体的には、エッジによって接続された2つのノードの近傍の重なりは、エッジの重み(タイ強度)と正の相関を持つべきである。 しかし、実際のソーシャルネットワークの中には負の相関関係を示すものもある。最も顕著な例は科学的なコラボレーションネットワークである。 上記のグラノヴェッターの理論との矛盾は、非対称測度を用いて科学的協調ネットワークにおいて緩和できることが証明されている。 本稿では,複素ネットワークの記述やグラノヴェッターの理論の検証には非対称測度がしばしば必要となるが,それらの解釈は単純ではなく,注意しなければならない落とし穴が存在することを述べる。 非対称重みと重なりの定義は、フィルタリングしなければならない構造的相関をもたらす。 この問題を克服するために相関プロファイルが利用できることを示す。 この手法を用いることで、Granovetterの理論を様々な実・人工的なソーシャルネットワークで確認するだけでなく、他の複雑なネットワーク(メタボリックやニューラルネットワークなど)にGranovetterのような重み-トポロジー相関が存在することを示す。 以上の結果から,グラノヴェッターの理論は,様々な種類の複雑ネットワークを統括するより一般的な原則の社会学的顕現であることが示唆された。

Granovetter's weak ties theory is a very important sociological theory according to which a correlation between edge weight and the network's topology should exist. More specifically, the neighbourhood overlap of two nodes connected by an edge should be positively correlated with edge weight (tie strength). However, some real social networks exhibit a negative correlation - the most prominent example is the scientific collaboration network, for which overlap decreases with edge weight. It has been demonstrated that the aforementioned inconsistency with Granovetter's theory can be alleviated in the scientific collaboration network through the use of asymmetric measures. In this paper, we explain that while asymmetric measures are often necessary to describe complex networks and to confirm Granovetter's theory, their interpretation is not simple, and there are pitfalls that one must be wary of. The definitions of asymmetric weights and overlaps introduce structural correlations that must be filtered out. We show that correlation profiles can be used to overcome this problem. Using this technique, not only do we confirm Granovetter's theory in various real and artificial social networks, but we also show that Granovetter-like weight-topology correlations are present in other complex networks (e.g. metabolic and neural networks). Our results suggest that Granovetter's theory is a sociological manifestation of more general principles governing various types of complex networks.
翻訳日:2024-02-06 19:27:20 公開日:2024-02-04
# ユークリッド同変機械学習のためのWeisfeiler Leman

Weisfeiler Leman for Euclidean Equivariant Machine Learning ( http://arxiv.org/abs/2402.02484v1 )

ライセンス: Link先を確認
Snir Hordan, Tal Amir, Nadav Dym(参考訳) k$-Weifeiler-Leman(k$-WL)グラフ同型テスト階層は、グラフニューラルネットワーク(GNN)の表現力を評価する一般的な方法である。 最近、この2$-WLテストは、3$\mathrm{D}$ポイントクラウドデータをエンコードした重み付きグラフで完結することが証明された。 したがって、表現力が 2$-WL テストと等価な GNN は、ポイントクラウド上で証明可能な普遍的である。 しかし、この結果は点雲上の不変連続関数に限定される。 第一に、アプリケーションでしばしば発生するシナリオである位置と速度の両方を含む点クラウドまで、2ドルWLのテストを拡張できることを示します。 第2に, PPGN (Maron et al., 2019) は, 複雑さの低い全点クラウド上で, 均一に 2$-WL をシミュレートできることを示した。 最後に、この PPGN アーキテクチャの簡単な修正により、すべての連続同変関数を均一に近似できる普遍同変アーキテクチャが得られることを示す。 この結果をもとにwelnetアーキテクチャを開発し、位置速度対を処理し、置換や剛体運動に完全同値な関数を計算し、完全かつ普遍的であることを保証する。 注目すべきは、WeLNetが実際に実装されている環境で、確実に完成していることだ。 WeLNetはN-Body動的タスクとGEOM-QM9分子コンホメーション生成タスクに新しい最先端の結果をセットする。

The $k$-Weifeiler-Leman ($k$-WL) graph isomorphism test hierarchy is a common method for assessing the expressive power of graph neural networks (GNNs). Recently, the $2$-WL test was proven to be complete on weighted graphs which encode $3\mathrm{D}$ point cloud data. Consequently, GNNs whose expressive power is equivalent to the $2$-WL test are provably universal on point clouds. Yet, this result is limited to invariant continuous functions on point clouds. In this paper we extend this result in three ways: Firstly, we show that $2$-WL tests can be extended to point clouds which include both positions and velocity, a scenario often encountered in applications. Secondly, we show that PPGN (Maron et al., 2019) can simulate $2$-WL uniformly on all point clouds with low complexity. Finally, we show that a simple modification of this PPGN architecture can be used to obtain a universal equivariant architecture that can approximate all continuous equivariant functions uniformly. Building on our results, we develop our WeLNet architecture, which can process position-velocity pairs, compute functions fully equivariant to permutations and rigid motions, and is provably complete and universal. Remarkably, WeLNet is provably complete precisely in the setting in which it is implemented in practice. Our theoretical results are complemented by experiments showing WeLNet sets new state-of-the-art results on the N-Body dynamics task and the GEOM-QM9 molecular conformation generation task.
翻訳日:2024-02-06 19:26:13 公開日:2024-02-04
# BRAIn: フィードバックによる自然言語生成のためのベイジアン・リワード条件の償却推論

BRAIn: Bayesian Reward-conditioned Amortized Inference for natural language generation from feedback ( http://arxiv.org/abs/2402.02479v1 )

ライセンス: Link先を確認
Gaurav Pandey, Yatin Nandwani, Tahira Naseem, Mayank Mishra, Guangxuan Xu, Dinesh Raghu, Sachindra Joshi, Asim Munawar, Ram\'on Fernandez Astudillo(参考訳) RLHF(Reinforcement Learning from Human Feedback)の強化学習のためのPPO(Proximal Policy Optimization)の成功に続いて、SLiC(Sequence Likelihood Calibration)やDPO(Direct Policy Optimization)といった新たな手法が提案されている。 これらの技術、特にDPOは、最近、スケーラビリティと性能のために、LLMアライメントの選択ツールとなっている。 しかし、彼らはPPOアプローチの重要な特徴を残している。 SLiC(英語版)やRRHF(英語版)のような手法は、ランキング/参照にのみReward Model(RM)を使用し、詳細な情報を失い、RMのパラメトリック形式(ブラッドリー・テリー、プラケット・ルーシーなど)を無視している。 本研究では,分布マッチング手法の一部としてRMを再導入する新しい手法であるBRAInを提案する。BRAInは,出力良さを仮定したLLM分布を考察し,ベイズ定理を適用して,RMが明示的に表現される難解な後部分布を導出する。 BRAInはこの後部を自己正規化の重要度サンプリングによって償却推論ネットワークに蒸留し、拡張性のあるオフラインアルゴリズムにより、要約やアントロピックHHタスクにおいて先行技術よりも大幅に優れている。 BRAInはまた、特定のRM選択のためにPPOとDPOと興味深い接続を持っている。

Following the success of Proximal Policy Optimization (PPO) for Reinforcement Learning from Human Feedback (RLHF), new techniques such as Sequence Likelihood Calibration (SLiC) and Direct Policy Optimization (DPO) have been proposed that are offline in nature and use rewards in an indirect manner. These techniques, in particular DPO, have recently become the tools of choice for LLM alignment due to their scalability and performance. However, they leave behind important features of the PPO approach. Methods such as SLiC or RRHF make use of the Reward Model (RM) only for ranking/preference, losing fine-grained information and ignoring the parametric form of the RM (eg., Bradley-Terry, Plackett-Luce), while methods such as DPO do not use even a separate reward model. In this work, we propose a novel approach, named BRAIn, that re-introduces the RM as part of a distribution matching approach.BRAIn considers the LLM distribution conditioned on the assumption of output goodness and applies Bayes theorem to derive an intractable posterior distribution where the RM is explicitly represented. BRAIn then distills this posterior into an amortized inference network through self-normalized importance sampling, leading to a scalable offline algorithm that significantly outperforms prior art in summarization and AntropicHH tasks. BRAIn also has interesting connections to PPO and DPO for specific RM choices.
翻訳日:2024-02-06 19:25:16 公開日:2024-02-04
# 双曲型ニューラルネットワークはなぜ有効か? 階層的表現能力に関する研究

Why are hyperbolic neural networks effective? A study on hierarchical representation capability ( http://arxiv.org/abs/2402.02478v1 )

ライセンス: Link先を確認
Shicheng Tan, Huanjing Zhao, Shu Zhao, Yanping Zhang(参考訳) 双曲的空間で動作する双曲型ニューラルネットワーク(HNN)は、ユークリッド空間よりも正確にデータ階層的関係(階層的表現能力、HRC)を保存できる最適な双曲型空間への埋め込みの存在によって、近年広く応用されている。 しかし、HNNがこの理論上の最適埋め込みを達成できることを示す証拠はないため、多くの研究が欠陥のあるモチベーションに基づいている。 本稿では,HRC評価のためのベンチマークを提案し,大規模実験によりHNNが有効である理由を包括的に分析する。 分析結果に触発されて,hrcの強化と下流タスクの性能向上のための事前学習戦略を提案し,解析の信頼性をさらに検証する。 実験により、hnnは理論的最適埋め込みを達成できないことが示されている。 HRCは最適化目標と階層構造に大きく影響され,事前学習戦略によるHRCの強化により,HNNの性能が著しく向上する。

Hyperbolic Neural Networks (HNNs), operating in hyperbolic space, have been widely applied in recent years, motivated by the existence of an optimal embedding in hyperbolic space that can preserve data hierarchical relationships (termed Hierarchical Representation Capability, HRC) more accurately than Euclidean space. However, there is no evidence to suggest that HNNs can achieve this theoretical optimal embedding, leading to much research being built on flawed motivations. In this paper, we propose a benchmark for evaluating HRC and conduct a comprehensive analysis of why HNNs are effective through large-scale experiments. Inspired by the analysis results, we propose several pre-training strategies to enhance HRC and improve the performance of downstream tasks, further validating the reliability of the analysis. Experiments show that HNNs cannot achieve the theoretical optimal embedding. The HRC is significantly affected by the optimization objectives and hierarchical structures, and enhancing HRC through pre-training strategies can significantly improve the performance of HNNs.
翻訳日:2024-02-06 19:24:46 公開日:2024-02-04
# 格子フェルミオンに対するトポロジー的に保護されたカシミール効果

Topologically protected Casimir effect for lattice fermions ( http://arxiv.org/abs/2402.02477v1 )

ライセンス: Link先を確認
C.W.J. Beenakker(参考訳) 電磁カシミール効果は位相絶縁体においてフェルミオンと対応する:無質量のディラックフェルミオン場のゼロ点揺らぎは磁気散乱体間の力を媒介する。 カシミールの力は、不対面のディラックコーンのトポロジカルな保護を維持する障害に敏感である。 ディラック方程式が離散化されていれば保護は破られ、カシミール効果の指数的抑制はディラック点にギャップが開いたときに生じる。 ここでは,最近開発された局所的ユークリッド作用の離散化を,ハミルトニアンの局所的離散化のフェルミオン二重化障害に苦しむことなく適用することにより,この格子アーティファクトを回避できることを示す。

The electromagnetic Casimir effect has a fermionic counterpart in topological insulators: Zero-point fluctuations of a massless Dirac fermion field mediate a force between magnetic scatterers. The Casimir force is insensitive to disorder that preserves the topological protection of an unpaired Dirac cone. The protection may be broken if the Dirac equation is discretized, and an exponential suppression of the Casimir effect will result if a gap opens at the Dirac point. Here we show how this lattice artefact may be avoided, by applying a recently developed local discretization of the Euclidean action that does not suffer from the fermion-doubling obstruction of local discretizations of the Hamiltonian.
翻訳日:2024-02-06 19:24:29 公開日:2024-02-04
# TimeSiam: シームズ時系列モデリングのための事前トレーニングフレームワーク

TimeSiam: A Pre-Training Framework for Siamese Time-Series Modeling ( http://arxiv.org/abs/2402.02475v1 )

ライセンス: Link先を確認
Jiaxiang Dong, Haixu Wu, Yuxuan Wang, Yunzhong Qiu, Li Zhang, Jianmin Wang, Mingsheng Long(参考訳) 時系列事前トレーニングは、ラベル付けコストを削減し、さまざまな下流タスクに利益をもたらす可能性があるとして、最近広く注目を集めている。 従来の手法は主に、マスクモデリングやコントラスト学習のような視覚や言語でよく認識されている事前学習技術に基づいている。 しかし、ランダムにマスキングする時系列や時系列の類似性を計算することは、時系列データに不可欠な時間的相関を歪ませたり無視する。 時間相関モデルを強調するために,シームズネットワークに基づく時系列の簡易かつ効果的な自己教師付き事前学習フレームワークTimeSiamを提案する。 具体的には、TimeSiamはシームズエンコーダを事前訓練して、ランダムにサンプリングされた過去と現在のサブシリーズの固有の時間的相関をキャプチャする。 単純なデータ拡張手法(例:-masking)により、timesiamは様々な拡張サブシリーズの恩恵を受け、過去から現在までの再構築を通じて内部時間依存表現を学ぶことができる。 さらに, サンプル系列間の時間距離を識別し, 多様な時間相関の学習を促進するために, 学習可能な系統埋め込みも導入されている。 TimeSiamは、拡張事前トレーニングベースラインを一貫して上回り、ドメイン内およびクロスドメインのシナリオにおいて、13の標準ベンチマークで優れた予測と分類能力を示している。

Time series pre-training has recently garnered wide attention for its potential to reduce labeling expenses and benefit various downstream tasks. Prior methods are mainly based on pre-training techniques well-acknowledged in vision or language, such as masked modeling and contrastive learning. However, randomly masking time series or calculating series-wise similarity will distort or neglect inherent temporal correlations crucial in time series data. To emphasize temporal correlation modeling, this paper proposes TimeSiam as a simple but effective self-supervised pre-training framework for Time series based on Siamese networks. Concretely, TimeSiam pre-trains Siamese encoders to capture intrinsic temporal correlations between randomly sampled past and current subseries. With a simple data augmentation method (e.g.~masking), TimeSiam can benefit from diverse augmented subseries and learn internal time-dependent representations through a past-to-current reconstruction. Moreover, learnable lineage embeddings are also introduced to distinguish temporal distance between sampled series and further foster the learning of diverse temporal correlations. TimeSiam consistently outperforms extensive advanced pre-training baselines, demonstrating superior forecasting and classification capabilities across 13 standard benchmarks in both intra- and cross-domain scenarios.
翻訳日:2024-02-06 19:24:13 公開日:2024-02-04
# 教師なし画像インスタンスセグメンテーションのための深いスペクトル改善

Deep Spectral Improvement for Unsupervised Image Instance Segmentation ( http://arxiv.org/abs/2402.02474v1 )

ライセンス: Link先を確認
Farnoosh Arefi, Amir M. Mansourian, Shohreh Kasaei(参考訳) 深層スペクトル法は,自己教師付き学習を用いて特徴を抽出し,アフィニティ行列のラプラシアンを利用して固有値を得ることにより,画像分割プロセスをグラフ分割タスクとして再構成する。 しかし、深層スペクトル法の文脈における他のタスクに比べて、インスタンスセグメンテーションにはあまり注意が払われていない。 本稿では,自己教師付きバックボーンから抽出した特徴マップのすべてのチャネルが,例えばセグメント化のために十分な情報を含んでいるわけではないことを述べる。 実際、一部のチャネルはノイズが多く、タスクの正確性を妨げている。 そこで本研究では,ノイズチャネルリダクション (NCR) とディバイジョンベースリダクション (DCR) の2つのチャネルリダクションモジュールを提案する。 NCRはノイズが少ないためエントロピーの低いチャネルを保持するが、DCRは効果的なインスタンスセグメンテーションのための十分な情報がないため、標準偏差の低いチャネルを保持する。 さらに, 深層スペクトル法で一般的に用いられるドット積は, 特徴マップ値に対する感度が高いため, インスタンスセグメンテーションには適さないことを示し, 不正確なインスタンスセグメンテーションを生じさせる可能性を示した。 この問題に対処するために、Bray-Curtis over Chebyshev (BoC)と呼ばれる新しい類似度指標が提案されている。 それらの値に加えて、機能の分布を考慮に入れ、インスタンスセグメンテーションのより堅牢な類似度尺度を提供する。 Youtube-VIS2019データセットの定量および定性的な結果は、提案したチャネル還元法によって達成された改善と、親和性行列を作成するために従来のドット製品の代わりにBoCを使用することを強調している。 これらの改善は、ユニオンと抽出されたインスタンスセグメントに対する平均インターセクションの観点で観察され、強化されたインスタンスセグメント性能を示す。 コードは、https://github.com/farnooshar/SpecUnIISで入手できる。

Deep spectral methods reframe the image decomposition process as a graph partitioning task by extracting features using self-supervised learning and utilizing the Laplacian of the affinity matrix to obtain eigensegments. However, instance segmentation has received less attention compared to other tasks within the context of deep spectral methods. This paper addresses the fact that not all channels of the feature map extracted from a self-supervised backbone contain sufficient information for instance segmentation purposes. In fact, Some channels are noisy and hinder the accuracy of the task. To overcome this issue, this paper proposes two channel reduction modules: Noise Channel Reduction (NCR) and Deviation-based Channel Reduction (DCR). The NCR retains channels with lower entropy, as they are less likely to be noisy, while DCR prunes channels with low standard deviation, as they lack sufficient information for effective instance segmentation. Furthermore, the paper demonstrates that the dot product, commonly used in deep spectral methods, is not suitable for instance segmentation due to its sensitivity to feature map values, potentially leading to incorrect instance segments. A new similarity metric called Bray-Curtis over Chebyshev (BoC) is proposed to address this issue. It takes into account the distribution of features in addition to their values, providing a more robust similarity measure for instance segmentation. Quantitative and qualitative results on the Youtube-VIS2019 dataset highlight the improvements achieved by the proposed channel reduction methods and the use of BoC instead of the conventional dot product for creating the affinity matrix. These improvements are observed in terms of mean Intersection over Union and extracted instance segments, demonstrating enhanced instance segmentation performance. The code is available on: https://github.com/farnooshar/SpecUnIIS
翻訳日:2024-02-06 19:23:49 公開日:2024-02-04
# 文脈認識探索による高速ピア適応

Fast Peer Adaptation with Context-aware Exploration ( http://arxiv.org/abs/2402.02468v1 )

ライセンス: Link先を確認
Long Ma, Yuanfei Wang, Fangwei Zhong, Song-Chun Zhu, and Yizhou Wang(参考訳) 異なる戦略を持つ未知のピア(パートナーや対戦相手)への迅速な適応は、マルチエージェントゲームにおいて重要な課題である。 そのため、適応において最良の対応を行うための前提条件であるため、エージェントが効果的にピアの戦略を探索し、特定することが不可欠である。 しかし、ゲームが部分的に観察可能で長い地平線を持つ場合、未知の仲間の戦略を探索することは困難である。 本稿では,複数のエピソードにまたがる観察などの歴史的文脈において,ピアの行動パターンをいかに識別できるかに基づいて,学習エージェントに報奨を与えるピア識別報酬を提案する。 この報酬は、効果的な探索と迅速な適応のための文脈対応政策、すなわち、ポリシーについて不確実な時に仲間から情報的フィードバックを積極的に求め、収集し、自信のあるときに最高の応答を行うためのコンテキストを活用することを促す。 本手法は,競争的(クーンポーカー),協力的(po-overcooked),あるいは混合(preedator-prey-w)ゲームを含む多種多様なテストベッド上で評価する。 本研究では,本手法が既存手法よりも高速な適応とより良い結果をもたらすことを示す。

Fast adapting to unknown peers (partners or opponents) with different strategies is a key challenge in multi-agent games. To do so, it is crucial for the agent to efficiently probe and identify the peer's strategy, as this is the prerequisite for carrying out the best response in adaptation. However, it is difficult to explore the strategies of unknown peers, especially when the games are partially observable and have a long horizon. In this paper, we propose a peer identification reward, which rewards the learning agent based on how well it can identify the behavior pattern of the peer over the historical context, such as the observation over multiple episodes. This reward motivates the agent to learn a context-aware policy for effective exploration and fast adaptation, i.e., to actively seek and collect informative feedback from peers when uncertain about their policies and to exploit the context to perform the best response when confident. We evaluate our method on diverse testbeds that involve competitive (Kuhn Poker), cooperative (PO-Overcooked), or mixed (Predator-Prey-W) games with peer agents. We demonstrate that our method induces more active exploration behavior, achieving faster adaptation and better outcomes than existing methods.
翻訳日:2024-02-06 19:23:20 公開日:2024-02-04
# グラフは$k$ワードの価値:純粋トランスフォーマーを用いたユークリッド化グラフ

A Graph is Worth $K$ Words: Euclideanizing Graph using Pure Transformer ( http://arxiv.org/abs/2402.02464v1 )

ライセンス: Link先を確認
Zhangyang Gao, Daize Dong, Cheng Tan, Jun Xia, Bozhen Hu, Stan Z. Li(参考訳) 非ユークリッドグラフを純粋言語やユークリッドベクトルとしてモデル化することは可能か。 非ユークリッド性はグラフモデリングにおいて長期的課題となった。 最近のgnnやgraphformerはグラフをユークリッドベクトルとして符号化しているが、ベクターから元のグラフを復元することは課題である。 本稿では,非ユークリッドグラフをユークリッド空間で学習可能なグラフ語に変換するGraph2Seqエンコーダと,元のグラフをグラフ語から再構成して情報等価性を確保するGraphGPTデコーダを紹介する。 1)プリトレーニングされたgraph2seqはグラフ表現学習に優れ、8/9のグラフ分類と回帰タスクで最先端の結果が得られる。 2) 事前訓練グラフGPTは,非条件グラフ生成と条件グラフ生成の両方を実行する能力によって,強力なグラフ生成器として機能する。 3) graph2seq+graphgpt はユークリッド空間における効果的なグラフ混合を可能にする。 (4) 提案したエッジ中心のGPT事前学習タスクはグラフフィールドにおいて有効であり,表現と生成の両面での成功を裏付けるものである。

Can we model non-Euclidean graphs as pure language or even Euclidean vectors while retaining their inherent information? The non-Euclidean property have posed a long term challenge in graph modeling. Despite recent GNN and Graphformer efforts encoding graphs as Euclidean vectors, recovering original graph from the vectors remains a challenge. We introduce GraphsGPT, featuring a Graph2Seq encoder that transforms non-Euclidean graphs into learnable graph words in a Euclidean space, along with a GraphGPT decoder that reconstructs the original graph from graph words to ensure information equivalence. We pretrain GraphsGPT on 100M molecules and yield some interesting findings: (1) Pretrained Graph2Seq excels in graph representation learning, achieving state-of-the-art results on 8/9 graph classification and regression tasks. (2) Pretrained GraphGPT serves as a strong graph generator, demonstrated by its ability to perform both unconditional and conditional graph generation. (3) Graph2Seq+GraphGPT enables effective graph mixup in the Euclidean space, overcoming previously known non-Euclidean challenge. (4) Our proposed novel edge-centric GPT pretraining task is effective in graph fields, underscoring its success in both representation and generation.
翻訳日:2024-02-06 19:22:57 公開日:2024-02-04
# ラッソとロジスティックラッソの高速手法

A Fast Method for Lasso and Logistic Lasso ( http://arxiv.org/abs/2402.02463v1 )

ライセンス: Link先を確認
Siu-Wing Cheng, Man Ting Wong(参考訳) 本研究では,圧縮センシング,ラッソ回帰,ロジスティックラッソ回帰問題の高速解法を提案する。 我々は,sparse reconstruction(gpsr)の勾配投影,matlabのlassoglm,glmnetなど,複数のソルバの単一の呼び出しに対して大きな速度アップを実現するアクティブセットを更新するための戦略を設計する。 圧縮センシングでは,GPSRとGPSRのハイブリッドはガウスアンサンブルでは平均31.41倍,バイナリアンサンブルでは平均25.64倍である。 ラッソ回帰の場合、我々の手法とGPSRのハイブリッドは実験で平均30.67倍のスピードアップを達成する。 我々のロジスティックラッソ回帰実験では、本手法とlassoglmのハイブリッドは平均11.95倍のスピードアップを示し、本手法とglmnetのハイブリッドは1.40倍のスピードアップを与える。

We propose a fast method for solving compressed sensing, Lasso regression, and Logistic Lasso regression problems that iteratively runs an appropriate solver using an active set approach. We design a strategy to update the active set that achieves a large speedup over a single call of several solvers, including gradient projection for sparse reconstruction (GPSR), lassoglm of Matlab, and glmnet. For compressed sensing, the hybrid of our method and GPSR is 31.41 times faster than GPSR on average for Gaussian ensembles and 25.64 faster on average for binary ensembles. For Lasso regression, the hybrid of our method and GPSR achieves a 30.67-fold average speedup in our experiments. In our experiments on Logistic Lasso regression, the hybrid of our method and lassoglm gives an 11.95-fold average speedup, and the hybrid of our method and glmnet gives a 1.40-fold average speedup.
翻訳日:2024-02-06 19:22:32 公開日:2024-02-04
# ゼロショット知識に基づくVQAのための知識生成

Knowledge Generation for Zero-shot Knowledge-based VQA ( http://arxiv.org/abs/2402.02541v1 )

ライセンス: Link先を確認
Rui Cao and Jing Jiang(参考訳) K-VQA)は、外部知識ベースから知識を取得し、教師付き学習を用いてK-VQAモデルを訓練する。 近年,K-VQAの知識源およびゼロショットQAモデルとして,事前学習 LLM が用いられている。 しかし、これらの最近の手法は、質問に答えるために必要な知識を明示的に示さないため、解釈可能性に欠ける。 テキストベースのQAのためのLLMからの知識生成に関する最近の研究から着想を得た本研究では、LLMから知識を最初に生成し、K-VQAの知識をゼロショットで組み込んだ、類似の知識生成ベースのK-VQA手法を提案し、検証する。 提案手法を2つのK-VQAベンチマークで評価した結果,従来のゼロショットK-VQA法よりも優れた性能が得られた。

Previous solutions to knowledge-based visual question answering~(K-VQA) retrieve knowledge from external knowledge bases and use supervised learning to train the K-VQA model. Recently pre-trained LLMs have been used as both a knowledge source and a zero-shot QA model for K-VQA and demonstrated promising results. However, these recent methods do not explicitly show the knowledge needed to answer the questions and thus lack interpretability. Inspired by recent work on knowledge generation from LLMs for text-based QA, in this work we propose and test a similar knowledge-generation-based K-VQA method, which first generates knowledge from an LLM and then incorporates the generated knowledge for K-VQA in a zero-shot manner. We evaluate our method on two K-VQA benchmarks and found that our method performs better than previous zero-shot K-VQA methods and our generated knowledge is generally relevant and helpful.
翻訳日:2024-02-06 19:14:47 公開日:2024-02-04
# 非変形型顔テンプレート生成の埋め込み

Embedding Non-Distortive Cancelable Face Template Generation ( http://arxiv.org/abs/2402.02540v1 )

ライセンス: Link先を確認
Dmytro Zakharov, Oleksandr Kuznetsov, Emanuele Frontoni, Natalia Kryvinska(参考訳) 生体認証システムはセキュリティには不可欠だが、開発にはプライバシ、セキュリティ、および純粋な生体認証データをストレージに直接保存せずに高い精度を達成するなど、さまざまな複雑さが伴う。 我々は、目では認識できないが、任意のカスタム埋め込みニューラルネットワークモデルで識別できる、革新的な画像歪み技術を導入する。 提案手法を用いて,予測された同一性を変えない最大画像歪みを決定することにより,生体認証ネットワークの信頼性を検証した。 MNISTとLFWデータセットの実験を通じて、その有効性を評価し、従来の比較指標に基づいて比較する。

Biometric authentication systems are crucial for security, but developing them involves various complexities, including privacy, security, and achieving high accuracy without directly storing pure biometric data in storage. We introduce an innovative image distortion technique that makes facial images unrecognizable to the eye but still identifiable by any custom embedding neural network model. Using the proposed approach, we test the reliability of biometric recognition networks by determining the maximum image distortion that does not change the predicted identity. Through experiments on MNIST and LFW datasets, we assess its effectiveness and compare it based on the traditional comparison metrics.
翻訳日:2024-02-06 19:14:28 公開日:2024-02-04
# CompeteSMoE -- 競争によるエキスパートのスパースミックスの効果的なトレーニング

CompeteSMoE -- Effective Training of Sparse Mixture of Experts via Competition ( http://arxiv.org/abs/2402.02526v1 )

ライセンス: Link先を確認
Quang Pham, Giang Do, Huy Nguyen, TrungTin Nguyen, Chenghao Liu, Mina Sartipi, Binh T. Nguyen, Savitha Ramasamy, Xiaoli Li, Steven Hoi, Nhat Ho(参考訳) sparse mixed of experts (smoe)は、ネットワークの深さや幅を増加させる手段を超えて、モデルの複雑さをスケールアップするための魅力的なソリューションを提供する。 しかし、SMoEの効果的なトレーニングは、パラメータ冗長性と限られた表現ポテンシャルを引き起こす表現崩壊問題のために困難であることが証明されている。 本研究では,この表現崩壊の根本的な課題に対処する競合機構を提案する。 入力を最も高い神経応答を持つ専門家にのみルーティングすることにより、コンペティションが最適推定器と同じ収束率を持つことを示す。 さらに,競争結果を予測するシンプルなルータを配置することにより,大規模言語モデルを効果的かつ効率的に学習するアルゴリズムCompeteSMoEを提案する。 その結果、CompeteSMoEは演算オーバーヘッドを低くしながら競合ルーティングポリシから高いパフォーマンスを享受できる。 2つのトランスフォーマーアーキテクチャと幅広いタスクに関する広範な経験的評価から,コンピテンシーの有効性,堅牢性,スケーラビリティを,最先端のsmoe戦略と比較した。

Sparse mixture of experts (SMoE) offers an appealing solution to scale up the model complexity beyond the mean of increasing the network's depth or width. However, effective training of SMoE has proven to be challenging due to the representation collapse issue, which causes parameter redundancy and limited representation potentials. In this work, we propose a competition mechanism to address this fundamental challenge of representation collapse. By routing inputs only to experts with the highest neural response, we show that, under mild assumptions, competition enjoys the same convergence rate as the optimal estimator. We further propose CompeteSMoE, an effective and efficient algorithm to train large language models by deploying a simple router that predicts the competition outcomes. Consequently, CompeteSMoE enjoys strong performance gains from the competition routing policy while having low computation overheads. Our extensive empirical evaluations on two transformer architectures and a wide range of tasks demonstrate the efficacy, robustness, and scalability of CompeteSMoE compared to state-of-the-art SMoE strategies.
翻訳日:2024-02-06 19:14:16 公開日:2024-02-04
# 非アクティブ適応サンプリングにおける絶対収束と誤差閾値

Absolute convergence and error thresholds in non-active adaptive sampling ( http://arxiv.org/abs/2402.02522v1 )

ライセンス: Link先を確認
Manuel Vilares Ferro, Victor M. Darriba Bilbao, Jes\'us Vilares Ferro(参考訳) 非アクティブ適応サンプリングは、動的かつ自動的に保証されたサンプルサイズを導出するはずのトレーニングベースから機械学習モデルを構築する方法である。 この文脈において、弱い予測器のスケジューリングと生成の両方に使用される戦略に関係なく、絶対収束と誤差しきい値を計算する提案を述べる。 我々は,モデルの品質がもはや向上しないときの確立を可能にするだけでなく,そのような目標達成にどの程度近いかを絶対的に推定するための近接条件も提供し,モデル選択における微調整学習パラメータの意思決定を支援する。 本手法は, サンプリング方式のロバスト性の向上に加えて, 作業仮説の正しさと完全性を証明するものである。 テストは我々の期待に応え、自然言語処理分野における提案を例証し、音声タグの生成をケーススタディとしている。

Non-active adaptive sampling is a way of building machine learning models from a training data base which are supposed to dynamically and automatically derive guaranteed sample size. In this context and regardless of the strategy used in both scheduling and generating of weak predictors, a proposal for calculating absolute convergence and error thresholds is described. We not only make it possible to establish when the quality of the model no longer increases, but also supplies a proximity condition to estimate in absolute terms how close it is to achieving such a goal, thus supporting decision making for fine-tuning learning parameters in model selection. The technique proves its correctness and completeness with respect to our working hypotheses, in addition to strengthening the robustness of the sampling scheme. Tests meet our expectations and illustrate the proposal in the domain of natural language processing, taking the generation of part-of-speech taggers as case study.
翻訳日:2024-02-06 19:13:59 公開日:2024-02-04
# SIMPL: 自律運転のための簡易かつ効率的なマルチエージェント動作予測ベースライン

SIMPL: A Simple and Efficient Multi-agent Motion Prediction Baseline for Autonomous Driving ( http://arxiv.org/abs/2402.02519v1 )

ライセンス: Link先を確認
Lu Zhang, Peiliang Li, Sikang Liu, Shaojie Shen(参考訳) 本稿では,自動運転車のための簡易かつ効率的な運動予測ベースライン(SIMPL)を提案する。 従来のエージェント中心の高精度かつ反復的な計算手法や、精度と一般化性を妥協したシーン中心の手法とは異なり、SIMPLは関連するすべての交通参加者に対してリアルタイムかつ正確な動き予測を提供する。 精度と推論速度の両面で向上を図るため,一本のフィードフォワードパスで全道路利用者の将来の動きを予測し,視点シフトによる精度損失を軽減し,有向メッセージパッシングを対称的に行う,コンパクトで効率的なグローバル機能融合モジュールを提案する。 さらに,軌道復号におけるbernstein基底多項式を用いた連続軌道パラメータ化について検討し,任意の所望の時点における状態とその高次導関数の評価を可能にした。 強力なベースラインとして、SIMPLは他の最先端手法と比較してArgoverse 1と2のモーション予測ベンチマークで高い競争性能を示す。 さらに、軽量な設計と低推論レイテンシにより、SIMPLは拡張性が高く、実際のオンボードデプロイメントに期待できる。 ソースコードはhttps://github.com/HKUST-Aerial-Robotics/SIMPLで公開しています。

This paper presents a Simple and effIcient Motion Prediction baseLine (SIMPL) for autonomous vehicles. Unlike conventional agent-centric methods with high accuracy but repetitive computations and scene-centric methods with compromised accuracy and generalizability, SIMPL delivers real-time, accurate motion predictions for all relevant traffic participants. To achieve improvements in both accuracy and inference speed, we propose a compact and efficient global feature fusion module that performs directed message passing in a symmetric manner, enabling the network to forecast future motion for all road users in a single feed-forward pass and mitigating accuracy loss caused by viewpoint shifting. Additionally, we investigate the continuous trajectory parameterization using Bernstein basis polynomials in trajectory decoding, allowing evaluations of states and their higher-order derivatives at any desired time point, which is valuable for downstream planning tasks. As a strong baseline, SIMPL exhibits highly competitive performance on Argoverse 1 & 2 motion forecasting benchmarks compared with other state-of-the-art methods. Furthermore, its lightweight design and low inference latency make SIMPL highly extensible and promising for real-world onboard deployment. We open-source the code at https://github.com/HKUST-Aerial-Robotics/SIMPL.
翻訳日:2024-02-06 19:13:44 公開日:2024-02-04
# Latent Graph Diffusion: グラフの生成と予測のための統一フレームワーク

Latent Graph Diffusion: A Unified Framework for Generation and Prediction on Graphs ( http://arxiv.org/abs/2402.02518v1 )

ライセンス: Link先を確認
Zhou Cai, Xiyuan Wang, Muhan Zhang(参考訳) 本稿では,全てのレベル(ノード,エッジ,グラフ)とすべてのタイプ(生成,回帰,分類)のグラフ学習タスクを1つのモデルで解くための最初のフレームワークを提案する。 まず,各カテゴリのノード,エッジ,グラフレベルの特徴を同時に生成できる生成モデルであるLatent Graph Diffusion(LGD)を提案する。 我々は、グラフ構造と特徴を潜在空間に埋め込み、同時に復号化できる強力なエンコーダを利用して、潜在空間における拡散モデルを訓練することで、この目標を達成する。 LGDはまた、特別に設計されたクロスアテンション機構を通じて条件付き生成を行うことができる。 そして、回帰と分類を含む予測タスクを(条件付き)生成として定式化し、LGDが証明可能な保証付きの全レベルのタスクを解けるようにした。 このフレームワークの有効性を広範囲な実験によって検証し,モデルが生成および回帰タスクにおいて最先端または高度に競争力のある結果を達成する。

In this paper, we propose the first framework that enables solving graph learning tasks of all levels (node, edge and graph) and all types (generation, regression and classification) with one model. We first propose Latent Graph Diffusion (LGD), a generative model that can generate node, edge, and graph-level features of all categories simultaneously. We achieve this goal by embedding the graph structures and features into a latent space leveraging a powerful encoder which can also be decoded, then training a diffusion model in the latent space. LGD is also capable of conditional generation through a specifically designed cross-attention mechanism. Then we formulate prediction tasks including regression and classification as (conditional) generation, which enables our LGD to solve tasks of all levels and all types with provable guarantees. We verify the effectiveness of our framework with extensive experiments, where our models achieve state-of-the-art or highly competitive results across generation and regression tasks.
翻訳日:2024-02-06 19:13:23 公開日:2024-02-04
# POSタグ作成における適応サンプリングのための適応スケジューリング

Adaptive scheduling for adaptive sampling in POS taggers construction ( http://arxiv.org/abs/2402.02516v1 )

ライセンス: Link先を確認
Manuel Vilares Ferro, Victor M. Darriba Bilbao, Jes\'us Vilares Ferro(参考訳) 本稿では,機械学習の新たな手法として,適応サンプリングのための適応スケジューリングを提案する。 目標は、最適な構成に関してパフォーマンスを損なうことなく、大規模なデータセットでのトレーニングをスピードアップすることである。 ケース間のランダム, 固定, 定期的に上昇する間隔を用いた従来の手法とは対照的に, 本研究では, 関数モデルとともに幾何学的に学習曲線の形状を分析して, 任意のタイミングで増加あるいは減少させる。 このアルゴリズムは、我々の作業仮説について正式に正しいことを証明している。 すなわち、例えば、次のものが前者から学習能力の純利を確実に確保する最も近いものである場合、この条件の要求レベルを調節することが可能である。 また,性能の一時的なインフレーションを受けるトレーニングデータベースのこれらの領域に注意を払うことで,学習の早期停止を防止し,サンプリングの堅牢性を向上させる。 この提案はモデルの収束を識別する信頼性に基づいて評価され、我々の期待と一致している。 具体的な停止条件はテストに使用されるが、ユーザーは特定のニーズに合った任意の条件を選択できる。

We introduce an adaptive scheduling for adaptive sampling as a novel way of machine learning in the construction of part-of-speech taggers. The goal is to speed up the training on large data sets, without significant loss of performance with regard to an optimal configuration. In contrast to previous methods using a random, fixed or regularly rising spacing between the instances, ours analyzes the shape of the learning curve geometrically in conjunction with a functional model to increase or decrease it at any time. The algorithm proves to be formally correct regarding our working hypotheses. Namely, given a case, the following one is the nearest ensuring a net gain of learning ability from the former, it being possible to modulate the level of requirement for this condition. We also improve the robustness of sampling by paying greater attention to those regions of the training data base subject to a temporary inflation in performance, thus preventing the learning from stopping prematurely. The proposal has been evaluated on the basis of its reliability to identify the convergence of models, corroborating our expectations. While a concrete halting condition is used for testing, users can choose any condition whatsoever to suit their own specific needs.
翻訳日:2024-02-06 19:13:05 公開日:2024-02-04
# posタグ付けへの応用による学習曲線のモデル化

Modeling of learning curves with applications to pos tagging ( http://arxiv.org/abs/2402.02515v1 )

ライセンス: Link先を確認
Manuel Vilares Ferro, Victor M. Darriba Bilbao, Francisco J. Ribadas Pena(参考訳) トレーニングベース全体の学習曲線の進化を、部分から得られた結果に基づいて推定し、機能戦略を用いて推定するアルゴリズムを提案する。 我々は、使用した学習技術とは独立して、所要時間における探索値を反復的に近似し、一度プロセスのポイントである予測レベルが通過した。 本提案は, 作業仮説に関して正式に正しいことを証明し, 信頼性の高い近接条件を含む。 これにより、ユーザは最後に達成可能な精度に関して収束しきい値を修正することができる。これにより、停止基準の概念が拡張され、歪んだ観測が存在する場合でも有効であるように見える。 本研究の目的は,学習過程における人的・計算的資源の必要性を軽減するため,トレーニングの取り組みを評価し,意思決定を支援することである。 この提案は少なくとも3つの運用手順に関心がある。 ひとつは精度向上の予測であり、ある程度の性能を達成するのに必要な作業量を測定することを目的としている。 2つ目は、トレーニング時間におけるシステム間の効率の比較と、このタスクを完了するための目的は、我々の要求に最も適合するもののみである。 精度の予測は、性能と開発コストの両方に対する設定の影響を事前に見積もることができるので、システムをカスタマイズするための貴重な情報でもある。 サンプルアプリケーションとしてpart-of-speech taggersの生成を使用することで,実験結果と期待値が一致した。

An algorithm to estimate the evolution of learning curves on the whole of a training data base, based on the results obtained from a portion and using a functional strategy, is introduced. We approximate iteratively the sought value at the desired time, independently of the learning technique used and once a point in the process, called prediction level, has been passed. The proposal proves to be formally correct with respect to our working hypotheses and includes a reliable proximity condition. This allows the user to fix a convergence threshold with respect to the accuracy finally achievable, which extends the concept of stopping criterion and seems to be effective even in the presence of distorting observations. Our aim is to evaluate the training effort, supporting decision making in order to reduce the need for both human and computational resources during the learning process. The proposal is of interest in at least three operational procedures. The first is the anticipation of accuracy gain, with the purpose of measuring how much work is needed to achieve a certain degree of performance. The second relates the comparison of efficiency between systems at training time, with the objective of completing this task only for the one that best suits our requirements. The prediction of accuracy is also a valuable item of information for customizing systems, since we can estimate in advance the impact of settings on both the performance and the development costs. Using the generation of part-of-speech taggers as an example application, the experimental results are consistent with our expectations.
翻訳日:2024-02-06 19:12:47 公開日:2024-02-04
# 非コントラストctにおける腹部大動脈分画に対するgaussian pseudo-labelによる形態的注意

Deep Supervision by Gaussian Pseudo-label-based Morphological Attention for Abdominal Aorta Segmentation in Non-Contrast CTs ( http://arxiv.org/abs/2402.02514v1 )

ライセンス: Link先を確認
Qixiang Ma, Antoine Lucas, Adrien Kaladji, Pascal Haigron(参考訳) 非コントラストCT画像における腹部大動脈の分節化は、特に造影剤が不適な場合において、コンピュータによる血管内ナビゲーションの簡単な作業である。 最先端のディープラーニングセグメンテーションモデルが最近提案されているが、手作業で注釈付き強いラベルでトレーニングされている。 しかし,非造影CTでは大動脈の境界の曖昧さが強いラベルの信頼性を損なう可能性があり,過度に適合する危険性がある。 本稿では, フォロジカル・アテンション(MA)向上を実現するため, 従来の深層学習モデルに統合されたガウス的擬似ラベルを提案する。 ガウスの擬似ラベルはその境界分布を明示することなく大動脈の形態的特徴を保っているため,不明瞭な境界の負の影響を緩和し,過適合のリスクを軽減しつつ,訓練中の大動脈形態を保っていることを示唆する。 様々な2D/3D深層学習モデルで導入され,5749個のCTスライスからなる30個の非コントラストCTボリュームの局所データセット上で検証された。 その結果,maは大動脈の形態的特徴を保存し,過度に適合する懸念に対処し,モデルの性能を高めた。

The segmentation of the abdominal aorta in non-contrast CT images is a non-trivial task for computer-assisted endovascular navigation, particularly in scenarios where contrast agents are unsuitable. While state-of-the-art deep learning segmentation models have been proposed recently for this task, they are trained on manually annotated strong labels. However, the inherent ambiguity in the boundary of the aorta in non-contrast CT may undermine the reliability of strong labels, leading to potential overfitting risks. This paper introduces a Gaussian-based pseudo label, integrated into conventional deep learning models through deep supervision, to achieve Morphological Attention (MA) enhancement. As the Gaussian pseudo label retains the morphological features of the aorta without explicitly representing its boundary distribution, we suggest that it preserves aortic morphology during training while mitigating the negative impact of ambiguous boundaries, reducing the risk of overfitting. It is introduced in various 2D/3D deep learning models and validated on our local data set of 30 non-contrast CT volumes comprising 5749 CT slices. The results underscore the effectiveness of MA in preserving the morphological characteristics of the aorta and addressing overfitting concerns, thereby enhancing the performance of the models.
翻訳日:2024-02-06 19:12:24 公開日:2024-02-04
# PoCo:不均質なロボット学習の政策構成

PoCo: Policy Composition from and for Heterogeneous Robot Learning ( http://arxiv.org/abs/2402.02511v1 )

ライセンス: Link先を確認
Lirui Wang, Jialiang Zhao, Yilun Du, Edward H. Adelson, Russ Tedrake(参考訳) 異なるタスクのために異種データから一般的なロボットポリシーをトレーニングすることは、大きな課題である。 既存のロボットデータセットは、色、深さ、触覚、固有受容情報など様々な形態で異なり、シミュレーション、実際のロボット、人間のビデオといった様々な領域で収集される。 現在のメソッドは通常、ひとつのドメインからすべてのデータを収集してプールし、単一のポリシーをトレーニングしてタスクやドメインの不均一性を処理する。 本研究では,多種多様なモダリティや領域にまたがる情報を組み合わせて,様々なデータ分布を拡散モデルで表現し,シーンレベルとタスクレベルを一般化した操作スキルを学習するフレキシブルな手法を提案する。 提案手法はタスクレベルの構成をマルチタスク操作に使用することができ,分析コスト関数を用いて推論時のポリシー動作を適応させることができる。 我々は、シミュレーション、人間、および実際のロボットデータを学習し、ツール利用タスクの評価を行う。 構成されたポリシは、さまざまなシーンやタスクの下で堅牢で厳密なパフォーマンスを実現し、シミュレーションと実世界の両方の実験において、単一のデータソースからベースラインを上回ります。 詳細はhttps://liruiw.github.io/policycompを参照。

Training general robotic policies from heterogeneous data for different tasks is a significant challenge. Existing robotic datasets vary in different modalities such as color, depth, tactile, and proprioceptive information, and collected in different domains such as simulation, real robots, and human videos. Current methods usually collect and pool all data from one domain to train a single policy to handle such heterogeneity in tasks and domains, which is prohibitively expensive and difficult. In this work, we present a flexible approach, dubbed Policy Composition, to combine information across such diverse modalities and domains for learning scene-level and task-level generalized manipulation skills, by composing different data distributions represented with diffusion models. Our method can use task-level composition for multi-task manipulation and be composed with analytic cost functions to adapt policy behaviors at inference time. We train our method on simulation, human, and real robot data and evaluate in tool-use tasks. The composed policy achieves robust and dexterous performance under varying scenes and tasks and outperforms baselines from a single data source in both simulation and real-world experiments. See https://liruiw.github.io/policycomp for more details .
翻訳日:2024-02-06 19:12:01 公開日:2024-02-04
# モノのインターネットのための階層的フェデレーション学習におけるデバイススケジューリングとアサインメント

Device Scheduling and Assignment in Hierarchical Federated Learning for Internet of Things ( http://arxiv.org/abs/2402.02506v1 )

ライセンス: Link先を確認
Tinghao Zhang, Kwok-Yan Lam, Jun Zhao(参考訳) Federated Learning(FL)はIoT(Internet of Things)のための有望な機械学習アプローチだが、IoTデバイスの人口が増加すると、ネットワークの混雑問題に対処しなければならない。 階層FL(HFL)はモデルアグリゲーションを複数のエッジサーバに分散することでこの問題を軽減する。 しかしながら、通信オーバーヘッドの課題は、特にすべてのIoTデバイスがトレーニングプロセスに同時に参加するシナリオにおいて、依然として残っている。 スケーラビリティのために、実践的なHFLスキームは、トレーニングに参加するためのIoTデバイスのサブセットを選択する。 この設定では、選択されたIoTデバイスのみがグローバルトレーニングに参加し、それぞれが1つのエッジサーバに割り当てられる。 既存のHFL代入法は主に探索機構に基づいており、最適な代入を見つけるのに遅延が大きい。 本稿では,デバイススケジューリングのための改良K-Centerアルゴリズムを提案し,IoTデバイスをエッジサーバに割り当てるための深層強化学習に基づくアプローチを提案する。 実験によると、IoTデバイスの50%のスケジューリングは一般的に、時間遅延とエネルギー消費を大幅に低減したHFLの収束を達成するのに十分である。 エネルギー消費の削減(グリーンAIなど)とメッセージの削減(バーストトラフィックを避けるため)が重要な目的である場合、30%のIoTデバイスをスケジューリングすることで、同様のモデル精度で、エネルギーとメッセージの大幅な削減が可能になる。

Federated Learning (FL) is a promising machine learning approach for Internet of Things (IoT), but it has to address network congestion problems when the population of IoT devices grows. Hierarchical FL (HFL) alleviates this issue by distributing model aggregation to multiple edge servers. Nevertheless, the challenge of communication overhead remains, especially in scenarios where all IoT devices simultaneously join the training process. For scalability, practical HFL schemes select a subset of IoT devices to participate in the training, hence the notion of device scheduling. In this setting, only selected IoT devices are scheduled to participate in the global training, with each of them being assigned to one edge server. Existing HFL assignment methods are primarily based on search mechanisms, which suffer from high latency in finding the optimal assignment. This paper proposes an improved K-Center algorithm for device scheduling and introduces a deep reinforcement learning-based approach for assigning IoT devices to edge servers. Experiments show that scheduling 50% of IoT devices is generally adequate for achieving convergence in HFL with much lower time delay and energy consumption. In cases where reduction in energy consumption (such as in Green AI) and reduction of messages (to avoid burst traffic) are key objectives, scheduling 30% IoT devices allows a substantial reduction in energy and messages with similar model accuracy.
翻訳日:2024-02-06 19:11:39 公開日:2024-02-04
# GeReA:知識に基づく視覚的質問応答のための質問認識プロンプト

GeReA: Question-Aware Prompt Captions for Knowledge-based Visual Question Answering ( http://arxiv.org/abs/2402.02503v1 )

ライセンス: Link先を確認
Ziyu Ma, Shutao Li, Bin Sun, Jianfei Cai, Zuxiang Long, and Fuyan Ma(参考訳) 知識に基づく視覚的質問応答(VQA)は、正確な回答のために、画像以外の世界の知識を必要とする。 近年、余分な知識ベースの代わりに、gpt-3のような大きな言語モデル(llm)が暗黙の知識エンジンとして活性化され、画像からテキスト情報(キャプションや回答候補など)に変換して、応答に必要な知識を共同取得し、推論する。 しかし、そのような変換は無関係な情報を導入し、LCMは画像を誤解釈し、正確な知識に不可欠な視覚的詳細を無視する。 マルチモーダルな大言語モデル(MLLM)は視覚的理解の優れた能力において,LLMよりも暗黙的な知識エンジンである,と我々は主張する。 それにもかかわらず、暗黙の知識エンジンとしてMLLMの容量を活性化する方法はまだ検討されていない。 そこで本稿では,知識関連記述を生成するために,インストラクトBLIPのようなMLLMに関連性のある視覚情報や言語情報を提供する生成推論フレームワークであるGeReAを提案する。 具体的には、質問関連画像領域と質問特化マニュアルプロンプトをMLLMに符号化し、質問対応プロンプトキャプションと呼ばれる知識関連記述を生成する。 その後、質問認識プロンプトキャプション、画像検索ペア、および同様のサンプルをマルチモーダル推論モデルに送信し、回答予測のための共同知識検索表現を学習する。 GeReAはMLLMを暗黙の知識エンジンとして使用し、OK-VQAデータセットとA-OKVQAデータセットのすべての最先端メソッドをそれぞれ66.5%と63.3%の精度で上回っている。 私たちのコードはhttps://github.com/Upper9527/GeReAでリリースされます。

Knowledge-based visual question answering (VQA) requires world knowledge beyond the image for accurate answer. Recently, instead of extra knowledge bases, a large language model (LLM) like GPT-3 is activated as an implicit knowledge engine to jointly acquire and reason the necessary knowledge for answering by converting images into textual information (e.g., captions and answer candidates). However, such conversion may introduce irrelevant information, which causes the LLM to misinterpret images and ignore visual details crucial for accurate knowledge. We argue that multimodal large language model (MLLM) is a better implicit knowledge engine than the LLM for its superior capability of visual understanding. Despite this, how to activate the capacity of MLLM as the implicit knowledge engine has not been explored yet. Therefore, we propose GeReA, a generate-reason framework that prompts a MLLM like InstructBLIP with question relevant vision and language information to generate knowledge-relevant descriptions and reasons those descriptions for knowledge-based VQA. Specifically, the question-relevant image regions and question-specific manual prompts are encoded in the MLLM to generate the knowledge relevant descriptions, referred to as question-aware prompt captions. After that, the question-aware prompt captions, image-question pair, and similar samples are sent into the multi-modal reasoning model to learn a joint knowledge-image-question representation for answer prediction. GeReA unlocks the use of MLLM as the implicit knowledge engine, surpassing all previous state-of-the-art methods on OK-VQA and A-OKVQA datasets, with test accuracies of 66.5% and 63.3% respectively. Our code will be released at https://github.com/Upper9527/GeReA.
翻訳日:2024-02-06 19:11:14 公開日:2024-02-04
# 量子反転:コヒーレント量子吸収器の一般理論

Quantum reversal: a general theory of coherent quantum absorbers ( http://arxiv.org/abs/2402.02502v1 )

ライセンス: Link先を確認
Mankei Tsang(参考訳) コヒーレント量子吸収器(コヒーレント量子吸収器)の概念は、他の系によって放出される光子を吸収すると同時に、その系との絡み合いを維持している。 この研究は、2つの系に対するいわゆる反転条件(reversal condition)を提案して概念を一般化し、そこでは「反転者(reverser)」がフィールド上の他の系の任意の効果をコヒーレントに反転させる。 反転条件は、petzリカバリマップとクラウス演算子を含む簡潔な公式に厳密に煮詰められ、コヒーレント吸収体の既存の処理を合理化するとともに、一般化される。

The fascinating concept of coherent quantum absorber -- which can absorb any photon emitted by another system while maintaining entanglement with that system -- has found diverse implications in open quantum system theory and quantum metrology. This work generalizes the concept by proposing the so-called reversal conditions for the two systems, in which a "reverser" coherently reverses any effect of the other system on a field. The reversal conditions are rigorously boiled down to concise formulas involving the Petz recovery map and Kraus operators, thereby generalizing as well as streamlining the existing treatments of coherent absorbers.
翻訳日:2024-02-06 19:10:39 公開日:2024-02-04
# ポイントクラウドの課題: 異なる観測空間がロボット学習に与える影響を再考する

Point Cloud Matters: Rethinking the Impact of Different Observation Spaces on Robot Learning ( http://arxiv.org/abs/2402.02500v1 )

ライセンス: Link先を確認
Haoyi Zhu and Yating Wang and Di Huang and Weicai Ye and Wanli Ouyang and Tong He(参考訳) 本研究では,RGB, RGB-D, 点雲の3つのモードに着目し, 異なる観測空間がロボット学習に与える影響を検討する。 2つのベンチマークとシミュレータで実施された17以上の多種多様なコンタクトリッチ操作タスクに関する広範囲な実験を通じて、我々は注目すべき傾向を観察した。 これは、スクラッチからのトレーニングと事前トレーニングの利用という、両方のシナリオで一貫している。 さらに,点雲観測は,カメラの視点,照明条件,騒音レベル,背景の外観など,様々な形状や視覚的な手がかりに関連して,ポリシーゼロショット一般化に繋がることが示唆された。 その結果、3Dポイントの雲は複雑なロボット作業にとって貴重な観測モダリティであることが示唆された。 私たちはすべてのコードとチェックポイントをオープンソース化し、私たちの洞察がより汎用的で堅牢なロボットモデルの設計に役立つことを期待しています。

In this study, we explore the influence of different observation spaces on robot learning, focusing on three predominant modalities: RGB, RGB-D, and point cloud. Through extensive experimentation on over 17 varied contact-rich manipulation tasks, conducted across two benchmarks and simulators, we have observed a notable trend: point cloud-based methods, even those with the simplest designs, frequently surpass their RGB and RGB-D counterparts in performance. This remains consistent in both scenarios: training from scratch and utilizing pretraining. Furthermore, our findings indicate that point cloud observations lead to improved policy zero-shot generalization in relation to various geometry and visual clues, including camera viewpoints, lighting conditions, noise levels and background appearance. The outcomes suggest that 3D point cloud is a valuable observation modality for intricate robotic tasks. We will open-source all our codes and checkpoints, hoping that our insights can help design more generalizable and robust robotic models.
翻訳日:2024-02-06 19:10:26 公開日:2024-02-04
# ClipFormer: 書き込みノイズ軽減のためのmemristive Crossbar上のトランスのキーバリュークリッピング

ClipFormer: Key-Value Clipping of Transformers on Memristive Crossbars for Write Noise Mitigation ( http://arxiv.org/abs/2402.02586v1 )

ライセンス: Link先を確認
Abhiroop Bhattacharjee, Abhishek Moitra, and Priyadarshini Panda(参考訳) トランスフォーマーは自然言語処理からコンピュータビジョンまで、様々な現実世界のアプリケーションに革命をもたらした。 しかし、従来のvon-neumannコンピューティングパラダイムは、モデルサイズが大きいため、トランスフォーマーを加速する際のメモリと帯域幅の制限に直面している。 この目的のために、非揮発性記憶(NVM)に基づくメモリ内計算(IMC)クロスバーは、高いエネルギー効率で高度に並列化された行列ベクトル乗算(MVM)を実行する能力により、トランスフォーマーを加速するための有望なソリューションとして登場した。 しかし、クロスバーにおけるアナログmvm操作は、確率的読み書きノイズのような非理想性を導入し、配置されたトランスフォーマーの推論精度に影響を及ぼす。 具体的には、予め訓練された視覚トランスフォーマー(vits)は、動的に生成されたキー(k)および注意層(v)行列に対する書き込みノイズの影響により、クロスバーに対して脆弱であることがわかった。 そこで我々は,事前学習したVTモデルの非理想的精度を高めるために,KおよびV行列上の変換であるClipFormerを提案する。 clipformerは追加のハードウェアやトレーニングのオーバーヘッドを必要とせず、任意のmemristive crossbarプラットフォームにデプロイされたトランスフォーマーに適応できる。 プリトレーニングされたdeit-s変換器を用いたimagenet-1kデータセットの実験では,クリップフォーマを適用することで,高い書き込み雑音下で10~40%以上の非理想性が得られた。

Transformers have revolutionized various real-world applications from natural language processing to computer vision. However, traditional von-Neumann computing paradigm faces memory and bandwidth limitations in accelerating transformers owing to their massive model sizes. To this end, In-memory Computing (IMC) crossbars based on Non-volatile Memories (NVMs), due to their ability to perform highly parallelized Matrix-Vector-Multiplications (MVMs) with high energy-efficiencies, have emerged as a promising solution for accelerating transformers. However, analog MVM operations in crossbars introduce non-idealities, such as stochastic read & write noise, which affect the inference accuracy of the deployed transformers. Specifically, we find pre-trained Vision Transformers (ViTs) to be vulnerable on crossbars due to the impact of write noise on the dynamically-generated Key (K) and Value (V) matrices in the attention layers, an effect not accounted for in prior studies. We, thus, propose ClipFormer, a transformation on the K and V matrices during inference, to boost the non-ideal accuracies of pre-trained ViT models. ClipFormer requires no additional hardware and training overhead and is amenable to transformers deployed on any memristive crossbar platform. Our experiments on Imagenet-1k dataset using pre-trained DeiT-S transformers, subjected to standard training and variation-aware-training, show >10-40% higher non-ideal accuracies at the high write noise regime by applying ClipFormer.
翻訳日:2024-02-06 19:05:02 公開日:2024-02-04
# DefInt: ハイブリッド大言語モデルによる効率的な推論のためのデフォルト・インターベンショナリストフレームワーク

DefInt: A Default-interventionist Framework for Efficient Reasoning with Hybrid Large Language Models ( http://arxiv.org/abs/2402.02563v1 )

ライセンス: Link先を確認
Yu Shang, Yu Li, Fengli Xu, Yong Li(参考訳) 大規模言語モデル(llm)は、幅広いタスクにおいて目覚ましい能力を示してきたが、複雑な推論問題に対処する上での課題に直面している。 chain-of-thought(cot)やtree-of-thoughts(tot)といった以前の作品は、精度向上に重点を置いてきたが、急速に増加するトークンコストを見落としている。 人間の認知の二重プロセス理論に触発されて,ハイブリッドLLMの相乗的ポテンシャルを解き放つデフォルト・インターベンショニスト・フレームワーク(DefInt)を提案する。 デフォルトでは、DefIntは小規模の言語モデルを使用して、システム1の高速な直感に類似した低コストな推論思考を生成する。 直観が低い信頼度で考慮された場合、defintはシステム2の介入としてスケールアップ言語モデルの反映的推論を実行し、デフォルトの思考を上書きし、推論プロセスを正す。 5つの代表的な推論タスクの実験は、DefIntが常に最先端の推論精度と解の多様性を達成していることを示している。 さらに重要なのは、トークンのコストを第2の正確なベースラインに比べて49%-79%削減することです。 具体的には、オープンエンドタスクは平均75%のトークンコスト削減がある。 すべてのプロンプトによるコードレポジトリは、公開時に公開される。

Large language models (LLMs) have shown impressive emergent abilities in a wide range of tasks, but still face challenges in handling complex reasoning problems. Previous works like chain-of-thought (CoT) and tree-of-thoughts(ToT) have predominately focused on enhancing accuracy, but overlook the rapidly increasing token cost, which could be particularly problematic for open-ended real-world tasks with huge solution spaces. Motivated by the dual process theory of human cognition, we propose a Default-Interventionist framework (DefInt) to unleash the synergistic potential of hybrid LLMs. By default, DefInt uses smaller-scale language models to generate low-cost reasoning thoughts, which resembles the fast intuitions produced by System 1. If the intuitions are considered with low confidence, DefInt will invoke the reflective reasoning of scaled-up language models as the intervention of System 2, which can override the default thoughts and rectify the reasoning process. Experiments on five representative reasoning tasks show that DefInt consistently achieves state-of-the-art reasoning accuracy and solution diversity. More importantly, it substantially reduces the token cost by 49%-79% compared to the second accurate baselines. Specifically, the open-ended tasks have an average 75% token cost reduction. Code repo with all prompts will be released upon publication.
翻訳日:2024-02-06 19:04:32 公開日:2024-02-04
# foundation modelは、アクティブラーニングのためのクラスタリングをより良い初期化にする

Foundation Model Makes Clustering a Better Initialization for Active Learning ( http://arxiv.org/abs/2402.02561v1 )

ライセンス: Link先を確認
Han Yuan and Chuan Hong(参考訳) アクティブラーニングは、限定されたアノテーション予算の文脈で注釈付きデータセットから最も有益なサンプルを選択する。 初期化モデルに基づくサンプル選択のための多くの手法が提案されているが、アクティブラーニングの必須フェーズであるモデル初期化のためのサンプルの選択に注意が払われている。 以前の研究のほとんどはランダムサンプリングやナイーブクラスタリングに頼っている。 しかし、ランダムサンプリングは変動しがちであり、特に画像データなどの高次元データを扱う場合、ナイーブクラスタリングは収束速度に悩まされる。 本研究では,アクティブラーニング初期化のためのサンプル選択のための基盤モデルとクラスタリング手法を統合することを提案する。 基礎モデルは、自己監督パラダイムによって大規模データセットで訓練されたものを指し、様々な下流タスクに情報とコンパクトな埋め込みを生成することができる。 これらの埋め込みを利用してピクセル値などの生の機能を置き換えることで、クラスタリングは素早く収束し、より良い初期サンプルを識別する。 総合的な比較のために、埋め込みを取得するための古典的なImageNet教師付きモデルを含む。 画像分類とセグメンテーションの2つの臨床課題に関する実験により、基礎モデルに基づくクラスタリングが情報的初期サンプルを効果的にピンポイントし、ベースライン法よりも優れた性能を示した。 我々は,本研究が将来のアクティブラーニングに有効なパラダイムを提供すると考えている。

Active learning selects the most informative samples from the unlabeled dataset to annotate in the context of a limited annotation budget. While numerous methods have been proposed for subsequent sample selection based on an initialized model, scant attention has been paid to the indispensable phase of active learning: selecting samples for model initialization. Most of the previous studies resort to random sampling or naive clustering. However, random sampling is prone to fluctuation, and naive clustering suffers from convergence speed, particularly when dealing with high-dimensional data such as imaging data. In this work, we propose to integrate foundation models with clustering methods to select samples for active learning initialization. Foundation models refer to those trained on massive datasets by the self-supervised paradigm and capable of generating informative and compacted embeddings for various downstream tasks. Leveraging these embeddings to replace raw features such as pixel values, clustering quickly converges and identifies better initial samples. For a comprehensive comparison, we included a classic ImageNet-supervised model to acquire embeddings. Experiments on two clinical tasks of image classification and segmentation demonstrated that foundation model-based clustering efficiently pinpointed informative initial samples, leading to models showcasing enhanced performance than the baseline methods. We envisage that this study provides an effective paradigm for future active learning.
翻訳日:2024-02-06 19:04:07 公開日:2024-02-04
# NavHint:ヒント発電機を用いた視覚・言語ナビゲーションエージェント

NavHint: Vision and Language Navigation Agent with a Hint Generator ( http://arxiv.org/abs/2402.02559v1 )

ライセンス: Link先を確認
Yue Zhang, Quan Guo, Parisa Kordjamshidi(参考訳) 既存の視覚と言語ナビゲーションの研究は主に、視覚と言語モダリティの接続を確立するためにナビゲーション関連の損失に依存しており、ナビゲーションエージェントが視覚環境を深く理解するのを助ける側面を無視している。 本研究では,詳細な視覚的記述を提供するヒント生成器を用いて,ナビゲーションエージェントに対して間接的な監督を行う。 ヒント生成器は、視覚環境のグローバル理解を開発するためのナビゲーションエージェントを支援する。 関連するサブインストラクション、認識における潜在的な課題と接地における曖昧さ、対象とする視点記述を含む、関連するナビゲーション詳細に対するエージェントの注意を向ける。 ヒント生成装置を訓練するために,指示のランドマークと視覚環境の視覚的および視覚的特徴に基づく合成データセットを構築した。 提案手法をR2RとR4Rのデータセット上で評価し,いくつかの指標を用いて最先端の手法を実現する。 実験の結果, 生成ヒントはナビゲーション性能を高めるだけでなく, エージェントの動作の解釈性の向上にも有効であることがわかった。

Existing work on vision and language navigation mainly relies on navigation-related losses to establish the connection between vision and language modalities, neglecting aspects of helping the navigation agent build a deep understanding of the visual environment. In our work, we provide indirect supervision to the navigation agent through a hint generator that provides detailed visual descriptions. The hint generator assists the navigation agent in developing a global understanding of the visual environment. It directs the agent's attention toward related navigation details, including the relevant sub-instruction, potential challenges in recognition and ambiguities in grounding, and the targeted viewpoint description. To train the hint generator, we construct a synthetic dataset based on landmarks in the instructions and visible and distinctive objects in the visual environment. We evaluate our method on the R2R and R4R datasets and achieve state-of-the-art on several metrics. The experimental results demonstrate that generating hints not only enhances the navigation performance but also helps improve the interpretability of the agent's actions.
翻訳日:2024-02-06 19:03:42 公開日:2024-02-04
# 生体医学的nliモデルのロバスト性向上 : 臨床試験のための探索的アプローチ

Enhancing Robustness in Biomedical NLI Models: A Probing Approach for Clinical Trials ( http://arxiv.org/abs/2402.02558v1 )

ライセンス: Link先を確認
Ata Mustafa(参考訳) 大規模な言語モデルによって、会話型ai、コンテンツ生成、情報検索、ビジネスインテリジェンス、医療など、さまざまな分野や産業に革命をもたらしている。 医学分野における大きな応用の一つは、包括的タスクの臨床試験の分析と調査である。しかしながら、大規模言語モデルは、学習のショートカット、事実的不整合、パフォーマンス劣化にほとんど影響しない。 モデル出力の整合性を確保するために、敵対的かつ堅牢なテストが行われる。 しかしあいまいさは今も続いている。 推論の完全性を確保するため、モデルを用いて正確な構文と意味理解を行う。 ここでは,Sci-5モデルの検討にmnestic probing(mnestic probing)を用いた。 私は自然論理に関して特徴学習のためのモデルを調査した。 目標を達成するために、タスク特定プローブを訓練しました。 訓練されたモデルの最終的な層を調べるためにこれらのプローブを使った。 そして、反復的なヌル射影を用いて訓練されたモデルを調整した。 その結果,モデル精度が向上した。 実験では,プローブの大きさが微調整過程に影響を及ぼすことがわかった。

Large Language Models have revolutionized various fields and industries, such as Conversational AI, Content Generation, Information Retrieval, Business Intelligence, and Medical, to name a few. One major application in the field of medical is to analyze and investigate clinical trials for entailment tasks.However, It has been observed that Large Language Models are susceptible to shortcut learning, factual inconsistency, and performance degradation with little variation in context. Adversarial and robust testing is performed to ensure the integrity of models output. But, ambiguity still persists. In order to ensure the integrity of the reasoning performed and investigate the model has correct syntactic and semantic understanding probing is used. Here, I used mnestic probing to investigate the Sci-five model, trained on clinical trial. I investigated the model for feature learnt with respect to natural logic. To achieve the target, I trained task specific probes. Used these probes to investigate the final layers of trained model. Then, fine tuned the trained model using iterative null projection. The results shows that model accuracy improved. During experimentation, I observed that size of the probe has affect on the fine tuning process.
翻訳日:2024-02-06 19:03:24 公開日:2024-02-04
# 不正確な確率の新しいアプローチ

A new approach for imprecise probabilities ( http://arxiv.org/abs/2402.02556v1 )

ライセンス: Link先を確認
Marcello Basili and Luca Pratelli(参考訳) 本稿では,不正確な確率,あるいは不確実性の表現を自然かつコヒーレントに表現可能な区間確率測度の新たな概念を提案する。 集合の代数の中では、$\psi$ と表される弱補完の概念を導入する。 事象 $H$ の区間確率測度は、標準的な補集合 $H^c$ に含まれる不決定な事象の集合 $(\psi(H))^c$ に対して定義される。 我々は区間確率測度の幅広いクラスを特徴づけ、それらの特性を定義する。 さらに、統計的独立と依存の概念を取り入れて、$H$に関する更新ルールを確立する。 確率変数の間隔分布を定式化し、対応する2つの確率変数間の確率的支配の定義を導入する。 副産物として、世紀のケインズ=ラムゼー論争の正式な解決法が提示される。

This paper introduces a novel concept of interval probability measures that enables the representation of imprecise probabilities, or uncertainty, in a natural and coherent manner. Within an algebra of sets, we introduce a notion of weak complementation denoted as $\psi$. The interval probability measure of an event $H$ is defined with respect to the set of indecisive eventualities $(\psi(H))^c$, which is included in the standard complement $H^c$. We characterize a broad class of interval probability measures and define their properties. Additionally, we establish an updating rule with respect to $H$, incorporating concepts of statistical independence and dependence. The interval distribution of a random variable is formulated, and a corresponding definition of stochastic dominance between two random variables is introduced. As a byproduct, a formal solution to the century-old Keynes-Ramsey controversy is presented.
翻訳日:2024-02-06 19:03:08 公開日:2024-02-04
# 大規模言語モデルによる一般化可能なエンティティグラウンド

Generalizable Entity Grounding via Assistance of Large Language Model ( http://arxiv.org/abs/2402.02555v1 )

ライセンス: Link先を確認
Lu Qi, Yi-Wen Chen, Lehan Yang, Tiancheng Shen, Xiangtai Li, Weidong Guo, Yu Xu, Ming-Hsuan Yang(参考訳) 本研究では,長いキャプションから視覚的な実体を密接に接する新しいアプローチを提案する。 本研究では,意味代名詞の抽出にLMM,エンティティレベルセグメンテーションを生成するクラス非依存セグメンテーションモデル,および,各意味代名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。 さらに,エンティティセグメンテーションマスクをカラーマップにエンコードする手法を導入し,高解像度マスクの特徴から細粒度予測の保存を可能にする。 このアプローチにより,LMMのCLIPビジョンエンコーダを用いて,低解像度画像から視覚的特徴を抽出することができる。 提案手法は,パンオプティカル・グラウンドニング,表現のセグメンテーション,パンオプティカルセグメンテーションの3つのタスクにおいて,最先端技術よりも優れていることを示す。

In this work, we propose a novel approach to densely ground visual entities from a long caption. We leverage a large multimodal model (LMM) to extract semantic nouns, a class-agnostic segmentation model to generate entity-level segmentation, and the proposed multi-modal feature fusion module to associate each semantic noun with its corresponding segmentation mask. Additionally, we introduce a strategy of encoding entity segmentation masks into a colormap, enabling the preservation of fine-grained predictions from features of high-resolution masks. This approach allows us to extract visual features from low-resolution images using the CLIP vision encoder in the LMM, which is more computationally efficient than existing approaches that use an additional encoder for high-resolution images. Our comprehensive experiments demonstrate the superiority of our method, outperforming state-of-the-art techniques on three tasks, including panoptic narrative grounding, referring expression segmentation, and panoptic segmentation.
翻訳日:2024-02-06 19:02:54 公開日:2024-02-04
# desparsify:視覚トランスフォーマーにおけるトークンスパーシフィケーション機構に対する敵対的攻撃

DeSparsify: Adversarial Attack Against Token Sparsification Mechanisms in Vision Transformers ( http://arxiv.org/abs/2402.02554v1 )

ライセンス: Link先を確認
Oryan Yehezkel, Alon Zolfi, Amit Baras, Yuval Elovici, Asaf Shabtai(参考訳) ビジョントランスフォーマーはコンピュータビジョン領域の発展に大きく貢献し、様々なタスク(画像分類、オブジェクト検出など)における最先端のパフォーマンスを示している。 しかし、それらの高い計算要件は使用トークンの数で二次的に増加する。 この問題に対処するため、トークンスペーシフィケーション技術が提案されている。 これらの手法は入力に依存した戦略を採用しており、不定形トークンは計算パイプラインから取り除かれ、モデルの効率が向上する。 しかし、彼らのダイナミズムと平均ケースの仮定は、新しい脅威ベクトルに弱い - スパーシフィケーションメカニズムを騙すことのできる、慎重に構築された敵の例で、最悪のケースのパフォーマンスをもたらす。 本稿では,トークンスパーシフィケーション機構を用いた視覚トランスフォーマーの可用性を標的とした攻撃であるdesparsifyを提案する。 この攻撃は、ステルス性を維持しながら、オペレーティングシステムのリソースを浪費することを目的としている。 本評価では,3つのトークンスペーシフィケーション手法における攻撃の有効性を実証し,攻撃の相互転送性とそのGPUリソースへの影響について検討する。 攻撃の影響を軽減するため,様々な対策を提案する。

Vision transformers have contributed greatly to advancements in the computer vision domain, demonstrating state-of-the-art performance in diverse tasks (e.g., image classification, object detection). However, their high computational requirements grow quadratically with the number of tokens used. Token sparsification techniques have been proposed to address this issue. These techniques employ an input-dependent strategy, in which uninformative tokens are discarded from the computation pipeline, improving the model's efficiency. However, their dynamism and average-case assumption makes them vulnerable to a new threat vector - carefully crafted adversarial examples capable of fooling the sparsification mechanism, resulting in worst-case performance. In this paper, we present DeSparsify, an attack targeting the availability of vision transformers that use token sparsification mechanisms. The attack aims to exhaust the operating system's resources, while maintaining its stealthiness. Our evaluation demonstrates the attack's effectiveness on three token sparsification techniques and examines the attack's transferability between them and its effect on the GPU resources. To mitigate the impact of the attack, we propose various countermeasures.
翻訳日:2024-02-06 19:02:34 公開日:2024-02-04
# Neur2BiLO:ニューラルバイレベル最適化

Neur2BiLO: Neural Bilevel Optimization ( http://arxiv.org/abs/2402.02552v1 )

ライセンス: Link先を確認
Justin Dumouchelle, Esther Julien, Jannis Kurtz, Elias B. Khalil(参考訳) 二段階最適化は、リーダーが最初の決定を下して客観的な機能を最小化し、従者の最善の反応を考慮し、ネストした問題を扱う。 整数変数の制約付き双レベル問題は、その困難さで特に悪名高い。 混合整数線形双レベル最適化には正確な解法が提案されているが、問題の大きさに乏しく、非線形の場合への一般化が困難である。 一方、問題固有のアルゴリズム(実演とヒューリスティック)は範囲が限られている。 両レベル問題の類似したインスタンスを日常的に解決するデータ駆動設定の下で、提案するフレームワークNeur2BiLOは、教師付き回帰によってトレーニングされたリーダまたはフォロワーの値関数のニューラルネットワーク近似を、容易に解ける混合整数プログラムに組み込む。 Neur2BiLOは、双方向のknapsack断面積問題、ネットワークセキュリティからの"クリティカルノードゲーム"、ドナーの医療問題、交通計画からの離散ネットワーク設計に対して、非常に高速な高品質なソリューションを生成するヒューリスティックとして機能する。 これらの問題は、線形あるいは非線形の目的/制約と整数または混合整数変数を持つという点で多様であり、Neur2BiLOはその汎用性においてユニークである。

Bilevel optimization deals with nested problems in which a leader takes the first decision to minimize their objective function while accounting for a follower's best-response reaction. Constrained bilevel problems with integer variables are particularly notorious for their hardness. While exact solvers have been proposed for mixed-integer linear bilevel optimization, they tend to scale poorly with problem size and are hard to generalize to the non-linear case. On the other hand, problem-specific algorithms (exact and heuristic) are limited in scope. Under a data-driven setting in which similar instances of a bilevel problem are solved routinely, our proposed framework, Neur2BiLO, embeds a neural network approximation of the leader's or follower's value function, trained via supervised regression, into an easy-to-solve mixed-integer program. Neur2BiLO serves as a heuristic that produces high-quality solutions extremely fast for the bilevel knapsack interdiction problem, the "critical node game" from network security, a donor-recipient healthcare problem, and discrete network design from transportation planning. These problems are diverse in that they have linear or non-linear objectives/constraints and integer or mixed-integer variables, making Neur2BiLO unique in its versatility.
翻訳日:2024-02-06 19:02:16 公開日:2024-02-04
# ロボットマニピュレータのロバスト低レベル制御による障害物回避深部強化学習型軌道プランナ

Obstacle Avoidance Deep Reinforcement Learning-Based Trajectory Planner with Robust Low-Level Control for Robotic Manipulators ( http://arxiv.org/abs/2402.02551v1 )

ライセンス: Link先を確認
Mehdi Heydari Shahna, Seyed Adel Alizadeh Kolagar, Jouni Mattila(参考訳) ロボット工学における現代の戦略は、複雑なブラックボックスの性質と解釈可能性の欠如が特徴であり、安定性と安全性の確保に困難をもたらす可能性がある。 これらの課題に対処するために,障害物のない深層強化学習(DRL)トラジェクトリプランナを,環境との相互作用を通じて学習フェーズに積極的に関与しながら,新しい低レベル・共同レベルの制御戦略に統合することを提案する。 このアプローチは計算の複雑さを回避し、非反復的およびランダムな障害物回避タスクにも対処する。 まず,n自由度 (dof) を有するマニピュレータに対して,関節レベルの推論により速度境界および障害物フリー動作を計画するモデルフリーのdrlエージェントを用いる。 この計画は、必要なトルクを生成するロバストなサブシステムベースの適応コントローラに入力され、一方、Cuckoo Search Optimization (CSO)アルゴリズムは、到達に必要な時間、安定化に要する時間、所望値からの最大偏差、定常状態における持続的な追跡誤差を最小化するために制御ゲインを強化する。 このアプローチは、位置と速度の誤差が指数関数的にゼロに収束することを保証する。 理論的な主張はシミュレーション結果の提示を通じて検証される。

In robotics, contemporary strategies are learning-based, characterized by a complex black-box nature and a lack of interpretability, which may pose challenges in ensuring stability and safety. To address these issues, we propose integrating an obstacle-free deep reinforcement learning (DRL) trajectory planner with a novel auto-tuning low- and joint-level control strategy, all while actively engaging in the learning phase through interactions with the environment. This approach circumvents the complexities associated with computations while also addressing nonrepetitive and random obstacle avoidance tasks. First, a model-free DRL agent to plan velocity-bounded and obstacle-free motion is employed for a manipulator with 'n' degrees of freedom (DoF) in task space through joint-level reasoning. This plan is then input into a robust subsystem-based adaptive controller, which produces the necessary torques, while the Cuckoo Search Optimization (CSO) algorithm enhances control gains to minimize the time required to reach, time taken to stabilize, the maximum deviation from the desired value, and persistent tracking error in the steady state. This approach guarantees that position and velocity errors exponentially converge to zero, accounting for any initial and end-point variations, unknown modeling errors, and external disturbances. Theoretical assertions are validated through the presentation of simulation outcomes.
翻訳日:2024-02-06 19:01:53 公開日:2024-02-04
# 大型言語モデルはテーブルベースのファクトチェッカーか?

Are Large Language Models Table-based Fact-Checkers? ( http://arxiv.org/abs/2402.02549v1 )

ライセンス: Link先を確認
Hangwen Zhang, Qingyi Si, Peng Fu, Zheng Lin, Weiping Wang(参考訳) 表ベースのFact Verification (TFV) は、文と構造化テーブルの間の関係を抽出することを目的としている。 小規模モデルに基づく既存のtfvメソッドはラベル付きデータと弱いゼロショット能力に乏しい。 近年,Large Language Models (LLM) の出現は研究分野において多くの注目を集めている。 彼らはいくつかのnlpタスクで強力なゼロショットとインコンテキスト学習能力を示したが、tfvでの能力はまだ不明である。 本研究では, LLM がテーブルベースのファクトチェッカーであるかどうかを予備検討する。 詳しくは、コンテキスト内学習がtfvのllm、すなわちゼロショットと少数ショットのtfv機能をどのように役立つかを探るために、さまざまなプロンプトを設計します。 さらに,LLMの命令チューニングによる性能向上を検討するため,TFV命令を慎重に設計・構築する。 実験の結果, llmはプロンプトエンジニアリングによりゼロショットと少数ショットのtfvにおいて許容できる結果が得られるが, 命令チューニングはtfvの能力を著しく刺激することができることがわかった。 また、ゼロショットプロンプトの形式や、コンテキスト内例の数について、いくつかの貴重な発見を行う。 最後に,LLMによるTFVの精度向上の可能な方向を解析し,テーブル推論のさらなる研究に有用であることを示す。

Table-based Fact Verification (TFV) aims to extract the entailment relation between statements and structured tables. Existing TFV methods based on small-scaled models suffer from insufficient labeled data and weak zero-shot ability. Recently, the appearance of Large Language Models (LLMs) has gained lots of attraction in research fields. They have shown powerful zero-shot and in-context learning abilities on several NLP tasks, but their potential on TFV is still unknown. In this work, we implement a preliminary study about whether LLMs are table-based fact-checkers. In detail, we design diverse prompts to explore how the in-context learning can help LLMs in TFV, i.e., zero-shot and few-shot TFV capability. Besides, we carefully design and construct TFV instructions to study the performance gain brought by the instruction tuning of LLMs. Experimental results demonstrate that LLMs can achieve acceptable results on zero-shot and few-shot TFV with prompt engineering, while instruction-tuning can stimulate the TFV capability significantly. We also make some valuable findings about the format of zero-shot prompts and the number of in-context examples. Finally, we analyze some possible directions to promote the accuracy of TFV via LLMs, which is beneficial to further research of table reasoning.
翻訳日:2024-02-06 19:01:09 公開日:2024-02-04
# 「私のモデルはどうなっているか?」 : 基礎的自然言語理解における環境の役割を探る

"What's my model inside of?": Exploring the role of environments for grounded natural language understanding ( http://arxiv.org/abs/2402.02548v1 )

ライセンス: Link先を確認
Ronen Tamari(参考訳) 孤立して脳を研究した古典的認知科学とは対照的に、生態学的アプローチは認知の形成における身体と環境の役割に焦点を当てた。 同様に、この論文では、基底自然言語理解(NLU)研究への生態学的アプローチを採用しています。 接地言語理解は、自然主義的/シミュレーションされた仮想環境における出来事、行動、規範の文脈にある言語理解システムを研究する。 従来の研究では,環境を考慮しながら新しいモデルの設計と最適化手法に注目する傾向にあり,データ収集とモデル開発を改善するための環境設計の可能性について検討する。 テキストベースのゲーム環境に基づく手続き的テキスト理解のための新しいトレーニングとアノテーション手法を開発した。 また,具体化された認知言語学文献を参考に,基礎的nlp研究のロードマップを提示するとともに,大規模言語モデルの進歩を測定するための新たな指標を,常識的推論課題に対して提示する。 我々は,テキストベースのゲーム環境によって提供されるより豊かな監督を活用し,長文や手続き文の中間意味情報をモデル化する新しい手法であるブレークポイントトランスフォーマーを開発した。 最後に,人間集団知能における環境の役割に関する理論を総合し,科学者のような知識労働者のための「社会的思考環境」の設計を提案する。

In contrast to classical cognitive science which studied brains in isolation, ecological approaches focused on the role of the body and environment in shaping cognition. Similarly, in this thesis we adopt an ecological approach to grounded natural language understanding (NLU) research. Grounded language understanding studies language understanding systems situated in the context of events, actions and precepts in naturalistic/simulated virtual environments. Where classic research tends to focus on designing new models and optimization methods while treating environments as given, we explore the potential of environment design for improving data collection and model development. We developed novel training and annotation approaches for procedural text understanding based on text-based game environments. We also drew upon embodied cognitive linguistics literature to propose a roadmap for grounded NLP research, and to inform the development of a new benchmark for measuring the progress of large language models on challenging commonsense reasoning tasks. We leveraged the richer supervision provided by text-based game environments to develop Breakpoint Transformers, a novel approach to modeling intermediate semantic information in long narrative or procedural texts. Finally, we integrated theories on the role of environments in collective human intelligence to propose a design for AI-augmented "social thinking environments" for knowledge workers like scientists.
翻訳日:2024-02-06 19:00:30 公開日:2024-02-04
# 大規模モデルのための認知タスクの人工知能テストへの統合

Integration of cognitive tasks into artificial general intelligence test for large models ( http://arxiv.org/abs/2402.02547v1 )

ライセンス: Link先を確認
Youzhi Qu, Chen Wei, Penghui Du, Wenxin Che, Chi Zhang, Wanli Ouyang, Yatao Bian, Feiyang Xu, Bin Hu, Kai Du, Haiyan Wu, Jia Liu, Quanying Liu(参考訳) 大規模モデルの進化の間、性能評価は、その能力を評価するための中間モデルと、実用化前に安全性を確保するための十分に訓練されたモデルで必ず行われる。 しかし、現在のモデル評価は主に特定のタスクとデータセットに依存しており、大規模モデルの多次元知性を評価するための統一的な枠組みが欠如している。 この観点からは,大規模言語モデルと拡張機能を備えたマルチモーダル大規模モデルのテストニーズを満たすことを目的とした,汎用人工知能(agi)テストの包括的なフレームワークを提唱する。 AGIテストフレームワークは、認知科学と自然言語処理を橋渡しして、結晶化された知性、大量の知識と経験の反映、問題解決と適応的推論を特徴とする流体知性、社会知性、多面的な社会的シナリオにおける理解と適応の象徴、そして身体的な環境と対話する能力を示すインテリジェンスを含む、すべての知能の側面を包含する。 大規模モデルの多次元知性を評価するために、agiテストは、人間の知能テストから採用された設計された認知テストのバッテリからなり、自然に没入型仮想コミュニティにカプセル化される。 大規模モデルの進歩に伴い, agiテストタスクの複雑さが高まることを示唆する。 偽陰性や偽陽性を避けるために、テスト結果の解釈の必要性を強調する。 認知科学にインスパイアされたAGIテストは、特定の知能の次元における大規模モデルのターゲット改善を効果的に導き、大規模モデルの人間社会への統合を加速させると信じている。

During the evolution of large models, performance evaluation is necessarily performed on the intermediate models to assess their capabilities, and on the well-trained model to ensure safety before practical application. However, current model evaluations mainly rely on specific tasks and datasets, lacking a united framework for assessing the multidimensional intelligence of large models. In this perspective, we advocate for a comprehensive framework of artificial general intelligence (AGI) test, aimed at fulfilling the testing needs of large language models and multi-modal large models with enhanced capabilities. The AGI test framework bridges cognitive science and natural language processing to encompass the full spectrum of intelligence facets, including crystallized intelligence, a reflection of amassed knowledge and experience; fluid intelligence, characterized by problem-solving and adaptive reasoning; social intelligence, signifying comprehension and adaptation within multifaceted social scenarios; and embodied intelligence, denoting the ability to interact with its physical environment. To assess the multidimensional intelligence of large models, the AGI test consists of a battery of well-designed cognitive tests adopted from human intelligence tests, and then naturally encapsulates into an immersive virtual community. We propose that the complexity of AGI testing tasks should increase commensurate with the advancements in large models. We underscore the necessity for the interpretation of test results to avoid false negatives and false positives. We believe that cognitive science-inspired AGI tests will effectively guide the targeted improvement of large models in specific dimensions of intelligence and accelerate the integration of large models into human society.
翻訳日:2024-02-06 18:59:41 公開日:2024-02-04
# 深層学習を用いたテニス行動の分類

Classification of Tennis Actions Using Deep Learning ( http://arxiv.org/abs/2402.02545v1 )

ライセンス: Link先を確認
Emil Hovad (1 and 2), Therese Hougaard-Jensen (2), Line Katrine Harder Clemmensen (2) ((1) Alexandra Instituttet A/S, Rued Langgaards Vej 7, 2300 K{\o}benhavn S, Denmark, (2) Department of Mathematics and Computer Science, Technical University of Denmark, Richard Petersens Plads, Building 324, 2800 Kgs. Lyngby, Denmark)(参考訳) ディープラーニングの最近の進歩により、ビデオ内の特定のイベントをより正確に識別できるようになる。 これはテニスのようなスポーツにおいて、例えば、ゲーム統計を自動的に収集したり、ゲーム戦略や選手の改善のために特定の関心のあるアクションを再生するために大きな意味を持つ。 本稿では,深層学習によるテニス行動の分類の可能性と課題について考察する。 深層学習アーキテクチャに基づく3つの異なるサイズモデルSlowFastを学習し,学術テニスデータセットTheTISを用いて評価した。 最高のモデルは74 %の一般化精度を達成し、テニスアクション分類に優れた性能を示す。 テニスデータセット全般を改善するための最善のモデルとピンポイント方向の誤り解析を提供する。 本稿では,データセットの限界,現在公開されているテニスデータセットの一般的な制限,進行に必要な今後のステップについて論じる。

Recent advances of deep learning makes it possible to identify specific events in videos with greater precision. This has great relevance in sports like tennis in order to e.g., automatically collect game statistics, or replay actions of specific interest for game strategy or player improvements. In this paper, we investigate the potential and the challenges of using deep learning to classify tennis actions. Three models of different size, all based on the deep learning architecture SlowFast were trained and evaluated on the academic tennis dataset THETIS. The best models achieve a generalization accuracy of 74 %, demonstrating a good performance for tennis action classification. We provide an error analysis for the best model and pinpoint directions for improvement of tennis datasets in general. We discuss the limitations of the data set, general limitations of current publicly available tennis data-sets, and future steps needed to make progress.
翻訳日:2024-02-06 18:59:07 公開日:2024-02-04
# LHRS-Bot:VGI強化大規模マルチモーダル言語モデルを用いたリモートセンシング

LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model ( http://arxiv.org/abs/2402.02544v1 )

ライセンス: Link先を確認
Dilxat Muhtar, Zhenshi Li, Feng Gu, Xueliang Zhang, and Pengfeng Xiao(参考訳) 大規模言語モデル(LLM)の革命的能力は、マルチモーダルな大規模言語モデル(MLLM)の道を切り開き、様々な専門分野にまたがる多様な応用を育んでいる。 しかし、リモートセンシング(RS)分野では、最近のMLLMでは、多様な地形やRS画像の様々な物体が適切に考慮されていない。 このギャップを埋めるために、大規模なRS画像テキストデータセットであるLHRS-Alignと情報的RS固有の命令データセットであるLHRS-Instructを構築し、大規模なボランティア地理情報(VGI)とグローバルに利用可能なRS画像を活用する。 この基盤に基づいて,多レベル視覚言語アライメント戦略とカリキュラム学習手法を用いて,rs画像理解のためのmllmであるlhrs-botを提案する。 総合的な実験により、LHRS-BotはRS画像の深い理解とRS領域内でニュアンス推論を行う能力を示す。

The revolutionary capabilities of large language models (LLMs) have paved the way for multimodal large language models (MLLMs) and fostered diverse applications across various specialized domains. In the remote sensing (RS) field, however, the diverse geographical landscapes and varied objects in RS imagery are not adequately considered in recent MLLM endeavors. To bridge this gap, we construct a large-scale RS image-text dataset, LHRS-Align, and an informative RS-specific instruction dataset, LHRS-Instruct, leveraging the extensive volunteered geographic information (VGI) and globally available RS images. Building on this foundation, we introduce LHRS-Bot, an MLLM tailored for RS image understanding through a novel multi-level vision-language alignment strategy and a curriculum learning method. Comprehensive experiments demonstrate that LHRS-Bot exhibits a profound understanding of RS images and the ability to perform nuanced reasoning within the RS domain.
翻訳日:2024-02-06 18:58:31 公開日:2024-02-04
# 安全強化学習による自律走行制御のための重量変動モデル予測制御

A Safe Reinforcement Learning driven Weights-varying Model Predictive Control for Autonomous Vehicle Motion Control ( http://arxiv.org/abs/2402.02624v1 )

ライセンス: Link先を確認
Baha Zarrouki, Marios Spanakakis and Johannes Betz(参考訳) 複数の制御目標を最適化するためにモデル予測制御(MPC)の最適コスト関数パラメータを決定することは困難かつ時間を要する作業である。 多目的ベイズ最適化(BO)技術は、静的重み付きMPCに対するパレート最適パラメータセットを決定することでこの問題を解決する。 しかし、単一のパラメータセットは、MPC動作条件のコンテキストが動作中に変化するとき、最も最適なクローズドループ制御性能を提供できないため、実行時にコスト関数の重みに適応する必要がある。 Deep Reinforcement Learning (RL)アルゴリズムは、コンテキスト依存の最適パラメータ集合を自動的に学習し、重み変化MPC(WMPC)に動的に適応することができる。 しかし、連続的な作用空間におけるスクラッチからの学習コスト関数の重み付けは、安全でない動作状態を引き起こす可能性がある。 そこで本研究では,事前最適化BOパレート最適重み集合のカタログを表す安全な学習空間内でのRL動作を制限する新しい手法を提案する。 連続空間において学習しないRLエージェントが、今後の制御タスクを積極的に予測し、最も最適な離散的なアクションを選択し、それぞれがパレートの最適重みの集合である文脈依存の集合に対応する。 したがって、訓練されていないRLエージェントでさえ、安全かつ最適な性能を保証する。 実験の結果,未訓練のRL-WMPCはパレート最適閉ループ挙動を示し,RL-WMPCのトレーニングはパレートフロントを超える性能を示すことが示された。

Determining the optimal cost function parameters of Model Predictive Control (MPC) to optimize multiple control objectives is a challenging and time-consuming task. Multiobjective Bayesian Optimization (BO) techniques solve this problem by determining a Pareto optimal parameter set for an MPC with static weights. However, a single parameter set may not deliver the most optimal closed-loop control performance when the context of the MPC operating conditions changes during its operation, urging the need to adapt the cost function weights at runtime. Deep Reinforcement Learning (RL) algorithms can automatically learn context-dependent optimal parameter sets and dynamically adapt for a Weightsvarying MPC (WMPC). However, learning cost function weights from scratch in a continuous action space may lead to unsafe operating states. To solve this, we propose a novel approach limiting the RL actions within a safe learning space representing a catalog of pre-optimized BO Pareto-optimal weight sets. We conceive a RL agent not to learn in a continuous space but to proactively anticipate upcoming control tasks and to choose the most optimal discrete actions, each corresponding to a single set of Pareto optimal weights, context-dependent. Hence, even an untrained RL agent guarantees a safe and optimal performance. Experimental results demonstrate that an untrained RL-WMPC shows Pareto-optimal closed-loop behavior and training the RL-WMPC helps exhibit a performance beyond the Pareto-front.
翻訳日:2024-02-06 18:51:54 公開日:2024-02-04
# デュアルインテリアポイント最適化学習

Dual Interior-Point Optimization Learning ( http://arxiv.org/abs/2402.02596v1 )

ライセンス: Link先を確認
Michael Klamkin, Mathieu Tanneau, Pascal Van Hentenryck(参考訳) 本稿では,有界変数を持つパラメトリック線形プログラムの2つの実現可能な解を学習するために,DIPL(Dual Internal Point Learning)とDSL(Dual Supergradient Learning)を導入する。 DIPLは、新しい双対インテリアポイントアルゴリズムを模倣し、DSLは古典的な双対過次上昇を模倣する。 DIPLとDSLは制約に関連する双対変数を予測し、境界制約の双対の柔軟性を利用することにより、二重実現性を保証する。 diplとdslは、品質証明書を提供することで、既存の基本学習方法を補完する。 それらは、0.5%の最適性ギャップの下で有効な双対境界を与える大規模最適潮流問題に対する高忠実な二重実現可能な解を生成する。

This paper introduces Dual Interior Point Learning (DIPL) and Dual Supergradient Learning (DSL) to learn dual feasible solutions to parametric linear programs with bounded variables, which are pervasive across many industries. DIPL mimics a novel dual interior point algorithm while DSL mimics classical dual supergradient ascent. DIPL and DSL ensure dual feasibility by predicting dual variables associated with the constraints then exploiting the flexibility of the duals of the bound constraints. DIPL and DSL complement existing primal learning methods by providing a certificate of quality. They are shown to produce high-fidelity dual-feasible solutions to large-scale optimal power flow problems providing valid dual bounds under 0.5% optimality gap.
翻訳日:2024-02-06 18:51:28 公開日:2024-02-04
# 量子雑音環境下での学習のための連続微分可能活性化関数の活用

Leveraging Continuously Differentiable Activation Functions for Learning in Quantized Noisy Environments ( http://arxiv.org/abs/2402.02593v1 )

ライセンス: Link先を確認
Vivswan Shah and Nathan Youngblood(参考訳) 実世界のアナログシステムは、様々なディープラーニングモデルにおけるモデル収束と精度を妨げるノイズに本質的に苦しむ。 GELU や SiLU のような微分可能なアクティベーションは勾配の堅牢な伝播を可能にし、全てのアナログ系に広く分布するアナログ量子化誤差を緩和する。 我々は、量子化ノイズの存在下で、畳み込み、線形、および変圧器ネットワークの分析および訓練を行う。 ここでは、連続的な微分可能活性化関数が従来の修正活性化よりも耐雑音性が高いことを示すことができる。 ReLUの場合と同様に、勾配の誤差はゼロに近いGELUの誤差の100倍である。 本研究は,コンピュータビジョンや信号処理など,複数の機械学習領域にわたる高性能で信頼性の高いハードウェア実装を実現するために,適切なアクティベーションを選択するためのガイダンスを提供する。

Real-world analog systems intrinsically suffer from noise that can impede model convergence and accuracy on a variety of deep learning models. We demonstrate that differentiable activations like GELU and SiLU enable robust propagation of gradients which help to mitigate analog quantization error that is ubiquitous to all analog systems. We perform analysis and training of convolutional, linear, and transformer networks in the presence of quantized noise. Here, we are able to demonstrate that continuously differentiable activation functions are significantly more noise resilient over conventional rectified activations. As in the case of ReLU, the error in gradients are 100x higher than those in GELU near zero. Our findings provide guidance for selecting appropriate activations to realize performant and reliable hardware implementations across several machine learning domains such as computer vision, signal processing, and beyond.
翻訳日:2024-02-06 18:51:16 公開日:2024-02-04
# ユニバーサル時系列予測変換器の統一訓練

Unified Training of Universal Time Series Forecasting Transformers ( http://arxiv.org/abs/2402.02592v1 )

ライセンス: Link先を確認
Gerald Woo, Chenghao Liu, Akshat Kumar, Caiming Xiong, Silvio Savarese, Doyen Sahoo(参考訳) 時系列予測のためのディープラーニングは、伝統的に1モデル毎のデータセットフレームワークで運用されており、大きな事前訓練されたモデルのゲーム変更効果を活用する可能性を制限する。 膨大な時系列データセットの事前トレーニングから生まれたユニバーサル予測の概念は、さまざまな下流予測タスクに対処できる単一の大規模時系列モデルを想定している。 しかし、そのようなモデルの構築は時系列データに特有の独自の課題をもたらす。 一 クロス周波数学習、 二 多変量時系列の任意の数の変量に対応すること、及び 三 大規模データに固有の分布特性の変化に対処すること。 これらの課題に対処するため,我々は従来の時系列トランスフォーマーアーキテクチャを改良し,Masked EncoderをベースとしたUniversal Time Series Forecasting Transformer(Moirai)を提案する。 新たに導入した大規模オープンタイムシリーズアーカイブ(LOTSA)で、9つのドメインにわたる27B以上の観測を特徴とし、フルショットモデルと比較してゼロショットの予測器として、競争力や優れたパフォーマンスを実現している。 コード、モデルの重み付け、データはリリースされます。

Deep learning for time series forecasting has traditionally operated within a one-model-per-dataset framework, limiting its potential to leverage the game-changing impact of large pre-trained models. The concept of universal forecasting, emerging from pre-training on a vast collection of time series datasets, envisions a single Large Time Series Model capable of addressing diverse downstream forecasting tasks. However, constructing such a model poses unique challenges specific to time series data: i) cross-frequency learning, ii) accommodating an arbitrary number of variates for multivariate time series, and iii) addressing the varying distributional properties inherent in large-scale data. To address these challenges, we present novel enhancements to the conventional time series Transformer architecture, resulting in our proposed Masked Encoder-based Universal Time Series Forecasting Transformer (Moirai). Trained on our newly introduced Large-scale Open Time Series Archive (LOTSA) featuring over 27B observations across nine domains, Moirai achieves competitive or superior performance as a zero-shot forecaster when compared to full-shot models. Code, model weights, and data will be released.
翻訳日:2024-02-06 18:51:01 公開日:2024-02-04
# マイクロテキスト正規化における音韻アルゴリズムの性能について

On the performance of phonetic algorithms in microtext normalization ( http://arxiv.org/abs/2402.02591v1 )

ライセンス: Link先を確認
Yerai Doval, Manuel Vilares, Jes\'us Vilares(参考訳) マイクロブログソーシャルネットワークで公開されているユーザー生成コンテンツは、価格のない情報源となっている。 しかし、マイクロテキストは通常、言語の標準語彙規則や文法規則から逸脱するので、従来の知的システムによる処理は非常に困難である。 答えとして、マイクロテキストの正規化は、これらの非標準のマイクロテキストを、プリプロセッシングのステップとして標準的なよく書かれたテキストに変換することで成り立っている。 非標準テキスト形成における音素現象の重要性を考えると、正規化器の知識基盤の重要な要素はこれらの現象を符号化する音素規則であり、いわゆる音素アルゴリズムに見られる。 本研究は、英語のための幅広い音声アルゴリズムの実験である。 本研究の目的は,マイクロテキスト正規化のための候補生成における最適音声アルゴリズムを決定することである。 言い換えれば、正規化される入力非標準項を取るアルゴリズムを見つけることによって、対応する標準語を含む最小の正規化候補集合を出力として得ることができる。 述べられているように、音韻アルゴリズムの選択は、通常、マイクロテキスト正規化パイプラインの最後に見つかる候補選択機構の機能に大きく依存します。 十分な数の候補の中から適切な選択をすることができるほど、正規化システム全体の性能を高めるために、カバレッジを優先して音声アルゴリズムの精度を犠牲にすることができる。 KEYWORDS:マイクロテキスト正規化、音声アルゴリズム、ファジィマッチング、Twitter、テキストメッセージ

User-generated content published on microblogging social networks constitutes a priceless source of information. However, microtexts usually deviate from the standard lexical and grammatical rules of the language, thus making its processing by traditional intelligent systems very difficult. As an answer, microtext normalization consists in transforming those non-standard microtexts into standard well-written texts as a preprocessing step, allowing traditional approaches to continue with their usual processing. Given the importance of phonetic phenomena in non-standard text formation, an essential element of the knowledge base of a normalizer would be the phonetic rules that encode these phenomena, which can be found in the so-called phonetic algorithms. In this work we experiment with a wide range of phonetic algorithms for the English language. The aim of this study is to determine the best phonetic algorithms within the context of candidate generation for microtext normalization. In other words, we intend to find those algorithms that taking as input non-standard terms to be normalized allow us to obtain as output the smallest possible sets of normalization candidates which still contain the corresponding target standard words. As it will be stated, the choice of the phonetic algorithm will depend heavily on the capabilities of the candidate selection mechanism which we usually find at the end of a microtext normalization pipeline. The faster it can make the right choices among big enough sets of candidates, the more we can sacrifice on the precision of the phonetic algorithms in favour of coverage in order to increase the overall performance of the normalization system. KEYWORDS: microtext normalization; phonetic algorithm; fuzzy matching; Twitter; texting
翻訳日:2024-02-06 18:50:43 公開日:2024-02-04
# 雑音入出力データからの制御器合成

Controller Synthesis from Noisy-Input Noisy-Output Data ( http://arxiv.org/abs/2402.02588v1 )

ライセンス: Link先を確認
Lidong Li, Andrea Bisoffi, Claudio De Persis, Nima Monshizadeh(参考訳) 測定ノイズによる入力出力データのみを用いて,線形システムの動的出力フィードバック制御を合成する問題を考える。 入出力データを扱うために、元のシステムの補助表現を導入する。 補助システムの構造を利用して、データに整合した全ての可能なシステムを堅牢に安定化するコントローラを設計する。 特に,汎用的なマルチインプットマルチアウトプットシステムに結果を拡張するための新しいソリューションを提供する。 結果は数値的な例で示される。

We consider the problem of synthesizing a dynamic output-feedback controller for a linear system, using solely input-output data corrupted by measurement noise. To handle input-output data, an auxiliary representation of the original system is introduced. By exploiting the structure of the auxiliary system, we design a controller that robustly stabilizes all possible systems consistent with data. Notably, we also provide a novel solution to extend the results to generic multi-input multi-output systems. The findings are illustrated by numerical examples.
翻訳日:2024-02-06 18:50:19 公開日:2024-02-04
# 3SAT用Grover-QAOA:2次高速化、フェアサンプリング、パラメータクラスタリング

Grover-QAOA for 3-SAT: Quadratic Speedup, Fair-Sampling, and Parameter Clustering ( http://arxiv.org/abs/2402.02585v1 )

ライセンス: Link先を確認
Zewen Zhang, Roger Paredes, Bhuvanesh Sundar, David Quiroga, Anastasios Kyrillidis, Leonardo Duenas-Osorio, Guido Pagano, Kaden R. A. Hazzard(参考訳) SAT問題(英: SAT problem)は、計算複雑性理論において基本的な重要性を持つ原始的なNP完全問題であり、科学や工学における多くの応用がある。 本研究では,Grover Quantum Approximate Optimization Algorithm (G-QAOA) のランダムサンプリングによる2次高速化の数値的証拠を示し,3-SAT問題 (All-SAT) の解を求める。 G-QAOAはGroverのアルゴリズムよりもリソース集約性が低く、3-SATやMax-SATに適応しやすい。 これらの利点は、数千のランダム3SATインスタンス上でのG-QAOAの古典シミュレーションによって示される。 また、小さなインスタンスに対してIonQ Aria量子コンピュータのG-QAOAの利点を観察し、現在のハードウェアが全てのソリューションを決定・サンプリングするのに十分であることを示した。 興味深いことに、各G-QAOAラウンドで同じ角度のペアを使用するシングルアングルペア制約は、2次スピードアップを維持しながらG-QAOA角度を最適化する古典的な計算オーバーヘッドを大幅に削減する。 また、角度のパラメータクラスタリングも見つけます。 シングルアングルペアプロトコルとパラメータクラスタリングは、G-QAOA角の古典的な最適化に障害を著しく低減する。

The SAT problem is a prototypical NP-complete problem of fundamental importance in computational complexity theory with many applications in science and engineering; as such, it has long served as an essential benchmark for classical and quantum algorithms. This study shows numerical evidence for a quadratic speedup of the Grover Quantum Approximate Optimization Algorithm (G-QAOA) over random sampling for finding all solutions to 3-SAT problems (All-SAT). G-QAOA is less resource-intensive and more adaptable for 3-SAT and Max-SAT than Grover's algorithm, and it surpasses conventional QAOA in its ability to sample all solutions. We show these benefits by classical simulations of many-round G-QAOA on thousands of random 3-SAT instances. We also observe G-QAOA advantages on the IonQ Aria quantum computer for small instances, finding that current hardware suffices to determine and sample all solutions. Interestingly, a single-angle-pair constraint that uses the same pair of angles at each G-QAOA round greatly reduces the classical computational overhead of optimizing the G-QAOA angles while preserving its quadratic speedup. We also find parameter clustering of the angles. The single-angle-pair protocol and parameter clustering significantly reduce obstacles to classical optimization of the G-QAOA angles.
翻訳日:2024-02-06 18:50:12 公開日:2024-02-04
# DiffEditor:拡散画像編集における精度と柔軟性の向上

DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing ( http://arxiv.org/abs/2402.02583v1 )

ライセンス: Link先を確認
Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang(参考訳) 大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。 多様な高品質な生成能力を持つが、これらの能力を微細な画像編集に変換することは依然として困難である。 本稿では,(1)複雑なシナリオにおいて,編集結果に編集精度が欠け,予期せぬ成果物が現れること,(2)編集操作を調和させる柔軟性の欠如,例えば新しいコンテンツを想像すること,の2つの弱点を補正するDiffEditorを提案する。 提案手法では,細粒度画像編集における画像プロンプトを導入し,テキストプロンプトと協調して編集内容を記述する。 コンテント一貫性を維持しながら柔軟性を向上させるため,確率微分方程式(SDE)を通常の微分方程式(ODE)サンプリングに局所的に組み合わせる。 また,地域スコアに基づく勾配指導と時間旅行戦略を拡散サンプリングに取り入れ,さらに編集品質を向上させる。 広範な実験により,1つの画像(オブジェクト移動,リサイズ,コンテンツドラッグなど)および画像(外観置換,オブジェクトペーストなど)間での編集を含む,細かな画像編集タスクにおける最先端のパフォーマンスを効率的に達成できることが実証された。 ソースコードはhttps://github.com/mc-e/dragondiffusionで公開しています。

Large-scale Text-to-Image (T2I) diffusion models have revolutionized image generation over the last few years. Although owning diverse and high-quality generation capabilities, translating these abilities to fine-grained image editing remains challenging. In this paper, we propose DiffEditor to rectify two weaknesses in existing diffusion-based image editing: (1) in complex scenarios, editing results often lack editing accuracy and exhibit unexpected artifacts; (2) lack of flexibility to harmonize editing operations, e.g., imagine new content. In our solution, we introduce image prompts in fine-grained image editing, cooperating with the text prompt to better describe the editing content. To increase the flexibility while maintaining content consistency, we locally combine stochastic differential equation (SDE) into the ordinary differential equation (ODE) sampling. In addition, we incorporate regional score-based gradient guidance and a time travel strategy into the diffusion sampling, further improving the editing quality. Extensive experiments demonstrate that our method can efficiently achieve state-of-the-art performance on various fine-grained image editing tasks, including editing within a single image (e.g., object moving, resizing, and content dragging) and across images (e.g., appearance replacing and object pasting). Our source code is released at https://github.com/MC-E/DragonDiffusion.
翻訳日:2024-02-06 18:49:46 公開日:2024-02-04
# CNNを用いた高精度せん断測定におけるPSF推定と銀河集団偏差の影響

Impact of PSF misestimation and galaxy population bias on precision shear measurement using a CNN ( http://arxiv.org/abs/2402.02578v1 )

ライセンス: Link先を確認
Lisa Voigt(参考訳) 遠い銀河の弱い重力レンズは、ダークエネルギーの強力なプローブを提供する。 本研究の目的は,畳み込みニューラルネットワーク(CNN)の高精度せん断推定への応用を検討することである。 特に, 浅層cnnを用いて, ポイントスプレッド関数 (psf) の誤推定と「銀河集団バイアス」(「分布バイアス」と「形態学バイアス」を含む) の影響について検討し, 次世代調査の精度要件に着目した。 我々は、ノイズのある円盤銀河と楕円銀河の個体群をシミュレートし、ユークリッドのような調査を代表するpsfを採用する。 推定されたせん断と真のせん断との線形関係を仮定してCNNが達成した精度を定量化し、乗法(m$)と加法(c$)のバイアスを測定する。 ノイズバイアスの影響を緩和し、使用時に$m$と$c$を計測するために、非慣習的損失関数を使用します。 一 銀河の人口(分布バイアス)を記述するために、不正確な銀河楕円性分布又は大きさ-マグニチュード関係、又は形態型の誤比率 (ii)不正確な銀河の光のプロファイル(形態学バイアス)、又は (iii)サイズ又は楕円性を有するpsfは、その真値から相反する(psf誤推定)。 我々は,psfモデル形状と大きさの知識に関するユークリッド条件との比較を行った。 最後に、精度せん断推定におけるCNNの有望な可能性を構築するための更なる取り組みについて概説する。

Weak gravitational lensing of distant galaxies provides a powerful probe of dark energy. The aim of this study is to investigate the application of convolutional neural networks (CNNs) to precision shear estimation. In particular, using a shallow CNN, we explore the impact of point spread function (PSF) misestimation and `galaxy population bias' (including `distribution bias' and `morphology bias'), focusing on the accuracy requirements of next generation surveys. We simulate a population of noisy disk and elliptical galaxies and adopt a PSF that is representative of a Euclid-like survey. We quantify the accuracy achieved by the CNN assuming a linear relationship between the estimated and true shears and measure the multiplicative ($m$) and additive ($c$) biases. We make use of an unconventional loss function to mitigate the effects of noise bias and measure $m$ and $c$ when we use either: (i) an incorrect galaxy ellipticity distribution or size-magnitude relation, or the wrong ratio of morphological types, to describe the population of galaxies (distribution bias); (ii) an incorrect galaxy light profile (morphology bias); or (iii) a PSF with size or ellipticity offset from its true value (PSF misestimation). We compare our results to the Euclid requirements on the knowledge of the PSF model shape and size. Finally, we outline further work to build on the promising potential of CNNs in precision shear estimation.
翻訳日:2024-02-06 18:49:21 公開日:2024-02-04
# ロバストビデオ特徴抽出のための時空間プロンプトネットワーク

Spatio-temporal Prompting Network for Robust Video Feature Extraction ( http://arxiv.org/abs/2402.02574v1 )

ライセンス: Link先を確認
Guanxiong Sun, Chi Wang, Zhaoyu Zhang, Jiankang Deng, Stefanos Zafeiriou, Yang Hua(参考訳) フレーム品質の劣化は、ビデオ理解の分野で大きな課題の1つである。 劣化したフレームによる情報損失を補うため,最近の手法ではトランスフォーマーベースの統合モジュールを利用して時空間情報を取得する。 しかし、これらの統合モジュールは重く複雑です。 さらに、各統合モジュールはターゲットタスク用に特別に調整されており、複数のタスクに一般化することが困難である。 本稿では,スポーティ・テンポラル・プロンプティング・ネットワーク(STPN)と呼ばれる,クリーンで統一されたフレームワークを提案する。 バックボーンネットワークの入力特徴を動的に調整することにより、ロバストで正確な映像特徴を効率的に抽出することができる。 具体的には、STPNは近隣フレームの時空間情報を含む複数のビデオプロンプトを予測する。 そして、ビデオ特徴抽出のための更新入力として、現在のフレームのパッチ埋め込みに、これらのビデオプロンプトをプリプットする。 さらに、STPNはタスク固有のモジュールを含まないため、様々なビデオタスクに簡単に一般化できる。 STPNは、ビデオオブジェクト検出のためのImageNetVID、ビデオインスタンスセグメンテーションのためのYouTubeVIS、ビジュアルオブジェクト追跡のためのGOT-10kという、さまざまなビデオ理解タスクのために広く使用されている3つのデータセットに対して、最先端のパフォーマンスを達成する。 コードはhttps://github.com/guanxiongsun/vfe.pytorchで入手できる。

Frame quality deterioration is one of the main challenges in the field of video understanding. To compensate for the information loss caused by deteriorated frames, recent approaches exploit transformer-based integration modules to obtain spatio-temporal information. However, these integration modules are heavy and complex. Furthermore, each integration module is specifically tailored for its target task, making it difficult to generalise to multiple tasks. In this paper, we present a neat and unified framework, called Spatio-Temporal Prompting Network (STPN). It can efficiently extract robust and accurate video features by dynamically adjusting the input features in the backbone network. Specifically, STPN predicts several video prompts containing spatio-temporal information of neighbour frames. Then, these video prompts are prepended to the patch embeddings of the current frame as the updated input for video feature extraction. Moreover, STPN is easy to generalise to various video tasks because it does not contain task-specific modules. Without bells and whistles, STPN achieves state-of-the-art performance on three widely-used datasets for different video understanding tasks, i.e., ImageNetVID for video object detection, YouTubeVIS for video instance segmentation, and GOT-10k for visual object tracking. Code is available at https://github.com/guanxiongsun/vfe.pytorch.
翻訳日:2024-02-06 18:48:55 公開日:2024-02-04
# 米国歴史新聞におけるアジア系労働者の量的談話分析

A Quantitative Discourse Analysis of Asian Workers in the US Historical Newspapers ( http://arxiv.org/abs/2402.02572v1 )

ライセンス: Link先を確認
Jaihyun Park, Ryan Cordell(参考訳) 警告:本稿は,辺境人口を対象とした攻撃的言語例を含む。 歴史テキストのデジタル化は、研究者を招き、計算手法を用いて歴史テキストの大規模コーパスを探索する。 本研究では,アジア系労働者が米国の歴史新聞でどのように表現されるかという,比較的研究の少ない話題について,計算テキスト分析を行った。 クーリー」という言葉は、マサチューセッツ州、ロードアイランド州、ワイオミング州、オクラホマ州、アーカンソー州などいくつかの州で意味的に異なることを発見した。 また,同時代の新聞や同窓会の新聞は,過度に表現された単語を計測し,独特の談話を形成していた。 当時のアメリカ連合国の新聞はクーリーを奴隷に関する言葉と結びつけた。 さらに、アジア人はヨーロッパからの移民よりも劣っていると認識され、人種差別の標的となった。 本研究は,米国における人種差別の質的分析を定量的な談話分析で補うことに貢献する。

Warning: This paper contains examples of offensive language targetting marginalized population. The digitization of historical texts invites researchers to explore the large-scale corpus of historical texts with computational methods. In this study, we present computational text analysis on a relatively understudied topic of how Asian workers are represented in historical newspapers in the United States. We found that the word "coolie" was semantically different in some States (e.g., Massachusetts, Rhode Island, Wyoming, Oklahoma, and Arkansas) with the different discourses around coolie. We also found that then-Confederate newspapers and then-Union newspapers formed distinctive discourses by measuring over-represented words. Newspapers from then-Confederate States associated coolie with slavery-related words. In addition, we found Asians were perceived to be inferior to European immigrants and subjected to the target of racism. This study contributes to supplementing the qualitative analysis of racism in the United States with quantitative discourse analysis.
翻訳日:2024-02-06 18:48:32 公開日:2024-02-04
# ガゼボ植物:コセラットロッドとの植物-ロボット相互作用のシミュレーション

Gazebo Plants: Simulating Plant-Robot Interaction with Cosserat Rods ( http://arxiv.org/abs/2402.02570v1 )

ライセンス: Link先を確認
Junchen Deng and Samhita Marri and Jonathan Klein and Wojtek Pa{\l}ubicki and S\"oren Pirk and Girish Chowdhary and Dominik L. Michels(参考訳) ロボット収穫は農業生産性に肯定的な影響を及ぼし、コストを削減し、食料品質を改善し、持続可能性を高め、労働力不足に対処する可能性がある。 農業ロボティクスの急速に進歩する分野において,仮想環境下でロボットを訓練する必要性が求められている。 イメージセグメンテーション、オブジェクト検出、分類といったコンピュータビジョンのタスクを自動化するトレーニングデータを生成することも、実際のデータセットの不足や欠如を克服するために合成データがしばしば必要となるような仮想環境に大きく依存している。 しかしながら、OD、Simbody、Bullet、DARTといったロボットコミュニティでよく使われている物理エンジンは、主に剛体の動きと衝突の相互作用をサポートする。 この本質的な制限は、植物や作物などの非剛性物質を扱う実験や進歩を妨げる。 本稿では,植物運動をモデル化するために,コセラート棒を用いたガゼボシミュレーションプラットフォーム用プラグインを提案する。 植物と環境との相互作用のシミュレーションを可能にする。 筆者らは,このプラグインを用いて,実生実験に匹敵する結果を得るロボットアームを模擬することにより,ガゼボで収穫シミュレーションを行うことができることを示した。

Robotic harvesting has the potential to positively impact agricultural productivity, reduce costs, improve food quality, enhance sustainability, and to address labor shortage. In the rapidly advancing field of agricultural robotics, the necessity of training robots in a virtual environment has become essential. Generating training data to automatize the underlying computer vision tasks such as image segmentation, object detection and classification, also heavily relies on such virtual environments as synthetic data is often required to overcome the shortage and lack of variety of real data sets. However, physics engines commonly employed within the robotics community, such as ODE, Simbody, Bullet, and DART, primarily support motion and collision interaction of rigid bodies. This inherent limitation hinders experimentation and progress in handling non-rigid objects such as plants and crops. In this contribution, we present a plugin for the Gazebo simulation platform based on Cosserat rods to model plant motion. It enables the simulation of plants and their interaction with the environment. We demonstrate that, using our plugin, users can conduct harvesting simulations in Gazebo by simulating a robotic arm picking fruits and achieve results comparable to real-world experiments.
翻訳日:2024-02-06 18:48:17 公開日:2024-02-04
# polyak-{\l}ojasiewicz条件下における有限サムスムース最適化の複雑さについて

On the Complexity of Finite-Sum Smooth Optimization under the Polyak-{\L}ojasiewicz Condition ( http://arxiv.org/abs/2402.02569v1 )

ライセンス: Link先を確認
Yunyan Bai, Yuxing Liu, Luo Luo(参考訳) 本稿では、パラメータ $\mu$ と $\{f_i(\cdot)\}_{i=1}^n f_i({\bf x})$ を持つ polyak--{\l}ojasiewicz (pl) 条件を満たす場合、$\min_{{\bf x}\in{\mathbb r}^d} f({\bf x})\triangleq \frac{1}{n}\sum_{i=1}^n f_i({\bf x})$ という形式の最適化問題を考える。 任意の勾配法において少なくとも$\omega(n+\kappa\sqrt{n}\log(1/\epsilon))$インクリメンタルファーストオーダーオラクル(ifo)は$\epsilon$-サブオプティマソリューションを見つけるために、$\kappa\triangleq l/\mu$ を問題の条件数とする。 この結果は、最もよく知られた一階法におけるIFO複雑性の上限にほぼ一致する。 また、分散環境でのPL関数の最小化の問題についても検討し、$f_1(\cdot),\dots,f_n(\cdot)$が$n$エージェントの接続ネットワーク上に置かれるようにした。 通信ラウンドは$\Omega(\kappa/\sqrt{\gamma}\,\log(1/\epsilon))$, $\Omega((\kappa+\tau\kappa/\sqrt{\gamma}\,)\log(1/\epsilon))$ and $\Omega\big(n+\kappa\sqrt{n}\log(1/\epsilon)\big)$ 通信ラウンド、時間コスト、局所一階オラクルコールの場合、$\gamma\in(0,1]$はネットワークに関連する混合行列のスペクトルギャップであり、$$$\tau>0は通信ラウンド当たりのコストである。 さらに,予測値よりも低い値にほぼ一致する分散一階法を提案する。

This paper considers the optimization problem of the form $\min_{{\bf x}\in{\mathbb R}^d} f({\bf x})\triangleq \frac{1}{n}\sum_{i=1}^n f_i({\bf x})$, where $f(\cdot)$ satisfies the Polyak--{\L}ojasiewicz (PL) condition with parameter $\mu$ and $\{f_i(\cdot)\}_{i=1}^n$ is $L$-mean-squared smooth. We show that any gradient method requires at least $\Omega(n+\kappa\sqrt{n}\log(1/\epsilon))$ incremental first-order oracle (IFO) calls to find an $\epsilon$-suboptimal solution, where $\kappa\triangleq L/\mu$ is the condition number of the problem. This result nearly matches upper bounds of IFO complexity for best-known first-order methods. We also study the problem of minimizing the PL function in the distributed setting such that the individuals $f_1(\cdot),\dots,f_n(\cdot)$ are located on a connected network of $n$ agents. We provide lower bounds of $\Omega(\kappa/\sqrt{\gamma}\,\log(1/\epsilon))$, $\Omega((\kappa+\tau\kappa/\sqrt{\gamma}\,)\log(1/\epsilon))$ and $\Omega\big(n+\kappa\sqrt{n}\log(1/\epsilon)\big)$ for communication rounds, time cost and local first-order oracle calls respectively, where $\gamma\in(0,1]$ is the spectral gap of the mixing matrix associated with the network and~$\tau>0$ is the time cost of per communication round. Furthermore, we propose a decentralized first-order method that nearly matches above lower bounds in expectation.
翻訳日:2024-02-06 18:47:55 公開日:2024-02-04
# セグメンテーションとパースのための真の統合ニューラルアーキテクチャ

A Truly Joint Neural Architecture for Segmentation and Parsing ( http://arxiv.org/abs/2402.02564v1 )

ライセンス: Link先を確認
Danit Yshaayahu Levi and Reut Tsarfaty(参考訳) 現代の多言語依存構文解析器は多様な言語を解析できるが、形態学的にリッチな言語(mrls)の場合、性能は他の言語よりも低いことが証明される。 鍵となる課題は、空間制限された入力トークンの形態的複雑さと曖昧さのため、ツリーのノードとして機能する言語単位が事前に分かっていないことである。 MRLに対する前神経依存性パーサは, 形態的セグメンテーションと構文解析は, セグメンテーションが解析に先行するパイプラインとしてではなく, 共同で解決されるべきである。 しかし、これまでの最先端のニューラルパーサーは厳格なパイプラインを使用する。 本稿では,入力のすべての形態的あいまいさを保存した格子ベースの表現をarc-factoredモデルに提供し,形態的セグメンテーションと構文解析タスクを一度に解くジョイントニューラルアーキテクチャを提案する。 リッチで高度にあいまいなmrlであるヘブライの実験では、単一のモデルを用いて、udのヘブライ語のセクションのパース、タグ付け、セグメンテーションにおける最先端のパフォーマンスを示す。 提案アーキテクチャはLLMベースで言語に依存しないため,MRLがさらなるパフォーマンス向上と,他の言語とのギャップを埋めるための基盤となる。

Contemporary multilingual dependency parsers can parse a diverse set of languages, but for Morphologically Rich Languages (MRLs), performance is attested to be lower than other languages. The key challenge is that, due to high morphological complexity and ambiguity of the space-delimited input tokens, the linguistic units that act as nodes in the tree are not known in advance. Pre-neural dependency parsers for MRLs subscribed to the joint morpho-syntactic hypothesis, stating that morphological segmentation and syntactic parsing should be solved jointly, rather than as a pipeline where segmentation precedes parsing. However, neural state-of-the-art parsers to date use a strict pipeline. In this paper we introduce a joint neural architecture where a lattice-based representation preserving all morphological ambiguity of the input is provided to an arc-factored model, which then solves the morphological segmentation and syntactic parsing tasks at once. Our experiments on Hebrew, a rich and highly ambiguous MRL, demonstrate state-of-the-art performance on parsing, tagging and segmentation of the Hebrew section of UD, using a single model. This proposed architecture is LLM-based and language agnostic, providing a solid foundation for MRLs to obtain further performance improvements and bridge the gap with other languages.
翻訳日:2024-02-06 18:46:49 公開日:2024-02-04
# PROSAC: 敵攻撃下でのマシンラーニングモデルに対するおそらく安全な認証

PROSAC: Provably Safe Certification for Machine Learning Models under Adversarial Attacks ( http://arxiv.org/abs/2402.02629v1 )

ライセンス: Link先を確認
Ziquan Liu, Zhuo Zhi, Ilija Bogunovic, Carsten Gerner-Beuerle, Miguel Rodrigues(参考訳) 視覚や言語モデルを含む最先端の機械学習モデルは、敵対的な摂動によって深刻な侵害を受けることが広く知られている。 したがって、最も効果的な敵攻撃の存在下でその性能を認定する能力を開発することがますます重要になっている。 本稿では,集団レベルのリスク保証を伴う敵攻撃の存在下で,機械学習モデルの性能を証明するための新しいアプローチを提案する。 特に、$(\alpha,\zeta)$機械学習モデルの安全性という概念を紹介します。 機械学習モデルの逆(人口)リスクが$\alpha$以下(つまり、モデルが安全)であると宣言する確率は低いが、モデルが実際には安全でない(つまり、モデルの逆(人口)リスクが$\alpha$以上である)ことを宣言する確率は$\zeta$以下であることを示す統計的保証を導出するための、キャリブレーションセットの有効性に基づく仮説検証手順を提案する。 また,機械学習モデルが対向攻撃において$(\alpha,\zeta)$-safeであるか否かを統計的保証と共に効率的に判定するベイズ最適化アルゴリズムを提案する。 提案手法は,視覚トランスフォーマー(vit)のさまざまなサイズを含む機械学習モデルに適用し,オートアタック,スクエアアタック,自然進化戦略攻撃など,さまざまな敵の攻撃に障害のあるresnetモデルを用いて,アプローチの動作を説明する。 重要なことは、ViTは一般的にResNetsよりも敵攻撃に対して堅牢であり、ViT-largeは小さなモデルよりも堅牢であることを示している。 当社のアプローチは、既存の実証的なリスクベースの認証保証を越えています。 最先端の技術ツールの使用を義務付ける規制要件を満たすために使用できる厳密な(かつ証明可能な)パフォーマンス保証を定式化します。

It is widely known that state-of-the-art machine learning models, including vision and language models, can be seriously compromised by adversarial perturbations. It is therefore increasingly relevant to develop capabilities to certify their performance in the presence of the most effective adversarial attacks. Our paper offers a new approach to certify the performance of machine learning models in the presence of adversarial attacks with population level risk guarantees. In particular, we introduce the notion of $(\alpha,\zeta)$ machine learning model safety. We propose a hypothesis testing procedure, based on the availability of a calibration set, to derive statistical guarantees providing that the probability of declaring that the adversarial (population) risk of a machine learning model is less than $\alpha$ (i.e. the model is safe), while the model is in fact unsafe (i.e. the model adversarial population risk is higher than $\alpha$), is less than $\zeta$. We also propose Bayesian optimization algorithms to determine efficiently whether a machine learning model is $(\alpha,\zeta)$-safe in the presence of an adversarial attack, along with statistical guarantees. We apply our framework to a range of machine learning models including various sizes of vision Transformer (ViT) and ResNet models impaired by a variety of adversarial attacks, such as AutoAttack, SquareAttack and natural evolution strategy attack, to illustrate the operation of our approach. Importantly, we show that ViT's are generally more robust to adversarial attacks than ResNets, and ViT-large is more robust than smaller models. Our approach goes beyond existing empirical adversarial risk-based certification guarantees. It formulates rigorous (and provable) performance guarantees that can be used to satisfy regulatory requirements mandating the use of state-of-the-art technical tools.
翻訳日:2024-02-06 18:39:30 公開日:2024-02-04
# リカレントニューラルネットワークからの様々な記号規則抽出法の安定性解析

Stability Analysis of Various Symbolic Rule Extraction Methods from Recurrent Neural Network ( http://arxiv.org/abs/2402.02627v1 )

ライセンス: Link先を確認
Neisarg Dave, Daniel Kifer, C. Lee Giles, Ankur Mali(参考訳) 本稿では,競合する2つの規則抽出手法,量子化と等価クエリを分析する。 私たちは3600ドルのRNNモデルをトレーニングし、量子化アプローチ(k-meansとSOM)で18000ドルのDFAと、10ドルの初期化シードに対して等価クエリ($L^{*}$)メソッドで3600ドルのDFAを抽出しました。 7ドルのTomitaと4ドルのDick文法のデータセットをサンプリングし、LSTM、GRU、O2RNN、MIRNNという4ドルのRNNセルでトレーニングしました。 実験結果から,O2RNNと量子化に基づくルール抽出の優れた性能が得られた。 主に正規文法のために提案された$l^{*}$は、ニューラルネットワークが完全に訓練されたとき、トミタ言語の量子化法と同様に実行される。 しかし、部分的に訓練されたrnnでは、$l^{*}$ はdfaの州数に不安定を示し、例えば tomita 5 と tomita 6 の言語では$l^{*}$ は100ドル以上の州を生産している。 対照的に、量子化法は基底真理 DFA に非常に近い状態の数で規則をもたらす。 RNN細胞のうち、O2RNNは他の細胞と比べて安定なDFAを産生する。 ディック言語の場合、GRUはネットワーク性能において他のRNNよりも優れているが、O2RNNによって抽出されたDFAはより高い性能と安定性を有する。 この安定性は、10ドルのシードで訓練されたネットワーク上のテストセットの標準偏差として計算される。 Dyck Languagesでは、量子化法が$L^{*}$よりも高い精度と状態数で高い安定性を示した。 L^{*}$はしばしば、GRUとMIRNNの$16\% - 22\%$の順で精度の不安定さを示し、量子化メソッドの偏差は5\% - 15\%$で変化した。 LSTMとGRUの多くのケースでは、DFAが$L^{*}$で抽出された値が確率精度(50\%$)を達成できなかったのに対して、量子化法で抽出された値が7\%-17\%$の範囲で標準偏差を持っていた。 O2RNNの場合、両方のルール抽出法は0.5 % - 3 %$の範囲で偏差があった。

This paper analyzes two competing rule extraction methodologies: quantization and equivalence query. We trained $3600$ RNN models, extracting $18000$ DFA with a quantization approach (k-means and SOM) and $3600$ DFA by equivalence query($L^{*}$) methods across $10$ initialization seeds. We sampled the datasets from $7$ Tomita and $4$ Dyck grammars and trained them on $4$ RNN cells: LSTM, GRU, O2RNN, and MIRNN. The observations from our experiments establish the superior performance of O2RNN and quantization-based rule extraction over others. $L^{*}$, primarily proposed for regular grammars, performs similarly to quantization methods for Tomita languages when neural networks are perfectly trained. However, for partially trained RNNs, $L^{*}$ shows instability in the number of states in DFA, e.g., for Tomita 5 and Tomita 6 languages, $L^{*}$ produced more than $100$ states. In contrast, quantization methods result in rules with number of states very close to ground truth DFA. Among RNN cells, O2RNN produces stable DFA consistently compared to other cells. For Dyck Languages, we observe that although GRU outperforms other RNNs in network performance, the DFA extracted by O2RNN has higher performance and better stability. The stability is computed as the standard deviation of accuracy on test sets on networks trained across $10$ seeds. On Dyck Languages, quantization methods outperformed $L^{*}$ with better stability in accuracy and the number of states. $L^{*}$ often showed instability in accuracy in the order of $16\% - 22\%$ for GRU and MIRNN while deviation for quantization methods varied in $5\% - 15\%$. In many instances with LSTM and GRU, DFA's extracted by $L^{*}$ even failed to beat chance accuracy ($50\%$), while those extracted by quantization method had standard deviation in the $7\%-17\%$ range. For O2RNN, both rule extraction methods had deviation in the $0.5\% - 3\%$ range.
翻訳日:2024-02-06 18:38:55 公開日:2024-02-04
# 特徴における位置バイアス

Position bias in features ( http://arxiv.org/abs/2402.02626v1 )

ライセンス: Link先を確認
Richard Demsyn-Jones(参考訳) 検索エンジンのドキュメントの関連性をモデル化する目的は、その後の検索においてよりランク付けすることである。 ドキュメント固有の履歴クリックスルー率は動的ランキングシステムにおいて重要な機能であり、より多くのサンプルを蓄積するにつれて更新される。 本稿では,いくつかの特徴について述べるとともに,制御実験で検証する。 逆傾向重み付け法を文書に拡張することは、文書の関連性を偏りなく推定する。 この機能は関連性を正確に近似することができ、理想的な状況でほぼ最適にランク付けできる。 しかし、位置バイアスの度合いに関して増大している高い分散がある。 さらに、不正確な位置バイアス推定は性能低下につながる。 いくつかのシナリオでは、この機能はバイアスドクリックスルーレートよりもパフォーマンスが悪い。 本稿では、正確な位置バイアス推定の必要性を強調し、偏りと偏りのない位置バイアス特徴の同時利用を提案する。

The purpose of modeling document relevance for search engines is to rank better in subsequent searches. Document-specific historical click-through rates can be important features in a dynamic ranking system which updates as we accumulate more sample. This paper describes the properties of several such features, and tests them in controlled experiments. Extending the inverse propensity weighting method to documents creates an unbiased estimate of document relevance. This feature can approximate relevance accurately, leading to near-optimal ranking in ideal circumstances. However, it has high variance that is increasing with respect to the degree of position bias. Furthermore, inaccurate position bias estimation leads to poor performance. Under several scenarios this feature can perform worse than biased click-through rates. This paper underscores the need for accurate position bias estimation, and is unique in suggesting simultaneous use of biased and unbiased position bias features.
翻訳日:2024-02-06 18:38:13 公開日:2024-02-04
# 複数の時間的視点を持つ変圧器RNNの強化

Enhancing Transformer RNNs with Multiple Temporal Perspectives ( http://arxiv.org/abs/2402.02625v1 )

ライセンス: Link先を確認
Razvan-Gabriel Dumitru, Darius Peteleaza, Mihai Surdeanu(参考訳) 本稿では、逐次データに対する理解を高めるために、リカレントニューラルネットワーク(RNN)アーキテクチャに適用可能な新しいアプローチである多重時間視点の概念を紹介する。 この方法は、以前遭遇したテキストの多様な時間的ビューを維持し、コンテキストを解釈する言語モデルの能力を大幅に強化する。 このアプローチの有効性を示すために、receptance weighted key value (rwkv)アーキテクチャに組み込んで、すべての履歴情報を単一の隠れた状態に保つという本質的な課題に対処します。 特に、この改善はパラメータの数を最小限に増やすことで達成される。 さらに、複数の時間的視点に必要な追加パラメータを最小の計算オーバーヘッドで微調整し、完全な事前トレーニングの必要性を回避する。 結果として得られたモデルは、プロンプト推論中に線形計算複雑性を維持でき、様々なシーケンス長にわたって一貫した効率を保証する。 本研究に含まれる実験結果とアブレーション研究は,本手法の有効性を検証し,複数のベンチマークにおける性能改善を示す。 コード、モデルウェイト、データセットは、https://github.com/RazvanDu/TemporalRNNsでオープンソース化されている。

We introduce the concept of multiple temporal perspectives, a novel approach applicable to Recurrent Neural Network (RNN) architectures for enhancing their understanding of sequential data. This method involves maintaining diverse temporal views of previously encountered text, significantly enriching the language models' capacity to interpret context. To show the efficacy of this approach, we incorporate it into the Receptance Weighted Key Value (RWKV) architecture, addressing its inherent challenge of retaining all historical information within a single hidden state. Notably, this improvement is achieved with a minimal increase in the number of parameters --even as little as $0.04\%$ of the original number of parameters. Further, the additional parameters necessary for the multiple temporal perspectives are fine-tuned with minimal computational overhead, avoiding the need for a full pre-training. The resulting model maintains linear computational complexity during prompt inference, ensuring consistent efficiency across various sequence lengths. The empirical results and ablation studies included in our research validate the effectiveness of our approach, showcasing improved performance across multiple benchmarks. The code, model weights and datasets are open-sourced at: https://github.com/RazvanDu/TemporalRNNs.
翻訳日:2024-02-06 18:38:02 公開日:2024-02-04
# 効率的な市場ダイナミクス: betfairの時系列分析によるイギリスの競馬賭け市場における情報効率の解明

Efficient Market Dynamics: Unraveling Informational Efficiency in UK Horse Racing Betting Markets Through Betfair's Time Series Analysis ( http://arxiv.org/abs/2402.02623v1 )

ライセンス: Link先を確認
Narayan Tondapu(参考訳) ベトフェアの時系列データを用いて、イギリス(イギリス)の競馬市場の分析は、短い尾、急速に崩壊する自己相関、長期記憶のない市場という興味深いパラドックスを明らかにしている。 ヘビーテールとボラティリティクラスタリングを特徴とする金融資産とは対照的に、賭け交換リターンにおける情報効率は著しく高いものと思われる。 一般化されたガウス的無条件分布は、知識が急速に同化され価格に反映される市場を指す。 これは、自己相関の極端に急激な減少とゲインロス非対称性の欠如によってさらに支持される。 したがって、長距離記憶を測定することに加えて、ハースト指数は平均反転を示し、市場は新鮮な情報に素早く反応する。

Using Betfair's time series data, an analysis of the United Kingdom (UK) horse racing market reveals an interesting paradox: a market with short tails, rapidly decaying autocorrelations, and no long-term memory. There seems to be a remarkably high level of informational efficiency in betting exchange returns, in contrast to financial assets that are characterized by heavy tails and volatility clustering. The generalized Gaussian unconditional distribution with a light tail point to a market where knowledge is quickly assimilated and reflected in prices. This is further supported by the extremely quick fading of autocorrelations and the absence of gain-loss asymmetry. Therefore, in addition to measuring long-range memory, the Hurst exponent also shows mean reversion, a sign that markets respond quickly to fresh information.
翻訳日:2024-02-06 18:37:44 公開日:2024-02-04
# DenseFormer: 深さ重み付け平均化によるトランスフォーマーの情報フロー向上

DenseFormer: Enhancing Information Flow in Transformers via Depth Weighted Averaging ( http://arxiv.org/abs/2402.02622v1 )

ライセンス: Link先を確認
Matteo Pagliardini, Amirkeivan Mohtashami, Francois Fleuret, Martin Jaggi(参考訳) Vaswani et al. (2017) のトランスフォーマーアーキテクチャは、自然言語処理から音声処理、画像理解に至るまで、アプリケーション領域で広く使われている。 DenseFormerは,100Bのパラメータ範囲で大規模なモデルに対する数千のパラメータを追加することで,モデルのサイズを増大させることなく,モデルの複雑度を改善する,標準アーキテクチャの簡単な修正である。 提案手法は,各変圧器ブロックの後の付加的な平均化ステップに依存し,この演算をDWA(Depth-Weighted-Average)と呼ぶ。 学習したDWA重みは情報フローのコヒーレントなパターンを示し、遠い層からの活性化の強く構造化された再利用を明らかにする。 実験により、デングフォーマーはよりデータ効率が高く、より深いトランスフォーマモデルと同じパープレキシティに達し、同じパープレキシティのために、これらの新しいモデルはメモリ効率と推論時間の観点からトランスフォーマのベースラインを上回ることが示されている。

The transformer architecture from Vaswani et al. (2017) is now ubiquitous across application domains, from natural language processing to speech processing and image understanding. We propose DenseFormer, a simple modification to the standard architecture that improves the perplexity of the model without increasing its size -- adding a few thousand parameters for large-scale models in the 100B parameters range. Our approach relies on an additional averaging step after each transformer block, which computes a weighted average of current and past representations -- we refer to this operation as Depth-Weighted-Average (DWA). The learned DWA weights exhibit coherent patterns of information flow, revealing the strong and structured reuse of activations from distant layers. Experiments demonstrate that DenseFormer is more data efficient, reaching the same perplexity of much deeper transformer models, and that for the same perplexity, these new models outperform transformer baselines in terms of memory efficiency and inference time.
翻訳日:2024-02-06 18:37:30 公開日:2024-02-04
# 検証回路の再利用による言語モデルの信頼性向上

Increasing Trust in Language Models through the Reuse of Verified Circuits ( http://arxiv.org/abs/2402.02619v1 )

ライセンス: Link先を確認
Philip Quirke, Clement Neo, Fazl Barez(参考訳) 言語モデル(LM)は、幅広い予測タスクにますます使われていますが、それらのトレーニングは稀なエッジケースを無視し、信頼性を低下させます。 ここでは、タスクアルゴリズムと回路実装を検証し、エッジケースを考慮し、既知の障害モードを含まない、厳格な信頼性基準を定義する。 数学的および論理的に規定されたフレームワークを使用して構築すれば,トランスフォーマーモデルをこの標準を満たすように訓練できることが示される。 本稿では n-桁整数加算のモデルを完全に検証する。 検証されたモジュールの再利用性を示すために、訓練された整数加算モデルを未訓練モデルに挿入し、複合モデルを訓練して加算と減算の両方を実行する。 両タスクの加算回路を広範囲に再利用し,より複雑な減算器モデルの検証を容易にする。 本稿では,検証済みのタスクモジュールをLMに挿入することで,モデルの再利用を活かし,それらを用いた言語モデルの妥当性と信頼性を向上させる方法について論じる。 検証回路の再利用により、言語モデルの安全性に向けた重要なステップであると考えられる、より複雑な複合モデルを検証する労力が削減される。

Language Models (LMs) are increasingly used for a wide range of prediction tasks, but their training can often neglect rare edge cases, reducing their reliability. Here, we define a stringent standard of trustworthiness whereby the task algorithm and circuit implementation must be verified, accounting for edge cases, with no known failure modes. We show that a transformer model can be trained to meet this standard if built using mathematically and logically specified frameworks. In this paper, we fully verify a model for n-digit integer addition. To exhibit the reusability of verified modules, we insert the trained integer addition model into an untrained model and train the combined model to perform both addition and subtraction. We find extensive reuse of the addition circuits for both tasks, easing verification of the more complex subtractor model. We discuss how inserting verified task modules into LMs can leverage model reuse to improve verifiability and trustworthiness of language models built using them. The reuse of verified circuits reduces the effort to verify more complex composite models which we believe to be a significant step towards safety of language models.
翻訳日:2024-02-06 18:37:08 公開日:2024-02-04
# Schr\"odinger's Cheshire Cat: Di\'osi-Penrose崩壊時間を測定し、目的還元(OR)を実証するためのテーブルトップ実験

Schr\"odinger's Cheshire Cat: A tabletop experiment to measure the Di\'osi-Penrose collapse time and demonstrate Objective Reduction (OR) ( http://arxiv.org/abs/2402.02618v1 )

ライセンス: Link先を確認
James Tagg, William Reid, Daniel Carlin(参考訳) 100年近くの間、シュリンガーの猫のパラドックスは未解決のままである。 なぜ我々が生きている世界は、シュル=オディンガー波方程式によって支配される量子粒子からなるにもかかわらず、なぜ古典的に見えるのか? Lajos Di\'osi と Roger Penrose は、2つの非互換な時空を記述し、量子力学と一般相対性理論の矛盾を示すため、波動関数の崩壊を提案する。 このパラドックスを避けるためには、ハイゼンベルクの時間エネルギーの不確実性限界内で崩壊を起こす必要がある。 低質量で低エネルギーの亜原子粒子は数年で崩壊し、重畳された猫はほぼ瞬時に崩壊する。 2つの小さな鏡を重ね合わせ、ダイオシ・ペンローズモデルと整合した時間で崩壊する様子を観察するテーブルトップ実験を提案する。 我々はこの実験を環境実験環境で行うために2つの手法を用いる。 ほとんどの実験では、小さな質量を大きな距離で分離する。 対照的に、我々は、自エネルギーが対応する高い崩壊時間を持つ逆平方法則に従う小さな距離で大きな質量を配置する。 さらに,対称性の破れがデコヒーレンスに依存しない崩壊を意味する対称的装置を用いる。

For nearly 100 years, the paradox of Schr\"odinger's Cat has remained unresolved. Why does the world we live in appear classical despite being composed of quantum particles governed by the Schr\"odinger wave equation? Lajos Di\'osi and Roger Penrose propose the wavefunction collapses because it describes two incompatible space-times, demonstrating an inconsistency between quantum mechanics and general relativity. To avoid this paradox, collapse must occur within Heisenberg's time-energy uncertainty limit. Subatomic particles with low mass, and correspondingly low energy, collapse in years, while superposed cats would collapse almost instantaneously. We propose a table-top experiment to put two small mirrors into superposition and observe them collapse in a time consistent with the Di\'osi-Penrose model. We employ two techniques to perform this experiment in ambient laboratory conditions. Most experiments separate a small mass by a large distance. In contrast, we displace a large mass by a small distance where the self-energy follows an inverse square law with correspondingly high collapse times. We further use a symmetrical apparatus, where a break in symmetry indicates collapse independent of decoherence.
翻訳日:2024-02-06 18:36:50 公開日:2024-02-04
# 自己教師付き音響単語埋め込みの層別分析:音声感情認識に関する研究

Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study on Speech Emotion Recognition ( http://arxiv.org/abs/2402.02617v1 )

ライセンス: Link先を確認
Alexandra Saliba, Yuanchao Li, Ramon Sanabria, Catherine Lai(参考訳) 自己教師付き音声モデルの有効性は検証されているが、その表現の最適利用は様々なタスクにおいて困難である。 本研究では,連続表現から派生した固定長特徴である音響単語埋め込み(awes)について検討し,その利点について考察する。 AWEは以前、音響識別可能性の把握に有用であることを示した。 そこで本研究では,awesと単語埋め込みの層別類似性を測定することを提案する。 さらに,音声感情認識(ser)の文脈において,他の種類の音声特徴と比較して,awesの寄与度を評価する。 比較実験と2つの異なるコーパスであるIEMOCAPとESDの階層的精度解析を通じて、AWEと生の自己監督表現の相違と、AWEのみの適切な利用と単語埋め込みの併用について検討する。 以上の結果から,AWEが伝達する音響的文脈を明確化し,AWEを適切に活用することで,競争力の高いSER精度を示すことができた。

The efficacy of self-supervised speech models has been validated, yet the optimal utilization of their representations remains challenging across diverse tasks. In this study, we delve into Acoustic Word Embeddings (AWEs), a fixed-length feature derived from continuous representations, to explore their advantages in specific tasks. AWEs have previously shown utility in capturing acoustic discriminability. In light of this, we propose measuring layer-wise similarity between AWEs and word embeddings, aiming to further investigate the inherent context within AWEs. Moreover, we evaluate the contribution of AWEs, in comparison to other types of speech features, in the context of Speech Emotion Recognition (SER). Through a comparative experiment and a layer-wise accuracy analysis on two distinct corpora, IEMOCAP and ESD, we explore differences between AWEs and raw self-supervised representations, as well as the proper utilization of AWEs alone and in combination with word embeddings. Our findings underscore the acoustic context conveyed by AWEs and showcase the highly competitive SER accuracies by appropriately employing AWEs.
翻訳日:2024-02-06 18:36:29 公開日:2024-02-04
# 逆強化学習における悲観主義の徳

The Virtues of Pessimism in Inverse Reinforcement Learning ( http://arxiv.org/abs/2402.02616v1 )

ライセンス: Link先を確認
David Wu and Gokul Swamy and J. Andrew Bagnell and Zhiwei Steven Wu and Sanjiban Choudhury(参考訳) 逆強化学習(IRL)は、専門家によるデモンストレーションから複雑な振る舞いを学ぶための強力なフレームワークである。 しかし、伝統的に計算に高価な強化学習(RL)問題を内部ループで繰り返し解く必要がある。 内ループRLにおける専門家のデモンストレーションを活用することにより、探査負担を軽減することが望ましい。 例えば、最近の研究は、学習者を専門家状態にリセットし、学習者に高水準の専門家状態を伝える。 しかし、そのようなアプローチは現実世界では実現不可能である。 本研究では、IRLにおけるRLサブルーチンを高速化する代替手法について考察する: \emph{pessimism}、すなわち、オフラインのRLアルゴリズムを用いてインスタンス化される専門家のデータ分布に近づき続ける。 オフラインRLとIRLの接続を形式化し、任意のオフラインRLアルゴリズムを用いてIRLのサンプリング効率を向上させる。 我々は,オフラインrlアルゴリズムの有効性と,irl手続きの一部としての有効性との間に強い相関関係を実証し,実験的に検証した。 強力なオフラインRLアルゴリズムをIRLプロシージャの一部として使用することにより、専門家のパフォーマンスに匹敵するポリシーを従来よりもはるかに効率的に見つけることができる。

Inverse Reinforcement Learning (IRL) is a powerful framework for learning complex behaviors from expert demonstrations. However, it traditionally requires repeatedly solving a computationally expensive reinforcement learning (RL) problem in its inner loop. It is desirable to reduce the exploration burden by leveraging expert demonstrations in the inner-loop RL. As an example, recent work resets the learner to expert states in order to inform the learner of high-reward expert states. However, such an approach is infeasible in the real world. In this work, we consider an alternative approach to speeding up the RL subroutine in IRL: \emph{pessimism}, i.e., staying close to the expert's data distribution, instantiated via the use of offline RL algorithms. We formalize a connection between offline RL and IRL, enabling us to use an arbitrary offline RL algorithm to improve the sample efficiency of IRL. We validate our theory experimentally by demonstrating a strong correlation between the efficacy of an offline RL algorithm and how well it works as part of an IRL procedure. By using a strong offline RL algorithm as part of an IRL procedure, we are able to find policies that match expert performance significantly more efficiently than the prior art.
翻訳日:2024-02-06 18:36:09 公開日:2024-02-04
# PuzzleBench: LLMは第一級のコンビネーション推論問題を解決することができるか?

PuzzleBench: Can LLMs Solve Challenging First-Order Combinatorial Reasoning Problems? ( http://arxiv.org/abs/2402.02611v1 )

ライセンス: Link先を確認
Chinmay Mittal, Krishna Kartik, Mausam, Parag Singla(参考訳) 最近の研究は、論理的質問応答のような比較的単純な問題に焦点をあてた推論タスクにLLMを使うことを探求している。 私たちの仕事では、より複雑な問題に取り組み、これらのモデルの能力を大きく拡大したいと考えています。 特に,LLMが難解な1次組合せ推論問題を解くことができるかどうかを考察する。 これらの問題は、自然言語の一般的な記述によって記述される基礎となる一階構造を持ち、様々なサイズのインスタンスにインスタンス化することができる。 さらに、これらの問題は、解に到達するためにいくつかの推論ステップを必要としている。 我々はPuzzleBenchに31の挑戦パズルのデータセットを提示する。 シンボリック・ソルバの助けを借りても, LLM はベンチマークではかなり低性能である。 そこで我々は,llm とシンボリックソルバとプログラムインタプリタを組み合わせることで,問題に対する推論を可能にする新しい手法である puzzle-lm を提案する。 また、より小さなインスタンスからのフィードバックが、この推論能力を改善する方法も示しています。

Recent works have explored the use of LLMs for reasoning tasks focussing on relatively simple problems, such as logical question answering. In our work, we wish to tackle more complicated problems, significantly expanding the capabilities of these models. Particularly, we explore whether LLMs can solve challenging first-order combinatorial reasoning problems, an example being the popular puzzle Sudoku. These problems have an underlying first-order structure described by a general description in natural language and can be instantiated to instances of varying sizes. Moreover these problems are computationally intensive requiring several reasoning steps to reach the solution. We present PuzzleBench a dataset of 31 such challenging puzzles. We observe that LLMs even when aided by symbolic solvers perform rather poorly on our benchmark. In response we propose a new approach, Puzzle-LM which combines LLMs with both symbolic solvers and program interpreters enabling them to reason about such challenging problems. We also show how feedback from smaller solved instances can help improve this reasoning ability.
翻訳日:2024-02-06 18:35:50 公開日:2024-02-04
# エキスパートブートストラップによる逆強化学習の高速化

Accelerating Inverse Reinforcement Learning with Expert Bootstrapping ( http://arxiv.org/abs/2402.02608v1 )

ライセンス: Link先を確認
David Wu and Sanjiban Choudhury(参考訳) 既存の逆強化学習手法(例えばmaxentirl、$f$-irl)は、候補報酬関数を探索し、内側ループにおける強化学習問題を解決する。 これは、難しい問題である強化学習が、おそらくより簡単な問題である模倣学習の内輪にある、かなり奇妙な逆転を生み出します。 本研究では,専門家による実演の活用により,内部rlループのハード探索の必要性が軽減され,学習が促進されることを示す。 具体的には,(1)学習者に広範囲な探索を通じて発見を強制するのではなく,直接高報酬状態を知らせる内部rlアルゴリズムのリプレイバッファに専門家遷移を配置すること,(2)目標のq値推定を改善するためにq値ブートストラップにおけるエキスパートアクションを使用すること,およびより正確に高価値なエキスパート状態を記述すること,の2つの簡単なレシピを提案する。 提案手法は,MuJoCoのベンチマークスイート上でのMaxEntIRLベースラインよりも大幅に向上し,HalfCheetah-v2では2.13倍,Ant-v2では2.6倍,Hopper-v2では18倍,Walker2d-v2では3.36倍に回復した。

Existing inverse reinforcement learning methods (e.g. MaxEntIRL, $f$-IRL) search over candidate reward functions and solve a reinforcement learning problem in the inner loop. This creates a rather strange inversion where a harder problem, reinforcement learning, is in the inner loop of a presumably easier problem, imitation learning. In this work, we show that better utilization of expert demonstrations can reduce the need for hard exploration in the inner RL loop, hence accelerating learning. Specifically, we propose two simple recipes: (1) placing expert transitions into the replay buffer of the inner RL algorithm (e.g. Soft-Actor Critic) which directly informs the learner about high reward states instead of forcing the learner to discover them through extensive exploration, and (2) using expert actions in Q value bootstrapping in order to improve the target Q value estimates and more accurately describe high value expert states. Our methods show significant gains over a MaxEntIRL baseline on the benchmark MuJoCo suite of tasks, speeding up recovery to 70\% of deterministic expert performance by 2.13x on HalfCheetah-v2, 2.6x on Ant-v2, 18x on Hopper-v2, and 3.36x on Walker2d-v2.
翻訳日:2024-02-06 18:35:33 公開日:2024-02-04
# 難読化によるディープラーニングに基づくマルウェア検出:深層強化学習アプローチ

Evading Deep Learning-Based Malware Detectors via Obfuscation: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2402.02600v1 )

ライセンス: Link先を確認
Brian Etter, James Lee Hu, Mohammedreza Ebrahimi, Weifeng Li, Xin Li, Hsinchun Chen(参考訳) 敵対的マルウェア生成 (AMG) は、ディープラーニング(DL)ベースのマルウェア検出装置を強化するために、攻撃的サイバー防御の開発において重要なツールとして登場した。 しかし、現存する作品の大部分は、実行ファイルへの微妙な摂動や追加を提供し、フルファイルの難読化を探求していない。 本研究では,強化学習(rl)フレームワークと組み合わされたオープンソース暗号化ツールによって,マルウェアを隠蔽して最先端のマルウェア検出エンジンを回避し,高度な修正手法を用いた手法を上回ることができることを示す。 提案手法は,最先端の強化学習法と比較して,回避率を27%~49%に向上することを示した。

Adversarial Malware Generation (AMG), the generation of adversarial malware variants to strengthen Deep Learning (DL)-based malware detectors has emerged as a crucial tool in the development of proactive cyberdefense. However, the majority of extant works offer subtle perturbations or additions to executable files and do not explore full-file obfuscation. In this study, we show that an open-source encryption tool coupled with a Reinforcement Learning (RL) framework can successfully obfuscate malware to evade state-of-the-art malware detection engines and outperform techniques that use advanced modification methods. Our results show that the proposed method improves the evasion rate from 27%-49% compared to widely-used state-of-the-art reinforcement learning-based methods.
翻訳日:2024-02-06 18:34:53 公開日:2024-02-04
# 確率的置換による状態拡張による変分DAG推定

Variational DAG Estimation via State Augmentation With Stochastic Permutations ( http://arxiv.org/abs/2402.02644v1 )

ライセンス: Link先を確認
Edwin V. Bonilla, Pantelis Elinas, He Zhao, Maurizio Filippone, Vassili Kitsios, Terry O'Kane(参考訳) 観測データから有向非巡回グラフ(DAG)の形でベイズネットワークの構造を推定することは、因果発見などの分野における本質的な応用を伴う統計的かつ計算的に難しい問題である。 ベイジアンアプローチは不確実性定量化を可能にし、よく知られた識別可能性問題に対処するため、この課題を解決するための有望な方向である。 確率論的推論の観点からすると 主な課題は (i)dag制約を満たすグラフ上の分布を表すこと、及び (ii)基礎となる組合せ空間の後方を推定する。 そこで本稿では,DAGと置換の強化空間上に共同分布を定式化する手法を提案する。 本研究では,離散分布の連続的緩和を生かした変分推論による後続推定を行う。 提案手法は, ベイジアンおよび非ベイジアンベンチマークを, 様々な合成および実データセットで上回ることを示す。

Estimating the structure of a Bayesian network, in the form of a directed acyclic graph (DAG), from observational data is a statistically and computationally hard problem with essential applications in areas such as causal discovery. Bayesian approaches are a promising direction for solving this task, as they allow for uncertainty quantification and deal with well-known identifiability issues. From a probabilistic inference perspective, the main challenges are (i) representing distributions over graphs that satisfy the DAG constraint and (ii) estimating a posterior over the underlying combinatorial space. We propose an approach that addresses these challenges by formulating a joint distribution on an augmented space of DAGs and permutations. We carry out posterior estimation via variational inference, where we exploit continuous relaxations of discrete distributions. We show that our approach can outperform competitive Bayesian and non-Bayesian benchmarks on a range of synthetic and real datasets.
翻訳日:2024-02-06 18:25:15 公開日:2024-02-04
# LLMによるデータ管理

LLM-Enhanced Data Management ( http://arxiv.org/abs/2402.02643v1 )

ライセンス: Link先を確認
Xuanhe Zhou, Xinyang Zhao, Guoliang Li(参考訳) データ管理問題を最適化するための機械学習(ML)技術は、近年広く研究され、広く展開されている。 しかしながら、従来のmlメソッドは、一般化可能性(異なるシナリオに適応する)と推論能力(コンテキストを理解する)に制限がある。 幸いなことに、大規模言語モデル(LLM)は、データ管理タスク(例えば、データベース診断、データベースチューニング)を約束するコンテキスト理解において、高い一般化性と人間競合能力を示している。 しかし、既存のLLMには幻覚、高コスト、複雑なタスクに対する低精度のいくつかの制限がある。 これらの課題に対処するために,幻覚を回避し,LLMコストを低減し,高い精度を実現するとともに,一般化性と高い推論能力を有するLLMDBを設計する。 LLMDBは、LLMの微調整による幻覚を避けるために、ドメイン固有の知識を埋め込んだ。 LLMDBは、セマンティック検索とキャッシング機能を提供するベクトルデータベースにより、LCMのコストを下げる。 LLMDBはマルチラウンド推論とパイプライン実行を提供するLLMエージェントによってタスクの精度を向上させる。 LLMDBはクエリの書き直し、データベースの診断、データ分析など、実世界のシナリオを3つ紹介する。 LLMDBのオープンな研究課題についてもまとめる。

Machine learning (ML) techniques for optimizing data management problems have been extensively studied and widely deployed in recent five years. However traditional ML methods have limitations on generalizability (adapting to different scenarios) and inference ability (understanding the context). Fortunately, large language models (LLMs) have shown high generalizability and human-competitive abilities in understanding context, which are promising for data management tasks (e.g., database diagnosis, database tuning). However, existing LLMs have several limitations: hallucination, high cost, and low accuracy for complicated tasks. To address these challenges, we design LLMDB, an LLM-enhanced data management paradigm which has generalizability and high inference ability while avoiding hallucination, reducing LLM cost, and achieving high accuracy. LLMDB embeds domain-specific knowledge to avoid hallucination by LLM fine-tuning and prompt engineering. LLMDB reduces the high cost of LLMs by vector databases which provide semantic search and caching abilities. LLMDB improves the task accuracy by LLM agent which provides multiple-round inference and pipeline executions. We showcase three real-world scenarios that LLMDB can well support, including query rewrite, database diagnosis and data analytics. We also summarize the open research challenges of LLMDB.
翻訳日:2024-02-06 18:25:01 公開日:2024-02-04
# オブジェクトグラフプログラミング

Object Graph Programming ( http://arxiv.org/abs/2402.02642v1 )

ライセンス: Link先を確認
Aditya Thimmaiah, Leonidas Lampropoulos, Christopher J. Rossbach and Milos Gligoric(参考訳) 我々はオブジェクトグラフプログラミング(OGO)を導入し、宣言型クエリを通じてオブジェクトグラフ(すなわちオブジェクトヒープの全体状態)の読み取りと修正を可能にする。 ogoはヒープ内のオブジェクトとその関係をオブジェクトグラフとしてモデル化し、ヒープをグラフデータベースとして扱う。グラフの各ノードはオブジェクト(例えば、クラスのインスタンスまたはメタデータクラスのインスタンス)であり、各エッジはオブジェクト間の関係(例えば、1つのオブジェクトのフィールドが別のオブジェクトを参照する)である。 グラフデータベースでもっとも人気のあるクエリ言語であるcypherをogoのクエリ言語として活用しています。 データソースとしてコレクション(例えばList)を使用するLINQとは異なり、OGOはオブジェクトグラフ全体を単一の"コレクション"として見ている。 OGOはコレクションのクエリ(LINQと同じように)、ランタイムシステム状態のイントロスペクション(例えば、あるクラスのすべてのインスタンスを見つけたり、リフレクションを通じてフィールドにアクセスする)、プログラム状態全体にアクセスするアサーションを書くのに最適である。 OGO for Javaのプロトタイプは2つあります。 (a) オブジェクトグラフを、cypherクエリを実行するneo4jデータベースに変換することにより、 b) オブジェクトヒープを直接クエリする独自のインメモリグラフクエリエンジンを実装することで。 OGOを使って、大規模なオープンソースプロジェクトで数百のステートメントをOGOクエリに書き直しました。 プロトタイプの体験と性能を報告します。

We introduce Object Graph Programming (OGO), which enables reading and modifying an object graph (i.e., the entire state of the object heap) via declarative queries. OGO models the objects and their relations in the heap as an object graph thereby treating the heap as a graph database: each node in the graph is an object (e.g., an instance of a class or an instance of a metadata class) and each edge is a relation between objects (e.g., a field of one object references another object). We leverage Cypher, the most popular query language for graph databases, as OGO's query language. Unlike LINQ, which uses collections (e.g., List) as a source of data, OGO views the entire object graph as a single "collection". OGO is ideal for querying collections (just like LINQ), introspecting the runtime system state (e.g., finding all instances of a given class or accessing fields via reflection), and writing assertions that have access to the entire program state. We prototyped OGO for Java in two ways: (a) by translating an object graph into a Neo4j database on which we run Cypher queries, and (b) by implementing our own in-memory graph query engine that directly queries the object heap. We used OGO to rewrite hundreds of statements in large open-source projects into OGO queries. We report our experience and performance of our prototypes.
翻訳日:2024-02-06 18:24:40 公開日:2024-02-04
# 重要なことを行う方法":言語技術による内在的コミュニティをより良いものにするためにプロセスに取り組む

It's how you do things that matters": Attending to Process to Better Serve Indigenous Communities with Language Technologies ( http://arxiv.org/abs/2402.02639v1 )

ライセンス: Link先を確認
Ned Cooper, Courtney Heldreth, Ben Hutchinson(参考訳) 言語は歴史的に自然言語処理(NLP)技術で守られていないが、近年の大規模多言語モデルのスケーリングや、絶滅危惧言語に対するNLPコミュニティの関心の高まりにより、いくつかの言語では変化している。 本稿では,これらのプロジェクトが主に先住民コミュニティに役立てるべきという前提に基づいて,先住民言語のためのNLP技術構築における倫理的配慮について考察する。 オーストラリアにおける言語技術プロジェクトにおいて,アボリジニやトーレス海峡の島民コミュニティに勤務する17人の研究者とのインタビューを報告する。 インタビューから得られた知見に基づき,NLP研究者は,非コンテクスト化された人工物にのみ焦点をあてるのではなく,先住民コミュニティとの関わりに注意を向けるよう推奨する。

Indigenous languages are historically under-served by Natural Language Processing (NLP) technologies, but this is changing for some languages with the recent scaling of large multilingual models and an increased focus by the NLP community on endangered languages. This position paper explores ethical considerations in building NLP technologies for Indigenous languages, based on the premise that such projects should primarily serve Indigenous communities. We report on interviews with 17 researchers working in or with Aboriginal and/or Torres Strait Islander communities on language technology projects in Australia. Drawing on insights from the interviews, we recommend practices for NLP researchers to increase attention to the process of engagements with Indigenous communities, rather than focusing only on decontextualised artefacts.
翻訳日:2024-02-06 18:24:14 公開日:2024-02-04
# C^*$-algebraic Machine Learning: 新しい方向への移行

$C^*$-Algebraic Machine Learning: Moving in a New Direction ( http://arxiv.org/abs/2402.02637v1 )

ライセンス: Link先を確認
Yuka Hashimoto, Masahiro Ikeda, and Hachem Kadri(参考訳) 機械学習は、統計学、確率、線形代数など、数学のいくつかの分野と長い協力関係を持つ。 c^*$-algebraic ml $-$ $c^*$-algebraと機械学習の相互受精である。 c^*$-代数の数学的概念は複素数の空間の自然な一般化である。 これにより、既存の学習戦略を統一し、より多様で情報豊富なデータモデルのための新しいフレームワークを構築することができます。 本稿では、機械学習における$c^*$-algebrasの使用理由と利用方法を説明し、カーネルメソッドとニューラルネットワークのコンテキストにおける$c^*$-algebraic学習モデルの設計に係わる技術的考察を提供する。 さらに,$c^*$-algebraic mlにおけるオープン質問と課題を議論し,今後の開発と応用への考え方を述べる。

Machine learning has a long collaborative tradition with several fields of mathematics, such as statistics, probability and linear algebra. We propose a new direction for machine learning research: $C^*$-algebraic ML $-$ a cross-fertilization between $C^*$-algebra and machine learning. The mathematical concept of $C^*$-algebra is a natural generalization of the space of complex numbers. It enables us to unify existing learning strategies, and construct a new framework for more diverse and information-rich data models. We explain why and how to use $C^*$-algebras in machine learning, and provide technical considerations that go into the design of $C^*$-algebraic learning models in the contexts of kernel methods and neural networks. Furthermore, we discuss open questions and challenges in $C^*$-algebraic ML and give our thoughts for future development and applications.
翻訳日:2024-02-06 18:23:59 公開日:2024-02-04
# 大規模言語モデルは独立因果メカニズムを学習できるか?

Can Large Language Models Learn Independent Causal Mechanisms? ( http://arxiv.org/abs/2402.02636v1 )

ライセンス: Link先を確認
Ga\"el Gendron, Bao Trung Nguyen, Alex Yuxuan Peng, Michael Witbrock, Gillian Dobbie(参考訳) 言語モデリングや複雑な推論タスクでの印象的なパフォーマンスにもかかわらず、大きな言語モデル(llm)は一般的でない設定や分散シフトで同じタスクに不足し、一般化能力に欠ける。 この問題は通常、LLMにより多くのトレーニングデータを供給することで緩和されている。 しかし、この方法は不安定であり、タスクの範囲は容易に予測できないか、あるいは進化する可能性があり、新しいデータでモデルを更新するには、一般的に広範な追加のトレーニングが必要である。 対照的に、抽象変数や因果関係を学習する因果モデルのようなシステムは、分布の変化に対する堅牢性を高めることができる。 この成功の1つの理由は独立因果メカニズム(ICMs)の存在と使用であり、緩やかな相互作用のみを表現している。 本研究では、因果性から2つの概念を適用し、LCM内でICMを学習する。 我々は,複数の疎相互作用言語モデリングモジュールからなる新しいLLMアーキテクチャを開発した。 本稿では,ネットワークをドメイン固有モジュールに特殊化するルーティング方式を提案する。 また,分離モジュールを訓練して抽象化やドメイン不変機構を学習する相互情報最小化目標も提示する。 このような因果的制約は,抽象的および因果的推論タスクにおける分散的性能を向上させる。

Despite impressive performance on language modelling and complex reasoning tasks, Large Language Models (LLMs) fall short on the same tasks in uncommon settings or with distribution shifts, exhibiting some lack of generalisation ability. This issue has usually been alleviated by feeding more training data into the LLM. However, this method is brittle, as the scope of tasks may not be readily predictable or may evolve, and updating the model with new data generally requires extensive additional training. By contrast, systems, such as causal models, that learn abstract variables and causal relationships can demonstrate increased robustness against changes in the distribution. One reason for this success is the existence and use of Independent Causal Mechanisms (ICMs) representing high-level concepts that only sparsely interact. In this work, we apply two concepts from causality to learn ICMs within LLMs. We develop a new LLM architecture composed of multiple sparsely interacting language modelling modules. We introduce a routing scheme to induce specialisation of the network into domain-specific modules. We also present a Mutual Information minimisation objective that trains a separate module to learn abstraction and domain-invariant mechanisms. We show that such causal constraints can improve out-of-distribution performance on abstract and causal reasoning tasks.
翻訳日:2024-02-06 18:23:44 公開日:2024-02-04
# 画像復元用キーグラフトランス

Key-Graph Transformer for Image Restoration ( http://arxiv.org/abs/2402.02634v1 )

ライセンス: Link先を確認
Bin Ren, Yawei Li, Jingyun Liang, Rakesh Ranjan, Mengyuan Liu, Rita Cucchiara, Luc Van Gool, Nicu Sebe(参考訳) 効率的な画像復元(IR)のためには,グローバルな情報を捕捉することが重要であるが,特に高い入力解像度で,トランスフォーマーベースの手法に統合することは,計算コストが高くなる。 さらに、トランスにおける自己保持機構は、非関係なオブジェクトや領域からの不要なグローバルな手がかりを考慮し、計算の非効率性を導入する傾向にある。 これらの課題に対応するために,本稿ではキーグラフ変換器(KGT)を紹介する。 具体的には、パッチ機能をグラフノードとして見る。 提案するキーグラフコンストラクタは、すべてのノードではなく必須ノードを選択的に接続することにより、スパースだが代表的なキーグラフを効率的に形成する。 次に、各ウィンドウ内で線形計算複雑性を有する選択ノード間でのみ、キーグラフの指導の下で提案鍵グラフの注意を行う。 6つのIRタスクにわたる広範囲な実験により、提案されたKGTの最先端性能が確認され、定量的かつ定性的に進歩することが示されている。

While it is crucial to capture global information for effective image restoration (IR), integrating such cues into transformer-based methods becomes computationally expensive, especially with high input resolution. Furthermore, the self-attention mechanism in transformers is prone to considering unnecessary global cues from unrelated objects or regions, introducing computational inefficiencies. In response to these challenges, we introduce the Key-Graph Transformer (KGT) in this paper. Specifically, KGT views patch features as graph nodes. The proposed Key-Graph Constructor efficiently forms a sparse yet representative Key-Graph by selectively connecting essential nodes instead of all the nodes. Then the proposed Key-Graph Attention is conducted under the guidance of the Key-Graph only among selected nodes with linear computational complexity within each window. Extensive experiments across 6 IR tasks confirm the proposed KGT's state-of-the-art performance, showcasing advancements both quantitatively and qualitatively.
翻訳日:2024-02-06 18:23:27 公開日:2024-02-04
# 低リソース言語における機械翻訳性能の予測:ドメイン類似性の役割

Predicting Machine Translation Performance on Low-Resource Languages: The Role of Domain Similarity ( http://arxiv.org/abs/2402.02633v1 )

ライセンス: Link先を確認
Eric Khiu, Hasti Toossi, David Anugraha, Jinyu Liu, Jiaxu Li, Juan Armando Parra Flores, Leandro Acros Roman, A. Seza Do\u{g}ru\"oz, En-Shiun Annie Lee(参考訳) 多言語大言語モデルの微調整とテストは、低リソース言語(LRL)では高価で難しい。 従来の研究では、機械学習手法を用いた自然言語処理(NLP)タスクのパフォーマンスを予測していたが、主に高リソース言語に焦点を当て、LRLを見下ろし、ドメイン間のシフトを回避した。 LRLに着目し,細調整コーパスのサイズ,細調整コーパスとテストコーパスのドメイン類似度,およびソース言語とターゲット言語の言語類似度について検討した。 これらの要因がモデルのパフォーマンスに与える影響を評価するために、古典的な回帰モデルを使用します。 結果から,ドメインの類似性は機械翻訳モデルの性能予測に最も重要な影響を及ぼすことが示された。

Fine-tuning and testing a multilingual large language model is expensive and challenging for low-resource languages (LRLs). While previous studies have predicted the performance of natural language processing (NLP) tasks using machine learning methods, they primarily focus on high-resource languages, overlooking LRLs and shifts across domains. Focusing on LRLs, we investigate three factors: the size of the fine-tuning corpus, the domain similarity between fine-tuning and testing corpora, and the language similarity between source and target languages. We employ classical regression models to assess how these factors impact the model's performance. Our results indicate that domain similarity has the most critical impact on predicting the performance of Machine Translation models.
翻訳日:2024-02-06 18:23:11 公開日:2024-02-04
# GIRT-Model:イシューレポートテンプレートの自動生成

GIRT-Model: Automated Generation of Issue Report Templates ( http://arxiv.org/abs/2402.02632v1 )

ライセンス: Link先を確認
Nafiseh Nikeghbal, Amir Hossein Kargaran, Abbas Heydarnoori(参考訳) GitHubやGitLabのようなプラットフォームはイシューレポートテンプレート(IRT)を導入し、より効果的なイシュー管理と開発者の期待との整合性を高める。 しかし、これらのテンプレートは殆どのリポジトリでは広く採用されておらず、現在、開発者がそれらを生成するのを助けるツールが存在しない。 本稿では,GIRT-Modelを紹介する。GIRT-Modelは,その構造と必要なフィールドに関する開発者の指示に基づいて,IRTを自動的に生成するアシスタント言語モデルである。 GIRT-Instructは、インストラクションとIRTのペアからなるデータセットで、IRTはGitHubリポジトリからソースされています。 girt-instruct を使って t5-base モデルを命令調整して girt-model を作成する。 実験では,irt生成における一般的な言語モデル(t5,flan-t5のパラメータサイズが異なる)よりも,ルージュ,ブルー,流星,ヒトの評価において有意に高いスコアを得られる。 さらに、参加者が短いIRTをGIRT-Modelで作成するユーザスタディにおいて、GIRT-Modelの有効性を分析する。 その結果,girt-modelはテンプレートの自動生成に有用であることが判明した。 girt-modelを使用することで、より多くの開発者がirtsをリポジトリに採用できることを願っています。 コード、データセット、モデルをhttps://github.com/ISE-Research/girt-modelで公開しています。

Platforms such as GitHub and GitLab introduce Issue Report Templates (IRTs) to enable more effective issue management and better alignment with developer expectations. However, these templates are not widely adopted in most repositories, and there is currently no tool available to aid developers in generating them. In this work, we introduce GIRT-Model, an assistant language model that automatically generates IRTs based on the developer's instructions regarding the structure and necessary fields. We create GIRT-Instruct, a dataset comprising pairs of instructions and IRTs, with the IRTs sourced from GitHub repositories. We use GIRT-Instruct to instruction-tune a T5-base model to create the GIRT-Model. In our experiments, GIRT-Model outperforms general language models (T5 and Flan-T5 with different parameter sizes) in IRT generation by achieving significantly higher scores in ROUGE, BLEU, METEOR, and human evaluation. Additionally, we analyze the effectiveness of GIRT-Model in a user study in which participants wrote short IRTs with GIRT-Model. Our results show that the participants find GIRT-Model useful in the automated generation of templates. We hope that through the use of GIRT-Model, we can encourage more developers to adopt IRTs in their repositories. We publicly release our code, dataset, and model at https://github.com/ISE-Research/girt-model.
翻訳日:2024-02-06 18:22:59 公開日:2024-02-04
# 理解への学習:Mobius変換によるインタラクションの特定

Learning to Understand: Identifying Interactions via the Mobius Transform ( http://arxiv.org/abs/2402.02631v1 )

ライセンス: Link先を確認
Justin S. Kang, Yigit E. Erginbas, Landon Butler, Ramtin Pedarsani, Kannan Ramchandran(参考訳) 機械学習における最も根本的な問題の1つは、我々が学習する関数の解釈可能な表現を見つけることである。 Mobius変換は、その係数が入力変数の集合上のユニークな重要なスコアに対応するため、このために有用なツールである。 Mobius Transform は、ゲーム理論における重要概念であるShapley value の概念と強く関連している(場合によっては同等である)。 この研究は、非零モビウス係数の分数(したがって入力間の相互作用)が、$n$入力間の2^n$ 可能なすべての相互作用の集合に比べて小さい(典型的な)レジームに焦点を当てている。 k = o(2^{n \delta})$ with $\delta \leq \frac{1}{3}$ non-zero 係数がランダムに選択されたとき、このアルゴリズムは、o(kn)$ のサンプルでモビウス変換を正確に回復し、o(kn^2)$ のエラーが消えると、k \rightarrow \infty$ となる。 また、グループテストとMobius変換の驚くべき関係も明らかにしました。 すべての相互作用が少なくとも$t = \Theta(n^{\alpha})$入力の間にある場合、$\alpha < 0.409$に対して、グループテストの結果を活用して、$O(Kt\log n)$サンプル複雑性と$O(K\mathrm{poly}(n))$エラーを消滅した時間を$K \rightarrow \infty$で計算する最初のアルゴリズムを提供する。 最後に、このアルゴリズムの頑健なバージョンを示し、いくつかの仮定の下で同じサンプルと時間複雑性を達成するが、ノイズ分散に依存する要因を持つ。 私たちの研究は、信号処理、代数、情報理論、学習理論、グループテストにまたがるツールから、機械学習の最前線でこの重要な問題に対処するために、深く学際的です。

One of the most fundamental problems in machine learning is finding interpretable representations of the functions we learn. The Mobius transform is a useful tool for this because its coefficients correspond to unique importance scores on sets of input variables. The Mobius Transform is strongly related (and in some cases equivalent) to the concept of Shapley value, which is a widely used game-theoretic notion of importance. This work focuses on the (typical) regime where the fraction of non-zero Mobius coefficients (and thus interactions between inputs) is small compared to the set of all $2^n$ possible interactions between $n$ inputs. When there are $K = O(2^{n \delta})$ with $\delta \leq \frac{1}{3}$ non-zero coefficients chosen uniformly at random, our algorithm exactly recovers the Mobius transform in $O(Kn)$ samples and $O(Kn^2)$ time with vanishing error as $K \rightarrow \infty$, the first non-adaptive algorithm to do so. We also uncover a surprising connection between group testing and the Mobius transform. In the case where all interactions are between at most $t = \Theta(n^{\alpha})$ inputs, for $\alpha < 0.409$, we are able to leverage results from group testing to provide the first algorithm that computes the Mobius transform in $O(Kt\log n)$ sample complexity and $O(K\mathrm{poly}(n))$ time with vanishing error as $K \rightarrow \infty$. Finally, we present a robust version of this algorithm that achieves the same sample and time complexity under some assumptions, but with a factor depending on noise variance. Our work is deeply interdisciplinary, drawing from tools spanning across signal processing, algebra, information theory, learning theory and group testing to address this important problem at the forefront of machine learning.
翻訳日:2024-02-06 18:22:36 公開日:2024-02-04
# データ圧縮による一般化とロバスト性のための大規模言語モデルの評価

Evaluating Large Language Models for Generalization and Robustness via Data Compression ( http://arxiv.org/abs/2402.00861v2 )

ライセンス: Link先を確認
Yucheng Li, Yunhao Guo, Frank Guerin, Chenghua Lin(参考訳) 既存の大規模言語モデルの評価方法は、データの汚染、プロンプトに対する感度、ベンチマーク作成のコストなどの課題に直面している。 そこで本研究では,学習停止後のモデルの予測能力の一般化を検証し,損失のないデータ圧縮に基づく評価手法を提案する。 具体的には、2017年から2023年までの83ヶ月にわたる包括的なテストデータを収集し、モデルのトレーニングデータ遮断に従って、データをトレーニングとテスト期間に分割します。 測定します 1) 目に見えないデータの一般化の手段としての試験期間における圧縮性能 2) 頑健性の尺度として, 訓練期間と試験期間の成績差が認められた。 我々の実験では、ウィキペディア、ニュース記事、コード、arxiv論文、マルチモーダルデータなど、さまざまな大きさの大規模言語モデル14をテストした。 しかし,mistralやllama-2などのモデルでは,性能とロバスト性のバランスが良好であることが判明した。 結果は、モデルがニュースやコードデータの一般化に苦しむが、特にarxivの論文でうまく機能することを示唆している。 また、コンテキストサイズとトークン化の実装が、全体的な圧縮パフォーマンスに大きな影響を与えることも分かりました。

Existing methods for evaluating large language models face challenges such as data contamination, sensitivity to prompts, and the high cost of benchmark creation. To address this, we propose a lossless data compression based evaluation approach that tests how models' predictive abilities generalize after their training cutoff. Specifically, we collect comprehensive test data spanning 83 months from 2017 to 2023 and split the data into training and testing periods according to models' training data cutoff. We measure: 1) the compression performance on the testing period as a measure of generalization on unseen data; and 2) the performance gap between the training and testing period as a measure of robustness. Our experiments test 14 representative large language models with various sizes on sources including Wikipedia, news articles, code, arXiv papers, and multi-modal data. We find that the compression rate of many models reduces significantly after their cutoff date, but models such as Mistral and Llama-2 demonstrate a good balance between performance and robustness. Results also suggest that models struggle to generalize on news and code data, but work especially well on arXiv papers. We also find the context size and tokenization implementation have a big impact of on the overall compression performance.
翻訳日:2024-02-06 12:12:20 公開日:2024-02-04
# Formal-LLM:制御可能なLLMエージェントのための形式言語と自然言語の統合

Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents ( http://arxiv.org/abs/2402.00798v2 )

ライセンス: Link先を確認
Zelong Li, Wenyue Hua, Hao Wang, He Zhu, Yongfeng Zhang(参考訳) 近年のLarge Language Models(LLM)の進歩により、AI Agentsは複雑なタスクを解決するためのマルチステッププランを自動的に生成し実行できるようになる。 しかし、LCMのコンテンツ生成プロセスはほとんど制御できないため、現在のLCMベースのエージェントは、しばしば無効または非実行可能なプランを生成し、生成されたプランの性能を損なうとともに、LCMベースのエージェントに対するユーザの信頼を損なう。 そこで本稿では,自然言語の表現力と形式言語の正確性を統合し,llmに基づくエージェントのための新しいフレームワークである`formal-llm'を提案する。 具体的には、このフレームワークによって、人間ユーザは、計画プロセスに対する要求や制約をオートマトンとして表現できる。 スタックベースのLCM計画生成プロセスは、自動制御の監督の下で実行され、生成した計画が制約を満たすことを保証し、計画プロセスの制御が可能である。 ベンチマークタスクと実運用タスクの両方で実験を行い、我々のフレームワークは50%以上の全体的なパフォーマンス向上を実現し、フォーマルLLMを用いてエージェントの計画生成を誘導し、エージェントが無効で失敗するのを防ぐことの実現可能性と有効性を検証する。 さらに、より制御可能なLCMベースのエージェントは、高い計画の有効性が不可欠であるアプリケーションシナリオにおいて、LCMのより広範な利用を促進することができる。 作品はhttps://github.com/agiresearch/formal-llmでオープンソース公開されている。

Recent advancements on Large Language Models (LLMs) enable AI Agents to automatically generate and execute multi-step plans to solve complex tasks. However, since LLM's content generation process is hardly controllable, current LLM-based agents frequently generate invalid or non-executable plans, which jeopardizes the performance of the generated plans and corrupts users' trust in LLM-based agents. In response, this paper proposes a novel ``Formal-LLM'' framework for LLM-based agents by integrating the expressiveness of natural language and the precision of formal language. Specifically, the framework allows human users to express their requirements or constraints for the planning process as an automaton. A stack-based LLM plan generation process is then conducted under the supervision of the automaton to ensure that the generated plan satisfies the constraints, making the planning process controllable. We conduct experiments on both benchmark tasks and practical real-life tasks, and our framework achieves over 50% overall performance increase, which validates the feasibility and effectiveness of employing Formal-LLM to guide the plan generation of agents, preventing the agents from generating invalid and unsuccessful plans. Further, more controllable LLM-based agents can facilitate the broader utilization of LLM in application scenarios where high validity of planning is essential. The work is open-sourced at https://github.com/agiresearch/Formal-LLM.
翻訳日:2024-02-06 12:11:55 公開日:2024-02-04
# LVC-LGMC:学習ビデオ圧縮のための局所・グローバル運動補償

LVC-LGMC: Joint Local and Global Motion Compensation for Learned Video Compression ( http://arxiv.org/abs/2402.00680v2 )

ライセンス: Link先を確認
Wei Jiang, Junru Li, Kai Zhang, Li Zhang(参考訳) 既存の学習ビデオ圧縮モデルは、フローネットまたは変形可能な畳み込みネットワーク(dcn)を使用して動作情報を推定する。 しかし、フローネットとdcnの限られた受容場は本質的に局所的な文脈に注意を向ける。 大規模な動きやフレーム間のグローバル相関といったグローバルコンテキストは無視され、正確な動きを捉える上で重要なボトルネックとなる。 この問題に対処するため,リーンビデオ符号化のための共同ローカル・グローバル・モーション補償モジュール(LGMC)を提案する。 具体的には,局所運動補償にflow netを採用する。 グローバルなコンテキストを捉えるために,機能領域におけるクロスアテンションを用いて動き補償を行う。 さらに,バニラクロス注意の二次的複雑性を避けるために,ソフトマックス操作を2つの独立したソフトマックス演算に分割し,線形複雑性を生じさせる。 提案したLGMCの有効性を検証するため,DCVC-TCMと統合し,LVC-LGMCを併用して学習ビデオ圧縮を実現する。 LVC-LGMCは, ベースラインDCVC-TCMよりも高い速度歪み性能を示した。

Existing learned video compression models employ flow net or deformable convolutional networks (DCN) to estimate motion information. However, the limited receptive fields of flow net and DCN inherently direct their attentiveness towards the local contexts. Global contexts, such as large-scale motions and global correlations among frames are ignored, presenting a significant bottleneck for capturing accurate motions. To address this issue, we propose a joint local and global motion compensation module (LGMC) for leaned video coding. More specifically, we adopt flow net for local motion compensation. To capture global context, we employ the cross attention in feature domain for motion compensation. In addition, to avoid the quadratic complexity of vanilla cross attention, we divide the softmax operations in attention into two independent softmax operations, leading to linear complexity. To validate the effectiveness of our proposed LGMC, we integrate it with DCVC-TCM and obtain learned video compression with joint local and global motion compensation (LVC-LGMC). Extensive experiments demonstrate that our LVC-LGMC has significant rate-distortion performance improvements over baseline DCVC-TCM.
翻訳日:2024-02-06 12:11:13 公開日:2024-02-04
# 非観血的可視性赤外線ReIDのための均一・不均一なラベルアソシエーションの探索

Exploring Homogeneous and Heterogeneous Consistent Label Associations for Unsupervised Visible-Infrared Person ReID ( http://arxiv.org/abs/2402.00672v2 )

ライセンス: Link先を確認
Lingfeng He, De Cheng, Nannan Wang, Xinbo Gao(参考訳) unsupervised visible-infrared person re-id(usl-vi-reid)は、アノテーションなしで同じアイデンティティの歩行者画像を検索することを目的としている。 以前の作業では、モダリティ-gapを橋渡しするために、クロスモダリティな擬似ラベルアソシエーションを確立することに重点を置いているが、インスタンスレベルの均質性と不均一な一貫性を疑似ラベル空間に維持することを無視し、結果として粗いアソシエーションをもたらす。 これに対して,同種および不均一なインスタンスレベル構造の両方を同時に考慮し,高品質なクロスモダリティラベルアソシエーションを実現するModality-Unified Label Transfer (MULT) モジュールを導入する。 等質なアフィニティと異質なアフィニティの両方をモデル化し、それらを利用して擬似ラベルの不整合を定義し、最小化する。 さらに、異なるモダリティを同時に調整しながら、ノイズの多い擬似ラベルの影響を軽減し、Modality-Invariant Representation Learning (MIRL)フレームワークと組み合わせた、簡単なプラグアンドプレイのオンラインメモリラベルリファインメント(OCLR)モジュールを提案する。 実験により,提案手法は既存のUSL-VI-ReID法よりも優れており,他の相互モダリティアソシエーション法と比較してMULTの優位性が高いことが示された。 コードは利用可能だ。

Unsupervised visible-infrared person re-identification (USL-VI-ReID) aims to retrieve pedestrian images of the same identity from different modalities without annotations. While prior work focuses on establishing cross-modality pseudo-label associations to bridge the modality-gap, they ignore maintaining the instance-level homogeneous and heterogeneous consistency in pseudo-label space, resulting in coarse associations. In response, we introduce a Modality-Unified Label Transfer (MULT) module that simultaneously accounts for both homogeneous and heterogeneous fine-grained instance-level structures, yielding high-quality cross-modality label associations. It models both homogeneous and heterogeneous affinities, leveraging them to define the inconsistency for the pseudo-labels and then minimize it, leading to pseudo-labels that maintain alignment across modalities and consistency within intra-modality structures. Additionally, a straightforward plug-and-play Online Cross-memory Label Refinement (OCLR) module is proposed to further mitigate the impact of noisy pseudo-labels while simultaneously aligning different modalities, coupled with a Modality-Invariant Representation Learning (MIRL) framework. Experiments demonstrate that our proposed method outperforms existing USL-VI-ReID methods, highlighting the superiority of our MULT in comparison to other cross-modality association methods. The code will be available.
翻訳日:2024-02-06 12:10:22 公開日:2024-02-04
# DetectGPTは摂動をフル活用しているか? モデルベースコントラスト学習検出器の選択的摂動が良い

Does DetectGPT Fully Utilize Perturbation? Selective Perturbation on Model-Based Contrastive Learning Detector would be Better ( http://arxiv.org/abs/2402.00263v2 )

ライセンス: Link先を確認
Shengchao Liu, Xiaoming Liu, Yichen Wang, Zehua Cheng, Chengzhengxu Li, Zhaohan Zhang, Yu Lan, Chao Shen(参考訳) 大きな言語モデル(LLM)の急成長する能力は、乱用に対する懸念を高めている。 ゼロショットのメートル法に基づく教師なし機械生成テキスト検出器である DetectGPT は、まず摂動を導入し、優れた性能向上を示した。 しかし、T DetectGPTのランダムな摂動戦略はノイズを導入し、識別性やさらなる性能向上を抑える。 さらに、ロジット回帰モジュールは閾値の設定に依存しており、個別または小バッチ入力の一般化性と適用性に悪影響を及ぼす。 そこで我々は,ランダムマスキングによる情報損失を軽減するために選択的戦略摂動を用いた新しい検出器Pecolaと,摂動中に暗黙的なパターン情報をキャプチャするためのマルチペアコントラスト学習を提案する。 実験によれば、pecolaは4つの公開データセットで平均1.20%の精度でsoma法を上回っている。 さらに、摂動法の有効性、堅牢性、一般化について分析する。

The burgeoning capabilities of large language models (LLMs) have raised growing concerns about abuse. DetectGPT, a zero-shot metric-based unsupervised machine-generated text detector, first introduces perturbation and shows great performance improvement. However, DetectGPT's random perturbation strategy might introduce noise, limiting the distinguishability and further performance improvements. Moreover, its logit regression module relies on setting the threshold, which harms the generalizability and applicability of individual or small-batch inputs. Hence, we propose a novel detector, Pecola, which uses selective strategy perturbation to relieve the information loss caused by random masking, and multi-pair contrastive learning to capture the implicit pattern information during perturbation, facilitating few-shot performance. The experiments show that Pecola outperforms the SOTA method by 1.20% in accuracy on average on four public datasets. We further analyze the effectiveness, robustness, and generalization of our perturbation method.
翻訳日:2024-02-06 12:09:29 公開日:2024-02-04