このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240312となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# WaveShot: 動的水面撮影とメディア制作のための小型携帯型無人表面容器
WaveShot: A Compact Portable Unmanned Surface Vessel for Dynamic Water Surface Videography and Media Production ( http://arxiv.org/abs/2407.01537v1 ) ライセンス: Link先を確認 | Shijian Ma, Shicong Ma, Weize Ma, | (参考訳) 本稿では,水面映像を高度に操作可能で,費用対効果が高く,従来の撮影法に代わる安全な方法を提供することで,水面映像を変換することを目的とした,革新的な携帯型無人表面容器であるWaveShotを提案する。
WaveShotは、プロ級防水カメラと高度な技術を備え、水中の静的なシーンとダイナミックなシーンの両方を撮影する。
我々はWaveShotの開発と利点について議論し、移植性、輸送の容易さ、迅速な展開能力を強調します。
様々な水環境におけるWaveShotの安定性と高品質なビデオキャプチャ、およびオペレータの空間知覚を高めるための単眼深度推定アルゴリズムの統合を示す実験的検証。
この論文は、WaveShotの現実世界の応用、ユーザフレンドリーな遠隔操作、および水面の最適化ビデオ撮影のためのジンバル統合や高度なコンピュータビジョンといった将来の拡張を探索して締めくくっている。
This paper presents WaveShot, an innovative portable unmanned surface vessel that aims to transform water surface videography by offering a highly maneuverable, cost-effective, and safe alternative to traditional filming methods. WaveShot is specially designed for the modern demands of film production, advertising, documentaries, and visual arts, equipped with professional-grade waterproof cameras and advanced technology to capture both static and dynamic scenes on waterways. We discuss the development and advantages of WaveShot, highlighting its portability, ease of transport, and rapid deployment capabilities. Experimental validation that is showcasing WaveShot's stability and high-quality video capture in various water conditions, and the integration of monocular depth estimation algorithms to enhance the operator's spatial perception. The paper concludes with an exploration of WaveShot's real-world applications, its user-friendly remote operation, and future enhancements such as gimbal integration and advanced computer vision for optimized videography on water surfaces. | 翻訳日:2024-07-22 22:28:39 公開日:2024-03-12 |
# GNSS線に対するDeepONetに基づくグローバル4次元電離層STEC予測
Global 4D Ionospheric STEC Prediction based on DeepONet for GNSS Rays ( http://arxiv.org/abs/2404.15284v1 ) ライセンス: Link先を確認 | Dijia Cai, Zenghui Shi, Haiyang Fu, Huan Liu, Hongyi Qian, Yun Sui, Feng Xu, Ya-Qiu Jin, | (参考訳) 電離層は地球の上層大気において極めてダイナミックな荷電粒子領域であり、無線通信や衛星航法といった用途において重要な役割を担っている。
Slant Total Electron Contents (STEC) は、電離圏を通過する電波信号の線に沿って集積された電子密度を表す波動伝播を特徴づける重要なパラメータである。
STECの正確な予測は、特に地球航法衛星システム(GNSS)における電離圏の影響を緩和するために不可欠である。
本研究では,DeepONet-STECと呼ばれる高精度STEC予測モデルを提案する。
実演として,電離層および嵐条件下でのグローバルおよびUS-CORS体制におけるGNSS観測データに基づくモデルの性能を検証した。
DeepONet-STECモデルの結果から,時間分解能30sのPPP(Precise Point Positioning)による観測データを用いて,3日間の静かな期間における72時間予測を高精度に行うことができた。
活動的な太陽嵐の下では、DeepONet-STECは従来の深層学習法よりも頑丈さと優位性を示した。
本研究は,衛星ナビゲーションシステムの性能向上のための4次元時空間電離層パラメータを予測するためのニューラル演算子回帰アーキテクチャを提案する。
The ionosphere is a vitally dynamic charged particle region in the Earth's upper atmosphere, playing a crucial role in applications such as radio communication and satellite navigation. The Slant Total Electron Contents (STEC) is an important parameter for characterizing wave propagation, representing the integrated electron density along the ray of radio signals passing through the ionosphere. The accurate prediction of STEC is essential for mitigating the ionospheric impact particularly on Global Navigation Satellite Systems (GNSS). In this work, we propose a high-precision STEC prediction model named DeepONet-STEC, which learns nonlinear operators to predict the 4D temporal-spatial integrated parameter for specified ground station - satellite ray path globally. As a demonstration, we validate the performance of the model based on GNSS observation data for global and US-CORS regimes under ionospheric quiet and storm conditions. The DeepONet-STEC model results show that the three-day 72 hour prediction in quiet periods could achieve high accuracy using observation data by the Precise Point Positioning (PPP) with temporal resolution 30s. Under active solar magnetic storm periods, the DeepONet-STEC also demonstrated its robustness and superiority than traditional deep learning methods. This work presents a neural operator regression architecture for predicting the 4D temporal-spatial ionospheric parameter for satellite navigation system performance, which may be further extended for various space applications and beyond. | 翻訳日:2024-07-01 11:49:01 公開日:2024-03-12 |
# TFCounter: トレーニング不要なオブジェクトカウントのためのGemの公開
TFCounter:Polishing Gems for Training-Free Object Counting ( http://arxiv.org/abs/2405.02301v1 ) ライセンス: Link先を確認 | Pan Ting, Jianfeng Lin, Wenhao Yu, Wenlong Zhang, Xiaoying Chen, Jinlu Zhang, Binqiang Huang, | (参考訳) オブジェクトカウントは、セキュリティ監視、交通管理、病気の診断において幅広い応用の見通しを持つ、困難なタスクである。
既存のオブジェクトカウント手法は、優れたパフォーマンスを実現し、高い一般化性を維持し、アノテーションのコストを最小限に抑えるという3つの課題に直面している。
我々は,大規模基盤モデルの必須要素のカスケードを介し,プロンプト・コンテクスト・アウェアであるTFCounterという,新しい学習不要なクラス非依存オブジェクトカウンタを開発した。
このアプローチでは、形状、外観、大きさの異なる幅広いオブジェクトのスペクトルを認識するために、二重プロンプトシステムを備えた反復的数え上げフレームワークを採用している。
さらに、背景コンテキストを組み込んだ革新的なコンテキスト認識類似モジュールを導入し、散らかったシーン内で精度を高める。
クロスドメインの一般化性を示すために,Meituan の共有自転車の1,000枚画像を含む,BIKE-1000 という新しいカウントデータセットを収集した。
FSC-147、CARPK、BIKE-1000データセットに関する大規模な実験は、TFCounterが既存のトレーニング不要の手法より優れており、トレーニング対象と比較して競争力のある結果を示していることを示している。
Object counting is a challenging task with broad application prospects in security surveillance, traffic management, and disease diagnosis. Existing object counting methods face a tri-fold challenge: achieving superior performance, maintaining high generalizability, and minimizing annotation costs. We develop a novel training-free class-agnostic object counter, TFCounter, which is prompt-context-aware via the cascade of the essential elements in large-scale foundation models. This approach employs an iterative counting framework with a dual prompt system to recognize a broader spectrum of objects varying in shape, appearance, and size. Besides, it introduces an innovative context-aware similarity module incorporating background context to enhance accuracy within messy scenes. To demonstrate cross-domain generalizability, we collect a novel counting dataset named BIKE-1000, including exclusive 1000 images of shared bicycles from Meituan. Extensive experiments on FSC-147, CARPK, and BIKE-1000 datasets demonstrate that TFCounter outperforms existing leading training-free methods and exhibits competitive results compared to trained counterparts. | 翻訳日:2024-07-01 10:40:42 公開日:2024-03-12 |
# 富裕層管理の民主化--有能な相互ファンドブロックチェーンプロトコル
The Democratization of Wealth Management: Hedged Mutual Fund Blockchain Protocol ( http://arxiv.org/abs/2405.02302v1 ) ライセンス: Link先を確認 | Ravi Kashyap, | (参考訳) 従来の投資資金のベストプラクティスをブロックチェーンの世界に持ち込むために設計された、いくつかのイノベーションを開発しています。
私たちのイノベーションは、相互資金とヘッジファンドの優れたメカニズムを組み合わせています。
具体的には、相互資金のようにファンド価格を定期的に更新し、ヘッジファンドのようにパフォーマンス手数料を請求する方法について説明する。
我々は、相互にヘッジされたブロックチェーン投資ファンドが、投資家保護スキーム(ハイウォーターマーク)と、償還時にトレーディングスリップを相殺する手段でどのように運用できるかを示す。
ブロックチェーンスマートコントラクトとしてこれらのアイデアを実装するための、数学的定式化やインストラクティブポインタなど、詳細なステップを提供します。
設計がいくつかのブロックチェーンボトルネックを克服し、スマートコントラクトをよりスマートにする方法について議論する。
ブロックチェーン実装に適したメカニズムに関するいくつかのシナリオの数値図を提供します。
私たちがブロックチェーン実装のために開発した概念は、従来の金融ファンドでも、簡単な方法でパフォーマンス手数料を計算するのに役立ちます。
我々は、相互資金とヘッジファンドの運用に関する2つの主要な課題を強調し、ブロックチェーン技術がこれらの懸念を和らげる方法を示している。
ここで開発されたアイデアは、ブロックチェーンが従来の世界が直面する多くの問題を解決する方法と、従来の金融のイノベーションが分散金融の恩恵と採用のスピードにどのように貢献するかを示している。
これは分散化された金融と従来の金融の共生の例となり、これらの2つの領域を近付け、このような人工的な区別の障壁を断ち切ることになる。
We develop several innovations designed to bring the best practices of traditional investment funds to the blockchain landscape. Our innovations combine the superior mechanisms of mutual funds and hedge funds. Specifically, we illustrate how fund prices can be updated regularly like mutual funds and performance fees can be charged like hedge funds. We show how mutually hedged blockchain investment funds can operate with investor protection schemes - high water marks - and measures to offset trading slippage when redemptions happen. We provide detailed steps - including mathematical formulations and instructive pointers - to implement these ideas as blockchain smart contracts. We discuss how our designs overcome several blockchain bottlenecks and how we can make smart contracts smarter. We provide numerical illustrations of several scenarios related to the mechanisms we have tailored for blockchain implementation. The concepts we have developed for blockchain implementation can also be useful in traditional financial funds to calculate performance fees in a simplified manner. We highlight two main issues with the operation of mutual funds and hedge funds and show how blockchain technology can alleviate those concerns. The ideas developed here illustrate on one hand, how blockchain can solve many issues faced by the traditional world and on the other hand, how many innovations from traditional finance can benefit decentralized finance and speed its adoption. This becomes an example of symbiosis between decentralized and traditional finance - bringing these two realms closer and breaking down barriers between such artificial distinctions - wherein the future will be about providing better risk adjusted wealth appreciation opportunities to end customers through secure, reliable, accessible and transparent services - without getting too caught up about how such services are being rendered. | 翻訳日:2024-07-01 10:40:42 公開日:2024-03-12 |
# 加齢黄斑変性におけるバイオマーカー発見のためのOCT画像の深層学習によるクラスタリング(分子研究報告4)
Deep-learning-based clustering of OCT images for biomarker discovery in age-related macular degeneration (Pinnacle study report 4) ( http://arxiv.org/abs/2405.09549v1 ) ライセンス: Link先を確認 | Robbie Holland, Rebecca Kaye, Ahmed M. Hagag, Oliver Leingang, Thomas R. P. Taylor, Hrvoje Bogunović, Ursula Schmidt-Erfurth, Hendrik P. N. Scholl, Daniel Rueckert, Andrew J. Lotery, Sobha Sivaprasad, Martin J. Menten, | (参考訳) 現在、疾患はグレードシステムによって管理されており、患者はグレードシステムによって患者のリスクを示し、臨床管理を指導する段階に分類される。
しかし、これらの広いカテゴリーは一般的に予後に価値がなく、新しいバイオマーカーの提案は、現在、逸話的な観察に限られている。
本研究では, 加齢関連黄斑変性症(AMD)におけるバイオマーカー発見の促進を目的とした, 深層学習に基づくバイオマーカー提案システムを提案する。
まず、自己教師付きコントラスト学習を用いてニューラルネットワークをトレーニングし、臨床アノテーションなしで、46,496個の網膜光コヒーレンス断層撮影(OCT)画像に存在する既知のAMDバイオマーカーと未知のAMDバイオマーカーの両方に関連する特徴を発見する。
検出されたバイオマーカーを解釈するために、画像は類似した特徴を含む30のサブセット、いわゆるクラスタに分割する。
次に、臨床言語における各クラスタを記述した2つの独立した網膜スペシャリストチームと、1.5時間半構造化された2つの同時インタビューを行った。
全体として、両チームはそれぞれ、30クラスタ中27クラスタで明確な特徴を特定しており、そのうち23クラスタはAMDに関連している。
確立されたグレーティングシステムですでに使用されている既知のバイオマーカーとして7つが認識され、16の描写されたバイオマーカーの組み合わせまたはサブタイプがまだグレーティングシステムで使われていないか、最近提案されたか、不明であった。
クラスタは完全網膜萎縮症,網膜下液から網膜内液から分離し,薄い脈絡膜から厚みを分離した。
全体として、対照的な学習は、臨床に確立されたグレーティングシステムで使用されるセットを超えるAMDバイオマーカーの自動提案を可能にした。
最終的に、臨床医に発見指向のディープラーニングツールを装着することで、新しい予後バイオマーカーの発見を加速できると期待する。
Diseases are currently managed by grading systems, where patients are stratified by grading systems into stages that indicate patient risk and guide clinical management. However, these broad categories typically lack prognostic value, and proposals for new biomarkers are currently limited to anecdotal observations. In this work, we introduce a deep-learning-based biomarker proposal system for the purpose of accelerating biomarker discovery in age-related macular degeneration (AMD). It works by first training a neural network using self-supervised contrastive learning to discover, without any clinical annotations, features relating to both known and unknown AMD biomarkers present in 46,496 retinal optical coherence tomography (OCT) images. To interpret the discovered biomarkers, we partition the images into 30 subsets, termed clusters, that contain similar features. We then conduct two parallel 1.5-hour semi-structured interviews with two independent teams of retinal specialists that describe each cluster in clinical language. Overall, both teams independently identified clearly distinct characteristics in 27 of 30 clusters, of which 23 were related to AMD. Seven were recognised as known biomarkers already used in established grading systems and 16 depicted biomarker combinations or subtypes that are either not yet used in grading systems, were only recently proposed, or were unknown. Clusters separated incomplete from complete retinal atrophy, intraretinal from subretinal fluid and thick from thin choroids, and in simulation outperformed clinically-used grading systems in prognostic value. Overall, contrastive learning enabled the automatic proposal of AMD biomarkers that go beyond the set used by clinically established grading systems. Ultimately, we envision that equipping clinicians with discovery-oriented deep-learning tools can accelerate discovery of novel prognostic biomarkers. | 翻訳日:2024-07-01 08:49:26 公開日:2024-03-12 |
# 対人トリビア質問書作成のための新しいインタフェース
A novel interface for adversarial trivia question-writing ( http://arxiv.org/abs/2404.00011v1 ) ライセンス: Link先を確認 | Jason Liu, | (参考訳) 疑問に答えるAIを開発する上で重要なコンポーネントは、複雑な構文に適応し、自然言語の根底にある推論にモデルに挑戦する敵対的データセットである。
対人テキストを手続き的に生成する現在の技術は、多文トリビアの質問に答えるといった複雑なタスクの訓練に十分ではない。
代わりに、敵の人間に書かれたトリビアの質問を収集するインターフェースを導入することで、人為的なデータに目を向ける。
私たちのインターフェースは、ブザーベースのトライビアコンテストであるQuiz Bowlのライターやプレイヤーを対象にしています。
利用を促進するために、私たちのインターフェイスにある機械学習ベースのツール群は、クイズボウルの選手やコンピュータにとってより難しい質問を書くのを助ける。
私たちのインターフェースは、画期的なQuiz Bowl AIプロジェクトであるQANTAのトレーニングデータを収集するだけでなく、質問応答システムのための将来の敵対的データ収集の概念実証でもある。
当初提案した10の質問による性能テストの結果は、いくつかの欠陥があるにもかかわらず、インターフェースの新規な質問書き機能に加えて、マシンモデルから有用な応答をリアルタイムに露呈することで、敵の質問の収集を容易にし、強化できることを示唆している。
A critical component when developing question-answering AIs is an adversarial dataset that challenges models to adapt to the complex syntax and reasoning underlying our natural language. Present techniques for procedurally generating adversarial texts are not robust enough for training on complex tasks such as answering multi-sentence trivia questions. We instead turn to human-generated data by introducing an interface for collecting adversarial human-written trivia questions. Our interface is aimed towards question writers and players of Quiz Bowl, a buzzer-based trivia competition where paragraph-long questions consist of a sequence of clues of decreasing difficulty. To incentivize usage, a suite of machine learning-based tools in our interface assist humans in writing questions that are more challenging to answer for Quiz Bowl players and computers alike. Not only does our interface gather training data for the groundbreaking Quiz Bowl AI project QANTA, but it is also a proof-of-concept of future adversarial data collection for question-answering systems. The results of performance-testing our interface with ten originally-composed questions indicate that, despite some flaws, our interface's novel question-writing features as well as its real-time exposure of useful responses from our machine models could facilitate and enhance the collection of adversarial questions. | 翻訳日:2024-04-07 23:17:33 公開日:2024-03-12 |
# 金融ニュースセンチメント分析による株式市場のストレス指標戦略
Stress index strategy enhanced with financial news sentiment analysis for the equity markets ( http://arxiv.org/abs/2404.00012v1 ) ライセンス: Link先を確認 | Baptiste Lefort, Eric Benhamou, Jean-Jacques Ohana, David Saltiel, Beatrice Guez, Thomas Jacquot, | (参考訳) 本稿では、金融ストレス指標とChatGPTによる感情分析を組み合わせ、ブルームバーグの日次市場要約を解釈する、新たなリスクオンリスクオフ戦略を導入する。
ボラティリティとクレジットスプレッドから生じる市場ストレスの予測は、GPT-4から派生した金融ニュースの感情と組み合わせることで向上する。
その結果,シャープ比が向上し,最大ドローダウンの低減が図られた。
改善された業績はNASDAQ、S&P500、および6つの主要株式市場で一貫しており、この方法が株式市場で一般化していることを示している。
This paper introduces a new risk-on risk-off strategy for the stock market, which combines a financial stress indicator with a sentiment analysis done by ChatGPT reading and interpreting Bloomberg daily market summaries. Forecasts of market stress derived from volatility and credit spreads are enhanced when combined with the financial news sentiment derived from GPT-4. As a result, the strategy shows improved performance, evidenced by higher Sharpe ratio and reduced maximum drawdowns. The improved performance is consistent across the NASDAQ, the S&P 500 and the six major equity markets, indicating that the method generalises across equities markets. | 翻訳日:2024-04-07 23:17:33 公開日:2024-03-12 |
# 安全設計と実行時エラー検出を用いた安全クリティカルアプリケーションにおけるディープラーニング認定フレームワークの構築
Towards a Framework for Deep Learning Certification in Safety-Critical Applications Using Inherently Safe Design and Run-Time Error Detection ( http://arxiv.org/abs/2403.14678v1 ) ライセンス: Link先を確認 | Romeo Valentin, | (参考訳) 多くのアプリケーションは、予測、意思決定、状態推定のためにディープラーニングベースのシステムを採用しているが、そのようなシステムを安全クリティカルなアプリケーションにデプロイできる認定プロセスはほとんど確立されていない。
本研究は,航空や他の安全上重要な分野における実世界の問題について考察し,認定モデルの要件について検討する。
そこで本研究では,ディープラーニングシステムの堅牢性と信頼性を検証することを目的とした,機械学習研究コミュニティの方法論を調査し,実世界の問題への適用性について評価する。
そして、我々は深層学習認定のための新しい枠組みを構築した。
(i)本質的に安全な設計、及び
(ii) 実行時のエラー検出。
航空からの具体的なユースケースを用いて、弱い教師付き表現学習を用いることで、深層学習モデルが絡み合った変数を回復する方法を示す。
このようなシステム設計は、本来、一般的なモデル失敗の傾向が低く、データを管理するメカニズムをコード化することが検証可能である、と我々は主張する。
次に,モデルの実行時の安全性に関する4つの手法,すなわちモデルについて検討する。
(i)不確かさの定量化
(二)配当外検知
(三)特徴崩壊、及び
(4)敵の攻撃。
それぞれの適用性を評価し、認定モデルが満たすべきデシラタのセットを定式化する。
最後に,本研究で論じるすべての望ましい特性を示す新しいモデル構造を提案し,レグレッションと不確実性を予測できるとともに,レグレッションラベルをトレーニングすることなく,アウト・オブ・ディストリビューション・インプットを検出することができる。
本稿では,ディープラーニング認定の現状と今後の進歩,産業的・社会的意味について論じる。
Although an ever-growing number of applications employ deep learning based systems for prediction, decision-making, or state estimation, almost no certification processes have been established that would allow such systems to be deployed in safety-critical applications. In this work we consider real-world problems arising in aviation and other safety-critical areas, and investigate their requirements for a certified model. To this end, we investigate methodologies from the machine learning research community aimed towards verifying robustness and reliability of deep learning systems, and evaluate these methodologies with regard to their applicability to real-world problems. Then, we establish a new framework towards deep learning certification based on (i) inherently safe design, and (ii) run-time error detection. Using a concrete use case from aviation, we show how deep learning models can recover disentangled variables through the use of weakly-supervised representation learning. We argue that such a system design is inherently less prone to common model failures, and can be verified to encode underlying mechanisms governing the data. Then, we investigate four techniques related to the run-time safety of a model, namely (i) uncertainty quantification, (ii) out-of-distribution detection, (iii) feature collapse, and (iv) adversarial attacks. We evaluate each for their applicability and formulate a set of desiderata that a certified model should fulfill. Finally, we propose a novel model structure that exhibits all desired properties discussed in this work, and is able to make regression and uncertainty predictions, as well as detect out-of-distribution inputs, while requiring no regression labels to train. We conclude with a discussion of the current state and expected future progress of deep learning certification, and its industrial and social implications. | 翻訳日:2024-04-01 03:33:23 公開日:2024-03-12 |
# 3相統合による連続学習
Continual Learning by Three-Phase Consolidation ( http://arxiv.org/abs/2403.14679v1 ) ライセンス: Link先を確認 | Davide Maltoni, Lorenzo Pellegrini, | (参考訳) TPC(Three-Phase Consolidation)は、新しいクラス(および/または既知のクラスのインスタンス)を継続的に学習する上で、従来の知識の忘れを制御しながら、シンプルで効果的なアプローチとして導入されている。
それぞれの経験(つまりタスク)は、異なる規則と学習力学によって特徴づけられる3つのフェーズで学習され、クラスバイアスの問題(クラスアンバランシングによる)を除去し、未表現のクラスを忘れないように勾配に基づく修正を制限することを目的としている。
複雑なデータセットに関するいくつかの実験は、競合する既存のアプローチよりも正確さと効率性が優れていることを示した。
Avalanche Open framework for continual learningの公開により,本論文で提示したアルゴリズムとすべての結果は再現可能である。
TPC (Three-Phase Consolidation) is here introduced as a simple but effective approach to continually learn new classes (and/or instances of known classes) while controlling forgetting of previous knowledge. Each experience (a.k.a. task) is learned in three phases characterized by different rules and learning dynamics, aimed at removing the class-bias problem (due to class unbalancing) and limiting gradient-based corrections to prevent forgetting of underrepresented classes. Several experiments on complex datasets demonstrate its accuracy and efficiency advantages over competitive existing approaches. The algorithm and all the results presented in this paper are fully reproducible thanks to its publication on the Avalanche open framework for continual learning. | 翻訳日:2024-04-01 03:33:23 公開日:2024-03-12 |
# AI倫理: バイオメトリック分析、批判的問題、キーギャップ
AI Ethics: A Bibliometric Analysis, Critical Issues, and Key Gaps ( http://arxiv.org/abs/2403.14681v1 ) ライセンス: Link先を確認 | Di Kevin Gao, Andrew Haverly, Sudip Mittal, Jiming Wu, Jingdao Chen, | (参考訳) 人工知能(AI)倫理は、学術研究の急激かつ重要な領域として浮上している。
この研究は、過去20年間にAI倫理文学の総合的文献計測分析を行った。
この分析は、インキュベーションフェーズを特徴とする、識別可能な三部作の進行を明らかにし、その後、人間のような属性でAIを注入することに焦点を当て、人間中心のAIシステムの開発を強調する第3フェーズに終止符を打つ。
その後、彼らはコリングリッジジレンマ、AIステータスの議論、AIの透明性と説明可能性に関連する課題、プライバシー保護の合併症、正義と公正の考慮、アルゴクラシーと人間への貢献に関する懸念、超知能の問題を含む7つの重要なAI倫理問題を提示した。
最後に、彼らは、大規模倫理モデル(LEM)とAI識別に関するAI倫理の2つの顕著な研究ギャップを特定し、さらなる学術研究への招待を拡大する。
Artificial intelligence (AI) ethics has emerged as a burgeoning yet pivotal area of scholarly research. This study conducts a comprehensive bibliometric analysis of the AI ethics literature over the past two decades. The analysis reveals a discernible tripartite progression, characterized by an incubation phase, followed by a subsequent phase focused on imbuing AI with human-like attributes, culminating in a third phase emphasizing the development of human-centric AI systems. After that, they present seven key AI ethics issues, encompassing the Collingridge dilemma, the AI status debate, challenges associated with AI transparency and explainability, privacy protection complications, considerations of justice and fairness, concerns about algocracy and human enfeeblement, and the issue of superintelligence. Finally, they identify two notable research gaps in AI ethics regarding the large ethics model (LEM) and AI identification and extend an invitation for further scholarly research. | 翻訳日:2024-04-01 03:33:23 公開日:2024-03-12 |
# 時間的関係知識を用いたユーザ間活動認識のための深部生成ドメイン適応
Deep Generative Domain Adaptation with Temporal Relation Knowledge for Cross-User Activity Recognition ( http://arxiv.org/abs/2403.14682v1 ) ライセンス: Link先を確認 | Xiaozhou Ye, Kevin I-Kai Wang, | (参考訳) ヒューマンアクティビティ認識(HAR)では、トレーニングとテストが独立して同じ分散(すなわち、データ分散が著しく異なるクロスユーザーシナリオ)であるという仮定がしばしば失敗する。
この違いは、通常、時系列データに固有の時間的関係を見落としている、HARにおける従来のドメイン適応手法の限界を強調している。
このギャップを埋めるため,本研究では,HARにおける時系列領域適応の独特な課題に対処する条件付き変分自動エンコーダ(CVAE-USM)を導入し,仮定を緩和し,時間的関係を利用して複数のユーザ間でデータ分散を効果的に整合させる手法を提案する。
本手法は, ユーザ間の共通時間パターンを捉え, 利用するために, 可変オートエンコーダ (VAE) とユニバーサルシーケンスマッピング (USM) の長所を組み合わせる。
2つの公開HARデータセット(OPPTとPAMAP2)で評価した結果、CVAE-USMは既存の最先端手法よりも優れており、ユーザ間のアクティビティ認識をより正確で一般化可能なソリューションを提供することが示された。
In human activity recognition (HAR), the assumption that training and testing data are independent and identically distributed (i.i.d.) often fails, particularly in cross-user scenarios where data distributions vary significantly. This discrepancy highlights the limitations of conventional domain adaptation methods in HAR, which typically overlook the inherent temporal relations in time-series data. To bridge this gap, our study introduces a Conditional Variational Autoencoder with Universal Sequence Mapping (CVAE-USM) approach, which addresses the unique challenges of time-series domain adaptation in HAR by relaxing the i.i.d. assumption and leveraging temporal relations to align data distributions effectively across different users. This method combines the strengths of Variational Autoencoder (VAE) and Universal Sequence Mapping (USM) to capture and utilize common temporal patterns between users for improved activity recognition. Our results, evaluated on two public HAR datasets (OPPT and PAMAP2), demonstrate that CVAE-USM outperforms existing state-of-the-art methods, offering a more accurate and generalizable solution for cross-user activity recognition. | 翻訳日:2024-04-01 03:33:23 公開日:2024-03-12 |
# 低消費電力アプリケーションのためのアジャイルのジェスチャー認識 - 一般化のためのカスタマイズ
Agile gesture recognition for low-power applications: customisation for generalisation ( http://arxiv.org/abs/2403.15421v1 ) ライセンス: Link先を確認 | Ying Liu, Liucheng Guo, Valeri A. Makarovc, Alexander Gorbana, Evgeny Mirkesa, Ivan Y. Tyukin, | (参考訳) 自動手ジェスチャー認識は、長い間AIコミュニティの焦点だった。
伝統的に、この分野の研究は、主に手動画像の連続的な流れにアクセスするシナリオに焦点を当ててきた。
この焦点は、カメラの広範な使用と、画像データの豊富な利用によって導かれてきた。
しかし、低消費電力センサデバイスで動作するジェスチャー認識技術への需要が高まっている。
これは、データ漏洩とエンドユーザのプライバシに対する懸念の高まりと、低価格デバイスにおけるバッテリー容量の制限とコンピューティングパワーの増大によるものだ。
さらに、個別に設計したハードウェアのデータ収集の課題は、ジェスチャー認識モデルの一般化を妨げている。
本研究では,電池容量と計算能力に制限のあるデバイスにおいて,従来のジェスチャー認識モデルの性能を向上させるために,適応的およびアジャイルな誤り訂正を用いたパターン認識システムを提案する。
本システムは、ライブジェスチャー認識のベースモデルとして、コンパクトなサポートベクトルマシンを備える。
さらに、高次元のカーネルマッピングによって引き起こされる特徴空間内で、数ショットの学習を利用する適応型アジャイルエラー修正器も備えている。
エラー修正器は、ユーザごとにカスタマイズ可能で、動作パターンに基づいてジェスチャー予測を動的に調整し、低コストかつ低消費電力のマイクロコントローラ上でベースモデルのアジャイルパフォーマンスを維持する。
提案方式は, 小型化, 高速処理, 低消費電力化が特徴であり, 幅広い組み込みシステムに最適である。
Automated hand gesture recognition has long been a focal point in the AI community. Traditionally, research in this field has predominantly focused on scenarios with access to a continuous flow of hand's images. This focus has been driven by the widespread use of cameras and the abundant availability of image data. However, there is an increasing demand for gesture recognition technologies that operate on low-power sensor devices. This is due to the rising concerns for data leakage and end-user privacy, as well as the limited battery capacity and the computing power in low-cost devices. Moreover, the challenge in data collection for individually designed hardware also hinders the generalisation of a gesture recognition model. In this study, we unveil a novel methodology for pattern recognition systems using adaptive and agile error correction, designed to enhance the performance of legacy gesture recognition models on devices with limited battery capacity and computing power. This system comprises a compact Support Vector Machine as the base model for live gesture recognition. Additionally, it features an adaptive agile error corrector that employs few-shot learning within the feature space induced by high-dimensional kernel mappings. The error corrector can be customised for each user, allowing for dynamic adjustments to the gesture prediction based on their movement patterns while maintaining the agile performance of its base model on a low-cost and low-power micro-controller. This proposed system is distinguished by its compact size, rapid processing speed, and low power consumption, making it ideal for a wide range of embedded systems. | 翻訳日:2024-04-01 03:04:05 公開日:2024-03-12 |
# データ不均一性を考慮したセンサによる人間活動認識のための機械学習技術
Machine Learning Techniques for Sensor-based Human Activity Recognition with Data Heterogeneity -- A Review ( http://arxiv.org/abs/2403.15422v1 ) ライセンス: Link先を確認 | Xiaozhou Ye, Kouichi Sakurai, Nirmal Nair, Kevin I-Kai Wang, | (参考訳) センサに基づくヒューマンアクティビティ認識(HAR)は、ユビキタスコンピューティングにおいて重要であり、多次元観察を通して行動を分析する。
研究の進展にもかかわらず、HARは特にデータ分散の仮定において課題に直面している。
ほとんどの研究は、人間の活動における実用的なセンサーデータの様々な性質とは対照的に、データセット全体にわたる均一なデータ分布を仮定する。
データの不均一性の問題に対処することは、パフォーマンスを改善し、計算コストを削減し、アノテーションの少ないパーソナライズされた適応モデルの開発を支援する。
本稿では、機械学習がHARにおけるデータ不均一性にどう対処するかを、データ不均一性タイプを分類し、適切な機械学習手法を適用し、利用可能なデータセットを要約し、今後の課題について議論する。
Sensor-based Human Activity Recognition (HAR) is crucial in ubiquitous computing, analysing behaviours through multi-dimensional observations. Despite research progress, HAR confronts challenges, particularly in data distribution assumptions. Most studies often assume uniform data distributions across datasets, contrasting with the varied nature of practical sensor data in human activities. Addressing data heterogeneity issues can improve performance, reduce computational costs, and aid in developing personalized, adaptive models with less annotated data. This review investigates how machine learning addresses data heterogeneity in HAR, by categorizing data heterogeneity types, applying corresponding suitable machine learning methods, summarizing available datasets, and discussing future challenges. | 翻訳日:2024-04-01 03:04:05 公開日:2024-03-12 |
# 時間的関係最適輸送によるユーザ間活動認識
Cross-user activity recognition via temporal relation optimal transport ( http://arxiv.org/abs/2403.15423v1 ) ライセンス: Link先を確認 | Xiaozhou Ye, Kevin I-Kai Wang, | (参考訳) 人間の活動認識(HAR)に関する現在の研究は、トレーニングデータとテストデータが同じ分布から引き出され、一般化されたモデルを達成することを前提としている。
多くの現実世界のアプリケーションでは、この仮定は成立せず、トレーニングやターゲットテストデータセットの収集は、ユーザ間HARのように、一様ではない分布を持つ。
ドメイン適応は、ユーザ間のHARタスクに対して有望なアプローチである。
既存のドメイン適応は、各ドメインのサンプルが$、すなわち$であるという仮定に基づいて機能し、データ分散を調整するために時系列データに隠された時間的関係の知識を考慮しない。
この$の強い仮定は、時系列のセグメンテーションと特徴抽出技術によって形成されたサンプルは、各領域における$にのみ粗い近似であるので、時系列関連のドメイン適応法には適さないかもしれない。
本稿では,時間的関係を利用した時間的関係最適輸送法(TROT)を提案する。
本研究では,HMM(Hidden Markov Model)とOT(Optimal Transport)技術を用いて,時間的関係表現とアクティビティの時間的関係アライメントを実現する。
さらに、ドメイン適応性能を高めるために、改良された最適トランスポートマッピングのための時間的関係順序情報を保持する新しい正規化項を提案する。
3つの公共活動認識データセット(OPPT、PAMAP2、DSADS)で総合的な実験を行い、TROTが他の最先端手法よりも優れていることを示した。
Current research on human activity recognition (HAR) mainly assumes that training and testing data are drawn from the same distribution to achieve a generalised model, which means all the data are considered to be independent and identically distributed $\displaystyle (i.i.d.) $. In many real-world applications, this assumption does not hold, and collected training and target testing datasets have non-uniform distribution, such as in the case of cross-user HAR. Domain adaptation is a promising approach for cross-user HAR tasks. Existing domain adaptation works based on the assumption that samples in each domain are $\displaystyle i.i.d. $ and do not consider the knowledge of temporal relation hidden in time series data for aligning data distribution. This strong assumption of $\displaystyle i.i.d. $ may not be suitable for time series-related domain adaptation methods because the samples formed by time series segmentation and feature extraction techniques are only coarse approximations to $\displaystyle i.i.d. $ assumption in each domain. In this paper, we propose the temporal relation optimal transport (TROT) method to utilise temporal relation and relax the $\displaystyle i.i.d. $ assumption for the samples in each domain for accurate and efficient knowledge transfer. We obtain the temporal relation representation and implement temporal relation alignment of activities via the Hidden Markov model (HMM) and optimal transport (OT) techniques. Besides, a new regularisation term that preserves temporal relation order information for an improved optimal transport mapping is proposed to enhance the domain adaptation performance. Comprehensive experiments are conducted on three public activity recognition datasets (i.e. OPPT, PAMAP2 and DSADS), demonstrating that TROT outperforms other state-of-the-art methods. | 翻訳日:2024-04-01 03:04:05 公開日:2024-03-12 |
# 時間的関係情報を用いた深部領域適応を用いたユーザ間活動認識
Cross-user activity recognition using deep domain adaptation with temporal relation information ( http://arxiv.org/abs/2403.15424v1 ) ライセンス: Link先を確認 | Xiaozhou Ye, Waleed H. Abdulla, Nirmal Nair, Kevin I-Kai Wang, | (参考訳) HAR(Human Activity Recognition)はユビキタスコンピューティングの基盤であり、健康モニタリングや環境支援生活などの様々な分野において有望な応用が期待されている。
大幅な進歩にもかかわらず、センサーベースのHAR法は、トレーニングデータとテストデータが同じ分布を持つという仮定の下で運用されることが多い。
しかし、多くの現実のシナリオ、特にセンサーベースのHARでは、この仮定は不均一なセンサーの違い、時間の経過とともにの変化、個人の行動変動など、アウト・オブ・ディストリビューション(o.o.d.$)の課題によって無効化される。
本稿では,個人間の行動変動がデータ分布の異なる結果をもたらす,ユーザ間HAR問題について考察する。
この課題に対処するために、クロスユーザーHARにおける時系列ドメイン適応に適した革新的なアプローチであるDeep Temporal State Domain Adaptation (DTSDA)モデルを導入する。
既存のドメイン適応アプローチにおけるサンプル独立の一般的な仮定とは対照的に、DTSDAはデータ固有の時間的関係を認識し、活用する。
そこで本稿では,アクティビティ内で異なるサブアクティビティを定義する概念である「テンポラルステート(Temporal State)」について紹介する。
本研究では,これらのサブアクティビティが「時間一貫性」特性を介して論理時間列に従うことを保証し,ユーザと不変な時間関係を識別する「擬時状態ラベル法」を提案する。
さらに、DTSDAの設計原理は、より良いドメイン適応のための逆学習を統合している。
3つのHARデータセットの包括的評価は、サブアクティビティ間の時間的関係を用いて個々の行動変動をブレンドすることにより、ユーザ間HARアプリケーションにおけるDTSDAの優れた性能を示す。
Human Activity Recognition (HAR) is a cornerstone of ubiquitous computing, with promising applications in diverse fields such as health monitoring and ambient assisted living. Despite significant advancements, sensor-based HAR methods often operate under the assumption that training and testing data have identical distributions. However, in many real-world scenarios, particularly in sensor-based HAR, this assumption is invalidated by out-of-distribution ($\displaystyle o.o.d.$) challenges, including differences from heterogeneous sensors, change over time, and individual behavioural variability. This paper centres on the latter, exploring the cross-user HAR problem where behavioural variability across individuals results in differing data distributions. To address this challenge, we introduce the Deep Temporal State Domain Adaptation (DTSDA) model, an innovative approach tailored for time series domain adaptation in cross-user HAR. Contrary to the common assumption of sample independence in existing domain adaptation approaches, DTSDA recognizes and harnesses the inherent temporal relations in the data. Therefore, we introduce 'Temporal State', a concept that defined the different sub-activities within an activity, consistent across different users. We ensure these sub-activities follow a logical time sequence through 'Temporal Consistency' property and propose the 'Pseudo Temporal State Labeling' method to identify the user-invariant temporal relations. Moreover, the design principle of DTSDA integrates adversarial learning for better domain adaptation. Comprehensive evaluations on three HAR datasets demonstrate DTSDA's superior performance in cross-user HAR applications by briding individual behavioral variability using temporal relations across sub-activities. | 翻訳日:2024-04-01 03:04:05 公開日:2024-03-12 |
# 時間的注意によるユーザ間活動認識のための深部生成ドメイン適応
Deep Generative Domain Adaptation with Temporal Attention for Cross-User Activity Recognition ( http://arxiv.org/abs/2403.17958v1 ) ライセンス: Link先を確認 | Xiaozhou Ye, Kevin I-Kai Wang, | (参考訳) HAR(Human Activity Recognition)では、トレーニングや評価目的で使用されるデータが同じ分布から引き出されるという前提が主流である。
また、すべてのデータサンプルは独立であり、同じ分散である(i.i.d.$)。
対照的に、実践的な実装は、特にユーザ間のHARのようなシナリオにおいて、データ分散の相違を顕在化して、この概念に挑戦することが多い。
ドメイン適応は、ユーザ間のHARタスクに固有のこれらの課題に対処するための有望なアプローチである。
しかし、ドメイン適応手法の明確なギャップは、データ分布の整列フェーズ中に時系列データに埋め込まれた時間的関係を無視することである。
本研究は,時間的アテンション(DGDATA)法を用いた深部生成ドメイン適応法を提案する。
本手法は,ドメイン適応過程における時間的関係を一意に認識し,統合する。
時間的関係注意機構による生成モデルの能力の相乗化により,本手法はユーザ間HARの分類性能を向上させる。
提案手法の有効性を実証するために,様々なシナリオと応用をターゲットとした3つの公開センサベースHARデータセットに対して総合的な評価を行った。
In Human Activity Recognition (HAR), a predominant assumption is that the data utilized for training and evaluation purposes are drawn from the same distribution. It is also assumed that all data samples are independent and identically distributed ($\displaystyle i.i.d.$). Contrarily, practical implementations often challenge this notion, manifesting data distribution discrepancies, especially in scenarios such as cross-user HAR. Domain adaptation is the promising approach to address these challenges inherent in cross-user HAR tasks. However, a clear gap in domain adaptation techniques is the neglect of the temporal relation embedded within time series data during the phase of aligning data distributions. Addressing this oversight, our research presents the Deep Generative Domain Adaptation with Temporal Attention (DGDATA) method. This novel method uniquely recognises and integrates temporal relations during the domain adaptation process. By synergizing the capabilities of generative models with the Temporal Relation Attention mechanism, our method improves the classification performance in cross-user HAR. A comprehensive evaluation has been conducted on three public sensor-based HAR datasets targeting different scenarios and applications to demonstrate the efficacy of the proposed DGDATA method. | 翻訳日:2024-04-01 02:34:48 公開日:2024-03-12 |
# TMU TREC 臨床試験トラック 2023
TMU at TREC Clinical Trials Track 2023 ( http://arxiv.org/abs/2403.12088v1 ) ライセンス: Link先を確認 | Aritra Kumar Lahiri, Emrul Hasan, Qinmin Vivian Hu, Cherie Ding, | (参考訳) 本稿では,トロント大学が2023年に開催したTRECクリニカル・トライアル・トラックへの参加について述べる。
これらの課題の一環として,我々は,先進的な自然言語処理技術とニューラルネットワークモデルを用いて,最も関連性の高い臨床試験を検索した。
我々は、チーム-V-TorontoMUの一部として、実行プロセスの実装の方法論、実験的な設定、結果を説明します。
This paper describes Toronto Metropolitan University's participation in the TREC Clinical Trials Track for 2023. As part of the tasks, we utilize advanced natural language processing techniques and neural language models in our experiments to retrieve the most relevant clinical trials. We illustrate the overall methodology, experimental settings, and results of our implementation for the run submission as part of Team - V-TorontoMU. | 翻訳日:2024-03-25 07:36:54 公開日:2024-03-12 |
# Duwak: 大きな言語モデルにおけるデュアル・ウォーターマーク
Duwak: Dual Watermarks in Large Language Models ( http://arxiv.org/abs/2403.13000v1 ) ライセンス: Link先を確認 | Chaoyi Zhu, Jeroen Galjaard, Pin-Yu Chen, Lydia Y. Chen, | (参考訳) 大規模言語モデル(LLM)はテキスト生成タスクにますます使われるようになっているため、それらの使用状況を監査し、アプリケーションを管理し、潜在的な害を軽減することが重要である。
既存の透かし技術は、生成したテキストの品質や意味論に大きな影響を及ぼすことなく、人間の知覚できない単一パターンと機械検出可能なパターンを埋め込むのに効果的である。
しかし、透かしの検出の効率、すなわち、後編集に対する重要性と堅牢性によって検出を主張するために必要なトークンの最小数については、依然として議論の余地がある。
本稿では,トークン確率分布とサンプリング方式の両方に二重秘密パターンを埋め込むことにより,透かしの効率と品質を根本的に向上するDuwakを提案する。
本研究では,特定のトークンに対するバイアスによる表現劣化を軽減するために,トークンの繰り返しを最小限に抑え,多様性を高めるために,サンプリング方式をウォーターマークするコントラスト検索を設計する。
理論的にはデュワクの2つの透かしの相互依存性を説明する。
我々は,Llama2の各種編集後攻撃において,Duwakを4つの最先端透かし技術とそれらの組み合わせに対して広範囲に評価した。
以上の結果から,Duwakマークテキストは,検出に必要な最低トークン数において,特にパラフレーズ化後において,既存の手法よりも70%少ないトークン数で,最も透かしの高いテキスト品質を実現することがわかった。
As large language models (LLM) are increasingly used for text generation tasks, it is critical to audit their usages, govern their applications, and mitigate their potential harms. Existing watermark techniques are shown effective in embedding single human-imperceptible and machine-detectable patterns without significantly affecting generated text quality and semantics. However, the efficiency in detecting watermarks, i.e., the minimum number of tokens required to assert detection with significance and robustness against post-editing, is still debatable. In this paper, we propose, Duwak, to fundamentally enhance the efficiency and quality of watermarking by embedding dual secret patterns in both token probability distribution and sampling schemes. To mitigate expression degradation caused by biasing toward certain tokens, we design a contrastive search to watermark the sampling scheme, which minimizes the token repetition and enhances the diversity. We theoretically explain the interdependency of the two watermarks within Duwak. We evaluate Duwak extensively on Llama2 under various post-editing attacks, against four state-of-the-art watermarking techniques and combinations of them. Our results show that Duwak marked text achieves the highest watermarked text quality at the lowest required token count for detection, up to 70% tokens less than existing approaches, especially under post paraphrasing. | 翻訳日:2024-03-25 07:17:26 公開日:2024-03-12 |
# カオスの高忠実度予測のための木に基づく学習
Tree-based Learning for High-Fidelity Prediction of Chaos ( http://arxiv.org/abs/2403.13836v1 ) ライセンス: Link先を確認 | Adam Giammarese, Kamal Rana, Erik M. Bollt, Nishant Malik, | (参考訳) カオスシステムの時間的進化をモデル無しで予測することは重要であるが困難である。
既存のソリューションではハイパーパラメータチューニングが必要であり、採用を著しく妨げている。
本稿では,ハイパーパラメータチューニングを必要としないツリーベースのアプローチを提案する。
時間遅延オーバー埋め込みを明示的な短期記憶として使用し、Extra-Trees Regressorsを使用して機能の削減と予測を行う。
我々はHenon map, Lorenz and Kuramoto-Sivashinsky system, and the real-world Southern Oscillation Indexを用いてTreeDOXの最先端性能を示す。
Model-free forecasting of the temporal evolution of chaotic systems is crucial but challenging. Existing solutions require hyperparameter tuning, significantly hindering their wider adoption. In this work, we introduce a tree-based approach not requiring hyperparameter tuning: TreeDOX. It uses time delay overembedding as explicit short-term memory and Extra-Trees Regressors to perform feature reduction and forecasting. We demonstrate the state-of-the-art performance of TreeDOX using the Henon map, Lorenz and Kuramoto-Sivashinsky systems, and the real-world Southern Oscillation Index. | 翻訳日:2024-03-25 07:07:37 公開日:2024-03-12 |
# ロバストな2次非凸最適化と低ランクマトリックスセンシングへの応用
Robust Second-Order Nonconvex Optimization and Its Application to Low Rank Matrix Sensing ( http://arxiv.org/abs/2403.10547v1 ) ライセンス: Link先を確認 | Shuyao Li, Yu Cheng, Ilias Diakonikolas, Jelena Diakonikolas, Rong Ge, Stephen J. Wright, | (参考訳) 近似二階定常点(SOSP)を見つけることは、確率的非凸最適化におけるよく研究され基礎的な問題であり、機械学習における多くの応用がある。
しかし、この問題は外れ値の存在下ではよく理解されておらず、既存の非凸アルゴリズムを敵の設定で使用することを制限している。
本稿では, 強い汚染モデルにおけるSOSPの発見問題について検討する。
我々は、$D$が周囲次元、$\epsilon$が破損したデータポイントの分数である場合、$\widetilde{O}({D^2}/{\epsilon})$サンプルを用いて、emph{dimension-independent}精度保証付き近似SOSPを効率的に見つけるための一般的なフレームワークを導入する。
本フレームワークの具体的応用として、低ランク行列検出問題に適用し、検出行列と測定値の両方の汚損を許容する効率的かつ証明可能な堅牢なアルゴリズムを開発する。
さらに、計算効率のよいアルゴリズムには、サンプル複雑性における$D$の二次的依存が不可欠であることを示すために、統計的クエリーの下界を確立する。
Finding an approximate second-order stationary point (SOSP) is a well-studied and fundamental problem in stochastic nonconvex optimization with many applications in machine learning. However, this problem is poorly understood in the presence of outliers, limiting the use of existing nonconvex algorithms in adversarial settings. In this paper, we study the problem of finding SOSPs in the strong contamination model, where a constant fraction of datapoints are arbitrarily corrupted. We introduce a general framework for efficiently finding an approximate SOSP with \emph{dimension-independent} accuracy guarantees, using $\widetilde{O}({D^2}/{\epsilon})$ samples where $D$ is the ambient dimension and $\epsilon$ is the fraction of corrupted datapoints. As a concrete application of our framework, we apply it to the problem of low rank matrix sensing, developing efficient and provably robust algorithms that can tolerate corruptions in both the sensing matrices and the measurements. In addition, we establish a Statistical Query lower bound providing evidence that the quadratic dependence on $D$ in the sample complexity is necessary for computationally efficient algorithms. | 翻訳日:2024-03-19 23:05:08 公開日:2024-03-12 |
# 低消費電力エッジ組込みシステムにおけるキーワードスポッティングのためのオンデバイスドメイン学習
On-Device Domain Learning for Keyword Spotting on Low-Power Extreme Edge Embedded Systems ( http://arxiv.org/abs/2403.10549v1 ) ライセンス: Link先を確認 | Cristian Cioflan, Lukas Cavigelli, Manuele Rusci, Miguel de Prado, Luca Benini, | (参考訳) キーワードスポッティング精度は、ニューラルネットワークがノイズの多い環境にさらされると低下する。
未確認ノイズへのオンサイト適応は、精度損失の回復に不可欠であり、適応プロセスがエッジデバイス上で完全に実行されることを保証するためにデバイス上での学習が必要である。
本研究では,すでにロバストなキーワードスポッティングモデルよりも最大14%の精度を達成できる,デバイス上でのドメイン適応システムを提案する。
複雑な音声雑音に適応して5%の精度を回復するために,100個のラベル付き発話のみを用いて,10kB未満のメモリでデバイス上での学習を可能にする。
超低消費電力マイクロコントローラでは、常時オンのバッテリー駆動デバイスでは、わずか14秒で806mJ以下でドメイン適応が達成できることを実証した。
Keyword spotting accuracy degrades when neural networks are exposed to noisy environments. On-site adaptation to previously unseen noise is crucial to recovering accuracy loss, and on-device learning is required to ensure that the adaptation process happens entirely on the edge device. In this work, we propose a fully on-device domain adaptation system achieving up to 14% accuracy gains over already-robust keyword spotting models. We enable on-device learning with less than 10 kB of memory, using only 100 labeled utterances to recover 5% accuracy after adapting to the complex speech noise. We demonstrate that domain adaptation can be achieved on ultra-low-power microcontrollers with as little as 806 mJ in only 14 s on always-on, battery-operated devices. | 翻訳日:2024-03-19 23:05:08 公開日:2024-03-12 |
# 精神状態追跡による抑うつ・診断指向チャットの強化
Enhancing Depression-Diagnosis-Oriented Chat with Psychological State Tracking ( http://arxiv.org/abs/2403.09717v1 ) ライセンス: Link先を確認 | Yiyang Gu, Yougen Zhou, Qin Chen, Ningning Zhou, Jie Zhou, Aimin Zhou, Liang He, | (参考訳) Depression-diagnosis-oriented chatは、自己表現の患者を誘導し、うつ病検出の主要な症状を収集することを目的としている。
最近の研究は、面接に基づくうつ病の診断をシミュレートするために、タスク指向対話とchitchatを組み合わせることに焦点を当てている。
しかし、これらの手法は、対話中の患者の情報、感情、症状を十分に捉えることができない。
さらに、対話をガイドするための明確なフレームワークは検討されていない。
本稿では,精神状態追跡(POST)を大規模言語モデル(LLM)に統合し,うつ病指向のチャットを明示的にガイドすることを提案する。
具体的には、状態は、ステージ、情報、概要、次の4つの構成要素からなる心理学的理論モデルから適応される。
LLMモデルを微調整し、動的心理状態を生成し、各ターンでの応答生成を補助し、精神科医をシミュレートする。
既存のベンチマーク実験の結果,提案手法は抑うつ診断指向チャットにおける全てのサブタスクの性能を向上させることが示された。
Depression-diagnosis-oriented chat aims to guide patients in self-expression to collect key symptoms for depression detection. Recent work focuses on combining task-oriented dialogue and chitchat to simulate the interview-based depression diagnosis. Whereas, these methods can not well capture the changing information, feelings, or symptoms of the patient during dialogues. Moreover, no explicit framework has been explored to guide the dialogue, which results in some useless communications that affect the experience. In this paper, we propose to integrate Psychological State Tracking (POST) within the large language model (LLM) to explicitly guide depression-diagnosis-oriented chat. Specifically, the state is adapted from a psychological theoretical model, which consists of four components, namely Stage, Information, Summary and Next. We fine-tune an LLM model to generate the dynamic psychological state, which is further used to assist response generation at each turn to simulate the psychiatrist. Experimental results on the existing benchmark show that our proposed method boosts the performance of all subtasks in depression-diagnosis-oriented chat. | 翻訳日:2024-03-18 21:44:54 公開日:2024-03-12 |
# 自然言語処理とシステムレコメンデーションの連携強化のためのTextCNNの包括的実装
Comprehensive Implementation of TextCNN for Enhanced Collaboration between Natural Language Processing and System Recommendation ( http://arxiv.org/abs/2403.09718v1 ) ライセンス: Link先を確認 | Xiaonan Xu, Zheng Xu, Zhipeng Ling, Zhengyu Jin, ShuQian Du, | (参考訳) 自然言語処理(NLP)は、コンピュータが人間の言語を理解し、処理し、生成する方法を研究する人工知能の重要な分野である。
テキスト分類は、NLPの基本課題であり、テキストを異なる事前定義されたカテゴリに分類することを目的としている。
テキスト分類は自然言語処理における最も基本的で古典的なタスクであり、自然言語処理におけるほとんどのタスクは分類タスクとみなすことができる。
近年,多くの研究分野においてディープラーニングは大きな成功を収めており,現在ではテキスト分類タスクに広く組み込まれているNLP分野の標準技術となっている。
数字や画像とは異なり、テキスト処理はきめ細かい処理能力を強調する。
従来のテキスト分類法は一般的に入力モデルのテキストデータを前処理する必要がある。
さらに、手動のアノテーションを通じて優れたサンプル機能を取得し、古典的な機械学習アルゴリズムを分類するために使用する必要がある。
そこで本研究では,NLPの3つの中核課題(テキスト表現,単語順序モデリング,知識表現)におけるディープラーニングの適用状況を分析する。
この内容は、テキスト分類の文脈において自然言語処理によって達成される改善と相乗効果を探求するとともに、テキスト生成、テキスト分類、意味解析における敵対的手法による課題を考察する。
テキスト分類タスクに関する実証的研究は、特にTextCNNと連携して、インタラクティブな統合トレーニングの有効性を示し、テキスト分類の強化と強化におけるこれらの進歩の重要性を強調している。
Natural Language Processing (NLP) is an important branch of artificial intelligence that studies how to enable computers to understand, process, and generate human language. Text classification is a fundamental task in NLP, which aims to classify text into different predefined categories. Text classification is the most basic and classic task in natural language processing, and most of the tasks in natural language processing can be regarded as classification tasks. In recent years, deep learning has achieved great success in many research fields, and today, it has also become a standard technology in the field of NLP, which is widely integrated into text classification tasks. Unlike numbers and images, text processing emphasizes fine-grained processing ability. Traditional text classification methods generally require preprocessing the input model's text data. Additionally, they also need to obtain good sample features through manual annotation and then use classical machine learning algorithms for classification. Therefore, this paper analyzes the application status of deep learning in the three core tasks of NLP (including text representation, word order modeling, and knowledge representation). This content explores the improvement and synergy achieved through natural language processing in the context of text classification, while also taking into account the challenges posed by adversarial techniques in text generation, text classification, and semantic parsing. An empirical study on text classification tasks demonstrates the effectiveness of interactive integration training, particularly in conjunction with TextCNN, highlighting the significance of these advancements in text classification augmentation and enhancement. | 翻訳日:2024-03-18 21:44:54 公開日:2024-03-12 |
# Mevaker:ヘブライ語における結語抽出と転位資源
Mevaker: Conclusion Extraction and Allocation Resources for the Hebrew Language ( http://arxiv.org/abs/2403.09719v1 ) ライセンス: Link先を確認 | Vitaly Shalumov, Harel Haskey, Yuval Solaz, | (参考訳) 本稿では,イスラエルのState ComptrollerとOmbudsmanに基づくヘブライ語の要約MevakerSummと結論抽出MevakerConcデータセットと2つの補助データセットを紹介する。
我々はこれらのデータセットに、結論抽出モデル(HeConE, HeConEspc)と結論割り当てモデル(HeCross)を添付する。
この作業で使用されるコード、データセット、モデルチェックポイントはすべて公開されています。
In this paper, we introduce summarization MevakerSumm and conclusion extraction MevakerConc datasets for the Hebrew language based on the State Comptroller and Ombudsman of Israel reports, along with two auxiliary datasets. We accompany these datasets with models for conclusion extraction (HeConE, HeConEspc) and conclusion allocation (HeCross). All of the code, datasets, and model checkpoints used in this work are publicly available. | 翻訳日:2024-03-18 21:44:54 公開日:2024-03-12 |
# 微調整とプロンプト - 言語モデルは人間の価値を理解できるか?
Fine-tuning vs Prompting, Can Language Models Understand Human Values? ( http://arxiv.org/abs/2403.09720v1 ) ライセンス: Link先を確認 | Pingwei Sun, | (参考訳) 文の基盤となるサポート値の正確な処理は、話者の傾向を理解するために重要であるが、自然言語理解(NLU)において難しい課題となる。
本稿では,この下流タスクにおける微調整と迅速なチューニングの可能性について,Human Value Detection 2023を用いて検討する。
さらに,事前学習の段階で得られた知識に基づいて,モデルが効果的に解決できるかどうかを検証する。
同時に、我々の関心は、このタスクにおいてRLHFと整合する大規模言語モデル(LLM)の能力にあり、いくつかの予備的な試みが提示される。
Accurately handling the underlying support values in sentences is crucial for understanding the speaker's tendencies, yet it poses a challenging task in natural language understanding (NLU). In this article, we explore the potential of fine-tuning and prompt tuning in this downstream task, using the Human Value Detection 2023. Additionally, we attempt to validate whether models can effectively solve the problem based on the knowledge acquired during the pre-training stage. Simultaneously, our interest lies in the capabilities of large language models (LLMs) aligned with RLHF in this task, and some preliminary attempts are presented. | 翻訳日:2024-03-18 21:44:54 公開日:2024-03-12 |
# 文書レベルイベント調停抽出のための意味的調停グラフ強化モデル
A Semantic Mention Graph Augmented Model for Document-Level Event Argument Extraction ( http://arxiv.org/abs/2403.09721v1 ) ライセンス: Link先を確認 | Jian Zhang, Changlin Yang, Haiping Zhu, Qika Lin, Fangzhi Xu, Jun Liu, | (参考訳) Document-level Event Argument extract (DEAE)は、構造化されていないドキュメントから引数とその特定の役割を特定することを目的としている。
DEAEの先進的なアプローチは、事前訓練された言語モデル(PLM)を誘導するプロンプトベースの手法を用いて、入力文書から引数を抽出する。
主に文書内のトリガーと実体の言及の関係を確立することに集中しており、未解決の問題が2つ残されている。
a) 実体の言及の独立したモデリング
b) 文書の発散分離
そこで本稿では,これら2つの問題に対処する意味的言及グラフ拡張モデル(GAM)を提案する。
まず、GAMは文書とプロンプト間の関係をキャプチャするセマンティック参照グラフを構築し、共存、共参照、共型関係を含む。
さらに、参照とそれらの3つの意味関係を効果的に扱うために、アンサンブルグラフトランスフォーマーモジュールを導入する。
後に、グラフ拡張エンコーダデコーダモジュールは、関係固有グラフをPLMの入力埋め込みに組み込み、エンコーダ部をトポロジ情報で最適化し、関係を包括的に拡張する。
RAMSとWikiEventsデータセットに関する大規模な実験は、私たちのアプローチの有効性を示し、ベースラインメソッドを超越し、新しい最先端のパフォーマンスを実現する。
Document-level Event Argument Extraction (DEAE) aims to identify arguments and their specific roles from an unstructured document. The advanced approaches on DEAE utilize prompt-based methods to guide pre-trained language models (PLMs) in extracting arguments from input documents. They mainly concentrate on establishing relations between triggers and entity mentions within documents, leaving two unresolved problems: a) independent modeling of entity mentions; b) document-prompt isolation. To this end, we propose a semantic mention Graph Augmented Model (GAM) to address these two problems in this paper. Firstly, GAM constructs a semantic mention graph that captures relations within and between documents and prompts, encompassing co-existence, co-reference and co-type relations. Furthermore, we introduce an ensembled graph transformer module to address mentions and their three semantic relations effectively. Later, the graph-augmented encoder-decoder module incorporates the relation-specific graph into the input embedding of PLMs and optimizes the encoder section with topology information, enhancing the relations comprehensively. Extensive experiments on the RAMS and WikiEvents datasets demonstrate the effectiveness of our approach, surpassing baseline methods and achieving a new state-of-the-art performance. | 翻訳日:2024-03-18 21:44:54 公開日:2024-03-12 |
# 臨床テキストから生医学的概念を抽出した患者の寛解予測
Prediction of readmission of patients by extracting biomedical concepts from clinical texts ( http://arxiv.org/abs/2403.09722v1 ) ライセンス: Link先を確認 | Rasoul Samani, Fahime Shahrokh, Mohammad Dehghani, | (参考訳) 今日、大量の電子健康データが存在することが、患者に提供された医療サービスの改善と医療システムのコスト削減を目的とした研究を行うための潜在的能力を生み出している。
近年,医学分野で注目されている話題の一つとして,退院直後に再入院する可能性の高い患者があげられる。
この同定は、医師が適切な治療方法を選択するのに役立つため、患者の再入院率を低下させ、効果的に治療費を削減できる。
本研究では,テキストマイニングによる患者の再入院の予測と,患者の電子ファイルにおける退院報告テキストの処理について論じる。
この目的のために, 患者容積を予測するプロセスにおいて, 単語袋と概念袋の2つのアプローチを用いて, 各種機械学習モデルの性能評価を行った。
これらの手法の効率を比較すると、他の機械学習モデルやアプローチよりもランダムな森林モデルと概念の袋の方が優れていることが示される。
この研究は、この分野で機械学習モデルを利用した同様の研究と比較して、患者の再入院の確率を68.9%のリコールスコアで予測する上で、最も高いスコアを達成している。
Today, the existence of a vast amount of electronic health data has created potential capacities for conducting studies aiming to improve the medical services provided to patients and reduce the costs of the healthcare system. One of the topics that has been receiving attention in the field of medicine in recent years is the identification of patients who are likely to be re-hospitalized shortly after being discharged from the hospital. This identification can help doctors choose appropriate treatment methods, thereby reducing the rate of patient re-hospitalization and resulting in effective treatment cost reduction. In this study, the prediction of patient re-hospitalization using text mining approaches and the processing of discharge report texts in the patient's electronic file has been discussed. To this end, the performance of various machine learning models has been evaluated using two approaches: bag of word and bag of concept, in the process of predicting patient readmission. Comparing the efficiency of these approaches has shown the superiority of the random forest model and the bag of concept approach over other machine learning models and approaches. This research has achieved the highest score in predicting the probability of patient re-hospitalization, with a recall score of 68.9%, compared to similar works that have utilized machine learning models in this field. | 翻訳日:2024-03-18 21:44:54 公開日:2024-03-12 |
# ClaimVer: 説明可能なクレームレベル検証と知識グラフによるテキストのエビデンス属性
ClaimVer: Explainable Claim-Level Verification and Evidence Attribution of Text Through Knowledge Graphs ( http://arxiv.org/abs/2403.09724v1 ) ライセンス: Link先を確認 | Preetam Prabhu Srikar Dammu, Himanshu Naidu, Mouly Dewan, YoungMin Kim, Tanya Roosta, Aman Chadha, Chirag Shah, | (参考訳) ソーシャルメディアによる偽情報や偽情報の拡散やAI生成テキストの普及が進む中で、人々が遭遇した情報を検証し、信頼することはますます困難になっている。
多くのファクトチェック手法やツールが開発されているが、様々な文脈で役立つ適切な説明性や粒度の欠如がしばしばある。
使いやすく、アクセスしやすく、きめ細かいエビデンスを達成できるテキスト検証方法が重要になっている。
さらに重要なことは、このような方法でユーザ信頼を構築するには、自動システムに対する人々の信念に多大な影響を及ぼす研究結果として、各予測の背後にある根拠を提示する必要があることである。
また、単純なブランケットラベルを提供するのではなく、特定の問題のあるコンテンツにユーザーの注意を向け、ローカライズすることが最重要である。
本稿では,リッチアノテーションの生成と認知負荷の低減により,ユーザの情報および検証ニーズを満たすように調整された,人間中心のフレームワークである$\textit{ClaimVerを提案する。
テキストの包括的な評価を提供するために設計され、各クレームをハイライトし、信頼された知識グラフ(KG)に対して検証し、証拠を提示し、各クレーム予測に対して簡潔で明確な説明を提供する。
最後に、我々のフレームワークは属性スコアを導入し、幅広い下流タスクに適用性を高めます。
In the midst of widespread misinformation and disinformation through social media and the proliferation of AI-generated texts, it has become increasingly difficult for people to validate and trust information they encounter. Many fact-checking approaches and tools have been developed, but they often lack appropriate explainability or granularity to be useful in various contexts. A text validation method that is easy to use, accessible, and can perform fine-grained evidence attribution has become crucial. More importantly, building user trust in such a method requires presenting the rationale behind each prediction, as research shows this significantly influences people's belief in automated systems. It is also paramount to localize and bring users' attention to the specific problematic content, instead of providing simple blanket labels. In this paper, we present $\textit{ClaimVer, a human-centric framework}$ tailored to meet users' informational and verification needs by generating rich annotations and thereby reducing cognitive load. Designed to deliver comprehensive evaluations of texts, it highlights each claim, verifies it against a trusted knowledge graph (KG), presents the evidence, and provides succinct, clear explanations for each claim prediction. Finally, our framework introduces an attribution score, enhancing applicability across a wide range of downstream tasks. | 翻訳日:2024-03-18 21:44:54 公開日:2024-03-12 |
# RAD-PHI2:放射線学におけるPHI-2の指導
RAD-PHI2: Instruction Tuning PHI-2 for Radiology ( http://arxiv.org/abs/2403.09725v1 ) ライセンス: Link先を確認 | Mercy Ranjit, Gopinath Ganapathy, Shaury Srivastav, Tanuja Ganu, Srujana Oruganti, | (参考訳) 小言語モデル(SLM)は、一般的なドメイン言語理解、推論、コーディングタスクにおいて顕著な性能を示してきたが、医学領域におけるそれらの能力、特に放射線学のテキストについての研究はあまり行われていない。
本研究では, 症状の理解, 発見の放射線学的外観, 鑑別診断, 予後評価, および, 異なる臓器系に関連のある w.r.t 病の治療法について, SLMs の一般放射線学知識への応用について検討した。
さらに、AI駆動の放射線学ワークフローにおける放射線学レポートに対するテキスト関連タスクの処理におけるSLMの有用性について検討する。
我々は、Radiopaediaの高品質な教育コンテンツを用いて、270億のパラメータを持つSLMであるPhi-2を微調整する。
得られた言語モデルであるRadPhi-2-Baseは、様々なシステム(例えば、胸、心臓)にわたる一般的な放射線学的クエリに対処する能力を示す。
さらに、Phi-2を用いて命令チューニングを行い、特定のタスクの実行を可能にする。
胸部X線レポートに関連する一般領域タスクと放射線学固有のタスクの両方でPhi-2を微調整することにより、Rad-Phi2を作成する。
実験の結果,Rad-Phi2 ベースとRad-Phi2 は Mistral-7B-Instruct-v0.2 や GPT-4 などの大規模モデルに対して,簡潔で高精度な解答を提供することが判明した。
要約して,本研究は,放射線学のワークフローにおけるSLMの利用可能性と有効性を示し,また,放射線学の実践の質と効率を高めるための新たな道を開いた。
Small Language Models (SLMs) have shown remarkable performance in general domain language understanding, reasoning and coding tasks, but their capabilities in the medical domain, particularly concerning radiology text, is less explored. In this study, we investigate the application of SLMs for general radiology knowledge specifically question answering related to understanding of symptoms, radiological appearances of findings, differential diagnosis, assessing prognosis, and suggesting treatments w.r.t diseases pertaining to different organ systems. Additionally, we explore the utility of SLMs in handling text-related tasks with respect to radiology reports within AI-driven radiology workflows. We fine-tune Phi-2, a SLM with 2.7 billion parameters using high-quality educational content from Radiopaedia, a collaborative online radiology resource. The resulting language model, RadPhi-2-Base, exhibits the ability to address general radiology queries across various systems (e.g., chest, cardiac). Furthermore, we investigate Phi-2 for instruction tuning, enabling it to perform specific tasks. By fine-tuning Phi-2 on both general domain tasks and radiology-specific tasks related to chest X-ray reports, we create Rad-Phi2. Our empirical results reveal that Rad-Phi2 Base and Rad-Phi2 perform comparably or even outperform larger models such as Mistral-7B-Instruct-v0.2 and GPT-4 providing concise and precise answers. In summary, our work demonstrates the feasibility and effectiveness of utilizing SLMs in radiology workflows both for knowledge related queries as well as for performing specific tasks related to radiology reports thereby opening up new avenues for enhancing the quality and efficiency of radiology practice. | 翻訳日:2024-03-18 21:44:54 公開日:2024-03-12 |
# 検索機能向上とAI駆動型知識ベースシステムの開発のための微調整
Investigating the performance of Retrieval-Augmented Generation and fine-tuning for the development of AI-driven knowledge-based systems ( http://arxiv.org/abs/2403.09727v1 ) ライセンス: Link先を確認 | Robert Lakatos, Peter Pollner, Andras Hajdu, Tamas Joo, | (参考訳) 生成型大規模言語モデル(G-LLM)の開発は、ChatGPT、Bing、Geminiのような新しいタイプの知識ベースのシステムを開発する新たな機会を開いた。
Fine-tuning (FN) と Retrieval-Augmented Generation (RAG) は、G-LLMベースの知識システムを開発するためにドメイン適応を実装するために使用できる技術である。
本研究は,ROUGE,BLEU,METEORスコア,コサイン類似度を用いて,GPT-J-6B,OPT-6.7B,LlaMA,LlaMA-2言語モデルにおけるRAGとFNの性能を比較検討した。
異なるデータセットで示される測定結果から,RAGに基づく構造はFNで生成したモデルよりも効率的であることを示す。
RAGモデルとFNモデルとの接続は性能の低下を引き起こす可能性があるので、RAGとFNの接続は簡単ではないと指摘する。
さらに,ROGUEスコアでFNモデルを平均16%上回り,BLEUスコアで15%,コサイン類似度で53%上回る単純なRAGベースアーキテクチャを概説した。
これは、FNモデルにおける平均8%のMETEORスコアがRAGよりも創造性が高いという事実から、幻覚の点でRAGがFNよりも有意な優位性を示している。
The development of generative large language models (G-LLM) opened up new opportunities for the development of new types of knowledge-based systems similar to ChatGPT, Bing, or Gemini. Fine-tuning (FN) and Retrieval-Augmented Generation (RAG) are the techniques that can be used to implement domain adaptation for the development of G-LLM-based knowledge systems. In our study, using ROUGE, BLEU, METEOR scores, and cosine similarity, we compare and examine the performance of RAG and FN for the GPT-J-6B, OPT-6.7B, LlaMA, LlaMA-2 language models. Based on measurements shown on different datasets, we demonstrate that RAG-based constructions are more efficient than models produced with FN. We point out that connecting RAG and FN is not trivial, because connecting FN models with RAG can cause a decrease in performance. Furthermore, we outline a simple RAG-based architecture which, on average, outperforms the FN models by 16% in terms of the ROGUE score, 15% in the case of the BLEU score, and 53% based on the cosine similarity. This shows the significant advantage of RAG over FN in terms of hallucination, which is not offset by the fact that the average 8% better METEOR score of FN models indicates greater creativity compared to RAG. | 翻訳日:2024-03-18 21:44:54 公開日:2024-03-12 |
# 変圧器を用いた重み付きオートマタの列と木上でのシミュレーション
Simulating Weighted Automata over Sequences and Trees with Transformers ( http://arxiv.org/abs/2403.09728v1 ) ライセンス: Link先を確認 | Michael Rizvi, Maude Lizaire, Clara Lacroce, Guillaume Rabusseau, | (参考訳) トランスフォーマーは自然言語処理(NLP)コミュニティにおいてユビキタスモデルであり、過去数年間で印象的な経験的成功を収めてきた。
しかし、それらの理由と計算能力の限界についてはほとんど理解されていない。
これらのモデルはシーケンシャルなデータを処理せず、RNNのようなシーケンシャルなニューラルモデルよりも優れている。
近年の研究では、これらのモデルが決定論的有限オートマトン(DFAs)の逐次推論能力をコンパクトにシミュレートできることが示されている。
トランスフォーマーはより複雑な有限状態マシンの推論をシミュレートできるだろうか?
本研究では、重み付き有限オートマトン (WFAs) と、重み付きオートマトン (WTA) を木構造入力に一般化した重み付きツリーオートマトン (WTA) のクラスをシミュレートできることを示す。
我々はこれらの主張を正式に証明し、ターゲットオートマタの状態数の関数として必要とされる変換器モデルのサイズについて上限を与える。
実験により,変圧器は標準勾配に基づく学習により,これらのコンパクトな解を学習可能であることを示す。
Transformers are ubiquitous models in the natural language processing (NLP) community and have shown impressive empirical successes in the past few years. However, little is understood about how they reason and the limits of their computational capabilities. These models do not process data sequentially, and yet outperform sequential neural models such as RNNs. Recent work has shown that these models can compactly simulate the sequential reasoning abilities of deterministic finite automata (DFAs). This leads to the following question: can transformers simulate the reasoning of more complex finite state machines? In this work, we show that transformers can simulate weighted finite automata (WFAs), a class of models which subsumes DFAs, as well as weighted tree automata (WTA), a generalization of weighted automata to tree structured inputs. We prove these claims formally and provide upper bounds on the sizes of the transformer models needed as a function of the number of states the target automata. Empirically, we perform synthetic experiments showing that transformers are able to learn these compact solutions via standard gradient-based training. | 翻訳日:2024-03-18 21:44:54 公開日:2024-03-12 |
# 特徴選択ライブラリ(MATLAB Toolbox)
Feature Selection Library (MATLAB Toolbox) ( http://arxiv.org/abs/1607.01327v8 ) ライセンス: Link先を確認 | Giorgio Roffo, | (参考訳) FSLib(Feature Selection Library)は、機械学習とデータマイニングタスクの改善を目的とした、MATLABのための、機能選択(FS)アルゴリズムの包括的なスイートを提供する。
FSLibは、さまざまなFS要件を満たすためのフィルタ、組み込み、ラッパーメソッドを含んでいる。
フィルタメソッドは機能固有の特性に焦点を合わせ、組み込みメソッドはモデルトレーニングにFSを組み込み、ラッパーメソッドはモデルパフォーマンスメトリクスを通して機能を評価する。
効率的な特徴選択を可能にすることで、FSLibは次元の呪いに対処し、計算負荷を減らし、モデルの一般化性を高める。
FSLibによる冗長な機能の排除は、トレーニングプロセスを合理化し、効率性とスケーラビリティを向上させる。
これにより、モデル開発の速度が向上し、重要な機能に集中することで、精度、精度、リコールといった重要なパフォーマンス指標が向上する。
さらにFSLibは、重要な特徴を明らかにし、パターン認識と理解を支援することで、データの解釈可能性に貢献している。
全体として、FSLibは、機能選択を単純化するだけでなく、幅広いアルゴリズムを提供し、次元を減らし、モデルのトレーニングを加速し、モデルの結果を改善し、データ洞察を向上させることで、機械学習とデータマイニングのエコシステムに大きな恩恵をもたらす、汎用的なフレームワークを提供する。
The Feature Selection Library (FSLib) introduces a comprehensive suite of feature selection (FS) algorithms for MATLAB, aimed at improving machine learning and data mining tasks. FSLib encompasses filter, embedded, and wrapper methods to cater to diverse FS requirements. Filter methods focus on the inherent characteristics of features, embedded methods incorporate FS within model training, and wrapper methods assess features through model performance metrics. By enabling effective feature selection, FSLib addresses the curse of dimensionality, reduces computational load, and enhances model generalizability. The elimination of redundant features through FSLib streamlines the training process, improving efficiency and scalability. This facilitates faster model development and boosts key performance indicators such as accuracy, precision, and recall by focusing on vital features. Moreover, FSLib contributes to data interpretability by revealing important features, aiding in pattern recognition and understanding. Overall, FSLib provides a versatile framework that not only simplifies feature selection but also significantly benefits the machine learning and data mining ecosystem by offering a wide range of algorithms, reducing dimensionality, accelerating model training, improving model outcomes, and enhancing data insights. | 翻訳日:2024-03-17 17:28:01 公開日:2024-03-12 |
# Imaginary hyperelliptic function field の類体論からの群作用の計算
Computing a Group Action from the Class Field Theory of Imaginary Hyperelliptic Function Fields ( http://arxiv.org/abs/2203.06970v6 ) ライセンス: Link先を確認 | Antoine Leudière, Pierre-Jean Spaenlehauer, | (参考訳) 虚超楕円函数場の類体論から生じる単純推移的可換群作用のアルゴリズム的側面を探求する。
すなわち、$\mathbb F_q$ 上で定義される虚超楕円曲線のヤコビアンは、ドリンフェルト加群の同型類の部分集合に作用する。
グループ動作を効率的に計算するアルゴリズムについて述べる。
これは、Couveignes-Rostovtsev-Stolbunov群作用の関数場類似体である。
本稿では,概念実証C++/NTL実装による明示的な計算について報告する。
群作用を逆転する問題は、ヴェゾロフスキーのアルゴリズムにより多項式時間で解けるドリンフェルト$\mathbb F_q[X]$-加群の間の固定された$\tau$-次数の等質性を見つける問題に還元されることを証明した。
本稿では,全アルゴリズムに対して漸近的複雑性境界を与える。
We explore algorithmic aspects of a simply transitive commutative group action coming from the class field theory of imaginary hyperelliptic function fields. Namely, the Jacobian of an imaginary hyperelliptic curve defined over $\mathbb F_q$ acts on a subset of isomorphism classes of Drinfeld modules. We describe an algorithm to compute the group action efficiently. This is a function field analog of the Couveignes-Rostovtsev-Stolbunov group action. We report on an explicit computation done with our proof-of-concept C++/NTL implementation; it took a fraction of a second on a standard computer. We prove that the problem of inverting the group action reduces to the problem of finding isogenies of fixed $\tau$-degree between Drinfeld $\mathbb F_q[X]$-modules, which is solvable in polynomial time thanks to an algorithm by Wesolowski. We give asymptotic complexity bounds for all algorithms presented in this paper. | 翻訳日:2024-03-17 13:51:55 公開日:2024-03-12 |
# 差別化プライバシの強化 - 私たちが現在どこにいるか,現実のデプロイメントの今後の方向性
Advancing Differential Privacy: Where We Are Now and Future Directions for Real-World Deployment ( http://arxiv.org/abs/2304.06929v2 ) ライセンス: Link先を確認 | Rachel Cummings, Damien Desfontaines, David Evans, Roxana Geambasu, Yangsibo Huang, Matthew Jagielski, Peter Kairouz, Gautam Kamath, Sewoong Oh, Olga Ohrimenko, Nicolas Papernot, Ryan Rogers, Milan Shen, Shuang Song, Weijie Su, Andreas Terzis, Abhradeep Thakurta, Sergei Vassilvitskii, Yu-Xiang Wang, Li Xiong, Sergey Yekhanin, Da Yu, Huanyu Zhang, Wanrong Zhang, | (参考訳) 本稿では,差分プライバシ(DP)分野における現状と現状の方法論を概観し,現実のアプリケーションにおけるDPの展開を推し進めることに焦点をあてる。
2022年7月、業界、学術、公共セクターの専門家らによるワークショップ「Differential Privacy (DP: Challenges Towards the Next Frontier)」で、プライバシーと産業レベルのシステム設計におけるその影響に関する幅広い疑問に対する回答を求めた。
この記事では、プライバシの領域におけるアルゴリズムおよび設計決定の基準点を提供することを目標とし、重要な課題と潜在的研究の方向性を強調します。
さまざまなトピックをカバーする上で、この記事では、プライベートシステムの設計に必要なインフラストラクチャ要件、より優れたプライバシ/ユーティリティのトレードオフを達成する方法、プライバシ攻撃と監査、さらにはより広範なオーディエンスやステークホルダーとのプライバシのコミュニケーションについて論じる。
In this article, we present a detailed review of current practices and state-of-the-art methodologies in the field of differential privacy (DP), with a focus of advancing DP's deployment in real-world applications. Key points and high-level contents of the article were originated from the discussions from "Differential Privacy (DP): Challenges Towards the Next Frontier," a workshop held in July 2022 with experts from industry, academia, and the public sector seeking answers to broad questions pertaining to privacy and its implications in the design of industry-grade systems. This article aims to provide a reference point for the algorithmic and design decisions within the realm of privacy, highlighting important challenges and potential research directions. Covering a wide spectrum of topics, this article delves into the infrastructure needs for designing private systems, methods for achieving better privacy/utility trade-offs, performing privacy attacks and auditing, as well as communicating privacy with broader audiences and stakeholders. | 翻訳日:2024-03-17 13:47:35 公開日:2024-03-12 |
# DT-SIM: MPCセキュリティのためのプロパティベースのテスト
DT-SIM: Property-Based Testing for MPC Security ( http://arxiv.org/abs/2403.04991v2 ) ライセンス: Link先を確認 | Mako Bates, Joseph P. Near, | (参考訳) プロトコルが暗号化のセキュリティ定義を満たすことを保証するための形式的手法は大幅に進歩しているが、そのような手法は依然として労働集約的であり、安全でないプロトコルを肯定的に識別できる自動化ツールの必要性が残っている。
この研究では、プロパティベースのテストである“何度も実行して、それが壊れているかどうかを確認する”ことが、セキュアなプロトコルのセキュリティバグの検出に有効であることを実証しています。
ビットモデル実装に対するこのセキュリティ定義を対象とする形式的手法は特に難しいため,特にMPC(Secure Multi-Party Computation)を対象とする。
MPCプロトコルのビットレベル実装において,確率型プログラミング言語の文献と統計的推論の結果を用いて,様々な欠陥を検出するテストを開発した。
テストはグレーボックスで、プロトコルと入力、出力、メッセージによって消費されるランダム性の書き起こしのみを必要とする。
古典的なGMWプロトコルの2つの異なる実装に導入されたいくつかの異なる誤りとバイアスを検出することに成功した。
何百ものランダムに生成されたプロトコルに適用すると、ほとんどすべてのプロトコルが安全でないと識別される。
また、テストのパラメータの分析や、MPC(in)セキュリティの検出を困難にしているのは何かという議論も含んでいる。
Formal methods for guaranteeing that a protocol satisfies a cryptographic security definition have advanced substantially, but such methods are still labor intensive and the need remains for an automated tool that can positively identify an insecure protocol. In this work, we demonstrate that property-based testing, "run it a bunch of times and see if it breaks", is effective for detecting security bugs in secure protocols. We specifically target Secure Multi-Party Computation (MPC), because formal methods targeting this security definition for bit-model implementations are particularly difficult. Using results from the literature for Probabilistic Programming Languages and statistical inference, we devise a test that can detect various flaws in a bit-level implementation of an MPC protocol. The test is grey-box; it requires only transcripts of randomness consumed by the protocol and of the inputs, outputs, and messages. It successfully detects several different mistakes and biases introduced into two different implementations of the classic GMW protocol. Applied to hundreds of randomly generated protocols, it identifies nearly all of them as insecure. We also include an analysis of the parameters of the test, and discussion of what makes detection of MPC (in)security difficult. | 翻訳日:2024-03-17 13:47:35 公開日:2024-03-12 |
# データフローセキュリティのための秩序理論の基礎
The order-theoretical foundation for data flow security ( http://arxiv.org/abs/2403.07226v1 ) ライセンス: Link先を確認 | Luigi Logrippo, | (参考訳) データフローのセキュリティに関するいくつかの理論は秩序理論の概念に基づいており、最も一般的には格子の概念に基づいている。
本稿では,セキュリティ概念と部分順序概念の対応について述べる。
この形式化には、データフローの概念、同じデータにアクセス可能なエンティティの等価クラス、ラベルが含まれる。
これらのうちの1つを効率よく、よく知られたアルゴリズムで他の1つから取得する。
機密性(秘密性とも呼ばれる)、完全性、紛争などの安全保障概念はこの理論で表すことができる。
さらに、文献でセキュリティレベルを表現するために使用される複雑なタプルラベルを等価なセットラベルに変換できることが示されている。
その結果、任意のネットワークのデータフローやアクセス制御の関係は、単純なセットラベルをエンティティに割り当てることで定義できる。
最後に、異なるデータフローが共存する必要がある場合に、どのように複数の部分的な順序が組み合わさることができるかを示す。
Some theories on data flow security are based on order-theoretical concepts, most commonly on lattice concepts. This paper presents a correspondence between security concepts and partial order concepts, by which the former become an application of the latter. The formalization involves concepts of data flow, equivalence classes of entities that can access the same data, and labels. Efficient, well-known algorithms to obtain one of these from one of the others are presented. Security concepts such as secrecy (also called confidentiality), integrity and conflict can be expressed in this theory. Further, it is shown that complex tuple labels used in the literature to express security levels can be translated into equivalent set labels. A consequence is that any network's data flow or access control relationships can be defined by assigning simple set labels to the entities. Finally, it is shown how several partial orders can be combined when different data flows must coexist. | 翻訳日:2024-03-17 13:37:51 公開日:2024-03-12 |
# クロスブロックチェーン相互作用の原子性と抽象化
Atomicity and Abstraction for Cross-Blockchain Interactions ( http://arxiv.org/abs/2403.07248v1 ) ライセンス: Link先を確認 | Huaixi Lu, Akshay Jajoo, Kedar S. Namjoshi, | (参考訳) ブロックチェーンは、そのチェーン上の相互信頼できない関係者間のセキュアでアトミックなトランザクションを促進する。
現在、異なるインターフェースとセキュリティプロパティを持つ複数のブロックチェーンが存在する。
このマルチブロックチェーンの世界におけるプログラミングは、クロスチェーン通信と計算のための汎用的で便利な抽象化の欠如によって妨げられている。
現在のクロスチェーン通信ブリッジは多種多様な低レベルインタフェースを備えており、ポータブルアプリケーションの開発が困難である。
マルチチェーンのアトミックトランザクションの現在の方法は、暗号スワップの範囲に限られている。
この仕事はこれらの問題に対処する。
まず、チェーン間の通信のための一様で高レベルなインターフェースを定義する。
このインターフェースに基づいて、操作が複数のチェーンにまたがる一般的なトランザクションに対してアトミック性を保証するプロトコルを定式化します。
これらのプロトコルの望ましい正しさとセキュリティ特性を定式化し、証明する。
当社のプロトタイプ実装はLayerZeroのクロスチェーンブリッジを使って構築されています。
この実装の経験から、新しい抽象化によって、マルチチェーントランザクションの設計と実装が大幅に単純化されたことがわかる。
マルチチェーンスワップトランザクションによる実験的評価は、カスタム実装に匹敵する性能を示す。
A blockchain facilitates secure and atomic transactions between mutually untrusting parties on that chain. Today, there are multiple blockchains with differing interfaces and security properties. Programming in this multi-blockchain world is hindered by the lack of general and convenient abstractions for cross-chain communication and computation. Current cross-chain communication bridges have varied and low-level interfaces, making it difficult to develop portable applications. Current methods for multi-chain atomic transactions are limited in scope to cryptocurrency swaps. This work addresses these issues. We first define a uniform, high-level interface for communication between chains. Building on this interface, we formulate a protocol that guarantees atomicity for general transactions whose operations may span several chains. We formulate and prove the desired correctness and security properties of these protocols. Our prototype implementation is built using the LayerZero cross-chain bridge. Experience with this implementation shows that the new abstractions considerably simplify the design and implementation of multi-chain transactions. Experimental evaluation with multi-chain swap transactions demonstrates performance comparable to that of custom-built implementations. | 翻訳日:2024-03-17 13:37:51 公開日:2024-03-12 |
# パラメトリック時空オートマトンにおける不透明度問題
Expiring opacity problems in parametric timed automata ( http://arxiv.org/abs/2403.07647v1 ) ライセンス: Link先を確認 | Étienne André, Engel Lefaucheux, Dylan Marinho, | (参考訳) 情報漏洩はリアルタイムシステムのセキュリティに劇的な影響を及ぼす可能性がある。
タイミングリークは、攻撃者がタイミング情報に応じてプライベートな振る舞いを推測できる場合に発生する。
本稿では,実行時間のみに基づいて,攻撃者が特定のプライベート状態の到達性を推論できない場合に,システムが不透明である場合に,その実行時間(w.r.t.実行時間)の有効期限の定義を提案する。
これは具体的なアプリケーション、特にキャッシュの再現性に共通しており、攻撃者が監視後遅すぎるとキャッシュの内容を知るのに役に立たない可能性がある。
タイムドオートマトンにおける期限付き不透明度問題について検討する。
システムは不透明であり、タイムドオートマトンに対して有効に計算できることを示すための時間境界(または有効期限)のセットを考える。
次に、境界だけでなく、内部の時間定数が未知の定数値のタイミングパラメータとなる場合に、パラメータ化問題の決定可能性について検討する。
Information leakage can have dramatic consequences on the security of real-time systems. Timing leaks occur when an attacker is able to infer private behavior depending on timing information. In this work, we propose a definition of expiring timed opacity w.r.t. execution time, where a system is opaque whenever the attacker is unable to deduce the reachability of some private state solely based on the execution time; in addition, the secrecy is violated only when the private state was entered "recently", i.e., within a given time bound (or expiration date) prior to system completion. This has an interesting parallel with concrete applications, notably cache deducibility: it may be useless for the attacker to know the cache content too late after its observance. We study here expiring timed opacity problems in timed automata. We consider the set of time bounds (or expiration dates) for which a system is opaque and show when they can be effectively computed for timed automata. We then study the decidability of several parameterized problems, when not only the bounds, but also some internal timing constants become timing parameters of unknown constant values. | 翻訳日:2024-03-17 13:37:51 公開日:2024-03-12 |
# UniHand:KCI耐性を備えた5G対応モバイル通信における小セルネットワークのためのプライバシ保護ユニバーサルハンドオーバ
UniHand: Privacy-preserving Universal Handover for Small-Cell Networks in 5G-enabled Mobile Communication with KCI Resilience ( http://arxiv.org/abs/2403.07817v1 ) ライセンス: Link先を確認 | Rabiah Alnashwan, Prosanta Gope, Benjamin Dowling, | (参考訳) 小型セルネットワーク(SCN)の導入により、無線リンク品質、スペクトル効率、ネットワーク容量が大幅に向上し、第5世代(5G)モバイルネットワークにおける重要な技術のひとつと見なされている。
しかしながら、この技術は、セルカバレッジを低減し、ネットワーク内のセルの密集配置によって引き起こされるハンドオーバ(HO)手順の頻度を増大させ、新たなセキュリティとプライバシの問題を引き起こす。
現行の5G-AKAおよびHOプロトコルは、フォワードシークレットやID混乱攻撃の欠如など、セキュリティの弱点に対して脆弱である。
HOの頻度が高いことは、5Gモバイルネットワークにおけるセキュリティとプライバシーの懸念を増大させるかもしれない。
この研究は、5Gモバイル通信におけるSCNのためのセキュアなプライバシー保護ユニバーサルHOスキーム(\UniHand$)を提案し、これらの問題に対処する。
$\UniHand$は、相互認証、強力な匿名性、完全なフォワードシークレット、キー・エスクローフリー、キー・コンフリクト・イン偽装(KCI)のレジリエンスを達成することができる。
我々の知る限りでは、これは5G環境におけるユーザをローミングするための、セキュアでプライバシー保護のユニバーサルHOを実現するための、‘textit{first}スキームである。
提案手法は, 総合的なセキュリティ分析を行い, 提案方式の費用対効果を示すための関連する実験を行うことにより, 重要なセキュリティ脅威に対して耐性があることを実証する。
Introducing Small Cell Networks (SCN) has significantly improved wireless link quality, spectrum efficiency and network capacity, which has been viewed as one of the key technologies in the fifth-generation (5G) mobile network. However, this technology increases the frequency of handover (HO) procedures caused by the dense deployment of cells in the network with reduced cell coverage, bringing new security and privacy issues. The current 5G-AKA and HO protocols are vulnerable to security weaknesses, such as the lack of forward secrecy and identity confusion attacks. The high HO frequency of HOs might magnify these security and privacy concerns in the 5G mobile network. This work addresses these issues by proposing a secure privacy-preserving universal HO scheme ($\UniHand$) for SCNs in 5G mobile communication. $\UniHand$ can achieve mutual authentication, strong anonymity, perfect forward secrecy, key-escrow-free and key compromise impersonation (KCI) resilience. To the best of our knowledge, this is the \textit{first} scheme to achieve secure, privacy-preserving universal HO with \textit{KCI} resilience for roaming users in 5G environment. We demonstrate that our proposed scheme is resilient against all the essential security threats by performing a comprehensive formal security analysis and conducting relevant experiments to show the cost-effectiveness of the proposed scheme. | 翻訳日:2024-03-17 13:37:51 公開日:2024-03-12 |
# メッセージ復元を伴う特定検証器シグナチャスキームのバリアント
The Variant of Designated Verifier Signature Scheme with Message Recovery ( http://arxiv.org/abs/2403.07820v1 ) ライセンス: Link先を確認 | Hong-Sheng Huang, Yu-Lei Fu, Han-Yu Lin, | (参考訳) 本稿では,UDVS(Universal Designated Verifier Signature)の概念にインスパイアされたメッセージ回復機構を組み込んだ,強力なDesignated Verifier Signature(DVS)方式を提案する。
セドニアの強い指定証書署名スキームは署名のプライバシーを保証せず、医療記録証明書や投票システムのような特定の用途には適さないことに注意する必要がある。
この制限を克服するため、Leeの強い指定検証シグネチャをメッセージ回復スキームで拡張し、普遍的な指定検証シグネチャスキームを開発する。
この普遍的指定検証方式は、署名保持者のプライバシーを保護し、指定された認証者だけが真の署名者を認証し、メッセージを回復できるように構成されている。
In this work, we introduce a strong Designated Verifier Signature (DVS) scheme that incorporates a message recovery mechanism inspired by the concept of the Universal Designated Verifier Signature (UDVS) scheme. It is worth noting that Saeednia's strong designated verifier signature scheme fails to guarantee the privacy of the signature, making it unsuitable for certain applications such as medical record certificates or voting systems. To overcome this limitation, we extend Lee's strong designated verifier signature with a message recovery scheme to develop a universal designated verifier signature scheme. This universal designated verifier scheme is crafted to safeguard the privacy of signature holders, ensuring that only designated verifiers can authenticate the true signer and recover the messages. | 翻訳日:2024-03-17 13:37:51 公開日:2024-03-12 |
# SCALHEALTH: セキュアなIoTヘルスケアシステムのためのスケーラブルなブロックチェーン統合
SCALHEALTH: Scalable Blockchain Integration for Secure IoT Healthcare Systems ( http://arxiv.org/abs/2403.08068v1 ) ライセンス: Link先を確認 | Mehrzad Mohammadi, Reza Javan, Mohammad Beheshti-Atashgah, Mohammad Reza Aref, | (参考訳) IoT(Internet of Things)デバイスは、患者のデータを遠くからアクセスし、評価することで、健康状態を監視し、遠隔から診断することができる。
患者データをチェックし、医薬品を準備し、財政援助を行う電子医療システムが必要である。
安全なデータ送信、監視、分散化、患者のプライバシの保護、機密性の維持は、電子医療システムにとって不可欠である。
本研究では,Hyperledger FabricコンソーシアムのブロックチェーンベースのスキームであるSCALHEALTHを紹介する。
本研究では,データ暗号化の共通鍵を秘密裏に送信するために認証を用いる。
また、IPFSを通じてデータを送信することも分散化されている。
非偽造トークン(NFT)は、患者処方薬の信頼性を確保するために、薬局や保険会社に患者処方薬を送るために使用される。
システムの本体として、ブロックチェーンはすべてのデバイスや機関に対する認証と検証を生成する。
また、システムのすべてのメタデータは、整合性、透明性、タイムリーなデータ監視を維持するためにブロックチェーンに記録される。
提案した研究は、ヘルスブロックチェーンとファイナンシャルブロックチェーンの2種類のブロックチェーンを使用している。
金融ブロックチェーンは金融トランザクションのためのもので、Ethereumをベースとしている。
ヘルスブロックチェーンはまた、複数のブロックチェーンを1つのブロックチェーンではなく、並行して動作させるメカニズムも導入している。
このメカニズムのプロトタイプは2つのシナリオでシミュレートされている。
通常の状態と比較すると,提案した計画の方が優れた結果が得られる。
Internet of Things (IoT) devices are capable of allowing for far-reaching access to and evaluation of patient data to monitor health and diagnose from a distance. An electronic healthcare system that checks patient data, prepares medicines and provides financial assistance is necessary. Providing safe data transmission, monitoring, decentralization, preserving patient privacy, and maintaining confidentiality are essential to an electronic healthcare system. In this study, we introduce (SCALHEALTH) which is a blockchain-based scheme of the Hyperledger Fabric consortium. In this study, we use authentication to agree on a common key for data encryption to send data confidentially. Also, sending data through IPFS is decentralized. Non-fungible token (NFT) is used to send patient prescriptions to pharmacies and insurance companies to ensure the authenticity of patient prescriptions. As the system's main body, blockchain creates authorization and validation for all devices and institutions. Also, all metadata in the system is recorded on the blockchain to maintain integrity, transparency, and timely data monitoring. The proposed study uses two types of blockchain: a health blockchain and a financial blockchain. The financial blockchain is for financial transactions and is based on Ethereum. The health blockchain also introduces a mechanism that allows several blockchains to be active in parallel, instead of only one blockchain. The prototype of this mechanism is simulated in two scenarios. In comparison to the normal state, the proposed plan has superior results. | 翻訳日:2024-03-17 13:37:51 公開日:2024-03-12 |
# 物理層電圧結合脆弱性による情報漏洩
Information Leakage through Physical Layer Supply Voltage Coupling Vulnerability ( http://arxiv.org/abs/2403.08132v1 ) ライセンス: Link先を確認 | Sahan Sanjaya, Aruna Jayasena, Prabhat Mishra, | (参考訳) サイドチャネル攻撃は、非機能的な振る舞いのバリエーションを利用して、セキュリティ境界を越えて機密情報を露出する。
既存の方法は、電力消費、電磁放射、シリコン基板の結合、および悪意のあるインプラントによって生成されたチャネルに基づいてサイドチャネルを利用する。
電源ベースのサイドチャネル攻撃は、攻撃者が物理的アクセスやデバイスの変更能力を持っていると仮定しながら、デバイス内で処理されたデータから情報を抽出することで広く知られている。
本稿では,物理層電源電圧結合(PSVC)によるデータ依存電力変動をリークする,新しいサイドチャネル脆弱性を提案する。
従来の電源サイドチャネル攻撃とは異なり、提案された脆弱性により、敵は攻撃をマウントし、デバイスを変更することなく情報を抽出することができる。
本研究はPSVCの脆弱性を3つのケーススタディで検証し,汎用マイクロコントローラに対するエンド・ツー・エンド・エンド・アタックの検証を行った。
これらのケーススタディは、PSVCの脆弱性の存在、オンチップへの適用性、およびオンボードサイドチャネル攻撃、ターゲットデバイスへの物理的アクセスの必要性を排除し、市販のハードウェアにも適用可能であることを示す。
また,動作電圧の低いデバイスを設計することで,PSVC側チャネル脆弱性のリスクを著しく低減できることを示した。
Side-channel attacks exploit variations in non-functional behaviors to expose sensitive information across security boundaries. Existing methods leverage side-channels based on power consumption, electromagnetic radiation, silicon substrate coupling, and channels created by malicious implants. Power-based side-channel attacks are widely known for extracting information from data processed within a device while assuming that an attacker has physical access or the ability to modify the device. In this paper, we introduce a novel side-channel vulnerability that leaks data-dependent power variations through physical layer supply voltage coupling (PSVC). Unlike traditional power side-channel attacks, the proposed vulnerability allows an adversary to mount an attack and extract information without modifying the device. We assess the effectiveness of PSVC vulnerability through three case studies, demonstrating several end-to-end attacks on general-purpose microcontrollers with varying adversary capabilities. These case studies provide evidence for the existence of PSVC vulnerability, its applicability for on-chip as well as on-board side-channel attacks, and how it can eliminate the need for physical access to the target device, making it applicable to any off-the-shelf hardware. Our experiments also reveal that designing devices to operate at the lowest operational voltage significantly reduces the risk of PSVC side-channel vulnerability. | 翻訳日:2024-03-17 13:37:51 公開日:2024-03-12 |
# ランドマーク特徴の融合による成人顔面表情の深層適応
Deep Adaptation of Adult-Child Facial Expressions by Fusing Landmark Features ( http://arxiv.org/abs/2209.08614v2 ) ライセンス: Link先を確認 | Megan A. Witherow, Manar D. Samad, Norou Diawara, Haim Y. Bar, Khan M. Iftekharuddin, | (参考訳) 顔の感情のイメージングは、教育、医療、エンターテイメントなどに応用するために、成人を通じて子供の心理生理学的特性を測定するために用いられる。
深層畳み込みニューラルネットワークは、成人の表情の分類において有望な結果を示す。
しかし、成人のベンチマークデータを用いて訓練された分類器モデルは、精神物理学的発達の相違による児童表現の学習には適さない。
同様に、子供データで訓練されたモデルは、成人の表現分類において不十分に機能する。
両領域のロバストな分類のための共有潜在空間において,大人と子どもの表現の分布を同時に整列させるドメイン適応を提案する。
さらに、年齢変化の年齢変化は、年齢不変の顔認識において研究されるが、成人の表情分類では未熟である。
我々は,複数の分野からインスピレーションを得て,成人の表情分類のためのBEtaMix Selected Landmark Features (FACE-BE-SELF) を用いた深層適応FACial Expressionを提案する。
文学においてはじめて、ベータ分布の混合は、表現、ドメイン、アイデンティティー要素との相関に基づいて、顔の特徴を分解し、選択するために使用される。
FACE-BE-SELFを2組の成人児データセットに対して5倍のクロス検証を用いて評価した。
提案するFACE-BE-SELFアプローチは, 成人および小児の表現の潜在表現の調整において, 伝達学習やその他のベースライン領域適応法よりも優れる。
Imaging of facial affects may be used to measure psychophysiological attributes of children through their adulthood for applications in education, healthcare, and entertainment, among others. Deep convolutional neural networks show promising results in classifying facial expressions of adults. However, classifier models trained with adult benchmark data are unsuitable for learning child expressions due to discrepancies in psychophysical development. Similarly, models trained with child data perform poorly in adult expression classification. We propose domain adaptation to concurrently align distributions of adult and child expressions in a shared latent space for robust classification of either domain. Furthermore, age variations in facial images are studied in age-invariant face recognition yet remain unleveraged in adult-child expression classification. We take inspiration from multiple fields and propose deep adaptive FACial Expressions fusing BEtaMix SElected Landmark Features (FACE-BE-SELF) for adult-child expression classification. For the first time in the literature, a mixture of Beta distributions is used to decompose and select facial features based on correlations with expression, domain, and identity factors. We evaluate FACE-BE-SELF using 5-fold cross validation for two pairs of adult-child data sets. Our proposed FACE-BE-SELF approach outperforms transfer learning and other baseline domain adaptation methods in aligning latent representations of adult and child expressions. | 翻訳日:2024-03-16 03:23:03 公開日:2024-03-12 |
# Majority-of-Three: The Simplest Optimal Learner?
Majority-of-Three: The Simplest Optimal Learner? ( http://arxiv.org/abs/2403.08831v1 ) ライセンス: Link先を確認 | Ishaq Aden-Ali, Mikael Møller Høgsgaard, Kasper Green Larsen, Nikita Zhivotovskiy, | (参考訳) 経験的リスク最小化(ERM)が最適であるような、実現可能な環境で最適なPAC学習アルゴリズムを開発することは、数十年にわたって学習理論において大きなオープンな問題であった。
この問題は、数年前にHannekeによってようやく解決された。
残念なことに、Hannekeのアルゴリズムは非常に複雑であり、データは慎重に選択されたサブセットでトレーニングされた多くのERM分類器の多数投票を返却する。
したがって、最適である最も単純なアルゴリズムを決定することは自然な目標である。
本研究では、3つのEMM分類器の過半数を返却する最も単純なアルゴリズムについて検討する。
本アルゴリズムは,1つのERM分類器で確実に達成不可能な誤差に縛られる最適逆探索を実現する。
さらに,このアルゴリズムの誤差に係わるほぼ最適確率を証明した。
より優れた解析により、このアルゴリズムが実際は高確率状態において最適であることを証明できると推測する。
Developing an optimal PAC learning algorithm in the realizable setting, where empirical risk minimization (ERM) is suboptimal, was a major open problem in learning theory for decades. The problem was finally resolved by Hanneke a few years ago. Unfortunately, Hanneke's algorithm is quite complex as it returns the majority vote of many ERM classifiers that are trained on carefully selected subsets of the data. It is thus a natural goal to determine the simplest algorithm that is optimal. In this work we study the arguably simplest algorithm that could be optimal: returning the majority vote of three ERM classifiers. We show that this algorithm achieves the optimal in-expectation bound on its error which is provably unattainable by a single ERM classifier. Furthermore, we prove a near-optimal high-probability bound on this algorithm's error. We conjecture that a better analysis will prove that this algorithm is in fact optimal in the high-probability regime. | 翻訳日:2024-03-16 00:51:27 公開日:2024-03-12 |
# 固定点経路積分による位相誤差補正過程
Topological error correcting processes from fixed-point path integrals ( http://arxiv.org/abs/2303.16405v3 ) ライセンス: Link先を確認 | Andreas Bauer | (参考訳) 本稿では,幾何学的局所チャネルと測定値の動的回路としてトポロジカルな量子誤り訂正符号を解析・構築するための統一パラダイムを提案する。
この目的のために、これらの回路をユークリッド時空における離散的不動点経路積分に関連付け、その基礎となる位相順序を次のように記述する: 測定結果の履歴を固定すると、位相欠陥のパターンを含む不動点経路積分が得られる。
一例として、安定化器のトーリックコード、サブシステムのトーリックコード、CSSのフロケットコードは、異なる時空格子上で同一のコードとみなすことができ、ハニカムのフロケットコードは、基底の変化の下でCSSのフロケットコードと等価であることを示す。
また,2つの誤り訂正符号(3+1$-dimensional toric code の Floquet バージョン)と,2次元文字列-ネット経路積分に基づく動的符号(動的符号)の導出にも用いている。
We propose a unifying paradigm for analyzing and constructing topological quantum error correcting codes as dynamical circuits of geometrically local channels and measurements. To this end, we relate such circuits to discrete fixed-point path integrals in Euclidean spacetime, which describe the underlying topological order: If we fix a history of measurement outcomes, we obtain a fixed-point path integral carrying a pattern of topological defects. As an example, we show that the stabilizer toric code, subsystem toric code, and CSS Floquet code can be viewed as one and the same code on different spacetime lattices, and the honeycomb Floquet code is equivalent to the CSS Floquet code under a change of basis. We also use our formalism to derive two new error-correcting codes, namely a Floquet version of the $3+1$-dimensional toric code using only 2-body measurements, as well as a dynamic code based on the double-semion string-net path integral. | 翻訳日:2024-03-14 19:26:41 公開日:2024-03-12 |
# I.I.D.と時系列データの因果発見法に関する調査
A Survey on Causal Discovery Methods for I.I.D. and Time Series Data ( http://arxiv.org/abs/2303.15027v4 ) ライセンス: Link先を確認 | Uzma Hasan, Emam Hossain, Md Osman Gani | (参考訳) データから因果関係を理解する能力は、人間レベルの知性の主要なマイルストーンの1つだ。
因果発見(CD)アルゴリズムは、特定の仮定で関連する観測データから、システムの変数間の因果関係を特定できる。
長年にわたり、基礎となる因果メカニズムを明らかにするために、データの統計的性質に基づいたいくつかの手法が開発されてきた。
本研究では,独立および同一分散(I.I.D.)データと時系列データの両方から因果発見を行う手法について,広範囲にわたる議論を行う。
この目的のために,まず,因果発見文献に使用される共通用語を紹介し,異なる設定で因果関係を特定するために設計されたアルゴリズムについて包括的に議論する。
さらに、アルゴリズムのパフォーマンスを評価するために利用可能なベンチマークデータセットや、因果発見を簡単に行うための既製のツールやソフトウェアパッケージ、これらの手法を評価するのに使用される一般的なメトリクスについても論じる。
また、複数のベンチマークデータセット上で広く使われている因果探索アルゴリズムを評価し、それらの性能を比較した。
最後に,様々な分野における因果発見アルゴリズムの研究課題と応用について論じる。
The ability to understand causality from data is one of the major milestones of human-level intelligence. Causal Discovery (CD) algorithms can identify the cause-effect relationships among the variables of a system from related observational data with certain assumptions. Over the years, several methods have been developed primarily based on the statistical properties of data to uncover the underlying causal mechanism. In this study, we present an extensive discussion on the methods designed to perform causal discovery from both independent and identically distributed (I.I.D.) data and time series data. For this purpose, we first introduce the common terminologies used in causal discovery literature and then provide a comprehensive discussion of the algorithms designed to identify causal relations in different settings. We further discuss some of the benchmark datasets available for evaluating the algorithmic performance, off-the-shelf tools or software packages to perform causal discovery readily, and the common metrics used to evaluate these methods. We also evaluate some widely used causal discovery algorithms on multiple benchmark datasets and compare their performances. Finally, we conclude by discussing the research challenges and the applications of causal discovery algorithms in multiple areas of interest. | 翻訳日:2024-03-14 19:26:41 公開日:2024-03-12 |
# データ効率のよいコントラスト型自己教師型学習:最も有効である
学びの指導的貢献例
Data-Efficient Contrastive Self-supervised Learning: Most Beneficial Examples for Supervised Learning Contribute the Least ( http://arxiv.org/abs/2302.09195v5 ) ライセンス: Link先を確認 | Siddharth Joshi and Baharan Mirzasoleiman | (参考訳) 自己教師付き学習(SSL)は、ラベルなしのトレーニングデータの大規模なプールから高品質な表現を学ぶ。
データセットが大きくなるにつれて、そのような表現の学習に最も寄与する例を特定することが重要になる。
これにより、必要なデータ量を減らすことで、効率的なSSLが可能になる。
それでもSSLの例の価値を定量化することは、未解決の問題である。
本研究では,SSLに最も貢献する例が,予想される他の例と最もよく似た拡張であることを示すことによって,この問題に初めて対処する。
このような部分集合に対するコントラスト学習の一般化性能の厳密な保証を提供する。
CIFAR100から20%、STL10やTinyImageNetから40%のサンプルを安全に取り除き、ダウンストリームタスクのパフォーマンスに影響を与えないことを示す。
一般に,本手法で選択したサブセットは,これらのデータセットに対して,ランダムなサブセットを3%以上上回っている。
興味深いことに、コントラスト学習に最も貢献するサブセットは、教師付き学習に最も貢献するサブセットである。
コードはhttps://github.com/bigml-cs-ucla/sas-data-efficient-contrastive-learningで公開されている。
Self-supervised learning (SSL) learns high-quality representations from large pools of unlabeled training data. As datasets grow larger, it becomes crucial to identify the examples that contribute the most to learning such representations. This enables efficient SSL by reducing the volume of data required. Nevertheless, quantifying the value of examples for SSL has remained an open question. In this work, we address this problem for the first time, by proving that examples that contribute the most to contrastive SSL are those that have the most similar augmentations to other examples, in expectation. We provide rigorous guarantees for the generalization performance of contrastive learning on such subsets. Through extensive experiments, we show that we can safely exclude 20% of examples from CIFAR100 and 40% from STL10 and TinyImageNet, without affecting downstream task performance. In general, subsets selected by our method outperform random subsets by over 3% across these datasets. Interestingly, we also discover the subsets that contribute the most to contrastive learning are those that contribute the least to supervised learning. Code available at https://github.com/bigml-cs-ucla/sas-data-efficient-contrastive-learning. | 翻訳日:2024-03-14 19:26:39 公開日:2024-03-12 |
# 画像・動画における説明可能な異常検出:調査
Explainable Anomaly Detection in Images and Videos: A Survey ( http://arxiv.org/abs/2302.06670v2 ) ライセンス: Link先を確認 | Yizhou Wang, Dongliang Guo, Sheng Li, Octavia Camps, Yun Fu | (参考訳) 画像やビデオを含む視覚データの異常検出とローカライゼーションは、機械学習のアカデミックと実世界のシナリオの両方において非常に重要である。
近年の視覚異常検出技術の急速な発展にもかかわらず、これらのブラックボックスモデルの解釈や、なぜ異常を区別できるのかの合理的な説明は乏しい。
本稿では,説明可能な視覚異常検出法に焦点をあてた最初の調査を行う。
まず,画像レベルの異常検出とビデオレベルの異常検出の基本的背景を紹介する。
次に,本調査の主な内容として,画像とビデオの両方に対する説明可能な異常検出方法に関する総合的かつ徹底的な文献レビューを紹介する。
次に、画像とビデオの両方に説明可能な異常検出方法が適用可能である理由と、他の方法が1つのモダリティにのみ適用可能である理由を分析する。
さらに、現在の2次元視覚異常検出データセットと評価指標の要約を提供する。
最後に、2次元視覚異常検出の可否を説明するために、将来有望ないくつかの方向とオープンな課題について論じる。
関連リソースの収集は \href{https://github.com/wyzjack/Awesome-XAD}{this repo} で行われている。
Anomaly detection and localization of visual data, including images and videos, are of great significance in both machine learning academia and applied real-world scenarios. Despite the rapid development of visual anomaly detection techniques in recent years, the interpretations of these black-box models and reasonable explanations of why anomalies can be distinguished out are scarce. This paper provides the first survey concentrated on explainable visual anomaly detection methods. We first introduce the basic background of image-level and video-level anomaly detection. Then, as the main content of this survey, a comprehensive and exhaustive literature review of explainable anomaly detection methods for both images and videos is presented. Next, we analyze why some explainable anomaly detection methods can be applied to both images and videos and why others can be only applied to one modality. Additionally, we provide summaries of current 2D visual anomaly detection datasets and evaluation metrics. Finally, we discuss several promising future directions and open problems to explore the explainability of 2D visual anomaly detection. The related resource collection is given at \href{https://github.com/wyzjack/Awesome-XAD}{this repo}. | 翻訳日:2024-03-14 19:26:38 公開日:2024-03-12 |
# カリキュラムグラフ機械学習:サーベイ
Curriculum Graph Machine Learning: A Survey ( http://arxiv.org/abs/2302.02926v2 ) ライセンス: Link先を確認 | Haoyang Li, Xin Wang, Wenwu Zhu | (参考訳) グラフ機械学習は学術と産業の両方で広く研究されている。
しかし、文献では、既存のグラフ機械学習モデルは、異なるグラフデータサンプルの重要性やモデルの最適化状態に対するトレーニング命令を無視して、ランダムな順序でデータサンプルによるトレーニングを行うように設計されている。
このような問題に対処するため,グラフ学習とカリキュラム学習の強みを統合したカリキュラムグラフ機械学習(Graph CL)が,研究コミュニティから注目を集めている。
そこで本稿では,グラフCLのアプローチを概観し,最近の研究動向を概観する。
具体的には、まずGraph CLの重要な課題について論じ、その公式な問題定義を提供する。
そこで我々は,既存の手法をノードレベル,リンクレベル,グラフレベルという3種類のグラフ機械学習タスクに基づいて3つのクラスに分類し,まとめる。
最後に,今後の研究方向性について考察する。
我々の知る限り、この論文はカリキュラムグラフ機械学習における最初の調査である。
Graph machine learning has been extensively studied in both academia and industry. However, in the literature, most existing graph machine learning models are designed to conduct training with data samples in a random order, which may suffer from suboptimal performance due to ignoring the importance of different graph data samples and their training orders for the model optimization status. To tackle this critical problem, curriculum graph machine learning (Graph CL), which integrates the strength of graph machine learning and curriculum learning, arises and attracts an increasing amount of attention from the research community. Therefore, in this paper, we comprehensively overview approaches on Graph CL and present a detailed survey of recent advances in this direction. Specifically, we first discuss the key challenges of Graph CL and provide its formal problem definition. Then, we categorize and summarize existing methods into three classes based on three kinds of graph machine learning tasks, i.e., node-level, link-level, and graph-level tasks. Finally, we share our thoughts on future research directions. To the best of our knowledge, this paper is the first survey for curriculum graph machine learning. | 翻訳日:2024-03-14 19:26:36 公開日:2024-03-12 |
# 音響特徴に基づく教師なし音響シーンマッピング
次元化
Unsupervised Acoustic Scene Mapping Based on Acoustic Features and Dimensionality Reduction ( http://arxiv.org/abs/2301.00448v2 ) ライセンス: Link先を確認 | Idan Cohen, Ofir Lindenbaum and Sharon Gannot | (参考訳) 音響シーンマッピングの古典的手法は、マイク間の到着時間差(TDOA)を推定する必要がある。
残念ながら、TDOA推定は残響や付加音に非常に敏感である。
データの自然な構造を生かした教師なしのデータ駆動型アプローチを導入する。
本手法は,実測値から標準データ座標を学習するためのオフライン深層学習方式であるローカル共形オートエンコーダ(LOCA)に基づいて構築する。
実験装置にはマイクロホンアレイが組み込まれており、音響囲いを横断する複数の場所で送信された音源を測定する。
我々は,LOCAがマイクロホンの空間的位置と等尺性を持つ表現を学習できることを実証した。
本手法の性能は, 実測シミュレーションを用いて評価し, 他の次元還元法との比較を行った。
さらに, 残響がLOCAの結果に及ぼす影響を評価し, かなりの堅牢性を示した。
Classical methods for acoustic scene mapping require the estimation of time difference of arrival (TDOA) between microphones. Unfortunately, TDOA estimation is very sensitive to reverberation and additive noise. We introduce an unsupervised data-driven approach that exploits the natural structure of the data. Our method builds upon local conformal autoencoders (LOCA) - an offline deep learning scheme for learning standardized data coordinates from measurements. Our experimental setup includes a microphone array that measures the transmitted sound source at multiple locations across the acoustic enclosure. We demonstrate that LOCA learns a representation that is isometric to the spatial locations of the microphones. The performance of our method is evaluated using a series of realistic simulations and compared with other dimensionality-reduction schemes. We further assess the influence of reverberation on the results of LOCA and show that it demonstrates considerable robustness. | 翻訳日:2024-03-14 19:26:34 公開日:2024-03-12 |
# 特殊化の少ない2段式LDMファインチューニング
一般化
Two-stage LLM Fine-tuning with Less Specialization and More Generalization ( http://arxiv.org/abs/2211.00635v3 ) ライセンス: Link先を確認 | Yihan Wang, Si Si, Daliang Li, Michal Lukasik, Felix Yu, Cho-Jui Hsieh, Inderjit S Dhillon, Sanjiv Kumar | (参考訳) 事前訓練された大規模言語モデル(LLMs)は、プロンプト付きタスクの多様なセットに適用可能な汎用的な問題解決手法である。
特別なデータセットを微調整することで、特定のタスクに向けてさらに改善することができる。
しかし、ファインチューニングは通常、このデータセットに限定して、一般的なインコンテキスト学習性能を低下させ、微調整されたモデルが、微調整されたデータが利用できないような追加のタスクを処理する必要がある場合、望ましくないようなモデルを、このデータセットに限定する。
本研究では,1つのタスクの微調整がLLMの一般的なテキスト内学習性能を低下させることを示す。
モデルが微調整タスクの形式に過度に適合する,そのような忘れ,形式特化の1つの重要な原因を発見し,さらに,微調整の開始時に形式特化が発生することを示す。
ProMoTは、タスク固有の形式学習を、最初にプロンプトチューニングを行い、次にこのソフトプロンプトを付加したモデル自体を微調整することで、追加および削除可能なパラメータにオフロードする。
いくつかの微調整タスクと8つのインコンテキスト評価タスクの実験により、ProMoTは通常の微調整タスクに匹敵する性能を達成できるが、ドメイン外評価タスクのボード範囲にまたがるコンテキスト内学習性能の損失ははるかに少ないことを示した。
さらに、En-Fr翻訳におけるProMoTは、他の言語ペアのパフォーマンスを大幅に改善し、NLI上のProMoTは、要約におけるパフォーマンスを大幅に改善する。
また、ProMoTはマルチタスクトレーニングの一般化性能を向上させることができることを示した。
Pretrained large language models (LLMs) are general purpose problem solvers applicable to a diverse set of tasks with prompts. They can be further improved towards a specific task by fine-tuning on a specialized dataset. However, fine-tuning usually makes the model narrowly specialized on this dataset with reduced general in-context learning performances, which is undesirable whenever the fine-tuned model needs to handle additional tasks where no fine-tuning data is available. In this work, we first demonstrate that fine-tuning on a single task indeed decreases LLMs' general in-context learning performance. We discover one important cause of such forgetting, format specialization, where the model overfits to the format of the fine-tuned task.We further show that format specialization happens at the very beginning of fine-tuning. To solve this problem, we propose Prompt Tuning with MOdel Tuning (ProMoT), a simple yet effective two-stage fine-tuning framework that reduces format specialization and improves generalization.ProMoT offloads task-specific format learning into additional and removable parameters by first doing prompt tuning and then fine-tuning the model itself with this soft prompt attached. With experiments on several fine-tuning tasks and 8 in-context evaluation tasks, we show that ProMoT achieves comparable performance on fine-tuned tasks to standard fine-tuning, but with much less loss of in-context learning performances across a board range of out-of-domain evaluation tasks. More importantly, ProMoT can even enhance generalization on in-context learning tasks that are semantically related to the fine-tuned task, e.g. ProMoT on En-Fr translation significantly improves performance on other language pairs, and ProMoT on NLI improves performance on summarization. Experiments also show that ProMoT can improve the generalization performance of multi-task training. | 翻訳日:2024-03-14 19:26:31 公開日:2024-03-12 |
# 補間とSATベースのモデルチェックの再検討
ソフトウェア検証
Interpolation and SAT-Based Model Checking Revisited: Adoption to Software Verification ( http://arxiv.org/abs/2208.05046v2 ) ライセンス: Link先を確認 | Dirk Beyer, Nian-Ze Lee, and Philipp Wendler | (参考訳) 2003年の論文 "Interpolation and SAT-Based Model Checking" (McMillan, 2003) では、有限状態遷移システムの安全性を検証するために考案された形式検証アルゴリズムが記述されている。
補間子は不満足なBMCクエリから導出され、それらを収集して到達可能な状態の集合の過剰近似を構築する。
20年経っても、このアルゴリズムはまだハードウェアモデル検査の最先端にある。
無限状態システムを扱うために拡張され、プログラム解析のために研究されているk-inductionやPDRのような他の形式検証アルゴリズムとは異なり、2003年のマクミランの補間に基づくモデル検査アルゴリズムはプログラムの検証には使われていない。
私たちの貢献は、この重要な20年前の知識ギャップを、ソフトウェア検証にアルゴリズムを採用することで埋めることです。
検証フレームワークCPAcheckerで実装し、C言語安全検証タスクの最大のベンチマークスイート上で、最先端のソフトウェア検証技術に対する実装を評価した。
この評価は、2003年のマクミランの補間に基づくモデルチェックアルゴリズムが、解決された検証タスクの数と実行時の効率の両方の観点から、他のアルゴリズムと競合していることを示している。
私たちの結果は、ソフトウェア検証の領域において重要です。
The article "Interpolation and SAT-Based Model Checking" (McMillan, 2003) describes a formal-verification algorithm, which was originally devised to verify safety properties of finite-state transition systems. It derives interpolants from unsatisfiable BMC queries and collects them to construct an overapproximation of the set of reachable states. Although 20 years old, the algorithm is still state-of-the-art in hardware model checking. Unlike other formal-verification algorithms, such as k-induction or PDR, which have been extended to handle infinite-state systems and investigated for program analysis, McMillan's interpolation-based model-checking algorithm from 2003 has not been used to verify programs so far. Our contribution is to close this significant, two decades old gap in knowledge by adopting the algorithm to software verification. We implemented it in the verification framework CPAchecker and evaluated the implementation against other state-of-the-art software-verification techniques on the largest publicly available benchmark suite of C safety-verification tasks. The evaluation demonstrates that McMillan's interpolation-based model-checking algorithm from 2003 is competitive among other algorithms in terms of both the number of solved verification tasks and the run-time efficiency. Our results are important for the area of software verification, because researchers and developers now have one more approach to choose from. | 翻訳日:2024-03-14 19:26:28 公開日:2024-03-12 |
# 分類・分類のための適切なスコアによる不確かさの校正
周辺
Better Uncertainty Calibration via Proper Scores for Classification and Beyond ( http://arxiv.org/abs/2203.07835v4 ) ライセンス: Link先を確認 | Sebastian G. Gruber and Florian Buettner | (参考訳) モデル信頼性は、センシティブな現実世界のアプリケーションに不可欠であるため、ディープニューラルネットワークの不確実性校正の改善にますます注力している。
校正誤差は確率的予測の信頼性を定量化するために設計されているが、その推定値は通常バイアスがあり一貫性がない。
本研究では,各キャリブレーション誤差を適切なスコアに関連付け,各上限値に最適な推定特性を与える,適切なキャリブレーション誤差の枠組みを提案する。
この関係は、モデルのキャリブレーションの改善を確実に定量化するために利用することができる。
提案手法と比較して, 一般的な推定器の欠点を理論的, 実証的に実証した。
適切なスコアの広範な適用性のため、これは分類を超えた自然な再校正の延長を与える。
With model trustworthiness being crucial for sensitive real-world applications, practitioners are putting more and more focus on improving the uncertainty calibration of deep neural networks. Calibration errors are designed to quantify the reliability of probabilistic predictions but their estimators are usually biased and inconsistent. In this work, we introduce the framework of proper calibration errors, which relates every calibration error to a proper score and provides a respective upper bound with optimal estimation properties. This relationship can be used to reliably quantify the model calibration improvement. We theoretically and empirically demonstrate the shortcomings of commonly used estimators compared to our approach. Due to the wide applicability of proper scores, this gives a natural extension of recalibration beyond classification. | 翻訳日:2024-03-14 19:26:26 公開日:2024-03-12 |
# 終端ランダム実験セレクタ:高速高次元
偽発見率制御による可変選択
The Terminating-Random Experiments Selector: Fast High-Dimensional Variable Selection with False Discovery Rate Control ( http://arxiv.org/abs/2110.06048v7 ) ライセンス: Link先を確認 | Jasin Machkour, Michael Muma, Daniel P. Palomar | (参考訳) 本稿では,高次元データに対する高速変数選択法であるT-Rexセレクタを提案する。
T-Rexセレクタは、選択した変数数を最大化しながら、ユーザ定義のターゲット偽発見率(FDR)を制御する。
これは、複数の早期終了ランダム実験の解を融合させることによって達成される。
実験は、元の予測器とランダムに生成されたダミー予測器の複数セットの組み合わせで実施される。
FDR制御特性に対するマーチンゲール理論に基づく有限サンプル証明を提供する。
数値シミュレーションにより、FDRは高出力を許容しながら目標レベルで制御されていることが確認される。
ダミーが有限期待と分散を持つ任意の単変量確率分布から標本化できることを証明した。
提案手法の計算複雑性は変数数で線形である。
T-Rexセレクタは、数値実験やシミュレートされたゲノムワイド関連研究(GWAS)において、FDR制御の最先端手法よりも優れており、その逐次計算時間は、最強のベンチマーク手法よりも2桁以上低い。
T-Rexセレクタの実装を含むオープンソースのRパッケージTRexSelectorがCRANで利用可能である。
We propose the Terminating-Random Experiments (T-Rex) selector, a fast variable selection method for high-dimensional data. The T-Rex selector controls a user-defined target false discovery rate (FDR) while maximizing the number of selected variables. This is achieved by fusing the solutions of multiple early terminated random experiments. The experiments are conducted on a combination of the original predictors and multiple sets of randomly generated dummy predictors. A finite sample proof based on martingale theory for the FDR control property is provided. Numerical simulations confirm that the FDR is controlled at the target level while allowing for high power. We prove that the dummies can be sampled from any univariate probability distribution with finite expectation and variance. The computational complexity of the proposed method is linear in the number of variables. The T-Rex selector outperforms state-of-the-art methods for FDR control in numerical experiments and on a simulated genome-wide association study (GWAS), while its sequential computation time is more than two orders of magnitude lower than that of the strongest benchmark methods. The open source R package TRexSelector containing the implementation of the T-Rex selector is available on CRAN. | 翻訳日:2024-03-14 19:26:23 公開日:2024-03-12 |
# 訓練による難易度検出とオープンセット認識
ノイズの多い負の画像
Dense outlier detection and open-set recognition based on training with noisy negative images ( http://arxiv.org/abs/2101.09193v3 ) ライセンス: Link先を確認 | Petra Bevandi\'c, Ivan Kre\v{s}o, Marin Or\v{s}i\'c, Sini\v{s}a \v{S}egvi\'c | (参考訳) 深層畳み込みモデルはしばしば、トレーニング分布と異なる入力に対する不適切な予測を生成する。
その結果,最近,外乱画像の検出に多くの注目が集まっている。
従来の研究と異なり、この問題を密度の強い予測コンテキストで解決し、分布内背景の外側の物体を特定できる。
私たちのアプローチは2つの合理的な仮定に基づいている。
まず、不整合データセットは、狭いアプリケーションフィールド(例えば、ロードドライブ)と関連していると仮定する。
第2に、インリエデータセット(例 ~ ImageNet-1k)よりもはるかに多様な汎用データセットが存在すると仮定する。
汎用データセットからのピクセルをノイズの多い負のトレーニングサンプルとみなす。
我々は,不整合トレーニング画像に散らばった負のパッチを貼り付けることで,未知と未知の境界を認識することを奨励する。
実験では,WildDash 1 と Fishyscapes の2つの密集した開集合認識ベンチマークと,密集した開集合認識データセット (StreetHazard) を対象とした。
性能評価は,提案手法の競争力を示す。
Deep convolutional models often produce inadequate predictions for inputs foreign to the training distribution. Consequently, the problem of detecting outlier images has recently been receiving a lot of attention. Unlike most previous work, we address this problem in the dense prediction context in order to be able to locate outlier objects in front of in-distribution background. Our approach is based on two reasonable assumptions. First, we assume that the inlier dataset is related to some narrow application field (e.g.~road driving). Second, we assume that there exists a general-purpose dataset which is much more diverse than the inlier dataset (e.g.~ImageNet-1k). We consider pixels from the general-purpose dataset as noisy negative training samples since most (but not all) of them are outliers. We encourage the model to recognize borders between known and unknown by pasting jittered negative patches over inlier training images. Our experiments target two dense open-set recognition benchmarks (WildDash 1 and Fishyscapes) and one dense open-set recognition dataset (StreetHazard). Extensive performance evaluation indicates competitive potential of the proposed approach. | 翻訳日:2024-03-14 19:26:22 公開日:2024-03-12 |
# 適応積公式による低深さハミルトニアンシミュレーション
Low-depth Hamiltonian Simulation by Adaptive Product Formula ( http://arxiv.org/abs/2011.05283v3 ) ライセンス: Link先を確認 | Zi-Jian Zhang, Jinzhao Sun, Xiao Yuan, Man-Hong Yung | (参考訳) 量子コンピュータ上の量子システムの力学を効率的に研究するために、様々なハミルトンシミュレーションアルゴリズムが提案されている。
既存のアルゴリズムは一般に時間進化演算子を近似しており、これは近時雑音量子デバイスの能力を超える深い量子回路を必要とする可能性がある。
本稿では、固定入力量子状態の時間発展に着目し、低深度時間進化回路を構築するための適応的なアプローチを提案する。
シミュレーションエラーを特徴付ける測定可能な量子化器を導入することにより、適応戦略を用いて、その誤差を最小限に抑える浅い量子回路を学習する。
適応法は、電子ハミルトニアンが$\mathrm{H_2O}$分子と$\mathrm{H_4}$分子、およびランダム係数を持つ横場イジングモデルで数値的に検証する。
1次スズキ・トロッター積公式と比較して、シミュレーション精度を維持しながら回路深さ(特に2ビットゲート数)を約2桁減らすことができる。
量子クリロフアルゴリズムを用いて多体ダイナミクスのシミュレーションとエネルギースペクトルの解法について述べる。
我々の研究は、雑音の中規模量子デバイスを用いた実践的なハミルトンシミュレーションに光を当てている。
Various Hamiltonian simulation algorithms have been proposed to efficiently study the dynamics of quantum systems on a quantum computer. The existing algorithms generally approximate the time evolution operators, which may need a deep quantum circuit that is beyond the capability of near-term noisy quantum devices. Here, focusing on the time evolution of a fixed input quantum state, we propose an adaptive approach to construct a low-depth time evolution circuit. By introducing a measurable quantifier that characterizes the simulation error, we use an adaptive strategy to learn the shallow quantum circuit that minimizes that error. We numerically test the adaptive method with electronic Hamiltonians of the $\mathrm{H_2O}$ and $\mathrm{H_4}$ molecules, and the transverse field Ising model with random coefficients. Compared to the first-order Suzuki-Trotter product formula, our method can significantly reduce the circuit depth (specifically the number of two-qubit gates) by around two orders while maintaining the simulation accuracy. We show applications of the method in simulating many-body dynamics and solving energy spectra with the quantum Krylov algorithm. Our work sheds light on practical Hamiltonian simulation with noisy-intermediate-scale-quantum devices. | 翻訳日:2024-03-14 19:26:21 公開日:2024-03-12 |
# 相互情報支援適応変分量子固有解法
Mutual information-assisted Adaptive Variational Quantum Eigensolver ( http://arxiv.org/abs/2008.07553v3 ) ライセンス: Link先を確認 | Zi-Jian Zhang, Thi Ha Kyaw, Jakob S. Kottmann, Matthias Degroote and Al\'an Aspuru-Guzik | (参考訳) アンザッツ回路の適応的な構成は、短期量子ハードウェア上で適用可能な変分量子固有解器への有望な経路を提供する。
これらのアルゴリズムは特定の問題に対して最適な回路を構築することを目的としており、アンサッツ回路は予め定義されたプールからエンタングルを選択・追加することで適応的に構成される。
そこで本研究では,従来のアルゴリズムを応用して,エンタングルプールを小型化するための手法を提案する。
提案手法は,古典的に近似された基底状態における量子ビット間の相互情報を用いて,エンタングルのランク付けとスクリーニングを行う。
本研究の古典的事前計算には密度行列再正規化群法が用いられている。
小分子で数値的に相関する。
数値実験により,元のエンタングルプールのごく一部が縮小されたエンタングルプールは,同じ数値精度が得られることが示された。
本手法は,変分量子アルゴリズムのためのアンサッツ回路を適応的に構築するための新しい手法であると考えている。
Adaptive construction of ansatz circuits offers a promising route towards applicable variational quantum eigensolvers on near-term quantum hardware. Those algorithms aim to build up optimal circuits for a certain problem and ansatz circuits are adaptively constructed by selecting and adding entanglers from a predefined pool. In this work, we propose a way to construct entangler pools with reduced size by leveraging classical algorithms. Our method uses mutual information between the qubits in classically approximated ground state to rank and screen the entanglers. The density matrix renormalization group method is employed for classical precomputation in this work. We corroborate our method numerically on small molecules. Our numerical experiments show that a reduced entangler pool with a small portion of the original entangler pool can achieve same numerical accuracy. We believe that our method paves a new way for adaptive construction of ansatz circuits for variational quantum algorithms. | 翻訳日:2024-03-14 19:26:20 公開日:2024-03-12 |
# CNNに基づく単語スポッティングのためのアーキテクチャの探索
Exploring Architectures for CNN-Based Word Spotting ( http://arxiv.org/abs/1806.10866v2 ) ライセンス: Link先を確認 | Eugen Rusakov, Sebastian Sudholt, Fabian Wolf, Gernot A. Fink | (参考訳) 単語スポッティングの目標は、特定のユーザ定義クエリに関連するドキュメントイメージの一部を取得することである。
最近の研究では、属性ベースの畳み込みニューラルネットワークがこの分野を乗っ取っている。
他のコンピュータビジョンの分野では一般的なように、このタスクに使用されるCNNは、すでにかなり深くなっている。
CNNがワードスポッティングにどの程度複雑でなければならないのか?
より深いモデルがより優れた結果をもたらすのか、それともこれらのアーキテクチャに漸近的にパフォーマンスが振舞うのか?
一方、非常に小さなCNNで同様の結果が得られるだろうか?
本論文の目的はこれらの疑問に答えることである。
したがって、最近成功したTPP-PHOCNetは、Residual Network、Densely Connected Convolutional Network、LeNetアーキテクチャを実証的に比較する。
評価で見られるように、複雑なモデルは、IAM Offline Databaseのようなより難しいタスクの単語スポッティングに有用であるが、George Washington Databaseのようなより簡単なベンチマークには利点がない。
The goal in word spotting is to retrieve parts of document images which are relevant with respect to a certain user-defined query. The recent past has seen attribute-based Convolutional Neural Networks take over this field of research. As is common for other fields of computer vision, the CNNs used for this task are already considerably deep. The question that arises, however, is: How complex does a CNN have to be for word spotting? Are increasingly deeper models giving increasingly better results or does performance behave asymptotically for these architectures? On the other hand, can similar results be obtained with a much smaller CNN? The goal of this paper is to give an answer to these questions. Therefore, the recently successful TPP-PHOCNet will be compared to a Residual Network, a Densely Connected Convolutional Network and a LeNet architecture empirically. As will be seen in the evaluation, a complex model can be beneficial for word spotting on harder tasks such as the IAM Offline Database but gives no advantage for easier benchmarks such as the George Washington Database. | 翻訳日:2024-03-14 19:26:19 公開日:2024-03-12 |
# xFakeSci学習アルゴリズムを用いたChatGPTフェイク科学の検出
Detection of ChatGPT Fake Science with the xFakeSci Learning Algorithm ( http://arxiv.org/abs/2308.11767v3 ) ライセンス: Link先を確認 | Ahmed Abdeen Hamed and Xindong Wu | (参考訳) チャットGPTと生成AIツールが新しい現実になりつつある。
この研究は、「『ChatGPT』の内容は、科学論文から切り離せる独特な行動を示す」という前提によって動機付けられている。
本研究では,この前提を2段階に分けて検証し,その妥当性を実証する。
次に,新たな学習アルゴリズムであるxFakeSciを導入し,ChatGPT生成記事と科学者による出版物を識別する。
このアルゴリズムは、ChatGPTの生成した文書やPubMedの記事など、複数のデータソースから駆動されるネットワークモデルを用いて訓練される。
過度に適合する問題を緩和するため、比率を含むデータ駆動ヒューリスティックに基づく校正手順を組み込んだ。
本アルゴリズムは,発刊期間と疾患(がん,うつ病,アルツハイマー病)をカバーする複数のデータセットにまたがって評価する。
さらに,そのアルゴリズムが最先端(SOTA)アルゴリズムに対してどのようにベンチマークされるかを示す。
xFakeSciアルゴリズムがF1スコアを80%から94%に、SOTAアルゴリズムがF1スコアを38%から52%に上げる。
我々は、キャリブレーションの導入と近接距離ヒューリスティックにより顕著な違いを生じさせ、この有望な性能を裏付ける。
実際、ChatGPTが生成した偽科学の予測には、かなりの課題がある。
それでも、xFakeSciアルゴリズムの導入は、フェイクサイエンスと戦うための重要なステップである。
ChatGPT and generative AI tools are becoming the new reality. This work is motivated by the premise that ``ChatGPT content may exhibit a distinctive behavior that can be separated from scientific articles''. In this study, we demonstrate how we tested this premise in two phases and prove its validity. Subsequently, we introduce xFakeSci, a novel learning algorithm, that is capable of distinguishing ChatGPT-generated articles from publications produced by scientists. The algorithm is trained using network models driven from multiple types of data sources, such as ChatGPT-generated documents achieved by means of prompt-engineering, and PubMed articles. To mitigate over-fitting issues, we incorporate a calibration step that is built upon data-driven heuristics, including ratios. We evaluate the algorithm across multiple datasets covering publication periods and diseases (cancer, depression, and Alzheimer's). Further, we show how the algorithm is benchmarked against the state-of-the-art (SOTA) algorithms. While the xFakeSci algorithm achieve F1 score ranging from 80% - 94%, SOTA algorithms score F1 values between 38% - 52%. We attribute the noticeable difference to the introduction of calibration and a proximity distance heuristic, which we underscore this promising performance. Indeed, the prediction of fake science generated by ChatGPT presents a considerable challenge. Nonetheless, the introduction of xFakeSci algorithm is a significant step on the way to combating fake science. | 翻訳日:2024-03-14 18:57:27 公開日:2024-03-12 |
# ロバストなセマンティックセグメンテーションのためのトレーニングデータセット生成の学習
Learning to Generate Training Datasets for Robust Semantic Segmentation ( http://arxiv.org/abs/2308.02535v4 ) ライセンス: Link先を確認 | Marwane Hariat, Olivier Laurent, R\'emi Kazmierczak, Shihao Zhang, Andrei Bursuc, Angela Yao and Gianni Franchi | (参考訳) セマンティックセグメンテーション法は著しく進歩している。
それでも、トレーニング中に見えない現実世界の摂動やオブジェクトタイプに対する堅牢性は、特に安全クリティカルなアプリケーションでは、依然として課題である。
本稿では,ラベル・ツー・イメージ・セグメンテーション・モデルとラベル・ツー・ラベル・セグメンテーション・モデルとの相乗効果を利用して,セグメンテーション手法の堅牢性を向上させる新しい手法を提案する。
具体的には,ロバスタを設計し,信頼性の高いセグメンテーションモデルのトレーニングに使用可能な,現実的で可視な摂動画像を生成する。
提案した生成モデルの詳細な研究を行い、下流セグメンテーションネットワークの性能とロバスト性を評価し、実世界の摂動、分布シフト、分布外サンプルの面におけるロバスト性を大幅に向上させることができることを示す。
提案手法は,セマンティックセグメンテーションなどの認識モジュールの信頼性が最重要であり,推論における計算予算が限られている,安全クリティカルなアプリケーションにおいて有用である可能性が示唆された。
コードをhttps://github.com/ENSTA-U2IS-AI/robusta.comでリリースします。
Semantic segmentation methods have advanced significantly. Still, their robustness to real-world perturbations and object types not seen during training remains a challenge, particularly in safety-critical applications. We propose a novel approach to improve the robustness of semantic segmentation techniques by leveraging the synergy between label-to-image generators and image-to-label segmentation models. Specifically, we design Robusta, a novel robust conditional generative adversarial network to generate realistic and plausible perturbed images that can be used to train reliable segmentation models. We conduct in-depth studies of the proposed generative model, assess the performance and robustness of the downstream segmentation network, and demonstrate that our approach can significantly enhance the robustness in the face of real-world perturbations, distribution shifts, and out-of-distribution samples. Our results suggest that this approach could be valuable in safety-critical applications, where the reliability of perception modules such as semantic segmentation is of utmost importance and comes with a limited computational budget in inference. We release our code at https://github.com/ENSTA-U2IS-AI/robusta. | 翻訳日:2024-03-14 18:57:20 公開日:2024-03-12 |
# 量子化因子の同定可能性について
On the Identifiability of Quantized Factors ( http://arxiv.org/abs/2306.16334v3 ) ライセンス: Link先を確認 | Vit\'oria Barin-Pacela, Kartik Ahuja, Simon Lacoste-Julien, Pascal Vincent | (参考訳) ディスタングルメントは、観測された分布のみから有意義な潜在的地下構造因子を回収することを目的としており、識別可能性の理論によって形式化されている。
独立潜在因子の識別性は、因子から観測までの一般的な非線形写像の下での教師なしの設定では不可能であることが証明されている。
しかし、本研究では、一般的な非線形微分同相の下で量子化された潜在因子を復元できることを実証する。
潜在因子がその密度に独立な不連続性を持っていると仮定するだけで、その因子は統計的に独立である必要はない。
本稿では、この新しい形の量子化因子識別可能性を紹介し、量子化因子の回復の包括的証明を提供する。
Disentanglement aims to recover meaningful latent ground-truth factors from the observed distribution solely, and is formalized through the theory of identifiability. The identifiability of independent latent factors is proven to be impossible in the unsupervised i.i.d. setting under a general nonlinear map from factors to observations. In this work, however, we demonstrate that it is possible to recover quantized latent factors under a generic nonlinear diffeomorphism. We only assume that the latent factors have independent discontinuities in their density, without requiring the factors to be statistically independent. We introduce this novel form of identifiability, termed quantized factor identifiability, and provide a comprehensive proof of the recovery of the quantized factors. | 翻訳日:2024-03-14 18:57:13 公開日:2024-03-12 |
# 分子に基づく生成人工知能フレームワーク
炭素捕獲のための金属-有機組織設計のための拡散モデル
A generative artificial intelligence framework based on a molecular diffusion model for the design of metal-organic frameworks for carbon capture ( http://arxiv.org/abs/2306.08695v2 ) ライセンス: Link先を確認 | Hyun Park, Xiaoli Yan, Ruijie Zhu, E. A. Huerta, Santanu Chaudhuri, Donny Cooper, Ian Foster, Emad Tajkhorshid | (参考訳) 金属-有機フレームワーク(MOFs)はCO2を捕捉する大きな可能性を秘めている。
しかし、最高の性能を持つ材料を見つけることは、潜在的な建築ブロックの広大な化学空間を考える上で、計算的および実験的に大きな課題をもたらす。
本稿では、生成人工知能(AI)であるGHP-MOFassembleを紹介し、CO2吸着能力と合成可能なリンカーを有するMOFの合理的かつ迅速な設計のための高性能なフレームワークについて紹介する。
GHP-MOFassembleは、3つの予備選択された金属ノードのうちの1つ(Cuパドルホイール、Znパドルホイール、Znテトラマー)を原始立方体トポロジーでMOFに結合する新しいリンカーを生成する。
GHP-MOFassemble screens and whethers AI- generated MOFs for uniqueness, synthesizability, structure validity, using molecular dynamics Simulations to study their stability and chemical consistency, and crystal graph neural network and Grand Canonical Monte Carlo Simulations to Quantify their CO2 Adsorptionacities。
仮説MOFデータセットの96.9%以上である2$m mol/g$以上のCO2容量を持つAI生成MOFの上位6つを提示する。
Metal-organic frameworks (MOFs) exhibit great promise for CO2 capture. However, finding the best performing materials poses computational and experimental grand challenges in view of the vast chemical space of potential building blocks. Here, we introduce GHP-MOFassemble, a generative artificial intelligence (AI), high performance framework for the rational and accelerated design of MOFs with high CO2 adsorption capacity and synthesizable linkers. GHP-MOFassemble generates novel linkers, assembled with one of three pre-selected metal nodes (Cu paddlewheel, Zn paddlewheel, Zn tetramer) into MOFs in a primitive cubic topology. GHP-MOFassemble screens and validates AI-generated MOFs for uniqueness, synthesizability, structural validity, uses molecular dynamics simulations to study their stability and chemical consistency, and crystal graph neural networks and Grand Canonical Monte Carlo simulations to quantify their CO2 adsorption capacities. We present the top six AI-generated MOFs with CO2 capacities greater than 2 $m mol/g$, i.e., higher than 96.9% of structures in the hypothetical MOF dataset. | 翻訳日:2024-03-14 18:57:11 公開日:2024-03-12 |
# ミスアライメントが社会におけるメンバーシッププライバシに及ぼす影響の検討
ホワイトボックスの設定
Investigating the Effect of Misalignment on Membership Privacy in the White-box Setting ( http://arxiv.org/abs/2306.05093v2 ) ライセンス: Link先を確認 | Ana-Maria Cretu, Daniel Jones, Yves-Alexandre de Montjoye, Shruti Tople | (参考訳) 機械学習モデルは、トレーニングデータセットに関する機密情報を漏洩することが示されている。
モデルがますますデバイスにデプロイされるようになり、モデルパラメータへのホワイトボックスアクセスが、クエリアクセスのみを提供するブラックボックスアクセスよりも攻撃面を増加させるという懸念が高まっている。
シャドーモデリング技術を直接ブラックボックスからホワイトボックス設定に拡張することは、一般にブラックボックスのみの攻撃よりも優れた性能を発揮できないことが示されている。
潜在的な理由は、ディープニューラルネットワークの既知の特徴であるミスアライメントである。
シャドウモデリングの文脈では、ミスアライメントとは、影モデルが各層で類似した特徴を学習する一方で、特徴が異なる位置にあることを意味する。
本稿では,影モデルにおける不整合の原因を初めて体系的に解析し,異なる重み初期化が主な原因であることを示す。
次に、以前はモデル融合文献で開発されたいくつかの再配向手法をシャドウモデリングコンテキストに拡張し、そこでは、シャドウモデルの層をターゲットモデルのものと再配向することを目的としている。
ターゲットモデルとシャドウモデルの間の測定ミスアライメントを著しく低減する再アライメント手法を示す。
最後に、ホワイトボックスメンバーシップ推論攻撃(MIA)の包括的評価を行う。
分析の結果,内部層活性化型MIAは影モデルミスアライメントに強く悩まされているのに対し,勾配型MIAは大きな影響を受けていることが判明した。
また,影モデルの再調整により,前者の性能が向上し,後者の性能が向上することを示した。
まとめると、デバイス上でのデプロイメントによって攻撃面が増加し、新たに利用可能な情報がより強力な攻撃構築に利用できるようになる、という結果が浮かび上がっています。
Machine learning models have been shown to leak sensitive information about their training datasets. Models are increasingly deployed on devices, raising concerns that white-box access to the model parameters increases the attack surface compared to black-box access which only provides query access. Directly extending the shadow modelling technique from the black-box to the white-box setting has been shown, in general, not to perform better than black-box only attacks. A potential reason is misalignment, a known characteristic of deep neural networks. In the shadow modelling context, misalignment means that, while the shadow models learn similar features in each layer, the features are located in different positions. We here present the first systematic analysis of the causes of misalignment in shadow models and show the use of a different weight initialisation to be the main cause. We then extend several re-alignment techniques, previously developed in the model fusion literature, to the shadow modelling context, where the goal is to re-align the layers of a shadow model to those of the target model. We show re-alignment techniques to significantly reduce the measured misalignment between the target and shadow models. Finally, we perform a comprehensive evaluation of white-box membership inference attacks (MIA). Our analysis reveals that internal layer activation-based MIAs suffer strongly from shadow model misalignment, while gradient-based MIAs are only sometimes significantly affected. We show that re-aligning the shadow models strongly improves the former's performance and can also improve the latter's performance, although less frequently. Taken together, our results highlight that on-device deployment increases the attack surface and that the newly available information can be used to build more powerful attacks. | 翻訳日:2024-03-14 18:57:09 公開日:2024-03-12 |
# サブグリッドスケールクロージャの閉形式方程式の学習
高忠実度データ: 約束と挑戦
Learning Closed-form Equations for Subgrid-scale Closures from High-fidelity Data: Promises and Challenges ( http://arxiv.org/abs/2306.05014v2 ) ライセンス: Link先を確認 | Karan Jakhar, Yifei Guan, Rambod Mojgani, Ashesh Chattopadhyay, and Pedram Hassanzadeh | (参考訳) 地球系における複雑な過程のサブグリッドスケール(SGS)閉包/パラメータ化に対する解釈可能な閉形式方程式の発見への関心が高まっている。
本稿では,2次元乱流とレイリー・ブエナード対流(RBC)のフィルタ直接数値シミュレーションから,拡張ライブラリを用いた共通方程式探索手法を適用した。
一般的なフィルタ(例えばガウス、ボックス)をまたいで、運動量や熱流束に対して同じ形の閉包をしっかりと発見する。
これらの閉包はフィルター変数の勾配の非線形結合に依存し、流体・流れの性質とは独立な定数はフィルタタイプ/サイズにのみ依存する。
これらの閉包は非線形勾配モデル(NGM)であり、テイラー級数を用いて解析的に導出可能であることを示す。
実際、一般的な(物理自由な)方程式探索アルゴリズムでは、多くの共通系や物理系において、発見された閉包はテイラー級数の先頭項と一致する(カットオフフィルタを使用する場合を除いて)。
これまでの研究では、真とNGM予測フラックス(相関$0.95$)の間に大きな類似性があるにもかかわらず、NGM閉包を伴う大渦シミュレーションは不安定であることがわかった。
2Dでは、NGMは分解されたスケールとサブグリッドスケールの間の運動エネルギー移動をゼロにし、拡散と後方散乱の両方を欠いている。
RBCでは、ポテンシャルエネルギーの後方散乱は予測できない。
さらに,SGSフラックスは,発見のための「真実」と推定されるデータから診断され,フィルタリング手順に依存し,ユニークではないことを示す。
そこで本研究では, 物理情報処理ライブラリ, 損失関数, メトリクスの利用に関するいくつかのアイデアを提案する。
これらの知見は,任意のマルチスケールシステムのクロージャモデリングに関係している。
There is growing interest in discovering interpretable, closed-form equations for subgrid-scale (SGS) closures/parameterizations of complex processes in Earth systems. Here, we apply a common equation-discovery technique with expansive libraries to learn closures from filtered direct numerical simulations of 2D turbulence and Rayleigh-B\'enard convection (RBC). Across common filters (e.g., Gaussian, box), we robustly discover closures of the same form for momentum and heat fluxes. These closures depend on nonlinear combinations of gradients of filtered variables, with constants that are independent of the fluid/flow properties and only depend on filter type/size. We show that these closures are the nonlinear gradient model (NGM), which is derivable analytically using Taylor-series. Indeed, we suggest that with common (physics-free) equation-discovery algorithms, for many common systems/physics, discovered closures are consistent with the leading term of the Taylor-series (except when cutoff filters are used). Like previous studies, we find that large-eddy simulations with NGM closures are unstable, despite significant similarities between the true and NGM-predicted fluxes (correlations $> 0.95$). We identify two shortcomings as reasons for these instabilities: in 2D, NGM produces zero kinetic energy transfer between resolved and subgrid scales, lacking both diffusion and backscattering. In RBC, potential energy backscattering is poorly predicted. Moreover, we show that SGS fluxes diagnosed from data, presumed the ''truth'' for discovery, depend on filtering procedures and are not unique. Accordingly, to learn accurate, stable closures in future work, we propose several ideas around using physics-informed libraries, loss functions, and metrics. These findings are relevant to closure modeling of any multi-scale system. | 翻訳日:2024-03-14 18:57:09 公開日:2024-03-12 |
# 不均一テーブルからのスキーマ駆動型情報抽出
Schema-Driven Information Extraction from Heterogeneous Tables ( http://arxiv.org/abs/2305.14336v3 ) ライセンス: Link先を確認 | Fan Bai, Junmo Kang, Gabriel Stanovsky, Dayne Freitag, Alan Ritter | (参考訳) 本稿では,大規模言語モデルがテーブルからコスト効率の高い情報抽出を支援することができるかどうかを考察する。
人為的なスキーマに従って、表形式のデータを構造化されたレコードに変換する新しいタスクである、スキーマ駆動情報抽出を導入する。
本研究は, 機械学習論文, 化学文献, 物質科学雑誌, ウェブページの4分野を対象に, 各種LCMの能力評価を行う。
このアノテートテーブルのコレクションを用いて、オープンソースおよびAPIベースの言語モデルを用いて、さまざまなドメインやデータフォーマットをカバーするテーブルから情報を抽出する能力を評価する。
我々の実験は、タスク固有のパイプラインやラベルを必要とせず、74.2から96.1までのF1スコアを達成し、コスト効率を維持しながら、驚くほどの競争性能を達成できることを示した。
さらに, 細部にわたるアブレーション研究と分析を通じて, モデル成功に寄与する要因について検討し, 小型蒸留モデルの実用性を検証し, API依存度を低減した。
In this paper, we explore the question of whether large language models can support cost-efficient information extraction from tables. We introduce schema-driven information extraction, a new task that transforms tabular data into structured records following a human-authored schema. To assess various LLM's capabilities on this task, we present a benchmark comprised of tables from four diverse domains: machine learning papers, chemistry literature, material science journals, and webpages. We use this collection of annotated tables to evaluate the ability of open-source and API-based language models to extract information from tables covering diverse domains and data formats. Our experiments demonstrate that surprisingly competitive performance can be achieved without requiring task-specific pipelines or labels, achieving F1 scores ranging from 74.2 to 96.1, while maintaining cost efficiency. Moreover, through detailed ablation studies and analyses, we investigate the factors contributing to model success and validate the practicality of distilling compact models to reduce API reliance. | 翻訳日:2024-03-14 18:57:06 公開日:2024-03-12 |
# GRACE:ニューラルコーデックによるリアルタイムビデオのロスレジリエンス
GRACE: Loss-Resilient Real-Time Video through Neural Codecs ( http://arxiv.org/abs/2305.12333v4 ) ライセンス: Link先を確認 | Yihua Cheng, Ziyi Zhang, Hanchen Li, Anton Arapin, Yue Zhang, Qizheng Zhang, Yuhan Liu, Xu Zhang, Francis Y. Yan, Amrita Mazumdar, Nick Feamster, Junchen Jiang | (参考訳) リアルタイムビデオ通信では、遅延の厳しい要求のため、ロスパケットを高遅延ネットワーク上で再送信することは不可能である。
再送信なしでパケット損失に対応するために、エンコーダベースの前方誤り訂正(FEC)とデコーダベースの誤り隠蔽という2つの主要な戦略が採用されている。
前者は送信前に冗長でデータをエンコードするが、前もって最適な冗長レベルを決定することは困難である。
後者は、部分的に受信されたフレームから映像を再構成するが、フレームを独立して符号化されたパーティションに分割することは、本質的に圧縮効率を損なう。
本稿では,新たなニューラルビデオコーデックを用いて,ユーザによるパケット損失に対するQoE(Quality of Experience, QoE)を保存し,損失耐性のあるリアルタイムビデオシステムGRACEを提案する。
GRACEの強化された損失耐性の中心は、シミュレーションパケット損失のスペクトル下でのニューラルエンコーダとデコーダの共同トレーニングである。
損失のないシナリオでは、GRACEは従来のコーデック(例: H.265)と同等のビデオ品質を達成する。
損失率が増大するにつれて、GRACEはより優雅で、より顕著な品質低下を示し、他の損失耐性のスキームを一貫して上回っている。
様々なビデオや実ネットワークトレースを広範囲に評価することにより,GRACE は FEC と比較して,処理不能なフレームを95%,停止期間を90%削減し,エラー隠蔽法よりも映像品質を著しく向上させることを示した。
240名のクラウドソース参加者と960名の主観評価を持つユーザスタディでは、GRACEは他のベースラインよりも38%高い平均世論スコア(MOS)を登録している。
In real-time video communication, retransmitting lost packets over high-latency networks is not viable due to strict latency requirements. To counter packet losses without retransmission, two primary strategies are employed -- encoder-based forward error correction (FEC) and decoder-based error concealment. The former encodes data with redundancy before transmission, yet determining the optimal redundancy level in advance proves challenging. The latter reconstructs video from partially received frames, but dividing a frame into independently coded partitions inherently compromises compression efficiency, and the lost information cannot be effectively recovered by the decoder without adapting the encoder. We present a loss-resilient real-time video system called GRACE, which preserves the user's quality of experience (QoE) across a wide range of packet losses through a new neural video codec. Central to GRACE's enhanced loss resilience is its joint training of the neural encoder and decoder under a spectrum of simulated packet losses. In lossless scenarios, GRACE achieves video quality on par with conventional codecs (e.g., H.265). As the loss rate escalates, GRACE exhibits a more graceful, less pronounced decline in quality, consistently outperforming other loss-resilient schemes. Through extensive evaluation on various videos and real network traces, we demonstrate that GRACE reduces undecodable frames by 95% and stall duration by 90% compared with FEC, while markedly boosting video quality over error concealment methods. In a user study with 240 crowdsourced participants and 960 subjective ratings, GRACE registers a 38% higher mean opinion score (MOS) than other baselines. | 翻訳日:2024-03-14 18:57:05 公開日:2024-03-12 |
# ランダム化による優先型フィードバック効率RLの作成
Making RL with Preference-based Feedback Efficient via Randomization ( http://arxiv.org/abs/2310.14554v2 ) ライセンス: Link先を確認 | Runzhe Wu, Wen Sun | (参考訳) 人間のフィードバック(RLHF)から学習する強化学習アルゴリズムは、統計複雑性、計算複雑性、クエリ複雑性の点で効率的である必要がある。
本研究では,RLHF設定において,2対の軌道よりも好みの形式でフィードバックが与えられることを考察する。
線形MDPモデルでは, アルゴリズム設計におけるランダム化を用いて, サンプリング効率が良く, 多項式実行時間(計算複雑性は関連するパラメータに関して多項式)を持つアルゴリズムを提案する。
提案アルゴリズムは,新しいランダム化能動的学習手法により,クエリの複雑さを最小化する。
特に,提案アルゴリズムは,後悔境界とクエリ複雑性のほぼ最適トレードオフを示す。
結果をより一般的な非線形関数近似に拡張するために、トンプソンサンプリングのアイデアに触発されたモデルベースランダム化アルゴリズムを設計する。
我々のアルゴリズムはベイズ的後悔とクエリの複雑さを最小化し、これら2つの量間のほぼ最適なトレードオフを達成する。
正規RL設定における従来のトンプソンサンプリングアルゴリズムと同様に,本アルゴリズムの主な計算プリミティブはベイズ教師あり学習オラクルであり,トンプソンサンプリングアルゴリズムをRLベンチマーク問題に適用する際の経験的側面について深く研究されている。
Reinforcement Learning algorithms that learn from human feedback (RLHF) need to be efficient in terms of statistical complexity, computational complexity, and query complexity. In this work, we consider the RLHF setting where the feedback is given in the format of preferences over pairs of trajectories. In the linear MDP model, using randomization in algorithm design, we present an algorithm that is sample efficient (i.e., has near-optimal worst-case regret bounds) and has polynomial running time (i.e., computational complexity is polynomial with respect to relevant parameters). Our algorithm further minimizes the query complexity through a novel randomized active learning procedure. In particular, our algorithm demonstrates a near-optimal tradeoff between the regret bound and the query complexity. To extend the results to more general nonlinear function approximation, we design a model-based randomized algorithm inspired by the idea of Thompson sampling. Our algorithm minimizes Bayesian regret bound and query complexity, again achieving a near-optimal tradeoff between these two quantities. Computation-wise, similar to the prior Thompson sampling algorithms under the regular RL setting, the main computation primitives of our algorithm are Bayesian supervised learning oracles which have been heavily investigated on the empirical side when applying Thompson sampling algorithms to RL benchmark problems. | 翻訳日:2024-03-14 18:28:05 公開日:2024-03-12 |
# Entropic (Gromov) Wasserstein Flow Matching with GENOT (特集 バイオサイバネティックスとバイオサイバネティックス)
Entropic (Gromov) Wasserstein Flow Matching with GENOT ( http://arxiv.org/abs/2310.09254v3 ) ライセンス: Link先を確認 | Dominik Klein, Th\'eo Uscidda, Fabian Theis, Marco Cuturi | (参考訳) ニューラルネットワークと組み合わせて、最近の \textit{Neural OT} (N-OT) ソルバは、OTを誘導バイアスとして使用し、平均変位コストを最小化する 'thrifty'' マッピングにフォーカスする。
この核となる原理は、N-OTソルバの高い科学的課題、特に単細胞ゲノミクスへの応用を成功に導いた。
しかし、N-OTソルバは、ほとんどのN-OTソルバは2乗ユークリッドコストを処理できるが、より一般的なコストに対処するために再利用されなければならない。
これらの課題はそれぞれ独立して検討されているが、これらのニーズをすべてネイティブに処理できる新しいフレームワークを提案する。
The \textit{generative entropic Neural OT} (GENOT) framework models the conditional distribution $\pi_\varepsilon(\*y|\*x)$ of an optimal \textit{entropic} coupling $\pi_\varepsilon$, using conditional flow matching。
GENOT は生成的であり、Gromov-Wasserstein 問題に対するサンプルベースで不均衡な解で導かれる点 \textit{across} を任意のコストで輸送することができる。
我々は、GENOTを用いて、細胞の発生をモデル化し、細胞応答を予測し、データモダリティ間の変換を行う。
Optimal transport (OT) theory has reshaped the field of generative modeling: Combined with neural networks, recent \textit{Neural OT} (N-OT) solvers use OT as an inductive bias, to focus on ``thrifty'' mappings that minimize average displacement costs. This core principle has fueled the successful application of N-OT solvers to high-stakes scientific challenges, notably single-cell genomics. N-OT solvers are, however, increasingly confronted with practical challenges: while most N-OT solvers can handle squared-Euclidean costs, they must be repurposed to handle more general costs; their reliance on deterministic Monge maps as well as mass conservation constraints can easily go awry in the presence of outliers; mapping points \textit{across} heterogeneous spaces is out of their reach. While each of these challenges has been explored independently, we propose a new framework that can handle, natively, all of these needs. The \textit{generative entropic neural OT} (GENOT) framework models the conditional distribution $\pi_\varepsilon(\*y|\*x)$ of an optimal \textit{entropic} coupling $\pi_\varepsilon$, using conditional flow matching. GENOT is generative, and can transport points \textit{across} spaces, guided by sample-based, unbalanced solutions to the Gromov-Wasserstein problem, that can use any cost. We showcase our approach on both synthetic and single-cell datasets, using GENOT to model cell development, predict cellular responses, and translate between data modalities. | 翻訳日:2024-03-14 18:28:02 公開日:2024-03-12 |
# Search-Adaptor: 情報検索のためのカスタマイズの埋め込み
Search-Adaptor: Embedding Customization for Information Retrieval ( http://arxiv.org/abs/2310.08750v2 ) ライセンス: Link先を確認 | Jinsung Yoon, Sercan O Arik, Yanfei Chen, Tomas Pfister | (参考訳) 事前学習されたLarge Language Models (LLM) によって抽出された埋め込みは、情報検索と検索を改善する重要な可能性を持っている。
従来使用されていたゼロショット設定以外にも、関連するクエリコーパスペアデータからの情報を活用することで、LLM機能をさらに強化することができる。
本稿では,情報検索のためのLLMを効率的かつロバストな方法でカスタマイズする新しい手法であるSearch-Adaptorを提案する。
Search-Adaptorは、事前訓練されたLLMによって生成された埋め込みを修正し、予測API経由でのみ利用可能なものを含む任意のLLMと統合することができる。
複数の英語、多言語、マルチモーダル検索データセットでは、検索-アダプタ -- 例えば、nDCG@10におけるGoogle Embedding APIの5%以上の改善が、平均14 BEIRデータセットで、一貫して、重要なパフォーマンス上のメリットを示している。
Embeddings extracted by pre-trained Large Language Models (LLMs) have significant potential to improve information retrieval and search. Beyond the zero-shot setup in which they are being conventionally used, being able to take advantage of the information from the relevant query-corpus paired data can further boost the LLM capabilities. In this paper, we propose a novel method, Search-Adaptor, for customizing LLMs for information retrieval in an efficient and robust way. Search-Adaptor modifies the embeddings generated by pre-trained LLMs, and can be integrated with any LLM, including those only available via prediction APIs. On multiple English, multilingual, and multimodal retrieval datasets, we show consistent and significant performance benefits for Search-Adaptor -- e.g., more than 5% improvements for Google Embedding APIs in nDCG@10 averaged over 14 BEIR datasets. | 翻訳日:2024-03-14 18:28:01 公開日:2024-03-12 |
# PoRF: 正確な神経表面再構成のための残留電位場
PoRF: Pose Residual Field for Accurate Neural Surface Reconstruction ( http://arxiv.org/abs/2310.07449v3 ) ライセンス: Link先を確認 | Jia-Wang Bian, Wenjing Bian, Victor Adrian Prisacariu, Philip Torr | (参考訳) ニューラルサーフェス再構成は、COLMAPやARKitのような最先端のポーズ推定装置を使用しても、カメラポーズノイズに敏感である。
さらに重要なことに、既存のPose-NeRF共同最適化手法は、現実のシナリオに挑戦する際のポーズの精度を改善するのに苦労している。
これらの課題を克服するために、ポーズ更新の回帰にMLPを使用する新しい暗黙の表現である、ポーズ残留フィールド(PoRF)を導入する。
これは、シーケンス全体にわたってグローバル情報を活用するパラメータ共有のため、従来のポーズパラメータの最適化よりも堅牢である。
さらに、余分な計算オーバーヘッドを伴わずに、COLMAP結果からエクスポートされた対応を利用して、監督を強化するために、エピポーラ幾何学的損失を提案する。
我々の方法は有望な結果をもたらす。
DTUデータセットでは,COLMAPポーズの回転誤差を78\%削減し,チャンファー距離を3.48mmから0.85mmに短縮した。
カジュアルにキャプチャされた360度ビデオを含むMobileBrickデータセットでは、ARKitのポーズを洗練し、再構成されたF1スコアを69.18から75.67に改善し、データセットが地味のポーズ(75.14)を提供することでパフォーマンスが向上した。
これらの成果は、カメラポーズの精製におけるアプローチの有効性を示し、現実のシナリオにおける神経表面再構成の精度を向上させる。
Neural surface reconstruction is sensitive to the camera pose noise, even if state-of-the-art pose estimators like COLMAP or ARKit are used. More importantly, existing Pose-NeRF joint optimisation methods have struggled to improve pose accuracy in challenging real-world scenarios. To overcome the challenges, we introduce the pose residual field (PoRF), a novel implicit representation that uses an MLP for regressing pose updates. This is more robust than the conventional pose parameter optimisation due to parameter sharing that leverages global information over the entire sequence. Furthermore, we propose an epipolar geometry loss to enhance the supervision that leverages the correspondences exported from COLMAP results without the extra computational overhead. Our method yields promising results. On the DTU dataset, we reduce the rotation error by 78\% for COLMAP poses, leading to the decreased reconstruction Chamfer distance from 3.48mm to 0.85mm. On the MobileBrick dataset that contains casually captured unbounded 360-degree videos, our method refines ARKit poses and improves the reconstruction F1 score from 69.18 to 75.67, outperforming that with the dataset provided ground-truth pose (75.14). These achievements demonstrate the efficacy of our approach in refining camera poses and improving the accuracy of neural surface reconstruction in real-world scenarios. | 翻訳日:2024-03-14 18:27:59 公開日:2024-03-12 |
# 動的マージン最大化と改善による認証ロバストネス
Lipschitz 正規化
Certified Robustness via Dynamic Margin Maximization and Improved Lipschitz Regularization ( http://arxiv.org/abs/2310.00116v3 ) ライセンス: Link先を確認 | Mahyar Fazlyab, Taha Entesari, Aniket Roy, Rama Chellappa | (参考訳) 対向的摂動に対する深い分類器の堅牢性を改善するために、より良い堅牢性を持つ新しいアーキテクチャ(例えば、リプシッツをカプセル化したネットワーク)を設計したり、トレーニングプロセス自体を変更する(例えば、min-max最適化、制約付き学習、正規化)など、多くのアプローチが提案されている。
しかし、これらのアプローチは入力(機能)空間のマージンを増大させるには有効ではないかもしれない。
その結果、入力空間における決定境界を直接操作できる訓練手順の開発への関心が高まっている。
本稿では,弱い方向に沿ってモデルのリプシッツ定数を正則化しながら,出力(ロジット)空間のマージンを増大させることを目的とする頑健な学習アルゴリズムを開発することにより,このカテゴリの最近の発展を基盤としている。
これらの2つの目的が入力空間におけるより大きなマージンを直接促進できることを示す。
そこで我々は,ニューラルネットワークのリプシッツ定数上の保証可能な上界を精度よく,かつ効率的に計算するスケーラブルな手法を開発した。
境界の相対的精度は過剰な正規化を防ぎ、決定境界をより直接的に操作することができる。
さらに、我々のリプシッツ境界アルゴリズムはアクティベーション層の単調性とリプシッツ連続性を利用しており、その結果のバウンダリはリプシッツ定数に制御可能なバウンダリを持つ新しい層を設計することができる。
MNIST, CIFAR-10 および Tiny-ImageNet データセットを用いた実験により,提案アルゴリズムが最先端技術と比較して競争力に向上した結果が得られることを確認した。
To improve the robustness of deep classifiers against adversarial perturbations, many approaches have been proposed, such as designing new architectures with better robustness properties (e.g., Lipschitz-capped networks), or modifying the training process itself (e.g., min-max optimization, constrained learning, or regularization). These approaches, however, might not be effective at increasing the margin in the input (feature) space. As a result, there has been an increasing interest in developing training procedures that can directly manipulate the decision boundary in the input space. In this paper, we build upon recent developments in this category by developing a robust training algorithm whose objective is to increase the margin in the output (logit) space while regularizing the Lipschitz constant of the model along vulnerable directions. We show that these two objectives can directly promote larger margins in the input space. To this end, we develop a scalable method for calculating guaranteed differentiable upper bounds on the Lipschitz constant of neural networks accurately and efficiently. The relative accuracy of the bounds prevents excessive regularization and allows for more direct manipulation of the decision boundary. Furthermore, our Lipschitz bounding algorithm exploits the monotonicity and Lipschitz continuity of the activation layers, and the resulting bounds can be used to design new layers with controllable bounds on their Lipschitz constant. Experiments on the MNIST, CIFAR-10, and Tiny-ImageNet data sets verify that our proposed algorithm obtains competitively improved results compared to the state-of-the-art. | 翻訳日:2024-03-14 18:27:47 公開日:2024-03-12 |
# SciGLM:自己表現型科学言語モデルの学習
指示アノテーションとチューニング
SciGLM: Training Scientific Language Models with Self-Reflective Instruction Annotation and Tuning ( http://arxiv.org/abs/2401.07950v2 ) ライセンス: Link先を確認 | Dan Zhang and Ziniu Hu and Sining Zhoubian and Zhengxiao Du and Kaiyu Yang and Zihan Wang and Yisong Yue and Yuxiao Dong and Jie Tang | (参考訳) LLM(Large Language Models)は、科学的な発見を支援することを約束している。
しかしながら、そのような応用は、複雑な科学概念の理解、記号方程式の導出、高度な数値計算の解法におけるLLMの欠陥によって制限されている。
これらのギャップを埋めるために、大学レベルの科学的推論を行うことができる科学言語モデルのセットであるSciGLMを紹介します。
我々のアプローチの中心は、科学領域におけるデータ不足問題に対処するための、新しい自己表現型命令アノテーションフレームワークである。
このフレームワークは、既存のLCMを活用して、未解決の科学的問題に対するステップバイステップの推論を生成し、その後、自己反省的な批判と修正のプロセスが続く。
このフレームワークを適用して、物理、化学、数学、公式証明を含む多種多様な高品質なデータセットであるSciInstructをキュレートした。
言語モデルのChatGLMをSciInstructで微調整し、科学的および数学的推論能力を向上した。
SciGLMはベースモデル(ChatGLM3-6B-Base)を4.87%、大規模モデル(32B)を2.67%改善し、ベースモデルの言語理解能力を犠牲にしている。
これにより、SciGLMは多様な科学的発見タスクを促進するのに適した基礎モデルとなる。
より広い研究コミュニティの利益のために、私たちはSciInstructとSciGLMをリリースし、 https://github.com/THUDM/SciGLM.comで自己修正フレームワークと微調整コードを公開します。
Large Language Models (LLMs) have shown promise in assisting scientific discovery. However, such applications are currently limited by LLMs' deficiencies in understanding intricate scientific concepts, deriving symbolic equations, and solving advanced numerical calculations. To bridge these gaps, we introduce SciGLM, a suite of scientific language models able to conduct college-level scientific reasoning. Central to our approach is a novel self-reflective instruction annotation framework to address the data scarcity challenge in the science domain. This framework leverages existing LLMs to generate step-by-step reasoning for unlabelled scientific questions, followed by a process of self-reflective critic-and-revise. Applying this framework, we curated SciInstruct, a diverse and high-quality dataset encompassing physics, chemistry, math, and formal proofs. We fine-tuned the ChatGLM family of language models with SciInstruct, enhancing their scientific and mathematical reasoning capabilities. Remarkably, the SciGLM consistently improves both the base model (ChatGLM3-6B-Base) by 4.87% and larger-scale models (32B) by 2.67%, without sacrificing the language understanding capabilities of the base model. This makes SciGLM a suitable foundational model to facilitate diverse scientific discovery tasks. For the benefit of the wider research community, we release SciInstruct, and SciGLM, alongside a self-reflective framework and fine-tuning code at https://github.com/THUDM/SciGLM. | 翻訳日:2024-03-14 17:58:42 公開日:2024-03-12 |
# GPT-4V(ision)は、グラウンドドの場合、ジェネリストWebエージェントである
GPT-4V(ision) is a Generalist Web Agent, if Grounded ( http://arxiv.org/abs/2401.01614v2 ) ライセンス: Link先を確認 | Boyuan Zheng, Boyu Gou, Jihyung Kil, Huan Sun, Yu Su | (参考訳) 最近の大規模マルチモーダルモデル(特にGPT-4V(ision)とGemini)の開発は、画像キャプションや視覚的質問応答といった従来のタスクを超えて、急速に多モーダルモデルの能力境界を広げている。
本稿では,GPT-4Vのような汎用Webエージェントが,任意のWebサイト上でタスクを完了するための自然言語命令に従うことの可能なLMMの可能性を探る。
本稿では,Web上での視覚的理解と行動の統合にLMMの力を利用する汎用WebエージェントであるSEEACTを提案する。
我々は最近のMIND2WEBベンチマークを評価した。
キャッシュされたWebサイト上での標準的なオフライン評価に加えて、ライブWebサイト上でWebエージェントの実行を可能にするツールを開発することで、新しいオンライン評価設定を可能にする。
GPT-4Vは、Webエージェントにとって大きな可能性を示します -- テキストプランを手作業でWebサイト上で動作させると、ライブWebサイト上で51.1タスクを完了できます。
これは GPT-4 やより小さなモデル (FLAN-T5 や BLIP-2) のようなテキストのみの LLM よりも優れている。
しかし、依然として土台は大きな課題である。
既存の LMM の接地戦略である set-of-mark プロンプトは,Web エージェントには有効ではなく,HTML の構造と視覚の両面から構築した最良の接地戦略が有効であることがわかった。
しかし、オラクルの接地には依然としてかなりのギャップがあり、さらなる改善のための十分なスペースが残されている。
すべてのコード、データ、評価ツールはhttps://github.com/OSU-NLP-Group/SeeAct.comで入手できる。
The recent development on large multimodal models (LMMs), especially GPT-4V(ision) and Gemini, has been quickly expanding the capability boundaries of multimodal models beyond traditional tasks like image captioning and visual question answering. In this work, we explore the potential of LMMs like GPT-4V as a generalist web agent that can follow natural language instructions to complete tasks on any given website. We propose SEEACT, a generalist web agent that harnesses the power of LMMs for integrated visual understanding and acting on the web. We evaluate on the recent MIND2WEB benchmark. In addition to standard offline evaluation on cached websites, we enable a new online evaluation setting by developing a tool that allows running web agents on live websites. We show that GPT-4V presents a great potential for web agents -- it can successfully complete 51.1 of the tasks on live websites if we manually ground its textual plans into actions on the websites. This substantially outperforms text-only LLMs like GPT-4 or smaller models (FLAN-T5 and BLIP-2) specifically fine-tuned for web agents. However, grounding still remains a major challenge. Existing LMM grounding strategies like set-of-mark prompting turns out to be not effective for web agents, and the best grounding strategy we develop in this paper leverages both the HTML structure and visuals. Yet, there is still a substantial gap with oracle grounding, leaving ample room for further improvement. All code, data, and evaluation tools are available at https://github.com/OSU-NLP-Group/SeeAct. | 翻訳日:2024-03-14 17:58:40 公開日:2024-03-12 |
# 視線推定のためのメタプロンプトを用いたテスト時間パーソナライズ
Test-Time Personalization with Meta Prompt for Gaze Estimation ( http://arxiv.org/abs/2401.01577v3 ) ライセンス: Link先を確認 | Huan Liu, Julia Qi, Zhenhao Li, Mohammad Hassanpour, Yang Wang, Konstantinos Plataniotis, Yuanhao Yu | (参考訳) 近年の視線推定における顕著な成果にもかかわらず、ラベルのない視線推定の効率的かつ正確な個人化は現実的な問題であるが、文献にはほとんど触れられていない。
効率のよいパーソナライズを実現するために,テスト時間に"prompts"という無視可能なパラメータを更新することで,自然言語処理(NLP)の最近の進歩から着想を得た。
具体的には、プロンプトは元のネットワークを乱すことなく付加され、ResNet-18のパラメータの1%未満を含むことができる。
本実験は, 高速チューニング手法の高効率性を示す。
提案手法は,提案手法に比べて適応速度の10倍の速度で適用可能である。
しかし、ラベルなしでパーソナライズされた視線推定のプロンプトを更新するのは簡単ではない。
テスト時には、特定の教師なし損失の最小化が、視線推定誤差の最小化に繋がることを保証することが不可欠である。
この課題に対処するため、我々は、その更新が目標と一致していることを保証するプロンプトをメタ学習することを提案する。
実験の結果,メタ学習プロンプトは単純な対称性の損失でも効果的に適応できることがわかった。
さらに,提案手法の顕著な利点を示すために,4つのクロスデータセット検証実験を行った。
コードはhttps://github.com/hmarkamcan/TPGaze.comで入手できる。
Despite the recent remarkable achievement in gaze estimation, efficient and accurate personalization of gaze estimation without labels is a practical problem but rarely touched on in the literature. To achieve efficient personalization, we take inspiration from the recent advances in Natural Language Processing (NLP) by updating a negligible number of parameters, "prompts", at the test time. Specifically, the prompt is additionally attached without perturbing original network and can contain less than 1% of a ResNet-18's parameters. Our experiments show high efficiency of the prompt tuning approach. The proposed one can be 10 times faster in terms of adaptation speed than the methods compared. However, it is non-trivial to update the prompt for personalized gaze estimation without labels. At the test time, it is essential to ensure that the minimizing of particular unsupervised loss leads to the goals of minimizing gaze estimation error. To address this difficulty, we propose to meta-learn the prompt to ensure that its updates align with the goal. Our experiments show that the meta-learned prompt can be effectively adapted even with a simple symmetry loss. In addition, we experiment on four cross-dataset validations to show the remarkable advantages of the proposed method. Code is available at https://github.com/hmarkamcan/TPGaze. | 翻訳日:2024-03-14 17:58:40 公開日:2024-03-12 |
# ドメイン制約は結果データが欠落した場合のリスク予測を改善する
Domain constraints improve risk prediction when outcome data is missing ( http://arxiv.org/abs/2312.03878v2 ) ライセンス: Link先を確認 | Sidhika Balachandar, Nikhil Garg, Emma Pierson | (参考訳) 機械学習モデルは、しばしば人間の決定による結果を予測するために訓練される。
例えば、ある医師が患者の病気の検査を決めた場合、患者は陽性か?
課題は、歴史的意思決定が結果が観察されるかどうかを判断することであり、我々は歴史的に検査された患者のテスト結果のみを観察する。
結果が得られない未検査の患者は、観察された範囲や観察されていない範囲で検査された患者と異なる場合がある。
この設定を捉えるベイズモデルクラスを提案する。
このモデルの目的は、検査と未検査の両方の患者のリスクを正確に見積もることである。
未検査患者の幅広い可能性のために、このモデルの推定は困難である。
そこで,本論文では, 健康状態において有効な2つの領域の制約を提案する。病原性制約, 全体の病原性が知られていること, および, ヒトの意思決定者が, 制約された特徴セットに沿ってのみ、純粋にリスクベースの意思決定から逸脱する専門的制約である。
領域制約がパラメータ推論を改善するという,理論的および合成データについて述べる。
本研究は, がんリスク予測のケーススタディに適用し, そのモデルが癌診断を予測し, その推定テストポリシが既知の公衆衛生政策を捉え, テストアロケーションにおける準最適性を同定できることを示す。
我々のケーススタディは医療分野ですが、多くの環境でモデル推定を改善することのできる、ドメイン制約の一般的なクラスを明らかにしています。
Machine learning models are often trained to predict the outcome resulting from a human decision. For example, if a doctor decides to test a patient for disease, will the patient test positive? A challenge is that historical decision-making determines whether the outcome is observed: we only observe test outcomes for patients doctors historically tested. Untested patients, for whom outcomes are unobserved, may differ from tested patients along observed and unobserved dimensions. We propose a Bayesian model class which captures this setting. The purpose of the model is to accurately estimate risk for both tested and untested patients. Estimating this model is challenging due to the wide range of possibilities for untested patients. To address this, we propose two domain constraints which are plausible in health settings: a prevalence constraint, where the overall disease prevalence is known, and an expertise constraint, where the human decision-maker deviates from purely risk-based decision-making only along a constrained feature set. We show theoretically and on synthetic data that domain constraints improve parameter inference. We apply our model to a case study of cancer risk prediction, showing that the model's inferred risk predicts cancer diagnoses, its inferred testing policy captures known public health policies, and it can identify suboptimalities in test allocation. Though our case study is in healthcare, our analysis reveals a general class of domain constraints which can improve model estimation in many settings. | 翻訳日:2024-03-14 17:58:32 公開日:2024-03-12 |
# 全体と構成要素に基づくセマンティックの自己教師付き学習
人物再識別の表現
Self-Supervised Learning of Whole and Component-Based Semantic Representations for Person Re-Identification ( http://arxiv.org/abs/2311.17074v3 ) ライセンス: Link先を確認 | Siyuan Huang, Yifan Zhou, Ram Prabhakar, Xijun Liu, Yuxiang Guo, Hongrui Yi, Cheng Peng, Rama Chellappa, Chun Pong Lau | (参考訳) 個人再識別(ReID)は、さまざまな設定にまたがって個人を特定することに焦点を当て、困難な問題である。
しかし、以前のReIDメソッドは、Clothes-Changing ReID(CC-ReID)やビデオReIDのような単一のドメインやモダリティに集中していた。
現実世界のReIDは、服や入力タイプのような要因によって制約されない。
近年のアプローチでは、ReID性能を向上させるための事前学習による意味学の学習が重視されているが、粗い粒度、着衣点、事前定義された領域によって妨げられている。
これらの制約に対処するため,インタラクティブセグメンテーションモデルにインスパイアされた局所意味抽出(LSE)モジュールを提案する。
LSEモジュールは微細でバイオメトリックでフレキシブルなローカルセマンティクスをキャプチャし、ReIDの精度を高める。
さらに,LSEを利用したセマンティックReID(Semantic ReID)を導入し,様々なReIDドメインやモダリティをシームレスに移動するための効果的なセマンティックスを学習する。
9つのReIDデータセットにわたる大規模な評価は、着替え型ReID、ビデオReID、制約なしReID、短期ReIDなど、SemReIDの堅牢なパフォーマンスを示している。
SemReIDはドメイン固有の設計を使わずに優れた性能を発揮するため,ReIDにおける効果的なセマンティクスの重要性を強調した。
Person Re-Identification (ReID) is a challenging problem, focusing on identifying individuals across diverse settings. However, previous ReID methods primarily concentrated on a single domain or modality, such as Clothes-Changing ReID (CC-ReID) and video ReID. Real-world ReID is not constrained by factors like clothes or input types. Recent approaches emphasize on learning semantics through pre-training to enhance ReID performance but are hindered by coarse granularity, on-clothes focus and pre-defined areas. To address these limitations, we propose a Local Semantic Extraction (LSE) module inspired by Interactive Segmentation Models. The LSE module captures fine-grained, biometric, and flexible local semantics, enhancing ReID accuracy. Additionally, we introduce Semantic ReID (SemReID), a pre-training method that leverages LSE to learn effective semantics for seamless transfer across various ReID domains and modalities. Extensive evaluations across nine ReID datasets demonstrates SemReID's robust performance across multiple domains, including clothes-changing ReID, video ReID, unconstrained ReID, and short-term ReID. Our findings highlight the importance of effective semantics in ReID, as SemReID can achieve great performances without domain-specific designs. | 翻訳日:2024-03-14 17:58:26 公開日:2024-03-12 |
# 信頼性の高いオフライン補強のための安全対応型因果表現
自律運転における学習
Safety-aware Causal Representation for Trustworthy Offline Reinforcement Learning in Autonomous Driving ( http://arxiv.org/abs/2311.10747v3 ) ライセンス: Link先を確認 | Haohong Lin, Wenhao Ding, Zuxin Liu, Yaru Niu, Jiacheng Zhu, Yuming Niu, Ding Zhao | (参考訳) 自律運転の分野では、オフライン強化学習〜(RL)アプローチは、オフラインデータセットからのシーケンシャルな意思決定問題に対処する上で、顕著な効果を示す。
しかしながら、さまざまな安全クリティカルなシナリオにおける安全性の維持は、オフラインデータセットが欠如している長期的かつ予期せぬシナリオのため、依然として重大な課題である。
本稿では、構造化シナリオ情報を利用して、一般化可能なエンドツーエンド駆動ポリシーの学習を容易にするために、オフラインRLにおける先駆的な表現学習手法であるsaFety-aware structured Scenario representation (FUSION)を紹介する。
FUSIONは、分解された報酬、コスト、状態、およびアクション空間の間の因果関係に乗じて、動的交通環境における構造化シーケンシャル推論のためのフレームワークを構築する。
自律走行車における配電シフトの典型的な2つの現実的状況において、我々は、現在最先端の安全RLとILベースラインと比較して、安全コストとユーティリティ報酬のバランスが良いことを実証し、広範囲に評価する。
様々な運転シナリオにおける実証的な証拠は、FUSIONが自律運転エージェントの安全性と一般化性を著しく向上させることを証明している。
さらに,我々のアブレーション研究は,因果表現をオフライン安全なRLアルゴリズムに統合する際の顕著な改善を明らかにした。
私たちのコード実装は以下の通りである。
In the domain of autonomous driving, the offline Reinforcement Learning~(RL) approaches exhibit notable efficacy in addressing sequential decision-making problems from offline datasets. However, maintaining safety in diverse safety-critical scenarios remains a significant challenge due to long-tailed and unforeseen scenarios absent from offline datasets. In this paper, we introduce the saFety-aware strUctured Scenario representatION (FUSION), a pioneering representation learning method in offline RL to facilitate the learning of a generalizable end-to-end driving policy by leveraging structured scenario information. FUSION capitalizes on the causal relationships between the decomposed reward, cost, state, and action space, constructing a framework for structured sequential reasoning in dynamic traffic environments. We conduct extensive evaluations in two typical real-world settings of the distribution shift in autonomous vehicles, demonstrating the good balance between safety cost and utility reward compared to the current state-of-the-art safe RL and IL baselines. Empirical evidence in various driving scenarios attests that FUSION significantly enhances the safety and generalizability of autonomous driving agents, even in the face of challenging and unseen environments. Furthermore, our ablation studies reveal noticeable improvements in the integration of causal representation into the offline safe RL algorithm. Our code implementation is available at: https://sites.google.com/view/safe-fusion/. | 翻訳日:2024-03-14 17:58:22 公開日:2024-03-12 |
# 拡散のためのアイデンティティ保護の強化に関するデータ展望
人格化
A Data Perspective on Enhanced Identity Preservation for Diffusion Personalization ( http://arxiv.org/abs/2311.04315v2 ) ライセンス: Link先を確認 | Xingzhe He, Zhiwen Cao, Nicholas Kolkin, Lantao Yu, Helge Rhodin, Ratheesh Kalarot | (参考訳) 大規模なテキスト画像モデルは、自然言語を使って画像を生成する能力に革命をもたらした。
しかし、特にペットや家具のようなユニークな、あるいは個人的な視覚概念は、オリジナルのモデルでは捉えられない。
これはテキスト・ツー・イメージ・モデルのパーソナライズ方法への関心につながった。
かなりの進歩にもかかわらず、この課題は、特に被写体のアイデンティティを維持する上で、恐ろしい課題である。
ほとんどの研究者はモデルアーキテクチャを変更してこの問題に対処しようと試みている。
これらの手法は被写体の構造と色を保持できるが、識別の詳細を保存できない。
この問題に向けて、私たちのアプローチはデータ中心の視点を取ります。
テキストと画像の両レベルで,新たな正規化データセット生成戦略を導入する。
この戦略により、モデルはテキストやロゴなど、所望の主題の細部を保存できる。
本手法はアーキテクチャ非依存であり,様々なテキスト・イメージ・モデルに柔軟に適用可能である。
データ中心のアプローチが、アイデンティティの保存とテキストアライメントという観点から、新たな最先端技術を形成することを、確立されたベンチマークで示しています。
Large text-to-image models have revolutionized the ability to generate imagery using natural language. However, particularly unique or personal visual concepts, such as pets and furniture, will not be captured by the original model. This has led to interest in how to personalize a text-to-image model. Despite significant progress, this task remains a formidable challenge, particularly in preserving the subject's identity. Most researchers attempt to address this issue by modifying model architectures. These methods are capable of keeping the subject structure and color but fail to preserve identity details. Towards this issue, our approach takes a data-centric perspective. We introduce a novel regularization dataset generation strategy on both the text and image level. This strategy enables the model to preserve fine details of the desired subjects, such as text and logos. Our method is architecture-agnostic and can be flexibly applied on various text-to-image models. We show on established benchmarks that our data-centric approach forms the new state of the art in terms of identity preservation and text alignment. | 翻訳日:2024-03-14 17:58:17 公開日:2024-03-12 |
# 忠実な説明に向けて - ショートカットによる合理化の促進
発見
Towards Faithful Explanations: Boosting Rationalization with Shortcuts Discovery ( http://arxiv.org/abs/2403.07955v1 ) ライセンス: Link先を確認 | Linan Yue, Qi Liu, Yichao Du, Li Wang, Weibo Gao, Yanqing An | (参考訳) ニューラルネットワークの顕著な成功は、選択的合理化を引き起こす。
これは、それらをサポートするのに十分な入力の小さなサブセットを特定することで、予測結果を説明する。
既存の手法では,有理性や限定的な大規模アノテート論理を構成するために,データにショートカットを適用できないため,本論文では,潜在的ショートカットの発見・活用による合理化を促進するショートカット融合選択合理化法(SSR)を提案する。
具体的には、SSRはいくつかの潜在的なショートカットを検出するショートカット発見アプローチを最初に設計した。
そして,同定されたショートカットを導入することにより,合理性を構成するためにショートカットを利用する問題を緩和する2つの戦略を提案する。
最後に,注釈付き有理数のギャップを埋める2つのデータ拡張手法を開発した。
実世界のデータセットに対する大規模な実験結果から,提案手法の有効性が明らかとなった。
The remarkable success in neural networks provokes the selective rationalization. It explains the prediction results by identifying a small subset of the inputs sufficient to support them. Since existing methods still suffer from adopting the shortcuts in data to compose rationales and limited large-scale annotated rationales by human, in this paper, we propose a Shortcuts-fused Selective Rationalization (SSR) method, which boosts the rationalization by discovering and exploiting potential shortcuts. Specifically, SSR first designs a shortcuts discovery approach to detect several potential shortcuts. Then, by introducing the identified shortcuts, we propose two strategies to mitigate the problem of utilizing shortcuts to compose rationales. Finally, we develop two data augmentations methods to close the gap in the number of annotated rationales. Extensive experimental results on real-world datasets clearly validate the effectiveness of our proposed method. | 翻訳日:2024-03-14 17:27:55 公開日:2024-03-12 |
# 多項式グラフフィルタの最適化:新しい適応クリロフ部分空間
アプローチ
Optimizing Polynomial Graph Filters: A Novel Adaptive Krylov Subspace Approach ( http://arxiv.org/abs/2403.07954v1 ) ライセンス: Link先を確認 | Keke Huang, Wencai Cao, Hoang Ta, Xiaokui Xiao, and Pietro Li\`o | (参考訳) スペクトルグラフフィルタとして知られるグラフニューラルネットワーク(GNN)は、Webネットワークで幅広いアプリケーションを見つける。
固有分解を回避すべく, 多項式グラフフィルタを近似グラフフィルタに提案し, 様々な多項式基底をフィルタトレーニングに利用した。
しかし、最適化のための統一的な視点から様々な多項式グラフフィルタを探索する研究は存在しない。
本稿では、まず多項式グラフフィルタと、同じ次数の最適フィルタを同じ次数のクリロフ部分空間に統一し、理論的に等価な表現力を与える。
次に、統一クリロフ部分空間の観点から多項式の漸近収束性について検討し、異なるヘテロフィリー次数を持つグラフにおけるそれらの限定適応性を明らかにする。
これらの事実にインスパイアされた我々は、様々なヘテロフィリーグラフに適応するように、グラフスペクトル上で証明可能な制御性を持つ多項式基底を最適化する、新しい適応クリロフ部分空間アプローチを設計する。
次に,適応Krylov部分空間の基底を利用する最適化多項式グラフフィルタAdaptKryを提案する。
一方、複素グラフのスペクトル特性の多様性を考慮して、追加の訓練コストを伴わずに複数の適応クリロフ基底を活用することにより、AdaptKryを拡張する。
その結果、拡張AdaptKryはグラフの複雑な特性を捉え、それら固有の複雑さに関する洞察を提供することができる。
我々は、一連の実世界のデータセットにまたがって広範な実験を行う。
実験により、AdaptKryの優れたフィルタリング能力と適応Krylov基底の最適化された有効性が示された。
Graph Neural Networks (GNNs), known as spectral graph filters, find a wide range of applications in web networks. To bypass eigendecomposition, polynomial graph filters are proposed to approximate graph filters by leveraging various polynomial bases for filter training. However, no existing studies have explored the diverse polynomial graph filters from a unified perspective for optimization. In this paper, we first unify polynomial graph filters, as well as the optimal filters of identical degrees into the Krylov subspace of the same order, thus providing equivalent expressive power theoretically. Next, we investigate the asymptotic convergence property of polynomials from the unified Krylov subspace perspective, revealing their limited adaptability in graphs with varying heterophily degrees. Inspired by those facts, we design a novel adaptive Krylov subspace approach to optimize polynomial bases with provable controllability over the graph spectrum so as to adapt various heterophily graphs. Subsequently, we propose AdaptKry, an optimized polynomial graph filter utilizing bases from the adaptive Krylov subspaces. Meanwhile, in light of the diverse spectral properties of complex graphs, we extend AdaptKry by leveraging multiple adaptive Krylov bases without incurring extra training costs. As a consequence, extended AdaptKry is able to capture the intricate characteristics of graphs and provide insights into their inherent complexity. We conduct extensive experiments across a series of real-world datasets. The experimental results demonstrate the superior filtering capability of AdaptKry, as well as the optimized efficacy of the adaptive Krylov basis. | 翻訳日:2024-03-14 17:27:55 公開日:2024-03-12 |
# 構造スパーステンソルによるスパースDNN加速の抽象化
解体
Abstracting Sparse DNN Acceleration via Structured Sparse Tensor Decomposition ( http://arxiv.org/abs/2403.07953v1 ) ライセンス: Link先を確認 | Geonhwa Jeong, Po-An Tsai, Abhimanyu R. Bambhaniya, Stephen W. Keckler, Tushar Krishna | (参考訳) ディープニューラルネットワーク(DNN)におけるスパシティの爆発は、現代のDNNの計算ニーズが増大する中で有望な領域である。
しかし実際には、スパースDNNアクセラレーションは依然として重要な課題に直面している。
スパースアクセラレーションのオーバーヘッドを最小限に抑えるため、ハードウェアデザイナは最近、構成されたスパースハードウェアサポートを提案している。
さらに、特定の構造化されたスパースハードウェアのために微調整されたスパースモデルは、他の構造化されたハードウェアによって加速できない。
本稿では, スパースDNNモデルとハードウェア間のギャップを埋めるために, 線形代数の分布特性を利用して任意のスパーステンソルを一連のスパーステンソルに変換する構造分解(TASD)によるテンソル近似を提案する。
次に、重みとアクティベーションテンソルの両方を階層的に高次構造分解してDNNを高速化するソフトウェアフレームワーク、TASDERを開発した。
評価結果から, 既設の疎水化ハードウェアベースラインを有効利用することにより, 細調整をすることなく, 密粒化DNNを高速化し, エネルギー遅延生成物を平均83%, 74%向上させることができることがわかった。
Exploiting sparsity in deep neural networks (DNNs) has been a promising area to meet the growing computation need of modern DNNs. However, in practice, sparse DNN acceleration still faces a key challenge. To minimize the overhead of sparse acceleration, hardware designers have proposed structured sparse hardware support recently, which provides limited flexibility and requires extra model fine-tuning. Moreover, any sparse model fine-tuned for certain structured sparse hardware cannot be accelerated by other structured hardware. To bridge the gap between sparse DNN models and hardware, this paper proposes tensor approximation via structured decomposition (TASD), which leverages the distributive property in linear algebra to turn any sparse tensor into a series of structured sparse tensors. Next, we develop a software framework, TASDER, to accelerate DNNs by searching layer-wise, high-quality structured decomposition for both weight and activation tensors so that they can be accelerated by any systems with structured sparse hardware support. Evaluation results show that, by exploiting prior structured sparse hardware baselines, our method can accelerate off-the-shelf dense and sparse DNNs without fine-tuning and improves energy-delay-product by up to 83% and 74% on average. | 翻訳日:2024-03-14 17:27:54 公開日:2024-03-12 |
# AesopAgent: ストーリー・トゥ・ビデオのエージェント駆動進化システム
生産
AesopAgent: Agent-driven Evolutionary System on Story-to-Video Production ( http://arxiv.org/abs/2403.07952v1 ) ライセンス: Link先を確認 | Jiuniu Wang, Zehua Du, Yuyuan Zhao, Bo Yuan, Kexiang Wang, Jian Liang, Yaxi Zhao, Yihen Lu, Gengliang Li, Junlong Gao, Xin Tu, Zhenyu Guo | (参考訳) エージェントとAIGC(Artificial Intelligence Generated Content)技術は最近大きな進歩を遂げた。
本稿では,ストーリー・ツー・ビデオ制作のためのエージェント駆動進化システムであるAesopAgentを提案する。
AesopAgentはマルチモーダルコンテンツ生成のためのエージェント技術の実用的応用である。
このシステムは統合されたフレームワークに複数の生成機能を統合し、個々のユーザがこれらのモジュールを容易に活用できるようにする。
この革新的なシステムは、ユーザーストーリーの提案をスクリプト、画像、オーディオに変換し、これらのマルチモーダルコンテンツをビデオに統合する。
さらに、アニメーションユニット(例:Gen-2、Sora)は、ビデオに感染しやすくする。
AesopAgentシステムは、ビデオ生成のためのタスクワークフローをオーケストレーションし、生成されたビデオがコンテンツと一貫性の両方に富んでいることを保証する。
このシステムは、主に水平層とユーティリティ層という2つの層を含んでいる。
水平層では、ビデオ生成ワークフロー全体とワークフロー内のステップを最適化する新しいRAGベースの進化システムを導入する。
LLMプロンプトの最適化やユーティリティの使用など、専門家の経験と専門知識を蓄積することで、ワークフローを継続的に進化させ、反復的に最適化する。
Utility Layerは複数のユーティリティを提供し、コンポジション、キャラクタ、スタイルの面で視覚的に一貫性のある画像生成につながる。
一方、音声と特殊効果を提供し、それらを表現的かつ論理的に配置されたビデオに統合する。
私たちのAesopAgentは、これまでのビジュアルストーリーテリングの多くの作品と比較して、最先端のパフォーマンスを実現しています。
私たちのAesopAgentは、個々のユーザーにとって便利なサービスとして設計されています。
The Agent and AIGC (Artificial Intelligence Generated Content) technologies have recently made significant progress. We propose AesopAgent, an Agent-driven Evolutionary System on Story-to-Video Production. AesopAgent is a practical application of agent technology for multimodal content generation. The system integrates multiple generative capabilities within a unified framework, so that individual users can leverage these modules easily. This innovative system would convert user story proposals into scripts, images, and audio, and then integrate these multimodal contents into videos. Additionally, the animating units (e.g., Gen-2 and Sora) could make the videos more infectious. The AesopAgent system could orchestrate task workflow for video generation, ensuring that the generated video is both rich in content and coherent. This system mainly contains two layers, i.e., the Horizontal Layer and the Utility Layer. In the Horizontal Layer, we introduce a novel RAG-based evolutionary system that optimizes the whole video generation workflow and the steps within the workflow. It continuously evolves and iteratively optimizes workflow by accumulating expert experience and professional knowledge, including optimizing the LLM prompts and utilities usage. The Utility Layer provides multiple utilities, leading to consistent image generation that is visually coherent in terms of composition, characters, and style. Meanwhile, it provides audio and special effects, integrating them into expressive and logically arranged videos. Overall, our AesopAgent achieves state-of-the-art performance compared with many previous works in visual storytelling. Our AesopAgent is designed for convenient service for individual users, which is available on the following page: https://aesopai.github.io/. | 翻訳日:2024-03-14 17:27:53 公開日:2024-03-12 |
# SAMDA:ElectronicのFew-Shot Domain AdaptationにおけるSAMの活用
顕微鏡のセグメンテーション
SAMDA: Leveraging SAM on Few-Shot Domain Adaptation for Electronic Microscopy Segmentation ( http://arxiv.org/abs/2403.07951v1 ) ライセンス: Link先を確認 | Yiran Wang, Li Xiao | (参考訳) 電子顕微鏡セグメンテーションにおける従来の深層学習手法は,サンプルやアノテーションが限定されている場合,低転送性に悩まされることが多いが,大規模な視覚基盤モデルは,異なるドメイン間での転送ではより堅牢であるが,微調整では準最適改善に直面することが示されている。
本研究では,Segment Anything Model(SAM) と nnUNet を組込み空間に組み合わせて,高い転送性と精度を実現する,新しい領域適応フレームワーク SAMDA を提案する。
具体的には、Unetベースのネットワークを「エキスパート」コンポーネントとして選択し、セグメンテーション機能を効率的に学習し、SAMベースの適応モジュールをドメイン転送のための「ジェネリック」コンポーネントとして設計する。
我々は、"ジェネリック"と"エキスパート"コンポーネントの融合により、大規模ビジョンファウンデーションモデルに固有の複雑な事前学習知識のモダリティの不均衡と、従来のニューラルネットワークに固有の伝達可能性の課題を緩和する。
本モデルの有効性を,ミトコンドリアセグメンテーションの異なる2つの電子顕微鏡画像データセットを用いて評価し,対象領域におけるダイス係数を6.7%改善した。
また、SAMベースのアダプタは、nnUNet上の10ショットドメイン適応よりも、1つの注釈付き画像で大幅に性能が向上する。
さらに、異なるソースからの4つのMRIデータセットのモデルを検証し、その一般化能力を証明する。
It has been shown that traditional deep learning methods for electronic microscopy segmentation usually suffer from low transferability when samples and annotations are limited, while large-scale vision foundation models are more robust when transferring between different domains but facing sub-optimal improvement under fine-tuning. In this work, we present a new few-shot domain adaptation framework SAMDA, which combines the Segment Anything Model(SAM) with nnUNet in the embedding space to achieve high transferability and accuracy. Specifically, we choose the Unet-based network as the "expert" component to learn segmentation features efficiently and design a SAM-based adaptation module as the "generic" component for domain transfer. By amalgamating the "generic" and "expert" components, we mitigate the modality imbalance in the complex pre-training knowledge inherent to large-scale Vision Foundation models and the challenge of transferability inherent to traditional neural networks. The effectiveness of our model is evaluated on two electron microscopic image datasets with different modalities for mitochondria segmentation, which improves the dice coefficient on the target domain by 6.7%. Also, the SAM-based adaptor performs significantly better with only a single annotated image than the 10-shot domain adaptation on nnUNet. We further verify our model on four MRI datasets from different sources to prove its generalization ability. | 翻訳日:2024-03-14 17:27:53 公開日:2024-03-12 |
# M\"オービウスストリップ上の反強磁性マグノン:位相誘起対称性
壊れる
Antiferromagnetic magnons on a M\"obius strip: topology-induced symmetry breaking ( http://arxiv.org/abs/2403.07846v1 ) ライセンス: Link先を確認 | Kuangyin Deng, Ran Cheng | (参考訳) 2つの反強磁性結合スピン鎖からなるM\"obius stripについて検討した。
境界条件を満たすために、マグノン励起はキラル性のないN'eelベクトルの線型分極を特徴とし、反強磁性体でよく見られる反対のキラル性を持つ円偏極マグノンによって滑らかに接続できないモードの2つの非退化分枝を形成する。
一方の枝は、境界条件によって生じるスペクトルシフトのため、M\ "obius strip" 上の定常波の形成をサポートする。
以上の結果から, トポロジー誘起対称性がマグノンに与える影響が明らかとなった。
We study a M\"obius strip comprising of two antiferromagnetically coupled spin chains. To satisfy the boundary condition, magnon excitations feature linear polarization of the N\'eel vector devoid of chirality, forming two non-degenerate branches of modes that can neither be smoothly connected to nor be decomposed by the circularly-polarized magnons of opposite chirality commonly found in antiferromagnets. Only one branch supports standing-wave formation on the M\"obius strip while the other does not, owing to its spectral shift incurred by the boundary condition. Our findings unravel the profound impact of topology-induced symmetry breaking on magnons. | 翻訳日:2024-03-14 17:27:46 公開日:2024-03-12 |
# バッテリーの1万回以上のCT画像のデータセット
細胞は
A dataset of over one thousand computed tomography scans of battery cells ( http://arxiv.org/abs/2403.02527v2 ) ライセンス: Link先を確認 | Amariah Condon, Bailey Buscarino, Eric Moch, William J. Sehnert, Owen Miles, Patrick K. Herring, Peter M. Attia | (参考訳) バッテリー技術は、グローバルな電化努力にとってますます重要になっている。
しかし、電池は小さな製造のバリエーションに非常に敏感であり、信頼性や安全性の問題を引き起こす可能性がある。
電池品質管理のための重要な技術はCTスキャンであり、様々な臨床・工業分野で非破壊的な3D検査に広く利用されている。
しかし、歴史的に、高ボリューム製造におけるCTスキャンの有用性は、そのスループットの低さと、大きなファイルサイズを扱うことの難しさによって制限されてきた。
本研究では,製造済みの市販電池のCTスキャンを1万回以上行った。
データセットは、様々な化学(リチウムイオンとナトリウムイオン)と、様々な電池形成因子(円筒、ポーチ、プリスマティック)にまたがる。
合計7種類のバッテリについて検討した。
製造の多様性とバッテリーの欠陥の存在は、このデータセットを通して観察することができる。
このデータセットは、バッテリー技術、コンピュータビジョン、あるいはその両方に取り組んでいる科学者やエンジニアにとって興味深い。
Battery technology is increasingly important for global electrification efforts. However, batteries are highly sensitive to small manufacturing variations that can induce reliability or safety issues. An important technology for battery quality control is computed tomography (CT) scanning, which is widely used for non-destructive 3D inspection across a variety of clinical and industrial applications. Historically, however, the utility of CT scanning for high-volume manufacturing has been limited by its low throughput as well as the difficulty of handling its large file sizes. In this work, we present a dataset of over one thousand CT scans of as-produced commercially available batteries. The dataset spans various chemistries (lithium-ion and sodium-ion) as well as various battery form factors (cylindrical, pouch, and prismatic). We evaluate seven different battery types in total. The manufacturing variability and the presence of battery defects can be observed via this dataset. This dataset may be of interest to scientists and engineers working on battery technology, computer vision, or both. | 翻訳日:2024-03-14 17:27:43 公開日:2024-03-12 |
# 発光アンサンブルの定常状態における量子相関
摂動理論
Quantum correlations in the steady state of light-emitter ensembles from perturbation theory ( http://arxiv.org/abs/2402.16824v2 ) ライセンス: Link先を確認 | Dolf Huybrechts and Tommaso Roscilde | (参考訳) 量子システムの環境への結合は一般にデコヒーレンスにつながり、システム内部の量子相関に有害である。
しかし、いくつかの形での量子相関は環境の存在に対して堅牢であり、あるいはそれによって安定化されることもある。
開量子系の定常状態が平衡熱力学状態とは大きく異なる可能性があることを考えると、それらを予測(単体理解)することは困難であり、その再構成には、数値的に非常にコストがかかるリンドブラッド方程式の数値解が必要である。
ここでは、自然崩壊する発光器のアンサンブルの高度に関係のある状況に注目し、ハミルトニアンがU(1)対称形式から遠ざかるたびに、定常量子相関は純状態摂動理論によって再構成可能であることを示す。
我々の主な成果は、単一エミッタまたは2エミッタ駆動を受ける発光器系において、U(1)限界から遠ざかる定常状態はスピンスクイーズ(スピンスクイーズ)を示す。
The coupling of a quantum system to an environment leads generally to decoherence, and it is detrimental to quantum correlations within the system itself. Yet some forms of quantum correlations can be robust to the presence of an environment - or may even be stabilized by it. Predicting (let alone understanding) them remains arduous, given that the steady state of an open quantum system can be very different from an equilibrium thermodynamic state; and its reconstruction requires generically the numerical solution of the Lindblad equation, which is extremely costly for numerics. Here we focus on the highly relevant situation of ensembles of light emitters undergoing spontaneous decay; and we show that, whenever their Hamiltonian is perturbed away from a U(1) symmetric form, steady-state quantum correlations can be reconstructed via pure-state perturbation theory. Our main result is that in systems of light emitters subject to single-emitter or two-emitter driving, the steady state perturbed away from the U(1) limit generically exhibits spin squeezing; and it has minimal uncertainty for the collective-spin components, revealing that squeezing represents the optimal resource for entanglement-assisted metrology using this state. | 翻訳日:2024-03-14 17:27:39 公開日:2024-03-12 |
# 統一型分類指導型エンティティ・セット・トレーニング・フレームワーク
拡大と分類学の拡大
A Unified Taxonomy-Guided Instruction Tuning Framework for Entity Set Expansion and Taxonomy Expansion ( http://arxiv.org/abs/2402.13405v2 ) ライセンス: Link先を確認 | Yanzhen Shen, Yu Zhang, Yunyi Zhang, Jiawei Han | (参考訳) Entity Set Expansion、Taxonomy Expansion、Seed-Guided Taxonomy Constructionは、既存の分類を新しいエンティティに自動的に投入するために使用できる3つの代表的なタスクである。
しかし、従来のアプローチでは、統一的な視点が欠如している異種手法で、これらのタスクを別々に扱うことが多かった。
この問題に対処するために,本研究では,これらのタスクに必要な共通鍵となるスキルを,「兄弟」と「親」という分類構造の観点から同定し,これら3つのタスクを共同で解決する統合型分類指導フレームワークを提案する。
具体的には,既存の分類学をエンティティ関係の豊富な情報源として活用することにより,親と兄弟のエンティティを生成するために,大規模言語モデルを微調整する指導チューニングを利用する。
複数のベンチマークデータセットに対する大規模な実験は、TaxoInstructの有効性を示している。
Entity Set Expansion, Taxonomy Expansion, and Seed-Guided Taxonomy Construction are three representative tasks that can be used to automatically populate an existing taxonomy with new entities. However, previous approaches often address these tasks separately with heterogeneous techniques, lacking a unified perspective. To tackle this issue, in this paper, we identify the common key skills needed for these tasks from the view of taxonomy structures -- finding 'siblings' and finding 'parents' -- and propose a unified taxonomy-guided instruction tuning framework to jointly solve the three tasks. To be specific, by leveraging the existing taxonomy as a rich source of entity relationships, we utilize instruction tuning to fine-tune a large language model to generate parent and sibling entities. Extensive experiments on multiple benchmark datasets demonstrate the effectiveness of TaxoInstruct, which outperforms task-specific baselines across all three tasks. | 翻訳日:2024-03-14 17:27:36 公開日:2024-03-12 |
# マルチLLMのネットワーク形成とダイナミクス
Network Formation and Dynamics Among Multi-LLMs ( http://arxiv.org/abs/2402.10659v2 ) ライセンス: Link先を確認 | Marios Papachristou, Yuan Yuan | (参考訳) ソーシャルネットワークは、人間の社会における意見、行動、情報拡散を形作る。
大規模言語モデル(LLM)が社会的および専門的な環境に統合されるにつれて、社会的相互作用やネットワークの文脈におけるそれらの振る舞いを理解することが不可欠となる。
本研究は,LLMのネットワーク形成挙動を分析し,複数のLLMの力学が人間の社会力学と類似しているか否かを調べた。
我々は,LLMがネットワーク形成において,優先的なアタッチメント,三進的閉鎖,ホモフィリー,コミュニティ構造,および小世界の現象など,重要なソーシャルネットワークの原則を示すことを観察した。
また、実世界のネットワークに基づくLCMの意思決定について検討し、三進的クロージャとホモフィリーが優先的なアタッチメントよりも強い影響を示し、LLMがネットワーク形成予測において良好に機能することを明らかにする。
本研究は,ネットワーク科学研究におけるLLMの新たな可能性を明らかにするとともに,ネットワーク形成行動に光を当て,社会的ダイナミクスへの影響を探ることにより,社会的に認知されたLLMの開発を支援する。
Social networks shape opinions, behaviors, and information dissemination in human societies. As large language models (LLMs) increasingly integrate into social and professional environments, understanding their behavior within the context of social interactions and networks becomes essential. Our study analyzes LLMs' network formation behavior to examine whether the dynamics of multiple LLMs are similar to or different from human social dynamics. We observe that LLMs exhibit key social network principles, including preferential attachment, triadic closure, homophily, community structure, and the small-world phenomenon, when asked about their preferences in network formation. We also investigate LLMs' decision-making based on real-world networks, revealing that triadic closure and homophily have a stronger influence than preferential attachment and that LLMs perform well in network formation predictions. Overall, our study opens up new possibilities for using LLMs in network science research and helps develop socially aware LLMs by shedding light on their network formation behaviors and exploring their impacts on social dynamics. | 翻訳日:2024-03-14 17:27:33 公開日:2024-03-12 |
# SU(3)格子Yang Mills理論の先行次数における量子シミュレーション
large (複数形 larges)
Quantum Simulation of SU(3) Lattice Yang Mills Theory at Leading Order in Large N ( http://arxiv.org/abs/2402.10265v2 ) ライセンス: Link先を確認 | Anthony N. Ciavarella, Christian W. Bauer | (参考訳) SU(3)ゲージ理論のハミルトン格子定式化は、QCDの非摂動力学の量子シミュレーションの可能性を開く。
ゲージ不変ヒルベルト空間をプラケットの次数でパラメータ化することにより、ヒルベルト空間と相互作用がN_cの逆数でどのように拡張されるかを示す。
この展開の先頭の順序において、ハミルトニアンはヒルベルト空間の必要な大きさと関連する相互作用のタイプの両方において劇的に単純化される。
局所エネルギー状態の観点で結果のヒルベルト空間の切り離しを加えることで、u(3)ゲージ場をクォービットおよびクォートリット上で単純に表現できる明示的な構成を与える。
これらの切り離しの限界はモンテカルロ法を用いて探索される。
この定式化により、CNOT 深さ 113 の ibm_torino 上の 5\times5$ と 8\times8$ の格子上での SU(3) 格子ゲージ理論のリアルタイム力学のシミュレーションが可能になる。
A Hamiltonian lattice formulation of SU(3) gauge theory opens the possibility for quantum simulations of the non-perturbative dynamics of QCD. By parametrizing the gauge invariant Hilbert space in terms of plaquette degrees of freedom, we show how the Hilbert space and interactions can be expanded in inverse powers of N_c. At leading order in this expansion, the Hamiltonian simplifies dramatically, both in the required size of the Hilbert space as well as the type of interactions involved. Adding a truncation of the resulting Hilbert space in terms of local energy states we give explicit constructions that allow simple representations of SU(3) gauge fields on qubits and qutrits. The limitations of these truncations are explored using Monte Carlo methods. This formulation allows a simulation of the real time dynamics of a SU(3) lattice gauge theory on a $5\times5$ and $8\times8$ lattice on ibm_torino with a CNOT depth of 113. | 翻訳日:2024-03-14 17:27:33 公開日:2024-03-12 |
# UR2M:マイクロコントローラにおける不確実性とリソース認識イベント検出
UR2M: Uncertainty and Resource-Aware Event Detection on Microcontrollers ( http://arxiv.org/abs/2402.09264v3 ) ライセンス: Link先を確認 | Hong Jia, Young D. Kwon, Dong Ma, Nhat Pham, Lorena Qendro, Tam Vu and Cecilia Mascolo | (参考訳) 従来の機械学習技術は、トレーニングとテストフェーズ間のデータの分散の変化に直面すると、不正確な予測を生成する傾向がある。
この脆弱性は、特にモバイルヘルスケアのようなアプリケーションにおいて、深刻な結果をもたらす可能性がある。
不確実性推定は、モデルの出力の信頼性を評価することによってこの問題を軽減する可能性がある。
しかし、既存の不確実性推定技術は、しばしばかなりの計算資源とメモリを必要とするため、マイクロコントローラ(MCU)の実装には実用的ではない。
この制限は、心臓発作検出など多くの重要なデバイス上のウェアラブルイベント検出(WED)アプリケーションの実現を妨げている。
本稿では,MCUのための新しい不確実性とリソース認識イベント検出フレームワークUR2Mを提案する。
具体的には
一 正確な事象検出及び確実な不確実性推定のための明らかな理論に基づく不確実性対応WEDを開発すること。
(II)異なるイベントモデル間でより浅いモデルレイヤを共有することにより、早期出口を通じた効率的なモデル推論を実現するためのカスケードMLフレームワークを導入する。
(iii)システム効率のためにモデルとMCUライブラリのデプロイを最適化する。
広範に実験を行い、3つのウェアラブルデータセットを用いてUR2Mを従来の不確実性ベースラインと比較した。
その結果,UR2Mは最大864%の高速推論速度,857%の省エネルギー,55%のメモリ節約,2つのMCUにおける不確実性定量化性能が向上した。
UR2Mは広範囲のMCUにデプロイでき、リアルタイムおよび信頼性の高いWEDアプリケーションを大幅に拡張する。
Traditional machine learning techniques are prone to generating inaccurate predictions when confronted with shifts in the distribution of data between the training and testing phases. This vulnerability can lead to severe consequences, especially in applications such as mobile healthcare. Uncertainty estimation has the potential to mitigate this issue by assessing the reliability of a model's output. However, existing uncertainty estimation techniques often require substantial computational resources and memory, making them impractical for implementation on microcontrollers (MCUs). This limitation hinders the feasibility of many important on-device wearable event detection (WED) applications, such as heart attack detection. In this paper, we present UR2M, a novel Uncertainty and Resource-aware event detection framework for MCUs. Specifically, we (i) develop an uncertainty-aware WED based on evidential theory for accurate event detection and reliable uncertainty estimation; (ii) introduce a cascade ML framework to achieve efficient model inference via early exits, by sharing shallower model layers among different event models; (iii) optimize the deployment of the model and MCU library for system efficiency. We conducted extensive experiments and compared UR2M to traditional uncertainty baselines using three wearable datasets. Our results demonstrate that UR2M achieves up to 864% faster inference speed, 857% energy-saving for uncertainty estimation, 55% memory saving on two popular MCUs, and a 22% improvement in uncertainty quantification performance. UR2M can be deployed on a wide range of MCUs, significantly expanding real-time and reliable WED applications. | 翻訳日:2024-03-14 17:27:32 公開日:2024-03-12 |
# ランダム作用素成長のためのランツォススペクトル
Lanczos spectrum for random operator growth ( http://arxiv.org/abs/2402.07980v2 ) ライセンス: Link先を確認 | Tran Quang Loc | (参考訳) クリロフ法は、量子カオスや量子重力と物理的に知覚可能な複雑性の概念を結びつけて、最近再び現れた。
これらの発展において、ハミルトニアンとリウヴィリアンは、シュロディンガー/ハイゼンベルクの時間進化がクリロフ基底で表されるように三角化される。
シュロディンガー進化の文脈において、この三対角化はランダム行列論においてなされている。
これらの展開をハイゼンベルク時間発展に拡張し、クリロフ空間の終点まで、リウヴィリアンを三対角化する方法を記述する。
ガウス行列モデルと非ガウス行列モデルの両方について解析公式を数値的に検証する。
Krylov methods have reappeared recently, connecting physically sensible notions of complexity with quantum chaos and quantum gravity. In these developments, the Hamiltonian and the Liouvillian are tridiagonalized so that Schrodinger/Heisenberg time evolution is expressed in the Krylov basis. In the context of Schrodinger evolution, this tridiagonalization has been carried out in Random Matrix Theory. We extend these developments to Heisenberg time evolution, describing how the Liouvillian can be tridiagonalized as well until the end of Krylov space. We numerically verify the analytical formulas both for Gaussian and non-Gaussian matrix models. | 翻訳日:2024-03-14 17:27:31 公開日:2024-03-12 |
# Mamba-ND:多次元データのための選択状態空間モデリング
Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data ( http://arxiv.org/abs/2402.05892v2 ) ライセンス: Link先を確認 | Shufan Li, Harkanwar Singh, Aditya Grover | (参考訳) 近年、トランスフォーマーはテキストや画像やビデオなどの多次元データを用いたシーケンスモデリングのためのデファクトアーキテクチャとなっている。
しかし、Transformerにおける自己アテンション層の使用は、シーケンス長の4次スケールの計算とメモリの複雑さを禁止している。
状態空間モデルに基づく最近のアーキテクチャであるMambaは、シーケンス長と線形にスケーリングしながら、テキストシーケンスをモデル化するための同等のパフォーマンスを実現することが示されている。
本研究では,マンバアーキテクチャを任意の多次元データに拡張した汎用設計であるマンバ-NDを提案する。
我々の設計では、行長の順序に従って異なる次元の入力データを抽出する。
我々は,2方向LSTMやS4NDといった先行的多次元拡張に基づいて,Mamba-NDを他の代替品と体系的に比較する。
実験により,Mamba-NDは,ImageNet-1K分類,HMDB-51行動認識,ERA5天気予報など,多次元のベンチマークにおいて,最先端技術との競合性を実証した。
In recent years, Transformers have become the de-facto architecture for sequence modeling on text and a variety of multi-dimensional data, such as images and video. However, the use of self-attention layers in a Transformer incurs prohibitive compute and memory complexity that scales quadratically w.r.t. the sequence length. A recent architecture, Mamba, based on state space models has been shown to achieve comparable performance for modeling text sequences, while scaling linearly with the sequence length. In this work, we present Mamba-ND, a generalized design extending the Mamba architecture to arbitrary multi-dimensional data. Our design alternatively unravels the input data across different dimensions following row-major orderings. We provide a systematic comparison of Mamba-ND with several other alternatives, based on prior multi-dimensional extensions such as Bi-directional LSTMs and S4ND. Empirically, we show that Mamba-ND demonstrates performance competitive with the state-of-the-art on a variety of multi-dimensional benchmarks, including ImageNet-1K classification, HMDB-51 action recognition, and ERA5 weather forecasting. | 翻訳日:2024-03-14 17:27:30 公開日:2024-03-12 |
# 行政データのための効率的な観測時間ウィンドウ分割
機械学習
Efficient Observation Time Window Segmentation for Administrative Data Machine Learning ( http://arxiv.org/abs/2401.16537v2 ) ライセンス: Link先を確認 | Musa Taib, Geoffrey G. Messier | (参考訳) 機械学習モデルは、タイムスタンプ管理データにおける時間的傾向から学ぶことができれば、メリットがある。
これらの傾向は、モデルの観察ウィンドウを時間セグメントまたはビンに分割することで表現できる。
モデルのトレーニング時間とパフォーマンスは、各機能を異なる時間解像度で表現することで改善できる。
しかし、これは時間ビンサイズのハイパーパラメータ探索空間が特徴数とともに指数関数的に増大する原因となる。
本研究は,時間ビンサイズハイパーパラメータチューニングにより,データ特徴のどの部分集合が最も有用かを決定するためのビンニング(TAIB)技術を検討するための,計算効率のよい時系列解析を提案する。
この手法は, 病院・住宅・住宅管理データを用いて実証した。
その結果、TAIBはトレーニングの効率が向上するだけでなく、標準ですべての機能を同じ時間ビンサイズで表現するモデルよりもパフォーマンスが良いモデルに導かれることがわかった。
Machine learning models benefit when allowed to learn from temporal trends in time-stamped administrative data. These trends can be represented by dividing a model's observation window into time segments or bins. Model training time and performance can be improved by representing each feature with a different time resolution. However, this causes the time bin size hyperparameter search space to grow exponentially with the number of features. The contribution of this paper is to propose a computationally efficient time series analysis to investigate binning (TAIB) technique that determines which subset of data features benefit the most from time bin size hyperparameter tuning. This technique is demonstrated using hospital and housing/homelessness administrative data sets. The results show that TAIB leads to models that are not only more efficient to train but can perform better than models that default to representing all features with the same time bin size. | 翻訳日:2024-03-14 17:27:26 公開日:2024-03-12 |
# CHAI:効率的なLCM推論のためのクラスタ型ヘッドアテンション
CHAI: Clustered Head Attention for Efficient LLM Inference ( http://arxiv.org/abs/2403.08058v1 ) ライセンス: Link先を確認 | Saurabh Agarwal, Bilge Acun, Basil Homer, Mostafa Elhoushi, Yejin Lee, Shivaram Venkataraman, Dimitris Papailiopoulos, Carole-Jean Wu | (参考訳) 数十億のパラメータを持つ大規模言語モデル(LLM)は、機械学習の分野を変えました。
しかし、これらのモデルを推論時に提供することは、計算とメモリ集約の両方で、単一の要求では複数のGPUと数十ギガバイトのメモリが必要になる。
マルチヘッドアテンションはLLMの重要なコンポーネントの1つであり、LLMのメモリと計算要求の50%以上を占めることができる。
トークンが注意を払っている頭部に大量の冗長性があることを観察する。
この知見に基づいて,クラスタヘッド注意(CHAI)を提案する。
CHAIは、実行時に自己アテンションのための大量の相関とヘッドを組み合わせることで、メモリと計算の両方を削減します。
実験の結果,CHAIはK,Vキャッシュを最大21.4%,推論時間遅延を最大1.73倍,微調整を必要とせずに削減できることがわかった。
CHAIはこれを3つの異なるモデル(OPT-66B、LAMA-7B、LAMA-33B)と5つの異なる評価データセットで最大3.2%の精度で達成する。
Large Language Models (LLMs) with hundreds of billions of parameters have transformed the field of machine learning. However, serving these models at inference time is both compute and memory intensive, where a single request can require multiple GPUs and tens of Gigabytes of memory. Multi-Head Attention is one of the key components of LLMs, which can account for over 50% of LLMs memory and compute requirement. We observe that there is a high amount of redundancy across heads on which tokens they pay attention to. Based on this insight, we propose Clustered Head Attention (CHAI). CHAI combines heads with a high amount of correlation for self-attention at runtime, thus reducing both memory and compute. In our experiments, we show that CHAI is able to reduce the memory requirements for storing K,V cache by up to 21.4% and inference time latency by up to 1.73x without any fine-tuning required. CHAI achieves this with a maximum 3.2% deviation in accuracy across 3 different models (i.e. OPT-66B, LLAMA-7B, LLAMA-33B) and 5 different evaluation datasets. | 翻訳日:2024-03-14 16:55:24 公開日:2024-03-12 |
# DrivAerNet: データ駆動型空力設計のためのパラメトリックカーデータセット
グラフに基づくドラッグ予測
DrivAerNet: A Parametric Car Dataset for Data-Driven Aerodynamic Design and Graph-Based Drag Prediction ( http://arxiv.org/abs/2403.08055v1 ) ライセンス: Link先を確認 | Mohamed Elrefaie, Angela Dai, Faez Ahmed | (参考訳) 本研究では、3D業界標準カー形状の大規模高速CFDデータセットであるDrivAerNetと、動的グラフ畳み込みニューラルネットワークモデルであるRegDGCNNを紹介する。
DrivAerNetは、0.5万表面メッシュ面と、完全な3D圧力、速度場、壁面のストレスからなる包括的な空力性能データを使用した4000の詳細な3Dカーメッシュを使用して、エンジニアリングアプリケーションでディープラーニングモデルをトレーニングするための広範なデータセットの必要性に対処する。
これまでに利用可能な最大規模の自動車データセットより60倍大きく、ホイールとアンダーボディをモデル化する唯一のオープンソースデータセットである。
RegDGCNNはこの大規模なデータセットを活用して、3Dメッシュから直接高精度なドラッグ推定を提供し、2D画像レンダリングやSigned Distance Fields(SDF)といった従来の制限を回避している。
数秒で高速なドラッグ推定を可能にすることで、RegDGCNNは高速な空力評価を可能にし、データ駆動手法を自動車設計に統合するための大きな飛躍を提供する。
DrivAerNetとRegDGCNNは共に、車の設計プロセスを加速し、より効率的な車両の開発に貢献することを約束している。
この分野におけるイノベーションの基盤となるために、我々の研究で使用されるデータセットとコードは、 \url{https://github.com/Mohamedelrefaie/DrivAerNet} で公開されている。
This study introduces DrivAerNet, a large-scale high-fidelity CFD dataset of 3D industry-standard car shapes, and RegDGCNN, a dynamic graph convolutional neural network model, both aimed at aerodynamic car design through machine learning. DrivAerNet, with its 4000 detailed 3D car meshes using 0.5 million surface mesh faces and comprehensive aerodynamic performance data comprising of full 3D pressure, velocity fields, and wall-shear stresses, addresses the critical need for extensive datasets to train deep learning models in engineering applications. It is 60\% larger than the previously available largest public dataset of cars, and is the only open-source dataset that also models wheels and underbody. RegDGCNN leverages this large-scale dataset to provide high-precision drag estimates directly from 3D meshes, bypassing traditional limitations such as the need for 2D image rendering or Signed Distance Fields (SDF). By enabling fast drag estimation in seconds, RegDGCNN facilitates rapid aerodynamic assessments, offering a substantial leap towards integrating data-driven methods in automotive design. Together, DrivAerNet and RegDGCNN promise to accelerate the car design process and contribute to the development of more efficient vehicles. To lay the groundwork for future innovations in the field, the dataset and code used in our study are publicly accessible at \url{https://github.com/Mohamedelrefaie/DrivAerNet} | 翻訳日:2024-03-14 16:55:23 公開日:2024-03-12 |
# あいまいな契約の明確化に関する質問
Generating Clarification Questions for Disambiguating Contracts ( http://arxiv.org/abs/2403.08053v1 ) ライセンス: Link先を確認 | Anmol Singhal, Chirag Jain, Preethu Rose Anish, Arkajyoti Chakraborty, Smita Ghaisas | (参考訳) 企業はしばしば、プロジェクト固有の要件の重要な情報源として機能する商業契約に参入します。
契約条項は義務的であり、契約から派生した要件は、要件アナリスト、エンジニア、配送担当者を含む非法的ステークホルダーが行う必要のある下流の実施活動の詳細を記述することができる。
しかし、契約の解釈は、法律の広範な使用と契約言語の固有の複雑さのために、そのような利害関係者に対して認知的に要求され、エラーを起こします。
さらに、契約には包括的カバレッジを確保するための明確な文節が含まれることが多い。
対照的に、非法的な利害関係者は、実行可能な要件を作成するために、契約条項の詳細な、曖昧な理解を必要とします。
本研究では,契約条件の明確化に関する疑問を生じさせる新たな法的NLPタスクを提案する。
これらの疑問は,契約の曖昧さを文書レベルで識別することを目的としている。
この課題は,(1)データの可用性,(2)契約の長さと非構造性,(3)法的テキストの複雑さの3つの問題によって解決される。
このような問題に対処するため,契約文の曖昧さを解消するために,検索強化型プロンプトフレームワークであるConRAPを提案する。
CUADデータセットから得られた契約に基づいて行われた実験によると、ConRAPとChatGPTはF2スコア0.87であいまいさを検出できる。
生成した明確化質問の70%は、人間の評価者によって有用であると考えられている。
Enterprises frequently enter into commercial contracts that can serve as vital sources of project-specific requirements. Contractual clauses are obligatory, and the requirements derived from contracts can detail the downstream implementation activities that non-legal stakeholders, including requirement analysts, engineers, and delivery personnel, need to conduct. However, comprehending contracts is cognitively demanding and error-prone for such stakeholders due to the extensive use of Legalese and the inherent complexity of contract language. Furthermore, contracts often contain ambiguously worded clauses to ensure comprehensive coverage. In contrast, non-legal stakeholders require a detailed and unambiguous comprehension of contractual clauses to craft actionable requirements. In this work, we introduce a novel legal NLP task that involves generating clarification questions for contracts. These questions aim to identify contract ambiguities on a document level, thereby assisting non-legal stakeholders in obtaining the necessary details for eliciting requirements. This task is challenged by three core issues: (1) data availability, (2) the length and unstructured nature of contracts, and (3) the complexity of legal text. To address these issues, we propose ConRAP, a retrieval-augmented prompting framework for generating clarification questions to disambiguate contractual text. Experiments conducted on contracts sourced from the publicly available CUAD dataset show that ConRAP with ChatGPT can detect ambiguities with an F2 score of 0.87. 70% of the generated clarification questions are deemed useful by human evaluators. | 翻訳日:2024-03-14 16:55:23 公開日:2024-03-12 |
# TutoAI: AI支援ミックスメディアチュートリアルのためのクロスドメインフレームワーク
物理課題の創出
TutoAI: A Cross-domain Framework for AI-assisted Mixed-media Tutorial Creation on Physical Tasks ( http://arxiv.org/abs/2403.08049v1 ) ライセンス: Link先を確認 | Yuexi Chen, Vlad I. Morariu, Anh Truong, Zhicheng Liu | (参考訳) ビデオ、画像、テキスト、ダイアグラムを統合してプロシージャスキルを教えるミックスメディアチュートリアルは、タイムラインベースのビデオよりもブラウズ可能な代替手段を提供する。
しかし、このようなチュートリアルを手動で作成するのは面倒で、既存の自動化ソリューションは特定のドメインに制限されることが多い。
AIモデルは約束を守っているが、マルチモーダルデータとモデルの広大な風景を考えると、その能力を効果的に活用する方法は不明だ。
物理タスクにおけるAI支援複合メディアチュートリアル作成のためのクロスドメインフレームワークであるTutoAIを紹介する。
まず、既存の作業を調査し、一般的なチュートリアルコンポーネントを蒸留し、次に、コンポーネント抽出のためのAIモデルを特定し、組み立て、評価するアプローチを提案し、最後に、AI生成コンポーネントに基づいたチュートリアル作成をサポートするユーザーインターフェース(UI)を設計するためのガイドラインを提案する。
予備的なユーザスタディにおいて,TutoAIはベースラインモデルよりも高い,あるいは類似した品質を実現していることを示す。
Mixed-media tutorials, which integrate videos, images, text, and diagrams to teach procedural skills, offer more browsable alternatives than timeline-based videos. However, manually creating such tutorials is tedious, and existing automated solutions are often restricted to a particular domain. While AI models hold promise, it is unclear how to effectively harness their powers, given the multi-modal data involved and the vast landscape of models. We present TutoAI, a cross-domain framework for AI-assisted mixed-media tutorial creation on physical tasks. First, we distill common tutorial components by surveying existing work; then, we present an approach to identify, assemble, and evaluate AI models for component extraction; finally, we propose guidelines for designing user interfaces (UI) that support tutorial creation based on AI-generated components. We show that TutoAI has achieved higher or similar quality compared to a baseline model in preliminary user studies. | 翻訳日:2024-03-14 16:55:22 公開日:2024-03-12 |
# 大都市バイアス:大都市圏の規模が与える影響の評価
言語モデルの計算的ジョブマーケット能力
Big City Bias: Evaluating the Impact of Metropolitan Size on Computational Job Market Abilities of Language Models ( http://arxiv.org/abs/2403.08046v1 ) ライセンス: Link先を確認 | Charlie Campanella, Rob van der Goot | (参考訳) 大規模言語モデル(LLM)は、候補者と雇用主の両方にとって、ジョブマッチングに有用な技術として登場した。
ジョブマッチングは、都市や地域など、特定の地理的位置に基づいて行われることが多い。
しかし、LSMはトレーニングデータから得られるバイアスをよく知っている。
本研究では,大規模言語モデルで符号化された大都市規模の偏差を定量化し,ゼロショット給与,雇用主の存在,通勤時間予測を米国の384大都市圏で評価することを目的とする。
すべてのベンチマークにおいて,都市規模とLLMSの性能との間には負の相関関係がみられ,小さい領域が実際にあまり表現されていないことが示唆された。
より具体的には、最も小さな10大都市圏は、最大10大都市圏よりも300%悪いベンチマークパフォーマンスを示している。
Large language models (LLMs) have emerged as a useful technology for job matching, for both candidates and employers. Job matching is often based on a particular geographic location, such as a city or region. However, LLMs have known biases, commonly derived from their training data. In this work, we aim to quantify the metropolitan size bias encoded within large language models, evaluating zero-shot salary, employer presence, and commute duration predictions in 384 of the United States' metropolitan regions. Across all benchmarks, we observe negative correlations between the metropolitan size and the performance of the LLMS, indicating that smaller regions are indeed underrepresented. More concretely, the smallest 10 metropolitan regions show upwards of 300% worse benchmark performance than the largest 10. | 翻訳日:2024-03-14 16:55:22 公開日:2024-03-12 |
# 量子情報理論は量子化学に何ができるか?
What Can Quantum Information Theory Offer to Quantum Chemistry? ( http://arxiv.org/abs/2403.08045v1 ) ライセンス: Link先を確認 | Damiano Aliverti-Piuri, Kaustav Chatterjee, Lexin Ding, Ke Liao, Julia Liebert, Christian Schilling | (参考訳) この研究の最終的な目標は、量子化学と量子情報理論の繁栄する分野との相乗効果を促進することである。
そこで我々はまず、絡み合いや相関などの量子情報の概念を量子化学系の文脈に翻訳する。
特に、軌道と粒子の相関の概念につながる「電子相関」について、2つの概念的に異なる視点を確立する。
そして、粒子相関が全軌道上の全軌道相関と等しいことを証明した。
したがって、粒子相関は多電子波関数の最小限の、従って本質的な複雑さに似ており、一方軌道相関は基底に対する複雑性を定量化している。
分子系における本質的および外生的相関複雑性の概念について述べる。
この結果は、電子構造を単純化するための長寿命自然軌道の理論的正当性を与え、電子相関問題へのより効率的なアプローチを開発するための新しい経路を開拓する。
It is the ultimate goal of this work to foster synergy between quantum chemistry and the flourishing field of quantum information theory. For this, we first translate quantum information concepts such as entanglement and correlation into the context of quantum chemical systems. In particular, we establish two conceptually distinct perspectives on `electron correlation' leading to a notion of orbital and particle correlation. We then demonstrate that particle correlation equals total orbital correlation minimized over all orbital bases. Accordingly, particle correlation resembles the minimal, thus intrinsic, complexity of many-electron wave functions while orbital correlation quantifies their complexity relative to a basis. We illustrate these concepts of intrinsic and extrinsic correlation complexity in molecular systems, which also manifests the crucial link between the two correlation pictures. Our results provide theoretical justification for the long-favored natural orbitals for simplifying electronic structures, and open new pathways for developing more efficient approaches towards the electron correlation problem. | 翻訳日:2024-03-14 16:55:21 公開日:2024-03-12 |
# ポリシー最適化によるオーサシップスタイルのトランスファー
Authorship Style Transfer with Policy Optimization ( http://arxiv.org/abs/2403.08043v1 ) ライセンス: Link先を確認 | Shuai Liu, Shantanu Agarwal, Jonathan May | (参考訳) オーサシップスタイルの転送は、ソースの本来の意味を保ちながら、指定されたテキストを指定されたターゲットに書き換えることを目的としている。
既存のアプローチでは、モデルトレーニングのための多くのターゲットスタイルの例が利用可能になっている。
しかし、これらの見落としのケースでは、限られたターゲットスタイルの例が利用可能である。
パラメータ効率変換学習技術とポリシー最適化(PO)アプローチの開発により,軽量POは低リソース型転送の実現可能なアプローチであることが示唆された。
そこで本研究では,低リソーステキストスタイル転送のための単純な2ステップのチューン・アンド・最適化手法を提案する。
本手法はオーサシップ転送だけでなく,より大規模なネイティブ言語スタイルのタスクにも適用し,どちらの場合においても最先端のベースラインモデルよりも優れています。
Authorship style transfer aims to rewrite a given text into a specified target while preserving the original meaning in the source. Existing approaches rely on the availability of a large number of target style exemplars for model training. However, these overlook cases where a limited number of target style examples are available. The development of parameter-efficient transfer learning techniques and policy optimization (PO) approaches suggest lightweight PO is a feasible approach to low-resource style transfer. In this work, we propose a simple two step tune-and-optimize technique for low-resource textual style transfer. We apply our technique to authorship transfer as well as a larger-data native language style task and in both cases find it outperforms state-of-the-art baseline models. | 翻訳日:2024-03-14 16:55:21 公開日:2024-03-12 |
# 2次元および3次元総合的深層学習法のCTによる評価
気道病変のボリュームセグメンテーション
CT evaluation of 2D and 3D holistic deep learning methods for the volumetric segmentation of airway lesions ( http://arxiv.org/abs/2403.08042v1 ) ライセンス: Link先を確認 | Amel Imene Hadj Bouzid, Baudouin Denis de Senneville, Fabien Baldacci, Pascal Desbarats, Patrick Berger, Ilyes Benlala, Ga\"el Dournes | (参考訳) 本研究は, 嚢胞性線維症 (CF) 病変に着目して, 畳み込みニューラルネットワーク (CNN) の2次元および3次元形式での包括的セグメンテーション能力の比較研究を行った。
この研究は、主要なCF構造変化をカバーした2つのCF参照センターのデータを利用した。
最初は2Dモデルと3Dモデルを比較し、粘液プラグやコンソリデーションといった複雑な特徴を捉えた3Dモデルの優れた能力を強調した。
2Dモデルの性能向上のために, 3Dモデルの性能を上回りながら, 微細構造セグメンテーションに適応した損失を実装, 評価し, 精度を著しく向上させた。
肺機能検査 (PFT) に対する外的評価により, さらに検証を行い, 結果の堅牢性を確認した。
さらに, 本研究は, モデルの解釈可能性と信頼性を総合的に評価し, 臨床応用に有用な洞察を与えている。
This research embarked on a comparative exploration of the holistic segmentation capabilities of Convolutional Neural Networks (CNNs) in both 2D and 3D formats, focusing on cystic fibrosis (CF) lesions. The study utilized data from two CF reference centers, covering five major CF structural changes. Initially, it compared the 2D and 3D models, highlighting the 3D model's superior capability in capturing complex features like mucus plugs and consolidations. To improve the 2D model's performance, a loss adapted to fine structures segmentation was implemented and evaluated, significantly enhancing its accuracy, though not surpassing the 3D model's performance. The models underwent further validation through external evaluation against pulmonary function tests (PFTs), confirming the robustness of the findings. Moreover, this study went beyond comparing metrics; it also included comprehensive assessments of the models' interpretability and reliability, providing valuable insights for their clinical application. | 翻訳日:2024-03-14 16:55:20 公開日:2024-03-12 |
# MicroT:MCUの低エネルギー・適応モデル
MicroT: Low-Energy and Adaptive Models for MCUs ( http://arxiv.org/abs/2403.08040v1 ) ライセンス: Link先を確認 | Yushan Huang, Ranya Aloufi, Xavier Cadet, Yuchen Zhao, Payam Barnaghi, Hamed Haddadi | (参考訳) 資源制約型MCUのための低エネルギーマルチタスク適応モデルフレームワークであるMicroTを提案する。
元のモデルを特徴抽出器と分類器に分割する。
この特徴抽出器は, 自己指導型知識蒸留により得られ, さらに, モデル分割とジョイントトレーニングにより, 部分モデルと完全モデルに最適化される。
これらのモデルは MCU 上に展開され、局所的なタスクに分類器を追加して訓練し、最終的には共同推論の段階決定を行う。
このプロセスでは、パートモデルはまずサンプルを処理し、信頼スコアが設定された閾値を下回ると、完全なモデルが再開され、推論が継続される。
我々はMicroTを2つのモデル、3つのデータセット、2つのMCUボードで評価した。
実験により、MicroTはモデル性能を効果的に向上し、複数のローカルタスクを扱う際のエネルギー消費量を削減できることが示された。
最適化されていない特徴抽出器と比較して、MicroTは最大9.87%精度を向上させることができる。
MCUでは、標準のフルモデル推論と比較して、MicroTはエネルギー消費の29.13%を節約できる。
MicroTでは、必要に応じてステージ決定比率を適応的に調整し、モデルパフォーマンスとエネルギー消費のバランスを改善することもできる。
標準段差比構成では、MicroTは精度を5.91%向上させ、エネルギー消費量の約14.47%を節約できる。
We propose MicroT, a low-energy, multi-task adaptive model framework for resource-constrained MCUs. We divide the original model into a feature extractor and a classifier. The feature extractor is obtained through self-supervised knowledge distillation and further optimized into part and full models through model splitting and joint training. These models are then deployed on MCUs, with classifiers added and trained on local tasks, ultimately performing stage-decision for joint inference. In this process, the part model initially processes the sample, and if the confidence score falls below the set threshold, the full model will resume and continue the inference. We evaluate MicroT on two models, three datasets, and two MCU boards. Our experimental evaluation shows that MicroT effectively improves model performance and reduces energy consumption when dealing with multiple local tasks. Compared to the unoptimized feature extractor, MicroT can improve accuracy by up to 9.87%. On MCUs, compared to the standard full model inference, MicroT can save up to about 29.13% in energy consumption. MicroT also allows users to adaptively adjust the stage-decision ratio as needed, better balancing model performance and energy consumption. Under the standard stage-decision ratio configuration, MicroT can increase accuracy by 5.91% and save about 14.47% of energy consumption. | 翻訳日:2024-03-14 16:55:20 公開日:2024-03-12 |
# バスファクターエクスプローラー
Bus Factor Explorer ( http://arxiv.org/abs/2403.08038v1 ) ライセンス: Link先を確認 | Egor Klimov, Muhammad Umair Ahmed, Nikolai Sviridov, Pouria Derakhshanfar, Eray T\"uz\"un, Vladimir Kovalenko | (参考訳) バスファクタ(BF)は、プロジェクトの知識分布を追跡するメトリクスである。
プロジェクト停止のために立ち去る必要のあるエンジニアは最小限です。
バスファクターを計算するアルゴリズムがいくつかあるにもかかわらず、バスファクターの計算が簡単で、Gitベースのプロバイダでホストされているプロジェクトの結果を便利に分析できるツールはごくわずかである。
Bus Factor Explorerは、ツリーマップの可視化、シミュレーションモード、チャートエディタを通じて、Bus Factorメトリックを計算、エクスポート、探索するためのインターフェイスとAPIを提供するWebアプリケーションである。
GitHubにホストされたレポジトリをサポートし、インターフェース内のレポジトリを検索し、多数のレポジトリを同時に処理できる。
当社のツールでは,VCS履歴を解析することにより,開発者のターンオーバー時に停止する危険のあるファイルやサブシステムを特定することができる。
アプリケーションとそのソースコードはGitHubでhttps://github.com/JetBrains-Research/bus-factor-explorerで公開されている。
デモビデオはYouTubeで見ることができる: https://youtu.be/uIoV79N14z8
Bus factor (BF) is a metric that tracks knowledge distribution in a project. It is the minimal number of engineers that have to leave for a project to stall. Despite the fact that there are several algorithms for calculating the bus factor, only a few tools allow easy calculation of bus factor and convenient analysis of results for projects hosted on Git-based providers. We introduce Bus Factor Explorer, a web application that provides an interface and an API to compute, export, and explore the Bus Factor metric via treemap visualization, simulation mode, and chart editor. It supports repositories hosted on GitHub and enables functionality to search repositories in the interface and process many repositories at the same time. Our tool allows users to identify the files and subsystems at risk of stalling in the event of developer turnover by analyzing the VCS history. The application and its source code are publicly available on GitHub at https://github.com/JetBrains-Research/bus-factor-explorer. The demonstration video can be found on YouTube: https://youtu.be/uIoV79N14z8 | 翻訳日:2024-03-14 16:55:19 公開日:2024-03-12 |
# 食品・農業部門におけるサイバーセキュリティ事件の概観
A Review of Cybersecurity Incidents in the Food and Agriculture Sector ( http://arxiv.org/abs/2403.08036v1 ) ライセンス: Link先を確認 | Ajay Kulkarni, Yingjie Wang, Munisamy Gopinath, Dan Sobien, Abdul Rahman, and Feras A. Batarseh | (参考訳) 食品農業(FA)分野における新興技術の利用の増加により、サイバーリスクを最小限に抑えるためのセキュリティの必要性が高まっている。
この点を踏まえて、本書はFAセクターにおけるサイバーセキュリティ事件を公表し、記録した。
この目的のために、2011年7月から2023年4月にかけて30件のサイバーセキュリティ事件が特定された。
これらの事件の詳細は、民間企業やFBI(連邦捜査局)が生み出したフラッシュ通知、影響を受けた組織の内部報告、利用可能なメディアソースなど、複数の情報源から報告されている。
利用可能な情報を考えると、各インシデントについて、セキュリティの脅威、身代金の額、組織への影響を簡潔に記述する。
このレビューでは、FAセクターに対するサイバーセキュリティの脅威の頻度が増加していることを報告している。
これらのサイバーリスクを最小限に抑えるため、一般的なサイバーセキュリティフレームワークや、最近の農業固有のサイバーセキュリティソリューションについても議論されている。
さらに、FAセクターにおけるAI保証の必要性を説明し、Farmer-Centered AI(FCAI)フレームワークを提案する。
FCAIフレームワークの主な目的は、AI保証を取り入れることで、農業生産のための意思決定を支援することである。
最後に、報告されたサイバーインシデントが他の重要なインフラ、食料安全保障、経済に与える影響、および今後の発展に向けたオープンな問題に言及する。
The increasing utilization of emerging technologies in the Food & Agriculture (FA) sector has heightened the need for security to minimize cyber risks. Considering this aspect, this manuscript reviews disclosed and documented cybersecurity incidents in the FA sector. For this purpose, thirty cybersecurity incidents were identified, which took place between July 2011 and April 2023. The details of these incidents are reported from multiple sources such as: the private industry and flash notifications generated by the Federal Bureau of Investigation (FBI), internal reports from the affected organizations, and available media sources. Considering the available information, a brief description of the security threat, ransom amount, and impact on the organization are discussed for each incident. This review reports an increased frequency of cybersecurity threats to the FA sector. To minimize these cyber risks, popular cybersecurity frameworks and recent agriculture-specific cybersecurity solutions are also discussed. Further, the need for AI assurance in the FA sector is explained, and the Farmer-Centered AI (FCAI) framework is proposed. The main aim of the FCAI framework is to support farmers in decision-making for agricultural production, by incorporating AI assurance. Lastly, the effects of the reported cyber incidents on other critical infrastructures, food security, and the economy are noted, along with specifying the open issues for future development. | 翻訳日:2024-03-14 16:55:19 公開日:2024-03-12 |
# オンラインヘイトを悩ませる人工知能のハーネス(動画あり)
ヘイトスピーチにおける大規模言語モデルの課題と機会
検出
Harnessing Artificial Intelligence to Combat Online Hate: Exploring the Challenges and Opportunities of Large Language Models in Hate Speech Detection ( http://arxiv.org/abs/2403.08035v1 ) ライセンス: Link先を確認 | Tharindu Kumarage, Amrita Bhattacharjee, Joshua Garland | (参考訳) 大規模言語モデル(LLM)は、言語生成、例えば翻訳、要約、感情分析以外の多くの多様なアプリケーションで優れている。
興味深い応用の1つはテキスト分類である。
このことは、憎しみや有害なスピーチを識別する領域において、問題や倫理的なジレンマに悩まされる。
本研究の目的は2つある: まず、LLMを分類する文献レビューを提供することであり、憎悪や有害な内容の検出・分類におけるその役割を強調している。
次に,ヘイトスピーチの分類における複数のLLMの有効性について検討する。
LLMの熟練度(またはその欠如)に寄与する要因に関する洞察を提供すること。
本論文は,包括的文献レビューと実証分析を組み合わせることで,ヘイトスピーチ検出の重要な領域におけるLLMの能力と制約を明らかにすることを目指している。
Large language models (LLMs) excel in many diverse applications beyond language generation, e.g., translation, summarization, and sentiment analysis. One intriguing application is in text classification. This becomes pertinent in the realm of identifying hateful or toxic speech -- a domain fraught with challenges and ethical dilemmas. In our study, we have two objectives: firstly, to offer a literature review revolving around LLMs as classifiers, emphasizing their role in detecting and classifying hateful or toxic content. Subsequently, we explore the efficacy of several LLMs in classifying hate speech: identifying which LLMs excel in this task as well as their underlying attributes and training. Providing insight into the factors that contribute to an LLM proficiency (or lack thereof) in discerning hateful content. By combining a comprehensive literature review with an empirical analysis, our paper strives to shed light on the capabilities and constraints of LLMs in the crucial domain of hate speech detection. | 翻訳日:2024-03-14 16:55:18 公開日:2024-03-12 |
# 量子ディバイドをナビゲートする(s)
Navigating the Quantum Divide(s) ( http://arxiv.org/abs/2403.08033v1 ) ライセンス: Link先を確認 | A. Ayda Gercek and Zeki C. Seskir | (参考訳) 本稿では、新しい量子技術(QT)を社会に導入した際の可能性の相違について考察する。
科学、技術、地政学、社会構造に対するQTの多面的な影響を提供する。
我々は、より包括的な視点を示すことによって、特異な「量子分割」の考え方に挑戦することを目指している。
量子分割に関する既存の文献を補完するために、QTの出現から生じる可能性のある4つの異なる分割を提案する。
まず,研究コミュニティ内の知識・資源へのアクセスにおける科学者間のパラダイム的ギャップと不平等を表す「科学における量子分断」について検討する。
我々は,国家,企業,研究コミュニティが開発する特定の技術の採用プロセスについて検討し,経路依存による技術分野の分断を第2の可能な分断として提案する。
この議論は、異なる発展段階(経済的、工業的、技術的に)の国間での養子縁組プロセスの理由と結果を扱うことにより、国際的に展開される「諸国間の量子分断」に焦点を当てている。
最終分割として、我々は、社会的な意味に対処し、文献の中で最も探求された分野の一つである「社会における量子分権」について見解を述べた。
分割のそれぞれのタイプに対して、それらをナビゲートするためのいくつかの方向、いくつかの相補的方向、いくつかの相補的方向、いくつかの相補的方向を提案する。
最後に、異なるタイプの分割の相互接続性と相違性、そしてそれらがナビゲートの方向に与える影響について論じる。
この研究は、量子分割の概念、分割をナビゲートする可能性、QTの導入が科学的、技術的、国際的、社会的な機関に影響を与えることにより、イノベーションエコシステムにどのように影響を与えるか、といった、より深い研究に興味を持つ人々のためのガイダンスとなる。
This article explores the possible divides resulting from the introduction of emerging quantum technologies (QT) to society. It provides the multidirectional impacts of QT on science, technology, geopolitics, and societal structures. We aim to challenge the idea of a singular "quantum divide" by presenting a more comprehensive perspective. To complement the existing literature on the quantum divide, we propose four distinct divides that could result from the emergence of QT. Firstly, we examine the "Quantum Divide in Science", representing the paradigmatic gap among scientists and inequalities in access to knowledge/resources within research communities. We suggest the "Quantum Divide in Technologies through Path-dependency" as the second possible divide, examining the adoption processes of certain technologies to be developed by nations, firms, and research communities. The discussion extends internationally, focusing on the "Quantum Divide between Countries," by dealing with the reasons and outcomes of the adoption processes between countries of different development levels (economically, industrially, and technologically). As the final divide, we put forth our perspective on the "Quantum Divide within Societies", one of the most explored ones in the literature, addressing societal implications. For each type of the divide, we propose several directions to navigate them, some complementary, some incompatible. Finally, we discuss the interconnectedness and distinctness of different types of divides and how they impact the directions to navigate them. This study serves as a guidance for those interested in a more in-depth investigation of the concept of quantum divide, possible directions of navigating the divides, and how the introduction of QT might affect the innovation ecosystems by impacting the scientific, technological, international, and societal institutions. | 翻訳日:2024-03-14 16:55:18 公開日:2024-03-12 |
# LG-Traj: LLMガイドによる歩行者軌道予測
LG-Traj: LLM Guided Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2403.08032v1 ) ライセンス: Link先を確認 | Pranav Singh Chib, Pravendra Singh | (参考訳) 歩行者の正確な軌跡予測は様々な応用に不可欠であり,動的環境における歩行者の動きパターンを深く理解する必要がある。
しかし、既存の歩行者軌道予測手法では、これらの動きパターンを完全に活用するためには、さらなる探索が必要である。
本稿では,Large Language Models (LLMs) を用いた歩行者軌道予測作業の改善の可能性について検討する。
LLMを取り入れたLG-Trajを導入し、歩行者の過去・保存軌道に現れる動きの手がかりを生成する。
提案手法は,ガウスの混在による訓練データの将来の軌跡をクラスタリングすることで,歩行者の将来の軌跡に現れる動きの手がかりを取り入れたものである。
これらの動きの手がかりは、歩行者の座標とともに、下層の表現をよりよく理解するのに役立つ。
さらに、特異値分解を利用して観察された軌道を拡大し、それらをモデル学習プロセスに組み込んで表現学習をさらに強化する。
本手法では,移動パターンをモデル化するモーションエンコーダと,歩行者間の社会的相互作用を捉えるソーシャルデコーダからなるトランスフォーマーアーキテクチャを用いる。
ETH-UCY や SDD といった一般的な歩行者軌跡予測ベンチマークに対するアプローチの有効性を実証し,提案手法の有効性を検証するために,様々なアブレーション実験を行った。
Accurate pedestrian trajectory prediction is crucial for various applications, and it requires a deep understanding of pedestrian motion patterns in dynamic environments. However, existing pedestrian trajectory prediction methods still need more exploration to fully leverage these motion patterns. This paper investigates the possibilities of using Large Language Models (LLMs) to improve pedestrian trajectory prediction tasks by inducing motion cues. We introduce LG-Traj, a novel approach incorporating LLMs to generate motion cues present in pedestrian past/observed trajectories. Our approach also incorporates motion cues present in pedestrian future trajectories by clustering future trajectories of training data using a mixture of Gaussians. These motion cues, along with pedestrian coordinates, facilitate a better understanding of the underlying representation. Furthermore, we utilize singular value decomposition to augment the observed trajectories, incorporating them into the model learning process to further enhance representation learning. Our method employs a transformer-based architecture comprising a motion encoder to model motion patterns and a social decoder to capture social interactions among pedestrians. We demonstrate the effectiveness of our approach on popular pedestrian trajectory prediction benchmarks, namely ETH-UCY and SDD, and present various ablation experiments to validate our approach. | 翻訳日:2024-03-14 16:55:17 公開日:2024-03-12 |
# McCatch: 次元と空間におけるスケーラブルなマイクロクラスタ検出
非次元データセット
McCatch: Scalable Microcluster Detection in Dimensional and Nondimensional Datasets ( http://arxiv.org/abs/2403.08027v1 ) ライセンス: Link先を確認 | Braulio V. S\'anchez Vinces, Robson L. F. Cordeiro, Christos Faloutsos | (参考訳) 非次元データでも機能し、シングルトン・マイクロクラスター(「ワン・オフ・アウト・リアー」)と非シングルトン・マイクロクラスターの両方を異常スコアでランク付けするアウトリー検出器をどうやって作るのか?
スケーラブルで‘ハンズ・オフ’な方法で原則化されたスコアをどうやって得るか?
違反者のマイクロクラスタは、不正行為等における連帯または反復を意味する。
したがって、その識別は極めて望ましい。
本稿では、提案した「Oracle」プロット(グループ1NNディスタンス対グループ1NNディスタンス)を活用して、マイクロクラスタを検出する新しいアルゴリズムであるMcCatchを提案する。
我々は、最大100万個のデータ要素を持つ31個の実データおよび合成データセットを調査し、McMatchが上記の2つの疑問に答える唯一の方法であることを示し、特にデータが非シングルトンマイクロクラスタを持つ場合、特に非次元である場合、11個の他の手法より優れていることを示す。
また、グラフ、指紋、ネットワーク接続ログ、テキストデータ、衛星画像などの意味のあるマイクロクラスタを検出できる、McMatchの機能についても紹介する。
例えば、ネットワークログに確認された‘Denial of Service’攻撃の30要素のマイクロクラスタが見つかった。
How could we have an outlier detector that works even with nondimensional data, and ranks together both singleton microclusters ('one-off' outliers) and nonsingleton microclusters by their anomaly scores? How to obtain scores that are principled in one scalable and 'hands-off' manner? Microclusters of outliers indicate coalition or repetition in fraud activities, etc.; their identification is thus highly desirable. This paper presents McCatch: a new algorithm that detects microclusters by leveraging our proposed 'Oracle' plot (1NN Distance versus Group 1NN Distance). We study 31 real and synthetic datasets with up to 1M data elements to show that McCatch is the only method that answers both of the questions above; and, it outperforms 11 other methods, especially when the data has nonsingleton microclusters or is nondimensional. We also showcase McCatch's ability to detect meaningful microclusters in graphs, fingerprints, logs of network connections, text data, and satellite imagery. For example, it found a 30-elements microcluster of confirmed 'Denial of Service' attacks in the network logs, taking only ~3 minutes for 222K data elements on a stock desktop. | 翻訳日:2024-03-14 16:55:17 公開日:2024-03-12 |
# xMLP: 排他的正方形活性化によるプライベート推論の革命
xMLP: Revolutionizing Private Inference with Exclusive Square Activation ( http://arxiv.org/abs/2403.08024v1 ) ライセンス: Link先を確認 | Jiajie Li, Jinjun Xiong | (参考訳) プライベート推論(PI)は、マルチパーティ計算(MPC)や同型暗号化(HE)といった暗号プリミティブを活用することにより、機密情報を漏洩することなく、ディープニューラルネットワーク(DNN)がプライベートデータ上で動作できるようにする。
しかし、DNNでReLUのような非線形のアクティベーションを使用すると、既存のPIシステムでは極端に高いPIレイテンシが生じる可能性がある。
正方形のアクティベーションは、ReLUに比べて数百倍高速なBeaverのトリプルによって処理できるため、PIタスクに親しみやすいが、モデル精度の顕著な低下につながる。
本稿では,2乗アクティベーションを用いた場合の精度低下の原因を探究し,これが情報複合効果によるものであると結論づける。
この知見を生かした新しいDNNアーキテクチャであるxMLPを提案する。これは2乗アクティベーションのみを使用しながら、ReLUベースのDNNの精度と効率を両立させる。
CIFAR-100 と ImageNet で行った実験では,アクティベーション層やパラメータが少ない ResNet モデルよりも連続的に性能が向上し,また ReLU ベースのモデルと一貫した性能を維持した。
注目すべきは、最先端のPIモデルと比較すると、xMLPは優れた性能を示し、精度は0.58%向上し、PI速度は7倍高速である。
さらに、同じPIレイテンシを維持しながら、4.96%の大幅な精度向上を実現している。
GPUにPIをオフロードする場合、xMLPは、同等の精度で以前の最先端のPIモデルよりも700倍高速である。
Private Inference (PI) enables deep neural networks (DNNs) to work on private data without leaking sensitive information by exploiting cryptographic primitives such as multi-party computation (MPC) and homomorphic encryption (HE). However, the use of non-linear activations such as ReLU in DNNs can lead to impractically high PI latency in existing PI systems, as ReLU requires the use of costly MPC computations, such as Garbled Circuits. Since square activations can be processed by Beaver's triples hundreds of times faster compared to ReLU, they are more friendly to PI tasks, but using them leads to a notable drop in model accuracy. This paper starts by exploring the reason for such an accuracy drop after using square activations, and concludes that this is due to an "information compounding" effect. Leveraging this insight, we propose xMLP, a novel DNN architecture that uses square activations exclusively while maintaining parity in both accuracy and efficiency with ReLU-based DNNs. Our experiments on CIFAR-100 and ImageNet show that xMLP models consistently achieve better performance than ResNet models with fewer activation layers and parameters while maintaining consistent performance with its ReLU-based variants. Remarkably, when compared to state-of-the-art PI Models, xMLP demonstrates superior performance, achieving a 0.58% increase in accuracy with 7x faster PI speed. Moreover, it delivers a significant accuracy improvement of 4.96% while maintaining the same PI latency. When offloading PI to the GPU, xMLP is up to 700x faster than the previous state-of-the-art PI model with comparable accuracy. | 翻訳日:2024-03-14 16:55:16 公開日:2024-03-12 |
# 小型量子マイニング器による51%の攻撃
51% Attack via Difficulty Increase with a Small Quantum Miner ( http://arxiv.org/abs/2403.08023v1 ) ライセンス: Link先を確認 | Bolton Bailey, Or Sattath | (参考訳) 比較的低いハッシュ力を持つ単一量子マイニング器の戦略を, 51%の攻撃と同じ影響で提示する。
Bitcoinノードは、最も累積的確証の高いチェーンが有効なチェーンであると考えている。
量子マイナはブロックタイムスタンプを操作でき、難易度を$c$に乗算できる。
fork-choiceルールはすべてのブロックをカウントし、重み$c$で難易度を増す。
グロバーのアルゴリズムを用いることで、量子マイニングがそのようなブロックをマイニングすることが難しくなるのは、わずか$O(\sqrt c)$である。
高い$c$を選ぶことで、単一の量子マイニングは、より少ないブロックでより累積的な作業証明を持つ競合チェーンを生成することができる。
必要な時間は、$O(\frac{1}{r^2})$ epochsであり、$r$は、量子マイニング者が正直に採掘した場合に受け取るブロック報酬の分数である。
Bitcoinを含む多くの暗号通貨は、我々の攻撃に弱い。
しかし、非常に高速でフォールトトレラントな量子コンピュータを必要とするため、今後数年で実行することはできないだろう。
We present a strategy for a single quantum miner with relatively low hashing power, with the same ramifications as a 51% attack. Bitcoin nodes consider the chain with the highest cumulative proof-of-work to be the valid chain. A quantum miner can manipulate the block timestamps to multiply the difficulty by $c$. The fork-choice rule counts every block with increased difficulty with weight $c$. By using Grover's algorithm, it is only $O(\sqrt c)$ harder for the quantum miner to mine such blocks. By picking a high enough $c$, the single quantum miner can create a competing chain with fewer blocks, but more cumulative proof-of-work. The time required is $O(\frac{1}{r^2})$ epochs, where $r$ is the fraction of the block rewards that the quantum miner would have received if they mined honestly. Most proof-of-work cryptocurrencies, including Bitcoin, are vulnerable to our attack. However, it will likely be impossible to execute in forthcoming years, as it requires an extremely fast and fault-tolerant quantum computer. | 翻訳日:2024-03-14 16:55:15 公開日:2024-03-12 |
# MRC-Net:マルチスケール残差相関を用いた6-DoF推定
MRC-Net: 6-DoF Pose Estimation with MultiScale Residual Correlation ( http://arxiv.org/abs/2403.08019v1 ) ライセンス: Link先を確認 | Yuelong Li, Yafei Mao, Raja Bala and Sunil Hadap | (参考訳) 本稿では,1枚のRGB画像から3次元コンピュータ支援デザイン(CAD)モデルを用いてオブジェクトの6-DoFポーズを決定するための単発アプローチを提案する。
MRC-Netと呼ばれる本手法は,2段階からなる。
1つ目はポーズ分類を行い、3Dオブジェクトを分類されたポーズに描画する。
第2段階は、クラス内のきめ細かい残留ポーズを予測するために回帰を実行する。
2つのステージを接続する新しいマルチスケール残差相関層(MRC)は、入力画像と第1ステージからのレンダリングとの間の高レベルな対応をキャプチャする。
MRC-Netは、入力画像と描画画像の埋め込みを学習するために、両方のステージ間で重みを共有するSiameseネットワークを使用している。
対称オブジェクト上の離散的なポーズクラスラベルを予測する際のあいまいさを軽減するため、第1段階でポーズクラスを定義するためにソフト確率ラベルを用いる。
我々は、T-LESS, LM-O, YCB-V, ITODDの4つの挑戦的ベンチマークデータセットにおいて、競合するRGBベースの手法を全て上回り、最先端の精度を実証する。
提案手法は非定型であり, 複雑な後処理は不要である。
We propose a single-shot approach to determining 6-DoF pose of an object with available 3D computer-aided design (CAD) model from a single RGB image. Our method, dubbed MRC-Net, comprises two stages. The first performs pose classification and renders the 3D object in the classified pose. The second stage performs regression to predict fine-grained residual pose within class. Connecting the two stages is a novel multi-scale residual correlation (MRC) layer that captures high-and-low level correspondences between the input image and rendering from first stage. MRC-Net employs a Siamese network with shared weights between both stages to learn embeddings for input and rendered images. To mitigate ambiguity when predicting discrete pose class labels on symmetric objects, we use soft probabilistic labels to define pose class in the first stage. We demonstrate state-of-the-art accuracy, outperforming all competing RGB-based methods on four challenging BOP benchmark datasets: T-LESS, LM-O, YCB-V, and ITODD. Our method is non-iterative and requires no complex post-processing. | 翻訳日:2024-03-14 16:55:14 公開日:2024-03-12 |
# 複数物体追跡のための学習データアソシエーション
調整
Learning Data Association for Multi-Object Tracking using Only Coordinates ( http://arxiv.org/abs/2403.08018v1 ) ライセンス: Link先を確認 | Mehdi Miah, Guillaume-Alexandre Bilodeau, Nicolas Saunier | (参考訳) マルチオブジェクト追跡のためのデータ関連問題に対処するトランスフォーマーベースのモジュールを提案する。
事前訓練された検出器によって得られた検出から、このモジュールは境界ボックスからの座標のみを使用して、2つの異なる時間窓から抽出されたトラックのペア間の親和性スコアを推定する。
TWiXという名前のこのモジュールは、同じオブジェクトから来るトラックのペアと、そうでないトラックのペアを識別する目的で、トラックのセットで訓練されている。
我々のモジュールは、ユニオン測度との交叉を使わないし、カメラの動き補正技術も必要としない。
オンラインカスケードマッチングパイプラインにTWiXを挿入することで、トラッカーC-TWiXは、DanceTrackとKITTIMOTデータセットで最先端のパフォーマンスを実現し、MOT17データセットで競合する結果を得る。
コードは公開時に公開されます。
We propose a novel Transformer-based module to address the data association problem for multi-object tracking. From detections obtained by a pretrained detector, this module uses only coordinates from bounding boxes to estimate an affinity score between pairs of tracks extracted from two distinct temporal windows. This module, named TWiX, is trained on sets of tracks with the objective of discriminating pairs of tracks coming from the same object from those which are not. Our module does not use the intersection over union measure, nor does it requires any motion priors or any camera motion compensation technique. By inserting TWiX within an online cascade matching pipeline, our tracker C-TWiX achieves state-of-the-art performance on the DanceTrack and KITTIMOT datasets, and gets competitive results on the MOT17 dataset. The code will be made available upon publication. | 翻訳日:2024-03-14 16:55:14 公開日:2024-03-12 |
# 説明可能なAIを用いたハイパースペクトル画像解析のためのレッドチームモデル
Red Teaming Models for Hyperspectral Image Analysis Using Explainable AI ( http://arxiv.org/abs/2403.08017v1 ) ライセンス: Link先を確認 | Vladimir Zaigrajew, Hubert Baniecki, Lukasz Tulczyjew, Agata M. Wijata, Jakub Nalepa, Nicolas Long\'ep\'e, Przemyslaw Biecek | (参考訳) 空間領域におけるリモートセンシング(RS)アプリケーションは、信頼性、堅牢、品質保証を備えた機械学習(ML)モデルを必要とする。
どちらの分野も独立して進展するため、赤いチーム戦略をRSに統合する際、顕著なギャップがある。
本稿では,土壌パラメータの推定に焦点をあて,HYPERVIEWチャレンジ内のハイパースペクトル画像で動作するMLモデルを検討する手法を提案する。
我々は、Explainable AI(XAI)ドメインからのポストホックな説明手法を使用して、HYPERVIEWチャレンジに勝った最高のパフォーマンスモデルを評価し、INTUITION-1ハイパースペクトルミッションに配備されたモデルのインスピレーションとなった。
当社のアプローチでは,主要な欠点を指摘・検証し,入力機能の1%に過ぎず,パフォーマンス損失の5%に過ぎず,同等のパフォーマンスを実現するモデルを構築することで,モデルを効果的に再設計しています。
さらに、高スペクトル帯域(波長)とデータ変換に関するドメイン固有情報を統合して、高スペクトル画像解析のための解釈モデルに適合する新しい説明法を提案する。
Remote sensing (RS) applications in the space domain demand machine learning (ML) models that are reliable, robust, and quality-assured, making red teaming a vital approach for identifying and exposing potential flaws and biases. Since both fields advance independently, there is a notable gap in integrating red teaming strategies into RS. This paper introduces a methodology for examining ML models operating on hyperspectral images within the HYPERVIEW challenge, focusing on soil parameters' estimation. We use post-hoc explanation methods from the Explainable AI (XAI) domain to critically assess the best performing model that won the HYPERVIEW challenge and served as an inspiration for the model deployed on board the INTUITION-1 hyperspectral mission. Our approach effectively red teams the model by pinpointing and validating key shortcomings, constructing a model that achieves comparable performance using just 1% of the input features and a mere up to 5% performance loss. Additionally, we propose a novel way of visualizing explanations that integrate domain-specific information about hyperspectral bands (wavelengths) and data transformations to better suit interpreting models for hyperspectral image analysis. | 翻訳日:2024-03-14 16:55:13 公開日:2024-03-12 |
# 物体検出のためのニューラルネットワークを用いたAedes aegypti Egg Counting
Aedes aegypti Egg Counting with Neural Networks for Object Detection ( http://arxiv.org/abs/2403.08016v1 ) ライセンス: Link先を確認 | Micheli Nayara de Oliveira Vicente, Gabriel Toshio Hirokawa Higa, Jo\~ao Vitor de Andrade Porto, Higor Henrique, Picoli Nucci, Asser Botelho Santana, Karla Rejane de Andrade Porto, Antonia Railda Roel, Hemerson Pistori | (参考訳) Aedes aegyptiは、病気のベクターに関しても、依然として主要な関心事の1つである。
これに対処する多くの方法の1つとして、レリアやブレトー指数などの指標を計算するために卵数を使用する重要なプロトコルがあり、予測可能なアウトバーストや疫病に関する情報を提供することができる。
また、特に蚊の大量生産が必要な場合、卵数を必要とする研究線が多数存在する。
エッグカウント(Egg counting)は、コンピュータビジョンベースの技術、特に物体検出を伴う深層学習に基づくカウントによって自動化される、退屈でエラーを起こしやすいタスクである。
本研究では、フィールドと実験室の卵からなる新しいデータセットと、より高速なR-CNN、サイドアウェア境界局所化、FoveaBoxの3つのニューラルネットワークのテスト結果を提案する。
Aedes aegypti is still one of the main concerns when it comes to disease vectors. Among the many ways to deal with it, there are important protocols that make use of egg numbers in ovitraps to calculate indices, such as the LIRAa and the Breteau Index, which can provide information on predictable outbursts and epidemics. Also, there are many research lines that require egg numbers, specially when mass production of mosquitoes is needed. Egg counting is a laborious and error-prone task that can be automated via computer vision-based techniques, specially deep learning-based counting with object detection. In this work, we propose a new dataset comprising field and laboratory eggs, along with test results of three neural networks applied to the task: Faster R-CNN, Side-Aware Boundary Localization and FoveaBox. | 翻訳日:2024-03-14 16:55:13 公開日:2024-03-12 |
# 海底における異常検出のための時系列分類の監督
工学
Supervised Time Series Classification for Anomaly Detection in Subsea Engineering ( http://arxiv.org/abs/2403.08013v1 ) ライセンス: Link先を確認 | Ergys \c{C}okaj, Halvor Snersrud Gustad, Andrea Leone, Per Thomas Moe, Lasse Moldestad | (参考訳) 時系列分類は構造システムのモニタリングにおいて重要である。
本研究では、IntactとBrokenの2つの状態を持つ物理システムに基づくシミュレーションデータに対する教師付き機械学習分類アルゴリズムの使用について検討する。
本稿では,時間データの事前処理について,統計的分散と次元縮小の手法を用いて包括的な議論を行う。
直感的なベースライン法を提案し,その効率性について議論する。
本稿では,さまざまなパフォーマンス指標に基づく各種手法の比較を行い,機械学習を意思決定のツールとして活用することの利点を示す。
Time series classification is of significant importance in monitoring structural systems. In this work, we investigate the use of supervised machine learning classification algorithms on simulated data based on a physical system with two states: Intact and Broken. We provide a comprehensive discussion of the preprocessing of temporal data, using measures of statistical dispersion and dimension reduction techniques. We present an intuitive baseline method and discuss its efficiency. We conclude with a comparison of the various methods based on different performance metrics, showing the advantage of using machine learning techniques as a tool in decision making. | 翻訳日:2024-03-14 16:55:12 公開日:2024-03-12 |
# アンサンブルを用いたGujarati-Bring Code-Switching Speech Recognition
話し言葉の予測
Gujarati-English Code-Switching Speech Recognition using ensemble prediction of spoken language ( http://arxiv.org/abs/2403.08011v1 ) ライセンス: Link先を確認 | Yash Sharma, Basil Abraham, Preethi Jyothi | (参考訳) コードスイッチによる音声認識における重要な課題は、特にアクセントにおいて、2つの言語における多くの単語が類似して聞こえるので、言語を認識することである。
本稿では,単語と文字の言語IDにトランスフォーマー層を条件付け,各層を教師する手法により,エンドツーエンドの自動音声認識モデルの性能向上に焦点をあてる。
そこで本研究では,マルチヘッドアテンション機構において,言語固有のパラメータと説明可能性を導入する2つの手法を提案し,入力アライメントの継続性を維持するための時間ロスを実装した。
WERを著しく削減できないにもかかわらず、本手法は音声データから正しい言語を予測することを約束している。
我々は,LIDをシーケンスにドロップすることで,長い繰り返し出力シーケンスの整列を支援する言語予測の正規化を導入する。
An important and difficult task in code-switched speech recognition is to recognize the language, as lots of words in two languages can sound similar, especially in some accents. We focus on improving performance of end-to-end Automatic Speech Recognition models by conditioning transformer layers on language ID of words and character in the output in an per layer supervised manner. To this end, we propose two methods of introducing language specific parameters and explainability in the multi-head attention mechanism, and implement a Temporal Loss that helps maintain continuity in input alignment. Despite being unable to reduce WER significantly, our method shows promise in predicting the correct language from just spoken data. We introduce regularization in the language prediction by dropping LID in the sequence, which helps align long repeated output sequences. | 翻訳日:2024-03-14 16:55:12 公開日:2024-03-12 |
# Debatrix: 反復時間による多次元議論判断
LLMに基づく解析
Debatrix: Multi-dimensinal Debate Judge with Iterative Chronological Analysis Based on LLM ( http://arxiv.org/abs/2403.08010v1 ) ライセンス: Link先を確認 | Jingcong Liang, Rong Ye, Meng Han, Ruofei Lai, Xinyu Zhang, Xuanjing Huang and Zhongyu Wei | (参考訳) 広範囲で活気あるマルチターンの議論を評価するために、自動討論審査をどうやって構築できるのか?
この課題は、長いテキスト、複雑な議論関係、多次元アセスメントなどで議論されるので、難しい。
同時に、現在の研究は主に短い対話に焦点を当てており、議論全体を評価することはめったにない。
本稿では,Large Language Models (LLMs) を利用して,マルチターン討論の分析と評価を行うDebatrixを提案する。
具体的には、Debatrixは垂直かつ反復的な時系列分析と水平多次元評価コラボレーションを備えている。
実世界の議論シナリオに合わせるため、私たちはPanelBenchベンチマークを導入し、システムの性能と実際の議論結果を比較した。
以上の結果から,LSMを直接使用して議論評価を行うことによる顕著な改善が示唆された。
ソースコードとベンチマークデータはhttps://github.com/ljcleo/Debatrix.comで公開されている。
How can we construct an automated debate judge to evaluate an extensive, vibrant, multi-turn debate? This task is challenging, as judging a debate involves grappling with lengthy texts, intricate argument relationships, and multi-dimensional assessments. At the same time, current research mainly focuses on short dialogues, rarely touching upon the evaluation of an entire debate. In this paper, by leveraging Large Language Models (LLMs), we propose Debatrix, which makes the analysis and assessment of multi-turn debates more aligned with majority preferences. Specifically, Debatrix features a vertical, iterative chronological analysis and a horizontal, multi-dimensional evaluation collaboration. To align with real-world debate scenarios, we introduced the PanelBench benchmark, comparing our system's performance to actual debate outcomes. The findings indicate a notable enhancement over directly using LLMs for debate evaluation. Source code and benchmark data are available online at https://github.com/ljcleo/Debatrix . | 翻訳日:2024-03-14 16:55:12 公開日:2024-03-12 |
# IndicSTR12: インデックスシーンテキスト認識のためのデータセット
IndicSTR12: A Dataset for Indic Scene Text Recognition ( http://arxiv.org/abs/2403.08007v1 ) ライセンス: Link先を確認 | Harsh Lunia, Ajoy Mondal and C V Jawahar | (参考訳) 現在のデジタル世界におけるシーンテキスト認識(STR)の重要性は過大評価されない。
STRの重要性を考えれば、自動学習機能マッピングのためのデータ集約型ディープラーニングアプローチは、STRソリューションの開発を主導している。
このニーズを満たすために、いくつかのベンチマークデータセットとディープラーニングモデルに関する重要な作業がラテン言語で利用可能である。
より複雑で構文的に、セマンティックに、13億人の人々が話すインドの言語では、仕事やデータセットは少ない。
本稿は、インドで最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要インドの言語でSTRのパフォーマンスをベンチマークすることで、インドにおける包括的なデータセットの欠如に対処することを目的としている。
同じ問題に対処した研究はいくつかありますが、私たちの知る限りでは、少数のインドの言語に重点を置いています。
提案するデータセットのサイズと複雑さは、既存のラテン語の同時代のデータセットに匹敵するが、その多言語主義は、堅牢なテキスト検出と認識モデルの開発を触媒する。
それは、異なるスクリプトを持つ関連言語のグループのために特別に作られた。
データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
以前のデータセットとは異なり、画像は、ぼかし、照明変更、閉塞、非音素テキスト、低解像度、遠近法テキストなど、幅広い現実的な条件をカバーしている。
新しいデータセットとともに、PARSeq、CRNN、STARNetという3つのモデルで高いパフォーマンスのベースラインを提供します。
The importance of Scene Text Recognition (STR) in today's increasingly digital world cannot be overstated. Given the significance of STR, data intensive deep learning approaches that auto-learn feature mappings have primarily driven the development of STR solutions. Several benchmark datasets and substantial work on deep learning models are available for Latin languages to meet this need. On more complex, syntactically and semantically, Indian languages spoken and read by 1.3 billion people, there is less work and datasets available. This paper aims to address the Indian space's lack of a comprehensive dataset by proposing the largest and most comprehensive real dataset - IndicSTR12 - and benchmarking STR performance on 12 major Indian languages. A few works have addressed the same issue, but to the best of our knowledge, they focused on a small number of Indian languages. The size and complexity of the proposed dataset are comparable to those of existing Latin contemporaries, while its multilingualism will catalyse the development of robust text detection and recognition models. It was created specifically for a group of related languages with different scripts. The dataset contains over 27000 word-images gathered from various natural scenes, with over 1000 word-images for each language. Unlike previous datasets, the images cover a broader range of realistic conditions, including blur, illumination changes, occlusion, non-iconic texts, low resolution, perspective text etc. Along with the new dataset, we provide a high-performing baseline on three models - PARSeq, CRNN, and STARNet. | 翻訳日:2024-03-14 16:55:11 公開日:2024-03-12 |
# 異方性4f系における磁化の量子トンネル
イオン対:低温ゼロ磁場緩和速度
Quantum tunneling of the magnetization in systems with anisotropic 4f ion pairs: Rates from low temperature zero field relaxation ( http://arxiv.org/abs/2403.08006v1 ) ライセンス: Link先を確認 | Thomas Greber | (参考訳) 異方性開殻4fイオンは原子ビットとして読み書きできる磁気モーメントを有する。
波動関数の位相を書き、制御し、読み込まなければならないqbitsの場合、異なる感受性を持つ状態に対処できるため、システムの量子情報を運ぶ複数の原子に依存するのが有利である。
このような系は、量子トンネル過程において4つの擬似スピン状態を発見し混合する単一分子磁石中のランタニド対に対して実現される。
Dy2S@C82やTb2ScN@C80のような内面フラーレンの場合、磁化の量子トンネルはケルビン以下の温度で磁化寿命に印加される。
磁化の量子トンネルを含むハミルトニアンは、そのような系における磁場へのゼロ場状態縮退と非線形結合の解除を予測する。
Anisotropic open shell 4f ions have magnetic moments that can be read and written as atomic bits. If it comes to qbits where the phase of the wave function has to be written, controlled and read, it is of advantage to rely on more than one atom that carries the quantum information of the system because states with different susceptibilities may be addressed. Such systems are realized for pairs of lanthanides in single molecule magnets, where four pseudospin states are found and mixed in quantum tunneling processes. For the case of endohedral fullerenes like Dy2S@C82 or Tb2ScN@C80 the quantum tunneling of the magnetisation is imprinted in the magnetisation lifetimes at sub-Kelvin temperatures. A Hamiltonian that includes quantum tunneling of the magnetisation predicts the lifting of the zero field ground state degeneracy and non-linear coupling to magnetic fields in such systems. | 翻訳日:2024-03-14 16:55:10 公開日:2024-03-12 |
# Pix2Pix-OnTheFly:インストラクションガイドによる画像編集にLLMを活用する
Pix2Pix-OnTheFly: Leveraging LLMs for Instruction-Guided Image Editing ( http://arxiv.org/abs/2403.08004v1 ) ライセンス: Link先を確認 | Rodrigo Santos, Jo\~ao Silva, Ant\'onio Branco | (参考訳) 言語処理と画像処理の組み合わせは、両方の研究領域の強みを生かした最近の印象的な進歩を考えると、関心が高まり続けている。
これらの進歩の中で、自然言語命令のみに基づいて画像を編集する作業は、最も困難な取り組みとして際立っている。
本研究は, 何らかの準備, 訓練, 微調整に対する近年の取り組みに対して, 新たなアプローチを提案する: 命令誘導画像編集をオンザフライで行うための, 準備不要な手法を提案する。
本手法は,画像キャプションとDDIMのインバージョンを併用し,編集方向の埋め込みを行い,画像編集を適切に行う3つのステップに沿って編成される。
提案手法は,予備準備を伴わずに,MAGICBRUSHデータセットを用いて評価した場合に,この課題に対する最近の最先端モデルよりも効果的かつ競争的であることが実証された。
The combination of language processing and image processing keeps attracting increased interest given recent impressive advances that leverage the combined strengths of both domains of research. Among these advances, the task of editing an image on the basis solely of a natural language instruction stands out as a most challenging endeavour. While recent approaches for this task resort, in one way or other, to some form of preliminary preparation, training or fine-tuning, this paper explores a novel approach: We propose a preparation-free method that permits instruction-guided image editing on the fly. This approach is organized along three steps properly orchestrated that resort to image captioning and DDIM inversion, followed by obtaining the edit direction embedding, followed by image editing proper. While dispensing with preliminary preparation, our approach demonstrates to be effective and competitive, outperforming recent, state of the art models for this task when evaluated on the MAGICBRUSH dataset. | 翻訳日:2024-03-14 16:55:10 公開日:2024-03-12 |
# ポイントトラッキングを用いたビデオにおけるリアルタイム手術機器のセグメンテーション
セグメンテーション
Real-time Surgical Instrument Segmentation in Video Using Point Tracking and Segment Anything ( http://arxiv.org/abs/2403.08003v1 ) ライセンス: Link先を確認 | Zijian Wu, Adam Schmidt, Peter Kazanzides, and Septimiu E. Salcudean | (参考訳) Segment Anything Model (SAM)は、従来のセグメンテーションのパラダイムに革命をもたらす強力なビジョン基盤モデルである。
それにもかかわらず、各フレームの推進と計算コストへの依存は、ロボット支援手術における使用を制限する。
拡張現実のガイダンスのようなアプリケーションは、臨床に使用するために効率的な推論とともに、ユーザーの介入をほとんど必要としない。
本研究では,スピード要件を満たすために軽量なSAM変異体を採用し,手術シーンにおける一般化を促進するための微調整技術を用いて,これらの制限に対処する。
追跡任意の点(TAP)の最近の進歩は、特に点が排除されたり、視野を離れたりする場合、精度と効率の両面で有望な結果を示している。
この進歩に触発されて、オンラインポイントトラッカーと、手術器具のセグメンテーションのために微調整された軽量SAMモデルを組み合わせた新しいフレームワークを提案する。
関心領域内のスパースポイントが追跡され、SAMをビデオシーケンス全体を通してプロンプトし、時間的一貫性を提供する。
定量化結果は、EdoVis 2015データセット上の最先端の半教師付きビデオオブジェクトセグメンテーションメソッドを超え、単一のGeForce RTX 4060 GPU上で25以上のFPS推論速度が実行される。
The Segment Anything Model (SAM) is a powerful vision foundation model that is revolutionizing the traditional paradigm of segmentation. Despite this, a reliance on prompting each frame and large computational cost limit its usage in robotically assisted surgery. Applications, such as augmented reality guidance, require little user intervention along with efficient inference to be usable clinically. In this study, we address these limitations by adopting lightweight SAM variants to meet the speed requirement and employing fine-tuning techniques to enhance their generalization in surgical scenes. Recent advancements in Tracking Any Point (TAP) have shown promising results in both accuracy and efficiency, particularly when points are occluded or leave the field of view. Inspired by this progress, we present a novel framework that combines an online point tracker with a lightweight SAM model that is fine-tuned for surgical instrument segmentation. Sparse points within the region of interest are tracked and used to prompt SAM throughout the video sequence, providing temporal consistency. The quantitative results surpass the state-of-the-art semi-supervised video object segmentation method on the EndoVis 2015 dataset, with an over 25 FPS inference speed running on a single GeForce RTX 4060 GPU. | 翻訳日:2024-03-14 16:55:10 公開日:2024-03-12 |
# バイオメディカル・コンピテンシーギャップを橋渡しする小型マルチモーダルモデル:A
放射線画像のケーススタディ
Training Small Multimodal Models to Bridge Biomedical Competency Gap: A Case Study in Radiology Imaging ( http://arxiv.org/abs/2403.08002v1 ) ライセンス: Link先を確認 | Juan Manuel Zambrano Chaves, Shih-Cheng Huang, Yanbo Xu, Hanwen Xu, Naoto Usuyama, Sheng Zhang, Fei Wang, Yujia Xie, Mahmoud Khademi, Ziyi Yang, Hany Awadalla, Julia Gong, Houdong Hu, Jianwei Yang, Chunyuan Li, Jianfeng Gao, Yu Gu, Cliff Wong, Mu Wei, Tristan Naumann, Muhao Chen, Matthew P. Lungren, Serena Yeung-Levy, Curtis P. Langlotz, Sheng Wang, Hoifung Poon | (参考訳) 大規模ファンデーションモデルのスケーリング法則と異常な性能は、このような大規模モデルのバイオメディシン開発と利用を動機付けている。
しかしながら、いくつかのバイオメディカルなベンチマークで早期に有望な結果が出たにもかかわらず、これらのモデルが現実世界のアプリケーションで使われるようになる前に対処する必要がある大きな課題がまだ残っている。
GPT-4Vのようなフロンティアモデルは、バイオメディカル応用のためのマルチモーダル能力において依然として大きな能力ギャップがある。
さらに、アクセス、コスト、レイテンシ、コンプライアンスといった実用的問題により、臨床医は、プライベートにホストされた最先端の大規模モデルをプライベートな患者データに直接使用するのが難しくなる。
本稿では, バイオメディカル・コンピテンシーのギャップを埋めるために, オープンソースの小型マルチモーダル・モデル(SMM)の訓練について検討する。
データ効率を最大化するために、画像とテキストのモダリティに関する最先端の事前訓練モデルを導入し、各モダリティをテキスト埋め込み空間に基礎付けるための軽量アダプタのトレーニングに重点を置いて、モジュラーアプローチを採用する。
ラジオグラフィー画像におけるこのアプローチの包括的研究を行っている。
トレーニングのために、100万以上の画像テキストペアからなる大規模なデータセットを組み立てます。
評価のために,GPT-4を用いた臨床駆動型新規アプローチを提案し,専門家による評価と同等性を実証した。
我々はまた、注意力を用いて定性的に接地について研究する。
ベストプラクティスとして、データエンジニアリングとマルチモーダルトレーニングにおける様々な選択肢に関する体系的アブレーション研究を行う。
結果のLLaVA-Rad (7B) モデルは、レポート生成やクロスモーダル検索といった放射線学のタスクにおいて、GPT-4V や Med-PaLM M (84B) のようなはるかに大きなモデルよりも優れた結果が得られる。
LLaVA-Radは高速で、単一のV100 GPU上でプライベート設定で実行できる。
The scaling laws and extraordinary performance of large foundation models motivate the development and utilization of such large models in biomedicine. However, despite early promising results on some biomedical benchmarks, there are still major challenges that need to be addressed before these models can be used in real-world applications. Frontier models such as GPT-4V still have major competency gaps in multimodal capabilities for biomedical applications. Moreover, pragmatic issues such as access, cost, latency, and compliance make it hard for clinicians to use privately-hosted state-of-the-art large models directly on private patient data. In this paper, we explore training open-source small multimodal models (SMMs) to bridge biomedical competency gaps for unmet clinical needs. To maximize data efficiency, we adopt a modular approach by incorporating state-of-the-art pre-trained models for image and text modalities, and focusing on training a lightweight adapter to ground each modality to the text embedding space. We conduct a comprehensive study of this approach on radiology imaging. For training, we assemble a large dataset with over 1 million image-text pairs. For evaluation, we propose a clinically driven novel approach using GPT-4 and demonstrate its parity with expert evaluation. We also study grounding qualitatively using attention. For best practice, we conduct a systematic ablation study on various choices in data engineering and multimodal training. The resulting LLaVA-Rad (7B) model attains state-of-the-art results on radiology tasks such as report generation and cross-modal retrieval, even outperforming much larger models such as GPT-4V and Med-PaLM M (84B). LLaVA-Rad is fast and can be run on a single V100 GPU in private settings, offering a promising state-of-the-art tool for real-world clinical applications. | 翻訳日:2024-03-14 16:55:09 公開日:2024-03-12 |
# モチーフ, プラース, その他: シンボリック構造モデリング
音楽生成
Motifs, Phrases, and Beyond: The Modelling of Structure in Symbolic Music Generation ( http://arxiv.org/abs/2403.07995v1 ) ライセンス: Link先を確認 | Keshav Bhandari, Simon Colton | (参考訳) 音楽構造をモデル化することは、シンボリック・ミュージック・コンポジションを生成する人工知能システムにとって重要な課題である。
本稿では,コヒーレントな構造を取り入れた手法の進化を,記号的アプローチから,多種多様な訓練パラダイムをまたいだ計算とデータのパワーを利用する基礎的および変換的深層学習手法まで,論じる。
後段では、音楽生成を高レベルな構造計画とコンテンツ生成段階に分解する「サブタスク分解」と呼ばれる新しい手法を概観する。
このようなシステムには、メロディック骨格や構造的テンプレートを抽出して生成を導くことで、ある種の音楽的知識やニューロシンボリックな手法が組み込まれている。
進歩は、レビューされた3つの時代のモチーフと反復を捉える上で明らかであるが、人間の作曲家のスタイルで拡張された作曲にまたがるテーマの微妙な展開をモデル化することは依然として困難である。
我々は,すべての時代のアプローチを組み合わせることによる相乗効果を実現するために,いくつかの重要な方向性を概説する。
Modelling musical structure is vital yet challenging for artificial intelligence systems that generate symbolic music compositions. This literature review dissects the evolution of techniques for incorporating coherent structure, from symbolic approaches to foundational and transformative deep learning methods that harness the power of computation and data across a wide variety of training paradigms. In the later stages, we review an emerging technique which we refer to as "sub-task decomposition" that involves decomposing music generation into separate high-level structural planning and content creation stages. Such systems incorporate some form of musical knowledge or neuro-symbolic methods by extracting melodic skeletons or structural templates to guide the generation. Progress is evident in capturing motifs and repetitions across all three eras reviewed, yet modelling the nuanced development of themes across extended compositions in the style of human composers remains difficult. We outline several key future directions to realize the synergistic benefits of combining approaches from all eras examined. | 翻訳日:2024-03-14 16:55:08 公開日:2024-03-12 |
# 量子テレポーテーションの証明の課題--その先へ
従来のフィデリティ・ベンチマークは
Challenges in certifying quantum teleportation: moving beyond conventional fidelity benchmark ( http://arxiv.org/abs/2403.07994v1 ) ライセンス: Link先を確認 | D. G. Bussandri, G. M. Bosyk, F. Toscano | (参考訳) 従来の量子テレポーテーションプロトコルの認証方法は、目標状態とテレポーテーション状態の間の達成可能な古典的平均忠実度を超えることに依存している。
量子状態空間における異なる距離測度と考えると、矛盾した結論が得られ、矛盾する解釈が導かれる。
特に、この挙動は、資源状態がベル状態リソースに作用する非分極チャネルの影響によって生成されるワーナー状態の形をとる非常に一般的なノイズのある実験シナリオをモデル化する際に現れる。
振幅減衰チャネルに基づく2つの追加ノイズモデルも分析した。
したがって、我々の研究は、量子テレポーテーションのための新しい認証方法の必要性を強調している。
The conventional certification method for quantum teleportation protocols relies on surpassing the highest achievable classical average fidelity between target and teleported states. Our investigation highlights the limitations of this approach: inconsistent conclusions can be obtained when it is considered different distance measures in the quantum state space, leading to contradictory interpretations. In particular, this behavior is manifested when modeling a very common noisy experimental scenario, in which the resource state takes the form of a Werner state generated by the influence of a depolarizing channel acting on the Bell state resource. Two additional noise models, based on amplitude-damping channel, are also analyzed. Our work, therefore, stresses the necessity of new certification methods for quantum teleportation. | 翻訳日:2024-03-14 16:55:08 公開日:2024-03-12 |
# 散逸周波数変換器:リンドブラッド力学から非エルミチアンへ
トポロジー
Dissipative frequency converter: from Lindblad dynamics to non-Hermitian topology ( http://arxiv.org/abs/2403.07991v1 ) ライセンス: Link先を確認 | Florian Koch, Jan Carl Budich | (参考訳) トポロジカル周波数変換器は、整数量子ホール効果のダイナミックな表現であり、2レベルシステムは2つの非共振周波数の駆動モード間の量子化された時間平均電力転送を実行する。
ここでは、2レベル系の量子力学における時間的コヒーレンスがコンバータのトポロジカル量子化にどの程度重要であるかを検討する。
この目的のために、ハミルトニアンの瞬時固有ベイズにおける自発的減衰と退化に対応する散逸的チャネルと、固定基底における自発的減衰を考察する。
散逸はリンドブラッドと実効的な非エルミート的(NH)ハミルトニアン記述の両方を用いてモデル化される。
これら3つの散逸系では、未摂動力学から量子ウォッチドッグ効果への遷移が見出され、強い結合限界における電力移動が破壊される。
これは、ウォッチドッグ効果が瞬間的な固有ベイシスにおいて完全に断熱的なダイナミクスをもたらすため、一見したところ、未成熟のケースに似ています。
さらに、劣化は混合量子状態における偏光の損失により、時間内に電力移動が指数関数的に崩壊することにつながることが判明した。
最後に,全リンドブラッド力学において抑制される非断熱過程の効果的なNH軌道記述の出現について論じる。
A topological frequency converter represents a dynamical counterpart of the integer quantum Hall effect, where a two-level system enacts a quantized time-averaged power transfer between two driving modes of incommensurate frequency. Here, we investigate as to what extent temporal coherence in the quantum dynamics of the two-level system is important for the topological quantization of the converter. To this end, we consider dissipative channels corresponding to spontaneous decay and dephasing in the instantaneous eigenbasis of the Hamiltonian as well as spontaneous decay in a fixed basis. The dissipation is modelled using both a full Lindblad and an effective non-Hermitian (NH) Hamiltonian description. For all three dissipation channels we find a transition from the unperturbed dynamics to a quantum watchdog effect, which destroys any power transfer in the strong coupling limit. This is striking because the watchdog effect leads to perfectly adiabatic dynamics in the instantaneous eigenbasis, at first glance similar to the unperturbed case. Furthermore, it is found that dephasing immediately leads to an exponential decay of the power transfer in time due to loss of polarisation in the mixed quantum state. Finally, we discuss the appearance in the effective NH trajectory description of non-adiabatic processes, which are suppressed in the full Lindblad dynamics. | 翻訳日:2024-03-14 16:55:07 公開日:2024-03-12 |
# エージェントは電気シープを夢見るか? : 一般化をめざして
生成学習による強化学習
Do Agents Dream of Electric Sheep?: Improving Generalization in Reinforcement Learning through Generative Learning ( http://arxiv.org/abs/2403.07979v1 ) ライセンス: Link先を確認 | Giorgio Franceschelli and Mirco Musolesi | (参考訳) Overfitted Brain仮説は、夢は人間の脳の一般化を可能にすることを示唆している。
ここでは、強化学習エージェントにも同様のことが当てはまるか尋ねる。
現実の環境での限られた経験から、想像力に基づく強化学習を用いて夢のようなエピソードのポリシーを訓練する。
4つのProcGen環境における実験により,従来の想像力や学習経験のオフライントレーニングに比べ,少ない報奨環境を扱う場合,より高度な一般化を実現することができた。
The Overfitted Brain hypothesis suggests dreams happen to allow generalization in the human brain. Here, we ask if the same is true for reinforcement learning agents as well. Given limited experience in a real environment, we use imagination-based reinforcement learning to train a policy on dream-like episodes, where non-imaginative, predicted trajectories are modified through generative augmentations. Experiments on four ProcGen environments show that, compared to classic imagination and offline training on collected experience, our method can reach a higher level of generalization when dealing with sparsely rewarded environments. | 翻訳日:2024-03-14 16:55:07 公開日:2024-03-12 |
# LiveCodeBench: 大規模で完全かつ汚染のない評価
コードのための言語モデル
LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code ( http://arxiv.org/abs/2403.07974v1 ) ライセンス: Link先を確認 | Naman Jain, King Han, Alex Gu, Wen-Ding Li, Fanjia Yan, Tianjun Zhang, Sida Wang, Armando Solar-Lezama, Koushik Sen, Ion Stoica | (参考訳) コード関連アプリケーションに適用される大規模言語モデル(LLM)が目覚ましい分野として現れ、学術と産業の両方から大きな関心を集めている。
しかし、新しいLLMが開発されるにつれて、既存の評価ベンチマーク(例えば、HumanEval、MBPP)は、その能力を評価するのに十分ではない。
本研究では,コードに対するLLMの包括的かつ汚染のない評価であるLiveCodeBenchを提案する。これは,LeetCode,AtCoder,CodeForcesという3つの競合プラットフォームを対象としたコンテストから,時間とともに新たな問題を収集するものだ。
特に、我々のベンチマークは、コード生成だけでなく、自己修復、コード実行、テスト出力予測など、幅広いコード関連機能にも焦点を当てています。
現在、LiveCodeBenchは、2023年5月から2024年2月までに発行された400の高品質なコーディング問題をホストしている。
我々はLiveCodeBench上で,9つの基本LLMと20個の命令調整LDMを評価した。
本稿では, 汚染, 総合的な性能比較, 既存ベンチマークの過度なオーバーフィット, および個別モデル比較に関する実証的な知見を示す。
新たなシナリオとモデルを追加するための汎用ツールキットとともに、コミュニティ分析のためのすべてのプロンプトとモデル補完をリリースします。
Large Language Models (LLMs) applied to code-related applications have emerged as a prominent field, attracting significant interest from both academia and industry. However, as new and improved LLMs are developed, existing evaluation benchmarks (e.g., HumanEval, MBPP) are no longer sufficient for assessing their capabilities. In this work, we propose LiveCodeBench, a comprehensive and contamination-free evaluation of LLMs for code, which continuously collects new problems over time from contests across three competition platforms, namely LeetCode, AtCoder, and CodeForces. Notably, our benchmark also focuses on a broader range of code related capabilities, such as self-repair, code execution, and test output prediction, beyond just code generation. Currently, LiveCodeBench hosts four hundred high-quality coding problems that were published between May 2023 and February 2024. We have evaluated 9 base LLMs and 20 instruction-tuned LLMs on LiveCodeBench. We present empirical findings on contamination, holistic performance comparisons, potential overfitting in existing benchmarks as well as individual model comparisons. We will release all prompts and model completions for further community analysis, along with a general toolkit for adding new scenarios and model | 翻訳日:2024-03-14 16:55:06 公開日:2024-03-12 |
# KnowCoder: 構造化知識をユニバーサルのためにLLMにコーディングする
情報抽出
KnowCoder: Coding Structured Knowledge into LLMs for Universal Information Extraction ( http://arxiv.org/abs/2403.07969v1 ) ライセンス: Link先を確認 | Zixuan Li, Yutao Zeng, Yuxin Zuo, Weicheng Ren, Wenxuan Liu, Miao Su, Yucan Guo, Yantao Liu, Xiang Li, Zhilei Hu, Long Bai, Wei Li, Yidan Liu, Pan Yang, Xiaolong Jin, Jiafeng Guo and Xueqi Cheng | (参考訳) 本稿では,Large Language Model (LLM) を用いて,コード生成によるユニバーサル情報抽出(UIE)を行う。
KnowCoderは、LLMが容易に理解できるような統合スキーマ表現や、LLMにスキーマに従うことを奨励し、構造化知識を正確に抽出する効果的な学習フレームワークを開発することを目的としている。
これを実現するために、KnowCoderは、異なるスキーマをPythonクラスに一様に変換するコードスタイルのスキーマ表現手法を導入し、UIEのタスク間の制約のような複雑なスキーマ情報をLLMフレンドリーな方法でキャプチャできる。
さらに私たちは、UIEにとって最大の知識である$\textbf{30,000}$の知識を網羅するコードスタイルのスキーマライブラリを構築しています。
LLMの学習プロセスを容易にするために、KnowCoderは、コード事前学習によるスキーマ理解能力と、命令チューニングによるスキーマ追従能力を向上させる2段階の学習フレームワークを含んでいる。
1.5ドル前後で事前トレーニングを行った後、KnowCoderはすでに優れた一般化能力を獲得し、数ショット設定でLLaMA2と比較して$\textbf{49.8\%}$ F1で相対的に改善されている。
命令チューニングの後、KnowCoderはさらに、目に見えないスキーマに対して強力な一般化能力を示し、ゼロショット設定と低いリソース設定の下で、それぞれソータベースラインと比較して、$\textbf{12.5\%}$と$\textbf{21.9\%}$を達成する。
さらに、統合スキーマ表現に基づいて、さまざまな人間アノテーション付きデータセットを同時に使用してKnowCoderを洗練させ、教師付き設定で$\textbf{7.5\%}$まで大幅な改善を実現します。
In this paper, we propose KnowCoder, a Large Language Model (LLM) to conduct Universal Information Extraction (UIE) via code generation. KnowCoder aims to develop a kind of unified schema representation that LLMs can easily understand and an effective learning framework that encourages LLMs to follow schemas and extract structured knowledge accurately. To achieve these, KnowCoder introduces a code-style schema representation method to uniformly transform different schemas into Python classes, with which complex schema information, such as constraints among tasks in UIE, can be captured in an LLM-friendly manner. We further construct a code-style schema library covering over $\textbf{30,000}$ types of knowledge, which is the largest one for UIE, to the best of our knowledge. To ease the learning process of LLMs, KnowCoder contains a two-phase learning framework that enhances its schema understanding ability via code pretraining and its schema following ability via instruction tuning. After code pretraining on around $1.5$B automatically constructed data, KnowCoder already attains remarkable generalization ability and achieves relative improvements by $\textbf{49.8\%}$ F1, compared to LLaMA2, under the few-shot setting. After instruction tuning, KnowCoder further exhibits strong generalization ability on unseen schemas and achieves up to $\textbf{12.5\%}$ and $\textbf{21.9\%}$, compared to sota baselines, under the zero-shot setting and the low resource setting, respectively. Additionally, based on our unified schema representations, various human-annotated datasets can simultaneously be utilized to refine KnowCoder, which achieves significant improvements up to $\textbf{7.5\%}$ under the supervised setting. | 翻訳日:2024-03-14 16:55:06 公開日:2024-03-12 |
# ディープニューラルネットワークはスタードメインを形成するか?
Do Deep Neural Network Solutions Form a Star Domain? ( http://arxiv.org/abs/2403.07968v1 ) ライセンス: Link先を確認 | Ankit Sonthalia, Alexander Rubinstein, Ehsan Abbasnejad, Seong Joon Oh | (参考訳) Entezari et al (2022) は、確率勾配降下(SGD)を介して到達可能なニューラルネットワーク解集合は、置換不変性を考慮して凸であると予想した。
これは、2つの独立解が低損失の線型経路で接続できることを意味する。
しかし、この理論をテストする現在の方法は、2つの独立解(Ainsworth et al , 2022; Benzing et al , 2022)の間の損失障壁を排除できないことが多い。
この研究において、より緩和された主張が成り立つ: SGD 解集合は、低損失値の経路、モジュロ置換によって他のすべての解に線型に接続されたスターモデルを含むスター領域である。
本稿では,与えられた学習課題のスターモデルを求めるスターライトアルゴリズムを提案する。
我々は、この星モデルが他の独立に発見された解と線形に結びついていることを示すことによって、我々の主張を検証する。
この研究のさらなる利点として、得られた恒星領域に対するベイズモデル平均値に関するより良い不確実性の推定を実証する。
コードはhttps://github.com/aktsonthalia/starlight.comから入手できる。
Entezari et al. (2022) conjectured that neural network solution sets reachable via stochastic gradient descent (SGD) are convex, considering permutation invariances. This means that two independent solutions can be connected by a linear path with low loss, given one of them is appropriately permuted. However, current methods to test this theory often fail to eliminate loss barriers between two independent solutions (Ainsworth et al., 2022; Benzing et al., 2022). In this work, we conjecture that a more relaxed claim holds: the SGD solution set is a star domain that contains a star model that is linearly connected to all the other solutions via paths with low loss values, modulo permutations. We propose the Starlight algorithm that finds a star model of a given learning task. We validate our claim by showing that this star model is linearly connected with other independently found solutions. As an additional benefit of our study, we demonstrate better uncertainty estimates on Bayesian Model Averaging over the obtained star domain. Code is available at https://github.com/aktsonthalia/starlight. | 翻訳日:2024-03-14 16:55:05 公開日:2024-03-12 |
# インドにおける機械学習による水稲収量予測の可能性
気候分析データを用いた地域レベル
Feasibility of machine learning-based rice yield prediction in India at the district level using climate reanalysis data ( http://arxiv.org/abs/2403.07967v1 ) ライセンス: Link先を確認 | Djavan De Clercq, Adam Mahdi | (参考訳) 収穫前に農業生産性を予測する科学である収量予測は、幅広い利害関係者が農業計画に関してより良い意思決定を行うのに役立つ。
本研究の目的は,インドにおける水稲収穫の数ヶ月前に,機械学習による収穫予測モデルがハリフの季節米収量を予測することができるかどうかを検討することである。
この手法は、20年間の気候、衛星、米の収量データに基づいて、CataBoost、LightGBM、Orthogonal Matching Pursuit、Extremely Randomized Treesなどの19の機械学習モデルをインド水稲生産地区247カ所で訓練することを含む。
モデル構築に加えて,水稲収量予測の信頼性が地域によってどのように異なるかを理解するための動的ダッシュボードが構築された。
概念実証機械学習パイプラインの結果,水稲収量は,それぞれ0.82,0.29,0.16のサンプル外R2,MAE,MAPEの精度で予測できることが確認された。
これらの結果は、他の状況や国における米の収量モデリングに関する関連文献で報告されたテストセットのパフォーマンスに優れていた。
さらに、SHAP値解析を行い、モデルに含まれる気候とリモートセンシング変数の重要性と方向性の両方を推定した。
米の収量に重要な特徴は、温度、土壌水量、葉面積指数である。
特に8月の高温は、特に8月の葉面積指数が高い場合には、米の収量の増加と相関する。
結果に基づいて、概念実証ダッシュボードが開発され、ユーザーは前年と比較して、どの地域が収量の増加または減少を経験するかを簡単に探ることができる。
Yield forecasting, the science of predicting agricultural productivity before the crop harvest occurs, helps a wide range of stakeholders make better decisions around agricultural planning. This study aims to investigate whether machine learning-based yield prediction models can capably predict Kharif season rice yields at the district level in India several months before the rice harvest takes place. The methodology involved training 19 machine learning models such as CatBoost, LightGBM, Orthogonal Matching Pursuit, and Extremely Randomized Trees on 20 years of climate, satellite, and rice yield data across 247 of Indian rice-producing districts. In addition to model-building, a dynamic dashboard was built understand how the reliability of rice yield predictions varies across districts. The results of the proof-of-concept machine learning pipeline demonstrated that rice yields can be predicted with a reasonable degree of accuracy, with out-of-sample R2, MAE, and MAPE performance of up to 0.82, 0.29, and 0.16 respectively. These results outperformed test set performance reported in related literature on rice yield modeling in other contexts and countries. In addition, SHAP value analysis was conducted to infer both the importance and directional impact of the climate and remote sensing variables included in the model. Important features driving rice yields included temperature, soil water volume, and leaf area index. In particular, higher temperatures in August correlate with increased rice yields, particularly when the leaf area index in August is also high. Building on the results, a proof-of-concept dashboard was developed to allow users to easily explore which districts may experience a rise or fall in yield relative to the previous year. | 翻訳日:2024-03-14 16:55:04 公開日:2024-03-12 |
# 地球変動の影響を推定するためのランク付け手法の適用
温度予測誤差で
Applying ranking techniques for estimating influence of Earth variables on temperature forecast error ( http://arxiv.org/abs/2403.07966v1 ) ライセンス: Link先を確認 | M. Julia Flores, Melissa Ruiz-V\'asquez, Ana Bastos, Ren\'e Orth | (参考訳) 本稿では,地球系の変数が温度予測を行う際の誤差に与える影響を解析する方法について述べる。
データを入手するための最初のフレームワークは、これまでの研究成果に基づいており、非常に興味深い発見となった。
しかし、上記の研究は、誤差に関する変数の個々の相関にのみ取り組んでいた。
本研究は,(1)データサイエンスのアプローチをいくつかの代表的な場所で適用すること,(2)スピアマン相関によるランキングを生かした上で,変数のより堅牢なランキングを求める他の指標に富むこと,(3)異なる実験的バリエーションによる回帰のランダム森林モデル学習による方法論の評価,の3つの特徴を紹介する。
主な貢献は、相関関係をランキングに変換し、それらを総合的なランキングに組み合わせる方法を示すフレームワークである。
我々は,このランク付け手法の挙動を解析するために,選択した5つの場所で実験を行った。
その結果,この選別手法はランダムフォレストモデルで適切に機能するが,ベイズ・リッジのような簡易回帰モデルの改善も可能であることがわかった。
この研究は結果の広範な分析にも貢献している。
トップランクの変数に基づくこの選択は、この真の問題に対して有望であり、他の領域にも適用できると結論付けることができる。
This paper describes how to analyze the influence of Earth system variables on the errors when providing temperature forecasts. The initial framework to get the data has been based on previous research work, which resulted in a very interesting discovery. However, the aforementioned study only worked on individual correlations of the variables with respect to the error. This research work is going to re-use the main ideas but introduce three main novelties: (1) applying a data science approach by a few representative locations; (2) taking advantage of the rankings created by Spearman correlation but enriching them with other metrics looking for a more robust ranking of the variables; (3) evaluation of the methodology by learning random forest models for regression with the distinct experimental variations. The main contribution is the framework that shows how to convert correlations into rankings and combine them into an aggregate ranking. We have carried out experiments on five chosen locations to analyze the behavior of this ranking-based methodology. The results show that the specific performance is dependent on the location and season, which is expected, and that this selection technique works properly with Random Forest models but can also improve simpler regression models such as Bayesian Ridge. This work also contributes with an extensive analysis of the results. We can conclude that this selection based on the top-k ranked variables seems promising for this real problem, and it could also be applied in other domains. | 翻訳日:2024-03-14 16:55:04 公開日:2024-03-12 |
# ニューラルネットワークにおける条件計算--原理と研究
トレンド
Conditional computation in neural networks: principles and research trends ( http://arxiv.org/abs/2403.07965v1 ) ライセンス: Link先を確認 | Simone Scardapane, Alessandro Baiocchi, Alessio Devoto, Valerio Marsocci, Pasquale Minervini, Jary Pomponi | (参考訳) 本稿では,ニューラルネットワークの設計に‘textit{conditional compute} メソッドを適用するという,新たな領域の原理とアイデアを要約する。
特に、入力に条件付きで計算グラフの一部を動的に活性化または非活性化するニューラルネットワークに焦点を当てる。
例えば、入力トークン、レイヤ(またはレイヤの集合)、各レイヤ内のサブモジュール(例えば、畳み込みフィルタのチャネル)の動的選択などです。
まず、これらのテクニックを一様に記述する一般的な形式主義を提供する。
次に、これらの原則の注目すべき実装として、Mix-of-experts(MoEs)ネットワーク、トークン選択機構、早期出力ニューラルネットワークの3つを紹介する。
本論文は,この成長分野に関するチュートリアル的な紹介を提供することを目的としている。
この目的のために,これらのモジュール設計の利点を,自動科学的発見から意味コミュニケーションまで,新たな応用分野に焦点をあてて,効率性,説明可能性,伝達学習の観点から分析する。
This article summarizes principles and ideas from the emerging area of applying \textit{conditional computation} methods to the design of neural networks. In particular, we focus on neural networks that can dynamically activate or de-activate parts of their computational graph conditionally on their input. Examples include the dynamic selection of, e.g., input tokens, layers (or sets of layers), and sub-modules inside each layer (e.g., channels in a convolutional filter). We first provide a general formalism to describe these techniques in an uniform way. Then, we introduce three notable implementations of these principles: mixture-of-experts (MoEs) networks, token selection mechanisms, and early-exit neural networks. The paper aims to provide a tutorial-like introduction to this growing field. To this end, we analyze the benefits of these modular designs in terms of efficiency, explainability, and transfer learning, with a focus on emerging applicative areas ranging from automated scientific discovery to semantic communication. | 翻訳日:2024-03-14 16:55:03 公開日:2024-03-12 |
# オープンソースエミュレーションプラットフォームの最適設計と実装
ユーザ中心共有型E-mobilityサービス
Optimal Design and Implementation of an Open-source Emulation Platform for User-Centric Shared E-mobility Services ( http://arxiv.org/abs/2403.07964v1 ) ライセンス: Link先を確認 | Maqsood Hussain Shah, Yue Ding, Shaoshu Zhu, Yingqi Gu and Mingming Liu | (参考訳) 輸送における排出と汚染の増大という世界的な課題に応えて、e-car、e-bikes、e-scootersを含む電動モビリティサービスの共有がポピュラーな戦略として浮上した。
しかし、既存の電動モビリティサービスは、サービス統合の不足、不正確なエネルギー消費予測、拡張性や地理的範囲の制限、特にマルチモーダル輸送の文脈におけるユーザ中心の視点の欠如など、重要な設計上の欠陥を示す。
さらに重要なのは、e-mobility研究コミュニティに利益をもたらすような統合されたオープンソースフレームワークが存在しないことです。
本稿では,共有e-mobilityの先駆的なオープンソースフレームワークを提供することで,このギャップを埋めることを目的とする。
提案するフレームワークは、エージェント・イン・ザ・ループのアプローチとモジュラーアーキテクチャを持ち、多様なユーザの好みに合わせてカスタマイズされ、拡張されたカスタマイズを提供する。
改良型Ant Colony Optimization (ACO) アルゴリズムを用いて, マルチモーダル経路最適化問題を解くことで, このフレームワークの実現可能性を示す。
この研究の主な貢献は、統合されたアプローチを用いたe-mobility研究の分野における動的な課題に取り組むための、協調的で透明なフレームワークを提供することである。
In response to the escalating global challenge of increasing emissions and pollution in transportation, shared electric mobility services, encompassing e-cars, e-bikes, and e-scooters, have emerged as a popular strategy. However, existingshared electric mobility services exhibit critical design deficiencies, including insufficient service integration, imprecise energy consumption forecasting, limited scalability and geographical coverage, and a notable absence of a user-centric perspective, particularly in the context of multi-modal transportation. More importantly, there is no consolidated open-source framework which could benefit the e-mobility research community. This paper aims to bridge this gap by providing a pioneering open-source framework for shared e-mobility. The proposed framework, with an agent-in-the-loop approach and modular architecture, is tailored to diverse user preferences and offers enhanced customization. We demonstrate the viability of this framework by solving an integrated multi-modal route-optimization problem using the modified Ant Colony Optimization (ACO) algorithm. The primary contribution of this work is to provide a collaborative and transparent framework to tackle the dynamic challenges in the field of e-mobility research using a consolidated approach. | 翻訳日:2024-03-14 16:55:02 公開日:2024-03-12 |
# 前立腺細胞ラマンスペクトルの教師なし自己組織化マップ
disease‐state subclustering
Unsupervised self-organising map of prostate cell Raman spectra shows disease-state subclustering ( http://arxiv.org/abs/2403.07960v1 ) ライセンス: Link先を確認 | Daniel West, Susan Stepney, Y. Hancock | (参考訳) 前立腺癌は興味深い臨床的疑問を呈する疾患である。
前立腺癌の小さなサブセットは攻撃的であり、転移の拡散を防ぐために除去と治療が必要である。
しかし, 従来の診断ではリスク・ストラテライズが困難であり, 生体分子をサブクラス化するための新たなアプローチが必要である。
本稿では,前立腺細胞株から得られた生細胞ラマン分光データを解析するために,教師なし,自己組織化マップを用いた手法を提案する。
その結果, 正常前立腺癌細胞と癌細胞の分離に成功しただけでなく, 前立腺癌細胞株を2つのグループに分離した。
各がんサブクラスターからのスペクトルの最初の分析は、脂質の差分発現を示し、これは正常な制御に対して、細胞シグナル伝達における疾患関連の変化と関連している可能性がある。
Prostate cancer is a disease which poses an interesting clinical question: should it be treated? A small subset of prostate cancers are aggressive and require removal and treatment to prevent metastatic spread. However, conventional diagnostics remain challenged to risk-stratify such patients, hence, new methods of approach to biomolecularly subclassify the disease are needed. Here we use an unsupervised, self-organising map approach to analyse live-cell Raman spectroscopy data obtained from prostate cell-lines; our aim is to test the feasibility of this method to differentiate, at the single-cell-level, cancer from normal using high-dimensional datasets with minimal preprocessing. The results demonstrate not only successful separation of normal prostate and cancer cells, but also a new subclustering of the prostate cancer cell-line into two groups. Initial analysis of the spectra from each of the cancer subclusters demonstrates a differential expression of lipids, which, against the normal control, may be linked to disease-related changes in cellular signalling. | 翻訳日:2024-03-14 16:55:02 公開日:2024-03-12 |
# 高精度検出のための解釈可能な一般化機構
ネットワーク侵入手法の異常と識別
An Interpretable Generalization Mechanism for Accurately Detecting Anomaly and Identifying Networking Intrusion Techniques ( http://arxiv.org/abs/2403.07959v1 ) ライセンス: Link先を確認 | Hao-Ting Pai, Yu-Hsuan Kang, Wen-Cheng Chung | (参考訳) 近年の侵入検知システム(IDS)の進歩、説明可能なAI(XAI)方法論の統合は、正確な特徴選択によるシステム性能の顕著な改善につながっている。
しかし、サイバー攻撃の徹底的な理解には、IDS内の本質的に説明可能な意思決定プロセスが必要である。
本稿では,IDSの能力に革命をもたらすための解釈可能な一般化機構(IG)を提案する。
IGはコヒーレントパターンを識別し、通常のネットワークトラフィックと異常なネットワークトラフィックの区別において解釈可能である。
さらに、コヒーレントパターンの合成は複雑な侵入経路に光を当て、サイバーセキュリティの法医学に不可欠な洞察を与える。
実世界のデータセットNSL-KDD、UNSW-NB15、UKM-IDS20による実験により、IGはトレーニングとテストの比率が低い場合でも正確である。
10%から90%は精度(PRE)=0.93、リコール(REC)=0.94、NSL-KDDのエリアアンダーカーブ(AUC)=0.94、UNSW-NB15のPre=0.98、REC=0.99、AUC=0.99、UKM-IDS20のPre=0.98、REC=0.98、AUC=0.99を達成している。
特にUNSW-NB15において、IGは40%から60%でREC=1.0と少なくともPre=0.98を達成し、UKM-IDS20では20%から80%でREC=1.0と少なくともPre=0.88を達成している。
重要なことに、UKM-IDS20では、IGは事前に露出せずに3つの異常なインスタンスをすべて識別し、その一般化能力を実証している。
これらの結果と推測は再現可能である。
まとめると、IGは多種多様なデータセットとトレーニングとテストの比率(10%から90%から10%まで)を一貫して比較して、優れた一般化を示し、事前露出のない新規な異常の同定に長けている。
その解釈性は、正常と異常の両方を正確に区別し、検出精度を大幅に改善し、誤報を低減し、IDSの信頼性と信頼性を高めるコヒーレントエビデンスによって強化される。
Recent advancements in Intrusion Detection Systems (IDS), integrating Explainable AI (XAI) methodologies, have led to notable improvements in system performance via precise feature selection. However, a thorough understanding of cyber-attacks requires inherently explainable decision-making processes within IDS. In this paper, we present the Interpretable Generalization Mechanism (IG), poised to revolutionize IDS capabilities. IG discerns coherent patterns, making it interpretable in distinguishing between normal and anomalous network traffic. Further, the synthesis of coherent patterns sheds light on intricate intrusion pathways, providing essential insights for cybersecurity forensics. By experiments with real-world datasets NSL-KDD, UNSW-NB15, and UKM-IDS20, IG is accurate even at a low ratio of training-to-test. With 10%-to-90%, IG achieves Precision (PRE)=0.93, Recall (REC)=0.94, and Area Under Curve (AUC)=0.94 in NSL-KDD; PRE=0.98, REC=0.99, and AUC=0.99 in UNSW-NB15; and PRE=0.98, REC=0.98, and AUC=0.99 in UKM-IDS20. Notably, in UNSW-NB15, IG achieves REC=1.0 and at least PRE=0.98 since 40%-to-60%; in UKM-IDS20, IG achieves REC=1.0 and at least PRE=0.88 since 20%-to-80%. Importantly, in UKM-IDS20, IG successfully identifies all three anomalous instances without prior exposure, demonstrating its generalization capabilities. These results and inferences are reproducible. In sum, IG showcases superior generalization by consistently performing well across diverse datasets and training-to-test ratios (from 10%-to-90% to 90%-to-10%), and excels in identifying novel anomalies without prior exposure. Its interpretability is enhanced by coherent evidence that accurately distinguishes both normal and anomalous activities, significantly improving detection accuracy and reducing false alarms, thereby strengthening IDS reliability and trustworthiness. | 翻訳日:2024-03-14 16:55:01 公開日:2024-03-12 |
# 時間的決定 : 時間的相関を有効に活用する
早期排他ニューラルネットワークにおける決定
Temporal Decisions: Leveraging Temporal Correlation for Efficient Decisions in Early Exit Neural Networks ( http://arxiv.org/abs/2403.07958v1 ) ライセンス: Link先を確認 | Max Sponner and Lorenzo Servadei and Bernd Waschneck and Robert Wille and Akash Kumar | (参考訳) ディープラーニングは、組み込みや物のインターネットアプリケーションでますます重要になっている。
しかしながら、組み込みデバイスにモデルをデプロイすることは、リソースの制限のために課題となる。
これはモデルの推測精度と遅延に影響を与える可能性がある。
1つの潜在的なソリューションはEarly Exit Neural Networksで、隠れた層の間に付加された分類器を通じてモデル深度を動的に調整する。
しかし、リアルタイム終了決定機構は、システムの効率、レイテンシ、持続的正確性に不可欠である。
本稿では,早期排他ニューラルネットワークの決定機構としての差分検出と時間パタンスについて述べる。
センサデータストリームに存在する時間的相関を利用して、推論を効率的に終了する。
健康モニタリング、画像分類、ウェイクワード検出タスクにおけるそれらの効果を評価する。
我々の新しい貢献は、高い精度のスコアを維持しながら、確立された決定機構に比べて計算フットプリントを著しく削減することができた。
推定平均演算を最大80%削減し,元のモデルの5%以内の精度を維持した。
これらの知見は, 終端判定を改善するために, センサデータの時間的相関を考慮することの重要性を浮き彫りにした。
Deep Learning is becoming increasingly relevant in Embedded and Internet-of-things applications. However, deploying models on embedded devices poses a challenge due to their resource limitations. This can impact the model's inference accuracy and latency. One potential solution are Early Exit Neural Networks, which adjust model depth dynamically through additional classifiers attached between their hidden layers. However, the real-time termination decision mechanism is critical for the system's efficiency, latency, and sustained accuracy. This paper introduces Difference Detection and Temporal Patience as decision mechanisms for Early Exit Neural Networks. They leverage the temporal correlation present in sensor data streams to efficiently terminate the inference. We evaluate their effectiveness in health monitoring, image classification, and wake-word detection tasks. Our novel contributions were able to reduce the computational footprint compared to established decision mechanisms significantly while maintaining higher accuracy scores. We achieved a reduction of mean operations per inference by up to 80% while maintaining accuracy levels within 5% of the original model. These findings highlight the importance of considering temporal correlation in sensor data to improve the termination decision. | 翻訳日:2024-03-14 16:55:00 公開日:2024-03-12 |
# 適応推論のための訓練後の効率向上
不均一で分散IoT環境
Efficient Post-Training Augmentation for Adaptive Inference in Heterogeneous and Distributed IoT Environments ( http://arxiv.org/abs/2403.07957v1 ) ライセンス: Link先を確認 | Max Sponner and Lorenzo Servadei and Bernd Waschneck and Robert Wille and Akash Kumar | (参考訳) Early Exit Neural Networks (EENN)は、ニューラルネットワークのデプロイメントの効率を高めるソリューションを提供する。
しかし、EENNの作成は困難であり、多くの設計上の選択肢があるため、専門的なドメイン知識が必要である。
この問題に対処するために,既存のモデルをEENNに変換することに焦点を当てた自動拡張フローを提案する。
我々のフレームワークはEENNアーキテクチャを構築し、そのサブグラフをハードウェアターゲットにマップし、その決定機構を設定します。
私たちの知る限りでは、これらすべてのステップを実行できる最初のフレームワークです。
我々は,インターネット・オブ・Thingsと標準画像分類のユースケースの集合に対するアプローチを評価した。
音声コマンド検出タスクでは,推論あたりの平均操作量を59.67%削減することができた。
ECG分類タスクでは、全てのサンプルを早期に停止することができ、平均推論エネルギーを74.9%削減し、計算を78.3%削減した。
CIFAR-10では,最大58.75%の削減が可能であった。
CIFAR-10用のResNet-152ベースモデルの検索は、ラップトップのCPUで9時間もかからなかった。
提案したアプローチにより、IoT環境に最適化されたEENNの作成が可能になり、組み込みプラットフォームやフォグプラットフォーム上でのディープラーニングアプリケーションの推論コストを低減できると同時に、検索コストを大幅に削減することが可能になります。
検索コストの低いため、EENNのアクセシビリティが向上し、幅広い応用分野においてニューラルネットワークの効率が向上する可能性がある。
Early Exit Neural Networks (EENNs) present a solution to enhance the efficiency of neural network deployments. However, creating EENNs is challenging and requires specialized domain knowledge, due to the large amount of additional design choices. To address this issue, we propose an automated augmentation flow that focuses on converting an existing model into an EENN. It performs all required design decisions for the deployment to heterogeneous or distributed hardware targets: Our framework constructs the EENN architecture, maps its subgraphs to the hardware targets, and configures its decision mechanism. To the best of our knowledge, it is the first framework that is able to perform all of these steps. We evaluated our approach on a collection of Internet-of-Things and standard image classification use cases. For a speech command detection task, our solution was able to reduce the mean operations per inference by 59.67%. For an ECG classification task, it was able to terminate all samples early, reducing the mean inference energy by 74.9% and computations by 78.3%. On CIFAR-10, our solution was able to achieve up to a 58.75% reduction in computations. The search on a ResNet-152 base model for CIFAR-10 took less than nine hours on a laptop CPU. Our proposed approach enables the creation of EENN optimized for IoT environments and can reduce the inference cost of Deep Learning applications on embedded and fog platforms, while also significantly reducing the search cost - making it more accessible for scientists and engineers in industry and research. The low search cost improves the accessibility of EENNs, with the potential to improve the efficiency of neural networks in a wide range of practical applications. | 翻訳日:2024-03-14 16:55:00 公開日:2024-03-12 |
# DeepCDCL: CDCLベースのニューラルネットワーク検証フレームワーク
DeepCDCL: An CDCL-based Neural Network Verification Framework ( http://arxiv.org/abs/2403.07956v1 ) ライセンス: Link先を確認 | Zongxin Liu, Pengfei Yang, Lijun Zhang, Xiaowei Huang | (参考訳) 安全クリティカルなアプリケーションにおけるニューラルネットワークは、ほとんど障害を受けにくいため、安全性とセキュリティの懸念が高まっている。
本稿では、衝突駆動クロース学習(CDCL)アルゴリズムに基づく新しいニューラルネットワーク検証フレームワークであるDeepCDCLを提案する。
我々は,CDCLフレームワークの直接適用と比較して冗長な時間消費を低減し,非同期節の学習と管理構造を導入する。
さらに,ACAS Xu および MNIST データセットに対するアプローチの有効性を詳細に評価し,ほとんどの場合において大幅な高速化が達成されていることを示す。
Neural networks in safety-critical applications face increasing safety and security concerns due to their susceptibility to little disturbance. In this paper, we propose DeepCDCL, a novel neural network verification framework based on the Conflict-Driven Clause Learning (CDCL) algorithm. We introduce an asynchronous clause learning and management structure, reducing redundant time consumption compared to the direct application of the CDCL framework. Furthermore, we also provide a detailed evaluation of the performance of our approach on the ACAS Xu and MNIST datasets, showing that a significant speed-up is achieved in most cases. | 翻訳日:2024-03-14 16:54:59 公開日:2024-03-12 |
# BAGEL: 言語による探索誘導によるブートストラップエージェント
BAGEL: Bootstrapping Agents by Guiding Exploration with Language ( http://arxiv.org/abs/2403.08140v1 ) ライセンス: Link先を確認 | Shikhar Murty, Christopher Manning, Peter Shaw, Mandar Joshi, Kenton Lee | (参考訳) デジタル環境(WebブラウザやREST APIなど)でのアクションの実行による自然言語命令に従うことは、言語モデル(LM)エージェントにとって難しいタスクです。
残念ながら、LMエージェントは人間のデモンストレーションなしで新しい環境への一般化に失敗することが多い。
この研究は、人間の監督なしにLMエージェントをブートストラップする方法であるBAGELを提示する。
BAGELは、ランダムに探索された軌道または合成指示のシードセットを、2つのノイズのあるLM成分(軌道を合成命令に変換するLMラベル装置と、合成命令を洗練された軌道にマッピングするゼロショットLMエージェント)の間のラウンドトリップでデモに変換する。
これらのラウンドトリップを反復的に実行することにより、BAGELはトランジェクトリーの初期分布を自然言語でよく記述されたものに変換する。
BAGELのデモでは、検索したデモよりもコンテキスト内学習を通じてゼロショットLMエージェントをテスト時に適用し、ToolQAやMiniWob++では2-13%以上の絶対値の改善を実現し、実行障害の最大13倍の削減を実現しています。
Following natural language instructions by executing actions in digital environments (e.g. web-browsers and REST APIs) is a challenging task for language model (LM) agents. Unfortunately, LM agents often fail to generalize to new environments without human demonstrations. This work presents BAGEL, a method for bootstrapping LM agents without human supervision. BAGEL converts a seed set of randomly explored trajectories or synthetic instructions, into demonstrations, via round-trips between two noisy LM components: an LM labeler which converts a trajectory into a synthetic instruction, and a zero-shot LM agent which maps the synthetic instruction into a refined trajectory. By performing these round-trips iteratively, BAGEL quickly converts the initial distribution of trajectories towards those that are well-described by natural language. We use BAGEL demonstrations to adapt a zero shot LM agent at test time via in-context learning over retrieved demonstrations, and find improvements of over 2-13% absolute on ToolQA and MiniWob++, with up to 13x reduction in execution failures. | 翻訳日:2024-03-14 16:22:47 公開日:2024-03-12 |
# 論文からカードへ:ジェネレーティブAIでデザインの意味を変える
From Paper to Card: Transforming Design Implications with Generative AI ( http://arxiv.org/abs/2403.08137v1 ) ライセンス: Link先を確認 | Donghoon Shin, Lucy Lu Wang, Gary Hsieh | (参考訳) 学術論文を出版する際には、HCIコミュニティでデザインの意味を伝えることは一般的であるが、これらの論文はデザイナーによって読まれ、使用されることは滅多にない。
1つの解決策は、設計プロセスを支援するために、より消化しやすい、アクセスしやすいフォーマットで論文から貴重な洞察を伝達する翻訳リソースの形式としてデザインカードを使用することである。
しかし、デザインカードの作成には時間がかかり、著者はカードを作成するためのリソースや知識が不足している可能性がある。
LLMとテキスト・ツー・イメージ・モデルを用いて,学術論文からデザインカードを作成するシステムを構築した。
設計者 (N=21) と, 選択論文 (N=12) の著者らによる評価の結果, 設計者らは, デザインカードからの設計意味を, 原文を読むことに比べ, より刺激的かつ生成的であると認識し, 設計意図を伝達する効果的な方法とみなした。
また,AI生成設計カードの今後の改良も提案する。
Communicating design implications is common within the HCI community when publishing academic papers, yet these papers are rarely read and used by designers. One solution is to use design cards as a form of translational resource that communicates valuable insights from papers in a more digestible and accessible format to assist in design processes. However, creating design cards can be time-consuming, and authors may lack the resources/know-how to produce cards. Through an iterative design process, we built a system that helps create design cards from academic papers using an LLM and text-to-image model. Our evaluation with designers (N=21) and authors of selected papers (N=12) revealed that designers perceived the design implications from our design cards as more inspiring and generative, compared to reading original paper texts, and the authors viewed our system as an effective way of communicating their design implications. We also propose future enhancements for AI-generated design cards. | 翻訳日:2024-03-14 16:22:47 公開日:2024-03-12 |
# RoboCertProb:確率的RoboChartモデルの仕様
RoboCertProb: Property Specification for Probabilistic RoboChart Models ( http://arxiv.org/abs/2403.08136v1 ) ライセンス: Link先を確認 | Kangfeng Ye and Jim Woodcock | (参考訳) RoboChartはRoboStarフレームワークの中核的な表記法であり、ロボット工学のソフトウェア工学にモダンなモデリングとフォーマルな検証技術をもたらす。
ロボット工学のためのタイムドで確率的なドメイン固有言語であり、UMLのようなアーキテクチャと状態マシンのモデリングを提供する。
本研究は,RoboChartでモデル化された確率論的ロボットシステムの量的特性を特定するためのRoboCertProbを提案する。
RoboCertProbのセマンティクスはPCTL*に基づいている。
RoboChartモデル上でRoboCertProbを解釈するために、既存の変換セマンティクスからPRISM言語に派生したマルコフ意味論(DTMCとMDP)をRoboChartに与える。
プロパティ仕様に加えて、RoboCertProbは、RoboChartモデルで緩やかな定数と未指定の関数と操作を設定する権利も私たちに与えています。
これにより、PRISMのような確率論的モデルチェッカーで直接サポートされていない反応確率システムを、クローズドワールドの仮定を採用するため、環境入力を設定して検証することができる。
我々はRoboChartの付属ツールであるRoboToolにRoboCertProbを実装し、プロパティの指定とPRISMプロパティの自動生成を行い、PRISMを用いたRoboChartモデルの検証を行う。
我々は、産業用塗装ロボットと、植物を紫外線で治療する農業用ロボットの2つの実際のロボットに対して、ソフトウェアコントローラの動作を分析するためにこれを使用しました。
RoboChart is a core notation in the RoboStar framework which brings modern modelling and formal verification technologies into software engineering for robotics. It is a timed and probabilistic domain-specific language for robotics and provides a UML-like architectural and state machine modelling. This work presents RoboCertProb for specifying quantitative properties of probabilistic robotic systems modelled in RoboChart. RoboCertProb's semantics is based on PCTL*. To interpret RoboCertProb over RoboChart models, we give a Markov semantics (DTMCs and MDPs) to RoboChart, derived from its existing transformation semantics to the PRISM language. In addition to property specification, RoboCertProb also entitles us to configure loose constants and unspecified functions and operations in RoboChart models. It allows us to set up environmental inputs to verify reactive probabilistic systems not directly supported in probabilistic model checkers like PRISM because they employ a closed-world assumption. We implement RoboCertProb in an accompanying tool of RoboChart, RoboTool, for specifying properties and automatically generating PRISM properties from them to formally verify RoboChart models using PRISM. We have used it to analyse the behaviour of software controllers for two real robots: an industrial painting robot and an agricultural robot for treating plants with UV lights. | 翻訳日:2024-03-14 16:22:46 公開日:2024-03-12 |
# 物理にインスパイアされたディープラーニングアンチエイリアスフレームワーク
チャネル状態フィードバック
Physics-Inspired Deep Learning Anti-Aliasing Framework in Efficient Channel State Feedback ( http://arxiv.org/abs/2403.08133v1 ) ライセンス: Link先を確認 | Yu-Chien Lin, Yan Xin, Ta-Sung Lee, Charlie (Jianzhong) Zhang, and Zhi Ding | (参考訳) 基地局におけるダウンリンクチャネル状態情報(CSI)の取得は、大規模な多重入力多重出力(MIMO)周波数分割二重化(FDD)システムの性能の最適化に不可欠である。
ディープラーニングアーキテクチャはUE側のCSIフィードバックとgNB側のリカバリを促進することに成功しているが、CSIのフィードバック以前のアンサンプの問題はしばしば見過ごされている。
この問題は、現在の標準における低密度パイロット配置から生じるもので、屋外チャネルにおいて大きなエイリアス効果をもたらし、結果としてCSI回復性能が制限される。
この目的のために、この研究は、アンダーサンプリングによるギャップに対処するための後処理ソリューションとして、gNBで新しいCSIアップサンプリングフレームワークを導入している。
離散フーリエ変換シフト定理と多重パス相反定理の物理原理を応用し、アップリンクCSIを効果的に利用してエイリアス効果を緩和する。
さらに,提案アルゴリズムをISTA-Netアーキテクチャと統合し,非一様サンプリングリカバリのためのアプローチを強化する学習ベース手法を開発した。
解析の結果,従来の補間手法と現状の手法を性能的に比較すると,ルールベースと深層学習の両方が有意に優れていることがわかった。
Acquiring downlink channel state information (CSI) at the base station is vital for optimizing performance in massive Multiple input multiple output (MIMO) Frequency-Division Duplexing (FDD) systems. While deep learning architectures have been successful in facilitating UE-side CSI feedback and gNB-side recovery, the undersampling issue prior to CSI feedback is often overlooked. This issue, which arises from low density pilot placement in current standards, results in significant aliasing effects in outdoor channels and consequently limits CSI recovery performance. To this end, this work introduces a new CSI upsampling framework at the gNB as a post-processing solution to address the gaps caused by undersampling. Leveraging the physical principles of discrete Fourier transform shifting theorem and multipath reciprocity, our framework effectively uses uplink CSI to mitigate aliasing effects. We further develop a learning-based method that integrates the proposed algorithm with the Iterative Shrinkage-Thresholding Algorithm Net (ISTA-Net) architecture, enhancing our approach for non-uniform sampling recovery. Our numerical results show that both our rule-based and deep learning methods significantly outperform traditional interpolation techniques and current state-of-the-art approaches in terms of performance. | 翻訳日:2024-03-14 16:22:45 公開日:2024-03-12 |
# HPCにおける複雑なチューニング探索のためのコスト効果手法
相互依存のナビゲーションと次元性
Cost-Effective Methodology for Complex Tuning Searches in HPC: Navigating Interdependencies and Dimensionality ( http://arxiv.org/abs/2403.08131v1 ) ライセンス: Link先を確認 | Adrian Perez Dieguez, Min Choi, Mahmut Okyay, Mauro Del Ben, Bryan M. Wong, Khaled Z. Ibrahim | (参考訳) チューニング検索はハイパフォーマンスコンピューティング(HPC)において重要であり、計算アプリケーションにおける複雑な最適化課題に対処する。
この複雑さは、ルーチン内でパラメータを微調整するだけでなく、それら間の潜在的な相互依存から生じ、従来の最適化手法を非効率にする。
パラメータやルーチン間の相互依存を精査する代わりに、実践者は、それぞれのルーチンに対して独立したチューニングサーチを行うというジレンマに直面し、それによって相互依存を見落としたり、すべてのルーチンをよりリソース集約的な共同サーチを追求する。
この決定は、文献における相互依存解析や高次元分解技術は、HPCチューニング探索において違法に高価である可能性があるという考察から導かれる。
本手法は,実世界のシナリオにおける性能向上を最大化しながら,計算可能性を確保するために,これらの手法を適応・洗練する。
提案手法は,コスト効率の高い相互依存解析を利用して,複数の調律探索を共同探索にマージするか,直交探索を行えばよいかを決定する。
パラメータ相互依存性の異なる合成関数を用いて,本手法は探索空間を効率的に探索する。
ベイジアン最適化に基づく完全独立検索や完全共同検索と比較して,提案手法は独立検索と合併検索を最適化し,最終構成を最大8%精度良くし,検索時間を最大95%削減した。
現代のHPCオートチューナーに挑戦する計算材料科学の応用であるRT-TDDFT(Real-Outloaded Real-Time Time-Dependent Density Functional Theory)に適用した場合,本手法は効率的なチューニング検索を実現した。
その適応性と効率はRT-TDDFTを超えて拡張され、HPCの関連アプリケーションに価値がある。
Tuning searches are pivotal in High-Performance Computing (HPC), addressing complex optimization challenges in computational applications. The complexity arises not only from finely tuning parameters within routines but also potential interdependencies among them, rendering traditional optimization methods inefficient. Instead of scrutinizing interdependencies among parameters and routines, practitioners often face the dilemma of conducting independent tuning searches for each routine, thereby overlooking interdependence, or pursuing a more resource-intensive joint search for all routines. This decision is driven by the consideration that some interdependence analysis and high-dimensional decomposition techniques in literature may be prohibitively expensive in HPC tuning searches. Our methodology adapts and refines these methods to ensure computational feasibility while maximizing performance gains in real-world scenarios. Our methodology leverages a cost-effective interdependence analysis to decide whether to merge several tuning searches into a joint search or conduct orthogonal searches. Tested on synthetic functions with varying levels of parameter interdependence, our methodology efficiently explores the search space. In comparison to Bayesian-optimization-based full independent or fully joint searches, our methodology suggested an optimized breakdown of independent and merged searches that led to final configurations up to 8% more accurate, reducing the search time by up to 95%. When applied to GPU-offloaded Real-Time Time-Dependent Density Functional Theory (RT-TDDFT), an application in computational materials science that challenges modern HPC autotuners, our methodology achieved an effective tuning search. Its adaptability and efficiency extend beyond RT-TDDFT, making it valuable for related applications in HPC. | 翻訳日:2024-03-14 16:22:45 公開日:2024-03-12 |
# 量子チャネルコンディショニングと測定モデル
Quantum Channel Conditioning and Measurement Models ( http://arxiv.org/abs/2403.08126v1 ) ライセンス: Link先を確認 | Stan Gudder | (参考訳) H_1$ と $H_2$ が有限次元ヒルベルト空間であれば、$H_1$ から $H_2$ へのチャネルは完全に正の線型写像 $\mathcal{I}$ は状態の集合 $\mathcal{S}(H_1)$ を状態の集合 $H_1$ から状態の集合 $\mathcal{S}(H_2)$ へ取り込む。
$\mathcal{E}(H_2)$ for $H_2$ to the set of effects $\mathcal{E}(H_1)$ for $H_1$。
我々は $\mathcal{I}^*(b)$ 効果 $b$ を $\mathcal{I}$ で条件付けし、集合 $\mathcal{I}^c = \mathcal{I}^*(\mathcal{E}(H_2))$ 条件付き集合を $\mathcal{I}$ で条件付けする。
我々は、$\mathcal{I}^c$ が効果代数 $\mathcal{E}(H_1)$ の凸部分効果代数であることを指摘している。
この定義を$\mathcal{I}^*(B)$ for an observable $B$ on $H_2$ という条件に拡張し、観測可能な$A$ is in $\mathcal{I}^c$ if $A=\mathcal{I}^*(B)$ for some observable $B$ とする。
後処理と部分取りで $\mathcal{I}^c$ が閉じていることを示す。
また、チャンネルによる楽器のコンディショニングも定義する。
これらの概念は、ホレヴォの楽器やチャンネルの例を用いて説明されている。
次に、測定モデルとその対応する観測機器と機器について論じる。
クラウスとホレボの分離可能なチャネルを用いて計算を単純化できることが示される。
そのようなチャネルはテンソル積の成分を分離することができる。
If $H_1$ and $H_2$ are finite-dimensional Hilbert spaces, a channel from $H_1$ to $H_2$ is a completely positive, linear map $\mathcal{I}$ that takes the set of states $\mathcal{S}(H_1)$ for $H_1$ to the set of states $\mathcal{S}(H_2)$ for $H_2$. Corresponding to $\mathcal{I}$ there is a unique dual map $\mathcal{I}^*$ from the set of effects $\mathcal{E}(H_2)$ for $H_2$ to the set of effects $\mathcal{E}(H_1)$ for $H_1$. We call $\mathcal{I}^*(b)$ the effect $b$ conditioned by $\mathcal{I}$ and the set $\mathcal{I}^c = \mathcal{I}^*(\mathcal{E}(H_2))$ the conditioned set of $\mathcal{I}$. We point out that $\mathcal{I}^c$ is a convex subeffect algebra of the effect algebra $\mathcal{E}(H_1)$. We extend this definition to the conditioning $\mathcal{I}^*(B)$ for an observable $B$ on $H_2$ and say that an observable $A$ is in $\mathcal{I}^c$ if $A=\mathcal{I}^*(B)$ for some observable $B$. We show that $\mathcal{I}^c$ is closed under post-processing and taking parts. We also define the conditioning of instruments by channels. These concepts are illustrated using examples of Holevo instruments and channels. We next discuss measurement models and their corresponding observables and instruments. We show that calculations can be simplified by employing Kraus and Holevo separable channels. Such channels allow one to separate the components of a tensor product. | 翻訳日:2024-03-14 16:22:44 公開日:2024-03-12 |
# Q-SLAM: 単分子SLAMのための擬似表現
Q-SLAM: Quadric Representations for Monocular SLAM ( http://arxiv.org/abs/2403.08125v1 ) ライセンス: Link先を確認 | Chensheng Peng, Chenfeng Xu, Yue Wang, Mingyu Ding, Heng Yang, Masayoshi Tomizuka, Kurt Keutzer, Marco Pavone, Wei Zhan | (参考訳) モノクラーSLAMは、3Dジオメトリを正確にモデル化するという課題に長い間取り組んできた。
ニューラルラジアンス場(NeRF)をベースとした単分子SLAMの最近の進歩は、将来性を示しているが、これらの手法は通常、正確な3次元幾何学モデリングではなく、新しいビュー合成に焦点を当てている。
この焦点は、NeRFアプリケーション、すなわち新規ビュー合成とSLAMの要求を著しく切り離す結果となる。
このギャップは、しばしば密度が高くノイズの多いNeRFで使用される体積表現から生じる。
本研究では,2次形状のレンズを通して体積表現を再現する新しい手法を提案する。
ほとんどのシーン成分は2次平面として効果的に表現できると仮定する。
この仮定を応用して、数乗平面によって100万の立方体で体積表現を再構成し、SLAMコンテキストにおける3Dシーンをより正確かつ効率的にモデル化する。
まず,追従モジュールから得られた粗い深さ推定(Droid-SLAM)を向上させるために,2次仮定を用いる。
このステップだけで、深さ推定精度が大幅に向上する。
第2に、その後のマッピングフェーズにおいて、ボリューム空間全体にわたってサンプリングポイントを分散する従来のNeRFベースのSLAM法から逸脱する。
代わりに、二次平面の周りのサンプリング点を集中させ、新しい二次分解変換器を用いてそれらを集約する。
さらに、ポーズ推定と3次元再構成を同期するエンドツーエンドのジョイント最適化戦略を導入する。
Monocular SLAM has long grappled with the challenge of accurately modeling 3D geometries. Recent advances in Neural Radiance Fields (NeRF)-based monocular SLAM have shown promise, yet these methods typically focus on novel view synthesis rather than precise 3D geometry modeling. This focus results in a significant disconnect between NeRF applications, i.e., novel-view synthesis and the requirements of SLAM. We identify that the gap results from the volumetric representations used in NeRF, which are often dense and noisy. In this study, we propose a novel approach that reimagines volumetric representations through the lens of quadric forms. We posit that most scene components can be effectively represented as quadric planes. Leveraging this assumption, we reshape the volumetric representations with million of cubes by several quadric planes, which leads to more accurate and efficient modeling of 3D scenes in SLAM contexts. Our method involves two key steps: First, we use the quadric assumption to enhance coarse depth estimations obtained from tracking modules, e.g., Droid-SLAM. This step alone significantly improves depth estimation accuracy. Second, in the subsequent mapping phase, we diverge from previous NeRF-based SLAM methods that distribute sampling points across the entire volume space. Instead, we concentrate sampling points around quadric planes and aggregate them using a novel quadric-decomposed Transformer. Additionally, we introduce an end-to-end joint optimization strategy that synchronizes pose estimation with 3D reconstruction. | 翻訳日:2024-03-14 16:22:43 公開日:2024-03-12 |
# 特徴・特徴のマシン・アンラーニングにおける独立基準に向けて
ラベル
Towards Independence Criterion in Machine Unlearning of Features and Labels ( http://arxiv.org/abs/2403.08124v1 ) ライセンス: Link先を確認 | Ling Han, Nanqing Luo, Hao Huang, Jing Chen, Mary-Anne Hartley | (参考訳) この研究は、分散シフトに直面した機械学習の複雑さを深く掘り下げ、特に一様でない特徴やラベルの削除によって引き起こされる課題に焦点を当てている。
データプライバシと忘れられる権利を強調したGDPRのような規制の出現により、マシンラーニングモデルは、その完全性やパフォーマンスを損なうことなく、機密情報を学習する、という恐ろしい課題に直面します。
本研究は、これらの課題に対処するために、影響関数と分布独立の原理を活用する新しいアプローチを導入する。
機械学習のための包括的なフレームワークを提案することにより、さまざまなディストリビューションにおけるモデル性能と適応性を維持しながら、プライバシ保護を確保することを目指している。
提案手法は, 効率的なデータ除去を容易にするだけでなく, モデルを動的に調整し, 一般化機能を維持する。
大規模な実験を通じて,分散的な変化を特徴とするシナリオにおいて,我々のアプローチの有効性を実証し,機械学習の分野に多大な貢献をする。
この研究は、データプライバシと機械学習の動的な状況において、モデルが堅牢で正確であることを保証する、よりレジリエントで適応可能な未学習技術を開発するための道を開く。
This work delves into the complexities of machine unlearning in the face of distributional shifts, particularly focusing on the challenges posed by non-uniform feature and label removal. With the advent of regulations like the GDPR emphasizing data privacy and the right to be forgotten, machine learning models face the daunting task of unlearning sensitive information without compromising their integrity or performance. Our research introduces a novel approach that leverages influence functions and principles of distributional independence to address these challenges. By proposing a comprehensive framework for machine unlearning, we aim to ensure privacy protection while maintaining model performance and adaptability across varying distributions. Our method not only facilitates efficient data removal but also dynamically adjusts the model to preserve its generalization capabilities. Through extensive experimentation, we demonstrate the efficacy of our approach in scenarios characterized by significant distributional shifts, making substantial contributions to the field of machine unlearning. This research paves the way for developing more resilient and adaptable unlearning techniques, ensuring models remain robust and accurate in the dynamic landscape of data privacy and machine learning. | 翻訳日:2024-03-14 16:22:42 公開日:2024-03-12 |
# 深部均一ニューラルネットワークの初期方向収束
小型初期化
Early Directional Convergence in Deep Homogeneous Neural Networks for Small Initializations ( http://arxiv.org/abs/2403.08121v1 ) ライセンス: Link先を確認 | Akshay Kumar and Jarvis Haupt | (参考訳) 本稿では, ニューラルネットワークの学習において発生する勾配流のダイナミクスについて考察する。
本研究は、局所的なリプシッツ勾配と2より厳密な均一性の順序を持つと仮定されるニューラルネットワークについて考察する。
本稿では, トレーニングの初期段階において, ニューラルネットワークの重みは正常に小さく, [1]で導入された神経相関関数のKKT(Karush-Kuhn-Tucker)点に沿ってほぼ収束していることを示す。
さらに、ニューラルネットワークの重みに対する二乗損失と分離性仮定では、同様の勾配流の方向収束が損失関数の特定のサドル点付近で示される。
This paper studies the gradient flow dynamics that arise when training deep homogeneous neural networks, starting with small initializations. The present work considers neural networks that are assumed to have locally Lipschitz gradients and an order of homogeneity strictly greater than two. This paper demonstrates that for sufficiently small initializations, during the early stages of training, the weights of the neural network remain small in norm and approximately converge in direction along the Karush-Kuhn-Tucker (KKT) points of the neural correlation function introduced in [1]. Additionally, for square loss and under a separability assumption on the weights of neural networks, a similar directional convergence of gradient flow dynamics is shown near certain saddle points of the loss function. | 翻訳日:2024-03-14 16:22:42 公開日:2024-03-12 |
# CMax-SLAM:イベントベースの回転移動バンドル調整とSLAM
コントラスト最大化を用いたシステム
CMax-SLAM: Event-based Rotational-Motion Bundle Adjustment and SLAM System using Contrast Maximization ( http://arxiv.org/abs/2403.08119v1 ) ライセンス: Link先を確認 | Shuang Guo and Guillermo Gallego | (参考訳) イベントカメラはバイオインスパイアされた視覚センサで、ピクセルワイドの強度変化を捉え、非同期イベントストリームを出力する。
彼らは、ロボット工学やコンピュータビジョンにおける挑戦的なシナリオ、例えば高速で高ダイナミックレンジを扱うために、従来のカメラよりも大きな可能性を示しています。
本稿では,イベントカメラを用いた回転運動推定の問題点について考察する。
過去10年間にいくつかの事象に基づく回転推定法が開発されてきたが、その性能は評価されておらず、統一された基準の下で比較されている。
さらに、これらの先行研究は、グローバルな洗練のステップを考慮していない。
この目的のために,本稿では,先行研究の要約と独自のソリューションの提示という2つの目的を念頭に,この問題を体系的に研究する。
まず,先行研究を理論的・実験的に比較する。
第2に、イベントベースの回転専用バンドル調整(BA)手法を提案する。
我々は、イベントをフレームに変換する必要のない、最先端のコントラスト最大化(CMax)フレームワークを活用して、これを定式化する。
第3に、提案したBAを用いて、CMax-SLAMを構築する。
私たちのBAは、オフライン(軌道平滑化)とオンライン(CMax-SLAMバックエンド)の両方を実行できます。
提案手法の性能と汎用性を実証するため,室内,屋外,空間シナリオを含む,合成および実世界のデータセットに関する総合的な実験を行った。
本稿では,実世界評価の落とし穴について論じ,イベントベースの回転BA法を評価する上でのメリットとして再射誤差のプロキシを提案する。
コミュニティに利益をもたらすために、ソースコードと新しいデータシーケンスをリリースします。
この研究がより深く理解し、イベントベースのエゴモーション推定に関するさらなる研究を促進することを願っています。
プロジェクトページ:https://github.com/tub-rip/cmax_slam
Event cameras are bio-inspired visual sensors that capture pixel-wise intensity changes and output asynchronous event streams. They show great potential over conventional cameras to handle challenging scenarios in robotics and computer vision, such as high-speed and high dynamic range. This paper considers the problem of rotational motion estimation using event cameras. Several event-based rotation estimation methods have been developed in the past decade, but their performance has not been evaluated and compared under unified criteria yet. In addition, these prior works do not consider a global refinement step. To this end, we conduct a systematic study of this problem with two objectives in mind: summarizing previous works and presenting our own solution. First, we compare prior works both theoretically and experimentally. Second, we propose the first event-based rotation-only bundle adjustment (BA) approach. We formulate it leveraging the state-of-the-art Contrast Maximization (CMax) framework, which is principled and avoids the need to convert events into frames. Third, we use the proposed BA to build CMax-SLAM, the first event-based rotation-only SLAM system comprising a front-end and a back-end. Our BA is able to run both offline (trajectory smoothing) and online (CMax-SLAM back-end). To demonstrate the performance and versatility of our method, we present comprehensive experiments on synthetic and real-world datasets, including indoor, outdoor and space scenarios. We discuss the pitfalls of real-world evaluation and propose a proxy for the reprojection error as the figure of merit to evaluate event-based rotation BA methods. We release the source code and novel data sequences to benefit the community. We hope this work leads to a better understanding and fosters further research on event-based ego-motion estimation. Project page: https://github.com/tub-rip/cmax_slam | 翻訳日:2024-03-14 16:22:41 公開日:2024-03-12 |
# 多相性構築における有害データ源の特性評価
surrogate モデル
Characterising harmful data sources when constructing multi-fidelity surrogate models ( http://arxiv.org/abs/2403.08118v1 ) ライセンス: Link先を確認 | Nicolau Andr\'es-Thi\'o, Mario Andr\'es Mu\~noz, Kate Smith-Miles | (参考訳) 近年, 工業設計問題のモデル化と最適化に応用されたサロゲートモデリング技術が注目されている。
これらの技術は、利用可能な高コストソースの代わりにクエリされるモデルの構築を通じて全体のコストを軽減できるため、特定の設計の性能を評価する場合、高いコストがかかる場合に非常に関係がある。
これらのモデルの構築には、時として安価で精度の低い他の情報源を用いることがある。
しかし、これらの情報源の存在は、モデルを構築する際にどの情報源を使うべきかという疑問を提起する。
近年の研究では、ある情報源を無視するタイミングを選択する際の実践者を指導するために有害なデータソースの特徴付けを試みた。
これらの研究は、実際に利用できない大量のデータを用いて、ソースを特徴付ける合成環境で実施されている。
これらの研究のいくつかは、分析で使用されるベンチマークのバイアスに悩まされることも示されている。
本研究では,サロゲートモデルの訓練に利用可能な限られたデータのみを用いて,有害な低忠実度音源の特徴付けを行う。
我々は最近開発されたベンチマークフィルタリング技術を用いてバイアスのない評価を行い、将来の研究のために客観的に異なる大きさのベンチマークスイートを提供する。
これらのベンチマークスイートの1つをインスタンス空間分析と呼ばれる手法を用いて分析し、低忠実度ソースをいつ使用するべきかを直感的に視覚化し、この分析を用いて、応用産業環境で使用可能なガイドラインを提供する。
Surrogate modelling techniques have seen growing attention in recent years when applied to both modelling and optimisation of industrial design problems. These techniques are highly relevant when assessing the performance of a particular design carries a high cost, as the overall cost can be mitigated via the construction of a model to be queried in lieu of the available high-cost source. The construction of these models can sometimes employ other sources of information which are both cheaper and less accurate. The existence of these sources however poses the question of which sources should be used when constructing a model. Recent studies have attempted to characterise harmful data sources to guide practitioners in choosing when to ignore a certain source. These studies have done so in a synthetic setting, characterising sources using a large amount of data that is not available in practice. Some of these studies have also been shown to potentially suffer from bias in the benchmarks used in the analysis. In this study, we present a characterisation of harmful low-fidelity sources using only the limited data available to train a surrogate model. We employ recently developed benchmark filtering techniques to conduct a bias-free assessment, providing objectively varied benchmark suites of different sizes for future research. Analysing one of these benchmark suites with the technique known as Instance Space Analysis, we provide an intuitive visualisation of when a low-fidelity source should be used and use this analysis to provide guidelines that can be used in an applied industrial setting. | 翻訳日:2024-03-14 16:22:41 公開日:2024-03-12 |
# 法的拘束は不公平か?プライバシの公正性を評価するために
政策
Legally Binding but Unfair? Towards Assessing Fairness of Privacy Policies ( http://arxiv.org/abs/2403.08115v1 ) ライセンス: Link先を確認 | Vincent Freiberger, Erik Buchmann | (参考訳) プライバシーポリシーは、データ保護の権利についてデータ被験者に通知することが期待されている。
データコントローラのデータ管理のプラクティスを説明し、保持期間やサードパーティへのデータ転送などの事実を透過的にするべきです。
プライバシーポリシーは、データ主体によって正しく認識され、解釈され、理解され、信頼されている場合にのみ、彼らの目的を満たす。
中でも、プライバシーポリシーは公正な方法で書かれ、例えば、分極項を使わない、特定の教育を必要としない、あるいは特定の社会的背景を想定しないといったことが要求される。
本稿では,プライバシポリシの公平性を評価するためのアプローチについて概説する。
この目的のために, 基本的法的資料と公正性調査から, 情報公正性, 表現公正性, 倫理的・道徳的側面が, プライバシポリシーとどのように関係しているかを明らかにする。
テキスト統計,言語学的手法,人工知能に基づいて,これらの公平度次元におけるポリシーを自動評価するオプションを提案する。
最後に、我々のアプローチが適用可能であることを示す証拠を提供するために、ドイツのプライバシーポリシーで最初の実験を行う。
実験の結果,3次元の公平性には問題があることが示唆された。
例えば,本手法は,読解能力に障害のある個人や特定の人口層に対して,政策が差別されているかどうかを判断し,問題のある倫理を識別する。
将来のプライバシーポリシーは、法的な人工知能モデルのコーパスで使用される可能性があるため、これは重要である。
Privacy policies are expected to inform data subjects about their data protection rights. They should explain the data controller's data management practices, and make facts such as retention periods or data transfers to third parties transparent. Privacy policies only fulfill their purpose, if they are correctly perceived, interpreted, understood, and trusted by the data subject. Amongst others, this requires that a privacy policy is written in a fair way, e.g., it does not use polarizing terms, does not require a certain education, or does not assume a particular social background. In this work-in-progress paper, we outline our approach to assessing fairness in privacy policies. To this end, we identify from fundamental legal sources and fairness research, how the dimensions informational fairness, representational fairness and ethics/morality are related to privacy policies. We propose options to automatically assess policies in these fairness dimensions, based on text statistics, linguistic methods and artificial intelligence. Finally, we conduct initial experiments with German privacy policies to provide evidence that our approach is applicable. Our experiments indicate that there are indeed issues in all three dimensions of fairness. For example, our approach finds out if a policy discriminates against individuals with impaired reading skills or certain demographics, and identifies questionable ethics. This is important, as future privacy policies may be used in a corpus for legal artificial intelligence models. | 翻訳日:2024-03-14 16:22:40 公開日:2024-03-12 |
# 毒性・性差別コミュニケーションの影響評価
OSSプロジェクトにおける受容可能な多様性について
Assessing the Influence of Toxic and Gender Discriminatory Communication on Perceptible Diversity in OSS Projects ( http://arxiv.org/abs/2403.08113v1 ) ライセンス: Link先を確認 | Sayma Sultana, Gias Uddin, Amiangshu Bosu | (参考訳) 近年,オープンソースソフトウェア(OSS)コミュニティにおける有毒・性同一性推論言語の存在が研究者の焦点となっている。
このようなコメントは開発者の間にフラストレーションや不満をもたらすだけでなく、OSSプロジェクトからの離脱にも影響を及ぼす可能性がある。
多様なチームが生産性を高めるという証拠は豊富にあるが、有毒または性差別的なコミュニケーションの存在は、疎外されたグループからの個人への参加に重大な脅威をもたらし、OSSプロジェクトへの多様性と包摂を促進する障壁として機能する可能性がある。
しかしながら、ジェンダーベースの有毒な言語と軽蔑的な言語と、オープンソースソフトウェアチームの知覚上の多様性との関係を探求する研究の欠如がある。
本研究は,オープンソースソフトウェア開発チームのジェンダー,民族性,在職多様性にどのような影響を及ぼすかを検討することを目的とする。
これを実現するために、アクティブなGitHubプロジェクトからデータを抽出し、さまざまなプロジェクト特性を評価し、イシュー/プルリクエストコメントの中で有毒で性別差別的な言語のインスタンスを識別する。
これらの属性を用いて回帰モデルを構築し、それらのプロジェクトの認識可能な多様性をどのように関連づけるかを探索する。
The presence of toxic and gender-identity derogatory language in open-source software (OSS) communities has recently become a focal point for researchers. Such comments not only lead to frustration and disengagement among developers but may also influence their leave from the OSS projects. Despite ample evidence suggesting that diverse teams enhance productivity, the existence of toxic or gender identity discriminatory communications poses a significant threat to the participation of individuals from marginalized groups and, as such, may act as a barrier to fostering diversity and inclusion in OSS projects. However, there is a notable lack of research dedicated to exploring the association between gender-based toxic and derogatory language with a perceptible diversity of open-source software teams. Consequently, this study aims to investigate how such content influences the gender, ethnicity, and tenure diversity of open-source software development teams. To achieve this, we extract data from active GitHub projects, assess various project characteristics, and identify instances of toxic and gender-discriminatory language within issue/pull request comments. Using these attributes, we construct a regression model to explore how they associate with the perceptible diversity of those projects. | 翻訳日:2024-03-14 16:22:39 公開日:2024-03-12 |
# 人間中心設計のためのAI支援因果経路図
AI-Assisted Causal Pathway Diagram for Human-Centered Design ( http://arxiv.org/abs/2403.08111v1 ) ライセンス: Link先を確認 | Ruican Zhong, Donghoon Shin, Rosemary Meza, Predrag Klasnja, Lucas Colusso, Gary Hsieh | (参考訳) 本稿では, 因果経路図 (CPD) を人間中心設計 (HCD) に統合し, これらの図が設計プロセスの初期段階をいかに促進するかを考察する。
オンラインコラボレーティブなホワイトボードプラットフォームであるMiro用の専用のCDDプラグインが開発され、ダイアグラムの作成を合理化し、リアルタイムAI駆動のガイダンスを提供する。
設計者によるユーザスタディ (N=20) により, CPDの分岐と因果関係の強調が, 設計過程での分岐過程と収束過程の両方をサポートすることがわかった。
CPDは利害関係者間のコミュニケーションを促進することができる。
さらに、私たちのプラグインはデザイナの認知作業量を大幅に削減し、ブレインストーミング時の創造性を高め、創造的な作業やエビデンスベースのデザインをサポートする上でAI支援ツールがもたらす意味を強調しました。
This paper explores the integration of causal pathway diagrams (CPD) into human-centered design (HCD), investigating how these diagrams can enhance the early stages of the design process. A dedicated CPD plugin for the online collaborative whiteboard platform Miro was developed to streamline diagram creation and offer real-time AI-driven guidance. Through a user study with designers (N=20), we found that CPD's branching and its emphasis on causal connections supported both divergent and convergent processes during design. CPD can also facilitate communication among stakeholders. Additionally, we found our plugin significantly reduces designers' cognitive workload and increases their creativity during brainstorming, highlighting the implications of AI-assisted tools in supporting creative work and evidence-based designs. | 翻訳日:2024-03-14 16:22:39 公開日:2024-03-12 |
# VANP: 自己監督でナビゲーションを見る場所を学ぶ
Vision-Action Pre-Training
VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training ( http://arxiv.org/abs/2403.08109v1 ) ライセンス: Link先を確認 | Mohammad Nazeri, Junzhe Wang, Amirreza Payandeh, and Xuesu Xiao | (参考訳) 人間は、ナビゲーションに関連する特定の視覚領域に焦点を当てることで、衝突することなく、群衆を効率的にナビゲートする。
しかし、ほとんどのロボットビジュアルナビゲーション手法は、視覚タスクで事前訓練されたディープラーニングモデルに依存している。
別のアプローチでは、特別なナビゲーションモデルをスクラッチからトレーニングし、かなりの計算を必要とする。
一方、自己教師型学習はコンピュータビジョンと自然言語処理に革命をもたらしたが、効果的な自己スーパービジョン信号の定義が困難であるため、ロボットナビゲーションへの応用はいまだに未熟である。
そこで本研究では,視覚ナビゲーション事前訓練(VANP)のためのセルフ・スーパービジョン・ビジョン・アクション・モデルを提案する。
分類や検出などのタスクに有用な有能なオブジェクトを検出する代わりに、VANPはナビゲーションタスクに関連する特定の視覚領域のみに焦点を当てることを学ぶ。
これを実現するため、VANPは視覚的観察の歴史、将来の行動、自己監督のためのゴールイメージを使用し、2つの小さなトランスフォーマーエンコーダを使用してそれらを埋め込む。
そして、VANPは、相互情報最大化目的関数を用いて埋め込み間の情報を最大化する。
VANP抽出したほとんどの特徴が人間のナビゲーションの直感と一致していることを示す。
VANPは、大規模で完全な教師付きデータセットであるImageNetでトレーニングされたトレーニング時間の半分とモデル、すなわち0.08%のデータで、エンドツーエンドで学習したモデルと同等のパフォーマンスを達成している。
Humans excel at efficiently navigating through crowds without collision by focusing on specific visual regions relevant to navigation. However, most robotic visual navigation methods rely on deep learning models pre-trained on vision tasks, which prioritize salient objects -- not necessarily relevant to navigation and potentially misleading. Alternative approaches train specialized navigation models from scratch, requiring significant computation. On the other hand, self-supervised learning has revolutionized computer vision and natural language processing, but its application to robotic navigation remains underexplored due to the difficulty of defining effective self-supervision signals. Motivated by these observations, in this work, we propose a Self-Supervised Vision-Action Model for Visual Navigation Pre-Training (VANP). Instead of detecting salient objects that are beneficial for tasks such as classification or detection, VANP learns to focus only on specific visual regions that are relevant to the navigation task. To achieve this, VANP uses a history of visual observations, future actions, and a goal image for self-supervision, and embeds them using two small Transformer Encoders. Then, VANP maximizes the information between the embeddings by using a mutual information maximization objective function. We demonstrate that most VANP-extracted features match with human navigation intuition. VANP achieves comparable performance as models learned end-to-end with half the training time and models trained on a large-scale, fully supervised dataset, i.e., ImageNet, with only 0.08% data. | 翻訳日:2024-03-14 16:22:38 公開日:2024-03-12 |
# TaskCLIP:タスク指向オブジェクトに対する大規模ビジョンランゲージモデルの拡張
検出
TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection ( http://arxiv.org/abs/2403.08108v1 ) ライセンス: Link先を確認 | Hanning Chen, Wenjun Huang, Yang Ni, Sanggeon Yun, Fei Wen, Hugo Latapie, Mohsen Imani | (参考訳) タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
難しいタスクとして、曖昧なセマンティクスの下で、同時に視覚データ処理と推論が必要である。
最近のソリューションは主にオールインワンモデルです。
しかし、オブジェクト検出バックボーンは、テキストの監督なしに事前訓練される。
このように、タスク要求を組み込むために、彼らの複雑なモデルは、高度に不均衡で少ないデータセットで広範囲に学習し、その結果、パフォーマンスの上限、厳しいトレーニング、一般化性に欠ける。
対照的に、汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
特に後者では、画像やテキストに対する豊富なセマンティック知識と均一な埋め込み空間を提供する、最近成功した大きなビジョン・ランゲージ・モデル(VLM)をバックボーンとして採用しています。
にもかかわらず、VLMの単純適用は、主に形容詞句であるオブジェクト画像の埋め込みと視覚的属性との相違により、準最適品質をもたらす。
そこで本稿では,VLM の後継となる変圧器ベースの整合器を設計し,両埋め込みの校正を行う。
最後に、トレーニング可能なスコア関数を用いて、オブジェクト選択のためのVLMマッチング結果を後処理する。
実験の結果,TaskCLIPは最先端のDETRベースモデルであるTOISTを3.5%上回り,トレーニングと推論の両方に1つのNVIDIA RTX 4090しか必要としないことがわかった。
Task-oriented object detection aims to find objects suitable for accomplishing specific tasks. As a challenging task, it requires simultaneous visual data processing and reasoning under ambiguous semantics. Recent solutions are mainly all-in-one models. However, the object detection backbones are pre-trained without text supervision. Thus, to incorporate task requirements, their intricate models undergo extensive learning on a highly imbalanced and scarce dataset, resulting in capped performance, laborious training, and poor generalizability. In contrast, we propose TaskCLIP, a more natural two-stage design composed of general object detection and task-guided object selection. Particularly for the latter, we resort to the recently successful large Vision-Language Models (VLMs) as our backbone, which provides rich semantic knowledge and a uniform embedding space for images and texts. Nevertheless, the naive application of VLMs leads to sub-optimal quality, due to the misalignment between embeddings of object images and their visual attributes, which are mainly adjective phrases. To this end, we design a transformer-based aligner after the pre-trained VLMs to re-calibrate both embeddings. Finally, we employ a trainable score function to post-process the VLM matching results for object selection. Experimental results demonstrate that our TaskCLIP outperforms the state-of-the-art DETR-based model TOIST by 3.5% and only requires a single NVIDIA RTX 4090 for both training and inference. | 翻訳日:2024-03-14 16:22:38 公開日:2024-03-12 |
# 量子コンピュータにおけるディール・アルダー反応のシミュレーション
Simulation of a Diels-Alder Reaction on a Quantum Computer ( http://arxiv.org/abs/2403.08107v1 ) ライセンス: Link先を確認 | Ieva Liepuoniute, Mario Motta, Thaddeus Pellegrini, Julia E. Rice, Tanvi P. Gujarati, Sofia Gil, Gavin O. Jones | (参考訳) 化学反応のシミュレーションは、期待されている量子コンピュータの応用である。
本研究では, ダイルス・アルダー反応を実験ケースとして, 量子アルゴリズムとハードウェアの化学反応研究への応用の可能性について検討する。
我々の具体的な目標は、遷移状態を形成するエチレンとシクロペンタジエンとの反応の活性化障壁を計算することである。
この目的を達成するために,我々は,短期量子ハードウェア(絡み込み鍛造と量子部分空間展開)と古典的後処理(多体摂動理論)に量子アルゴリズムを用いる。
我々は、最大8キュービットの量子ハードウェア上でシミュレーションを行い、静的および動的電子相関を考慮し、シクロペンタジエンとエチレンの反応における正確な活性化障壁を計算する。
この研究は、近い将来の量子デバイス上での化学反応を研究するためのハイブリッド量子古典計算ワークフローを示し、アクティベーション障壁を正確に計算する量子アルゴリズムとハードウェアの可能性を示している。
The simulation of chemical reactions is an anticipated application of quantum computers. Using a Diels-Alder reaction as a test case, in this study we explore the potential applications of quantum algorithms and hardware in investigating chemical reactions. Our specific goal is to calculate the activation barrier of a reaction between ethylene and cyclopentadiene forming a transition state. To achieve this goal, we use quantum algorithms for near-term quantum hardware (entanglement forging and quantum subspace expansion) and classical post-processing (many-body perturbation theory) in concert. We conduct simulations on IBM quantum hardware using up to 8 qubits, and compute accurate activation barriers in the reaction between cyclopentadiene and ethylene by accounting for both static and dynamic electronic correlation. This work illustrates a hybrid quantum-classical computational workflow to study chemical reactions on near-term quantum devices, showcasing the potential of quantum algorithms and hardware in accurately calculating activation barriers. | 翻訳日:2024-03-14 16:22:37 公開日:2024-03-12 |
# 文脈的明瞭さ:変圧器モデルを用いた文の生成
コンテキスト逆データ
Contextual Clarity: Generating Sentences with Transformer Models using Context-Reverso Data ( http://arxiv.org/abs/2403.08103v1 ) ライセンス: Link先を確認 | Ruslan Musaev | (参考訳) 情報豊富化の時代においては,ユーザに対してコンテキスト的に関連性があり,簡潔な情報を提供する能力が不可欠である。
キーワード・イン・コンテキスト(英: Keyword in Context, KIC)は、検索エンジン、パーソナルアシスタント、コンテンツ要約などのアプリケーションにおいて重要な役割を果たすタスクである。
本稿では,T5トランスフォーマーモデルを用いて,文脈逆変換APIから得られたデータを活用することによって,与えられたキーワードに対して不明瞭で簡潔な文文コンテキストを生成する手法を提案する。
コードはhttps://github.com/Rusamus/word2context/tree/main で公開されている。
In the age of information abundance, the ability to provide users with contextually relevant and concise information is crucial. Keyword in Context (KIC) generation is a task that plays a vital role in and generation applications, such as search engines, personal assistants, and content summarization. In this paper, we present a novel approach to generating unambiguous and brief sentence-contexts for given keywords using the T5 transformer model, leveraging data obtained from the Context-Reverso API. The code is available at https://github.com/Rusamus/word2context/tree/main . | 翻訳日:2024-03-14 16:22:37 公開日:2024-03-12 |
# 微分プライベートのための効率的な言語モデルアーキテクチャ
フェデレートラーニング
Efficient Language Model Architectures for Differentially Private Federated Learning ( http://arxiv.org/abs/2403.08100v1 ) ライセンス: Link先を確認 | Jae Hun Ro, Srinadh Bhojanapalli, Zheng Xu, Yanxiang Zhang, Ananda Theertha Suresh | (参考訳) クロスデバイス・フェデレーション・ラーニング(Cross-device Federated Learning, FL)は、デバイスを離れることなく、数百万のエッジデバイスに分散したデータ上でモデルをトレーニングするテクニックである。
SGDはクロスデバイスFLにおけるデバイストレーニングのための標準的なクライアントオプティマイザであり、メモリと計算効率に有利である。
しかしながら、ニューラルネットワークモデルの集中的なトレーニングでは、安定性とパフォーマンスの向上を提供するため、適応最適化が望ましい。
これを踏まえ、言語モデルをSGDクライアントオプティマイザで効率的に訓練し、肯定的に答えられるように修正できるかどうかを問う。
本研究では,Sigmoid と tanh のアクティベーションをリカレントセルで変更することにより,SI CIFG のリカレントネットワークを提案し,このモデルが大規模実験においてクロスデバイス FL の標準 CIFG 再カレントモデルよりも高速に収束し,有効であることを示す。
さらに,提案手法は,大規模変圧器モデルの連合学習にも有効であることを示す。
最後に、このスケール不変な修正は他の非適応アルゴリズムと互換性があることを実証する。
特に,本研究の結果は,差分プライバシーによるフェデレーション学習におけるプライバシーユーティリティトレードオフの改善を示唆している。
Cross-device federated learning (FL) is a technique that trains a model on data distributed across typically millions of edge devices without data leaving the devices. SGD is the standard client optimizer for on device training in cross-device FL, favored for its memory and computational efficiency. However, in centralized training of neural language models, adaptive optimizers are preferred as they offer improved stability and performance. In light of this, we ask if language models can be modified such that they can be efficiently trained with SGD client optimizers and answer this affirmatively. We propose a scale-invariant Coupled Input Forget Gate (SI CIFG) recurrent network by modifying the sigmoid and tanh activations in the recurrent cell and show that this new model converges faster and achieves better utility than the standard CIFG recurrent model in cross-device FL in large scale experiments. We further show that the proposed scale invariant modification also helps in federated learning of larger transformer models. Finally, we demonstrate the scale invariant modification is also compatible with other non-adaptive algorithms. Particularly, our results suggest an improved privacy utility trade-off in federated learning with differential privacy. | 翻訳日:2024-03-14 16:22:36 公開日:2024-03-12 |
# 自動車遺産を保存する - セキュアなブロックチェーンベースのソリューション
クラシックカー修復のドキュメンテーション
Preserving Automotive Heritage: A Blockchain-Based Solution for Secure Documentation of Classic Cars Restoration ( http://arxiv.org/abs/2403.08093v1 ) ライセンス: Link先を確認 | Jos\'e Murta and Vasco Amaral and Fernando Brito e Abreu | (参考訳) 古典的な自動車は自動車産業の重要な部分であり、特定の時代の歴史的、技術的成果を表している。
しかし、傑作と見なすには、専門職の厳格なガイドラインに従って、厳格な状態に保たなければならない。
したがって、復元プロセスに関するすべてのデータとこれらの車両に関するその他の関連する情報は、その検証可能性と不変性を保証するために厳格に文書化されなければならない。
ここでは、従来の自動車エコシステムにそのような機能を適切に提供するための、現在進行中の研究について報告する。
設計科学研究のアプローチを用いて、私たちはHyperledger Fabricを使ったブロックチェーンベースのソリューションを開発しました。これは、関心のある関係者間のコラボレーションを促進しながら、このデータが不変で信頼性の高いものであることを保証することで、従来の自動車情報、復元手順、および関連するドキュメントの適切な記録を容易にするものです。
このソリューションは検証され、クラシックカーセクターの様々なエンティティから肯定的なフィードバックを受けた。
強化された保護された文書は、古典的な自動車セクターのデジタルトランスフォーメーションに寄与し、信頼性と信頼性を促進し、最終的には古典的な自動車の市場価値を高めることが期待されている。
Classic automobiles are an important part of the automotive industry and represent the historical and technological achievements of certain eras. However, to be considered masterpieces, they must be maintained in pristine condition or restored according to strict guidelines applied by expert services. Therefore, all data about restoration processes and other relevant information about these vehicles must be rigorously documented to ensure their verifiability and immutability. Here, we report on our ongoing research to adequately provide such capabilities to the classic car ecosystem. Using a design science research approach, we have developed a blockchain-based solution using Hyperledger Fabric that facilitates the proper recording of classic car information, restoration procedures applied, and all related documentation by ensuring that this data is immutable and trustworthy while promoting collaboration between interested parties. This solution was validated and received positive feedback from various entities in the classic car sector. The enhanced and secured documentation is expected to contribute to the digital transformation of the classic car sector, promote authenticity and trustworthiness, and ultimately increase the market value of classic cars. | 翻訳日:2024-03-14 16:22:36 公開日:2024-03-12 |
# 属性編集が顔認識に与える影響について
Mitigating the Impact of Attribute Editing on Face Recognition ( http://arxiv.org/abs/2403.08092v1 ) ライセンス: Link先を確認 | Sudipta Banerjee, Sai Pranaswi Mullangi, Shruti Wagle, Chinmay Hegde, Nasir Memon | (参考訳) 生成モデルを用いた顔属性の編集は、顔の自動認識を損なう可能性がある。
この劣化は、InstantIDのような最近のID保存モデルでも持続する。
この問題を軽減するために,局所的およびグローバルな属性編集を行う2つの手法を提案する。
局所編集は、深度マップとセマンティックセマンティックセグメンテーションマスクを条件とした制御ネットに基づく正規化フリーの手法により、より細部まで操作する。
グローバル編集は、カスタマイズされた損失と正規化セットによってガイドされた正規化ベースの方法を通じて、粗い詳細で動作する。
本研究では,CelebA,CelebAMaskHQおよびLFWデータセット上のArcFaceおよびAdaFaceマーカを用いて,最新の生成モデルを用いて変化した26の顔意味,人口統計,表現に基づく属性を実証的に比較した。
最後に,属性予測のための視覚言語フレームワークであるLLaVAを用いて編集手法を検証する。
本手法は,識別を維持しながら顔編集において,SOTA(BLIP, InstantID)よりも優れていた。
Facial attribute editing using generative models can impair automated face recognition. This degradation persists even with recent identity-preserving models such as InstantID. To mitigate this issue, we propose two techniques that perform local and global attribute editing. Local editing operates on the finer details via a regularization-free method based on ControlNet conditioned on depth maps and auxiliary semantic segmentation masks. Global editing operates on coarser details via a regularization-based method guided by custom loss and regularization set. In this work, we empirically ablate twenty-six facial semantic, demographic and expression-based attributes altered using state-of-the-art generative models and evaluate them using ArcFace and AdaFace matchers on CelebA, CelebAMaskHQ and LFW datasets. Finally, we use LLaVA, a vision-language framework for attribute prediction to validate our editing techniques. Our methods outperform SoTA (BLIP, InstantID) at facial editing while retaining identity. | 翻訳日:2024-03-14 16:22:35 公開日:2024-03-12 |
# イベントカメラのためのフローベースビジュアルストリーム圧縮
Flow-Based Visual Stream Compression for Event Cameras ( http://arxiv.org/abs/2403.08086v1 ) ライセンス: Link先を確認 | Daniel C. Stumpp, Himanshu Akolkar, Alan D. George, Ryad Benosman | (参考訳) ニューロモルフィックなイベントベースの視覚センサの使用が拡大するにつれて、出力ストリームの圧縮の必要性が高まっている。
動作原理はイベントストリームが空間的に疎らであることを保証するが、センサーの高時間分解能はシーンのダイナミクスによってセンサーから高いデータレートが得られる。
通信帯域制限および電力制約のある環境で運用するシステムでは、これらのストリームをリモート受信機に送信する前に圧縮することが不可欠である。
そこで本稿では,イベントストリームをリアルタイムに非同期に圧縮するフローベース手法を提案する。
この方法は、リアルタイム光フロー推定を利用して、送信する必要なく将来の事象を予測するため、送信されるデータ量を劇的に削減する。
イベントストリーム間の時空間距離を含む様々な手法を用いて,フローベース圧縮の評価を行った。
提案手法は, 各種イベントカメラデータセットにおける平均圧縮比が2.81であることを示す。
この圧縮は、平均時空間誤差0.48ms、平均時空間イベントストリーム距離3.07で達成される。
非リアルタイムアプリケーションに対するLZMA圧縮と組み合わせることで、10.45から17.24までの最先端平均圧縮比が得られる。
さらに,提案アルゴリズムはリアルタイムかつ低レイテンシなイベント予測を行うことができることを示す。
As the use of neuromorphic, event-based vision sensors expands, the need for compression of their output streams has increased. While their operational principle ensures event streams are spatially sparse, the high temporal resolution of the sensors can result in high data rates from the sensor depending on scene dynamics. For systems operating in communication-bandwidth-constrained and power-constrained environments, it is essential to compress these streams before transmitting them to a remote receiver. Therefore, we introduce a flow-based method for the real-time asynchronous compression of event streams as they are generated. This method leverages real-time optical flow estimates to predict future events without needing to transmit them, therefore, drastically reducing the amount of data transmitted. The flow-based compression introduced is evaluated using a variety of methods including spatiotemporal distance between event streams. The introduced method itself is shown to achieve an average compression ratio of 2.81 on a variety of event-camera datasets with the evaluation configuration used. That compression is achieved with a median temporal error of 0.48 ms and an average spatiotemporal event-stream distance of 3.07. When combined with LZMA compression for non-real-time applications, our method can achieve state-of-the-art average compression ratios ranging from 10.45 to 17.24. Additionally, we demonstrate that the proposed prediction algorithm is capable of performing real-time, low-latency event prediction. | 翻訳日:2024-03-14 16:22:35 公開日:2024-03-12 |
# ピアネリングなソフトウェアエンジニアリング環境から学んだこと:設計
写真によるソフトウェアの原則
Lessons from a Pioneering Software Engineering Environment: Design Principles of Software through Pictures ( http://arxiv.org/abs/2403.08085v1 ) ライセンス: Link先を確認 | Anthony I. (Tony) Wasserman | (参考訳) 本稿では,Picturesによるマルチユーザ開発環境の革新的開発に繋がる歴史的背景と,ソフトウェア開発ライフサイクルにおける複数のタスクをカバーするソフトウェアエンジニアリング環境を構築するために,他のソフトウェア製品との統合の原則について述べる。
This paper describes the historical background that led to the development of the innovative Software through Pictures multi-user development environment, and the principles for its integration with other software products to create a software engineering environment covering multiple tasks in the software development lifecycle. | 翻訳日:2024-03-14 16:22:34 公開日:2024-03-12 |
# 自己注意による次のトークン予測の力学
Mechanics of Next Token Prediction with Self-Attention ( http://arxiv.org/abs/2403.08081v1 ) ライセンス: Link先を確認 | Yingcong Li, Yixiao Huang, M. Emrullah Ildiz, Ankit Singh Rawat, Samet Oymak | (参考訳) トランスフォーマーベースの言語モデルは、入力シーケンスが与えられた次のトークンを予測するために、大きなデータセットでトレーニングされる。
この単純な訓練目標にもかかわらず、自然言語処理の革命的な進歩につながった。
この成功の根底にあるのは、自己認識のメカニズムです。
$\textit{What}$ $\textit{does}$ $\textit{a}$ $\textit{single}$ $\textit{self-attention}$ $\textit{layer}$ $\textit{learn}$ $\textit{from}$ $\textit{next-token}$ $\textit{prediction?
$\textbf{(1)}$ $\textbf{Hard}$ $\textbf{retrieval:}$ given input sequence, self-attention exactlys the $\textit{high-priority}$ $\textit{input}$ $\textit{tokens}$ associated with the last input token。
$\textbf{(2)}$ $\textbf{Soft}$ $\textbf{composition:}$ 次に、次のトークンをサンプリングできる高優先度トークンの凸結合を生成する。
適切な条件下では、トレーニングデータから抽出したトークン上の有向グラフを通じて、これらの力学を厳格に特徴付ける。
我々は,このグラフの強結合成分(SCC)を暗黙的に発見し,自己注意がコンテキストウィンドウで利用可能な最優先のSCCに属するトークンを取得することを証明した。
我々の理論は、モデルの重みを、それぞれハード・検索とソフト・コンポジションのステップに対応する方向成分と有限成分に分解することに依存している。
これはまた [Tarzanagh et al 2023] で予想される関連する暗黙バイアス公式を定式化する。
これらの発見が、どのように自己認識がシーケンシャルなデータをどのように処理し、より複雑なアーキテクチャをデミステライズする道を開くか、光を当てることを願っています。
Transformer-based language models are trained on large datasets to predict the next token given an input sequence. Despite this simple training objective, they have led to revolutionary advances in natural language processing. Underlying this success is the self-attention mechanism. In this work, we ask: $\textit{What}$ $\textit{does}$ $\textit{a}$ $\textit{single}$ $\textit{self-attention}$ $\textit{layer}$ $\textit{learn}$ $\textit{from}$ $\textit{next-token}$ $\textit{prediction?}$ We show that training self-attention with gradient descent learns an automaton which generates the next token in two distinct steps: $\textbf{(1)}$ $\textbf{Hard}$ $\textbf{retrieval:}$ Given input sequence, self-attention precisely selects the $\textit{high-priority}$ $\textit{input}$ $\textit{tokens}$ associated with the last input token. $\textbf{(2)}$ $\textbf{Soft}$ $\textbf{composition:}$ It then creates a convex combination of the high-priority tokens from which the next token can be sampled. Under suitable conditions, we rigorously characterize these mechanics through a directed graph over tokens extracted from the training data. We prove that gradient descent implicitly discovers the strongly-connected components (SCC) of this graph and self-attention learns to retrieve the tokens that belong to the highest-priority SCC available in the context window. Our theory relies on decomposing the model weights into a directional component and a finite component that correspond to hard retrieval and soft composition steps respectively. This also formalizes a related implicit bias formula conjectured in [Tarzanagh et al. 2023]. We hope that these findings shed light on how self-attention processes sequential data and pave the path toward demystifying more complex architectures. | 翻訳日:2024-03-14 16:22:34 公開日:2024-03-12 |
# BayesFLo: 複雑なソフトウェアシステムのベイズ的フォールトローカライゼーション
BayesFLo: Bayesian fault localization of complex software systems ( http://arxiv.org/abs/2403.08079v1 ) ライセンス: Link先を確認 | Yi Ji, Simon Mak, Ryan Lekivetz, Joseph Morgan | (参考訳) ソフトウェアテストは複雑なソフトウェアシステムの信頼性の高い開発に不可欠である。
ソフトウェアテストにおける重要なステップは、障害ローカライゼーションである。これは、テストデータを使用して、さらなる診断のために障害誘発の組み合わせをピンポイントする。
しかし、既存のフォールトローカライゼーション手法は決定論的であり、潜在的な根本原因の確率的リスクを評価するための原則的アプローチや、テストエンジニアによるドメインおよび/または構造的知識を統合するための原則的アプローチを提供していない。
そこで本研究では,潜在的根本原因の組み合わせに対して柔軟なベイズモデルを利用するベイズFLoという,新しいベイズ断層局在化フレームワークを提案する。
BayesFLoの重要な特徴は、結合階層と遺伝の原則の統合である。
しかし、重要な課題は、考えられる根本原因シナリオの多さであり、小さなソフトウェアシステムであっても、後部根本原因確率の計算は不可能である。
そこで我々は、整数プログラミングやグラフ表現の最近のツールを活用して、そのような確率の効率的な計算のための新しいアルゴリズムを開発した。
次に, 現状の断層定位法に対するBayesFLoの有効性を, 数値実験と, JMP XGBoost インタフェースの2つの動機づけケーススタディで実証した。
Software testing is essential for the reliable development of complex software systems. A key step in software testing is fault localization, which uses test data to pinpoint failure-inducing combinations for further diagnosis. Existing fault localization methods, however, are largely deterministic, and thus do not provide a principled approach for assessing probabilistic risk of potential root causes, or for integrating domain and/or structural knowledge from test engineers. To address this, we propose a novel Bayesian fault localization framework called BayesFLo, which leverages a flexible Bayesian model on potential root cause combinations. A key feature of BayesFLo is its integration of the principles of combination hierarchy and heredity, which capture the structured nature of failure-inducing combinations. A critical challenge, however, is the sheer number of potential root cause scenarios to consider, which renders the computation of posterior root cause probabilities infeasible even for small software systems. We thus develop new algorithms for efficient computation of such probabilities, leveraging recent tools from integer programming and graph representations. We then demonstrate the effectiveness of BayesFLo over state-of-the-art fault localization methods, in a suite of numerical experiments and in two motivating case studies on the JMP XGBoost interface. | 翻訳日:2024-03-14 16:22:33 公開日:2024-03-12 |
# マニフォールド学習のためのマルチモーダル中間核融合ネットワーク
応力検出
A Multimodal Intermediate Fusion Network with Manifold Learning for Stress Detection ( http://arxiv.org/abs/2403.08077v1 ) ライセンス: Link先を確認 | Morteza Bodaghi, Majid Hosseini, Raju Gottumukkala | (参考訳) マルチモーダルディープラーニング法は,複数のモーダルから相乗的特徴を抽出し,非モーダル法と比較して,ストレス検出の精度を向上させる可能性がある。
しかし、この精度の向上は一般に高次元の特徴空間、特に中間核融合のために高い計算コストから生じる。
次元性の低減は、データを簡単にし、処理や解析に適する機能をより高め、計算複雑性を減らすことで、マルチモーダル学習を最適化する1つの方法である。
本稿では,多様体学習に基づく次元減少を伴う中間的マルチモーダル融合ネットワークを提案する。
このマルチモーダルネットワークは、1D-CNNおよび2D-CNNを介して生体信号と顔のランドマークから独立表現を生成する。
最後に、これらの機能は融合され、別の1D-CNN層に供給され、続いて完全に接続された高密度層が続く。
我々は,一次元ネットワークと多モードネットワークの異なるバリエーションについて,様々な次元削減手法を比較した。
また,多次元スケーリング法 (MDS) による中間レベル融合は, 他の次元縮小法よりも96.00\%の精度で, LOSO-CV(Leave-One-Subject-Out Cross-Validation)パラダイムで有望な結果を示した。
MDSは多様体学習法の中で最も計算コストが高かった。
しかし、他のネットワークよりも優れている一方で、前処理ステップでよく知られた6つの特徴選択手法と比較して、提案したネットワークの計算コストを25%削減することができた。
Multimodal deep learning methods capture synergistic features from multiple modalities and have the potential to improve accuracy for stress detection compared to unimodal methods. However, this accuracy gain typically comes from high computational cost due to the high-dimensional feature spaces, especially for intermediate fusion. Dimensionality reduction is one way to optimize multimodal learning by simplifying data and making the features more amenable to processing and analysis, thereby reducing computational complexity. This paper introduces an intermediate multimodal fusion network with manifold learning-based dimensionality reduction. The multimodal network generates independent representations from biometric signals and facial landmarks through 1D-CNN and 2D-CNN. Finally, these features are fused and fed to another 1D-CNN layer, followed by a fully connected dense layer. We compared various dimensionality reduction techniques for different variations of unimodal and multimodal networks. We observe that the intermediate-level fusion with the Multi-Dimensional Scaling (MDS) manifold method showed promising results with an accuracy of 96.00\% in a Leave-One-Subject-Out Cross-Validation (LOSO-CV) paradigm over other dimensional reduction methods. MDS had the highest computational cost among manifold learning methods. However, while outperforming other networks, it managed to reduce the computational cost of the proposed networks by 25\% when compared to six well-known conventional feature selection methods used in the preprocessing step. | 翻訳日:2024-03-14 16:22:32 公開日:2024-03-12 |
# ミラーライクな状態識別に基づく文脈性の回復
PT-および反PT-対称系
Recovery of contextuality based on mirror-like state discrimination in PT- and anti-PT-symmetric systems ( http://arxiv.org/abs/2403.08076v1 ) ライセンス: Link先を確認 | Xuan Fan, Ya Xiao, Yongjian Gu | (参考訳) 過去数十年間、パリティ時 (PT) と反パリティ時 (APT) システムの研究は前例のない注目を集め、それらの様々な興味深い特性と有望な可能性を示す。
しかし、この新しい物理学分野への多大な取り組みにもかかわらず、文脈性の非エルミート力学は、PT対称性またはAPT対称性のいずれにおいても、まだ未知の領域のままである。
文脈性は量子状態判別(QSD)タスクのコアリソースでもあることが証明されているので,両システムにおいて,ミラー対称な3状態最小誤差判別(MED)と最大信頼度判定(MCD)の2つのシナリオを例として,文脈性の新たな性能について体系的に検討する。
2つのシナリオと8つのレジーム(各シナリオの4つのレジーム)における文脈性の時間的進化を包括的に比較分析し、初期状態の違いも考慮した。
シミュレーションでは,MEDシナリオとMCDシナリオの両シナリオに対して,時間的変動の周期的振動を示すが,その周期は状態に依存しないがシステムの非ハーモニティに関係している。
MED と MCD の両者は、PT システムにおける初期値を超える文脈の再現性を示すが、これは APT システムにおいて MCD にのみ存在する。
対称性が破られた状態では、両方のシナリオの成功確率は最初は急激な崩壊から始まり、常に1/3の安定な値になる。
非自明性は、回復した文脈性がその初期値を超えるPTシステムにおけるMDDシナリオにのみ見られる。
In the past decades, researches on parity-time (PT) and anti-parity-time(APT) systems have garnered unprecedented attention, showcasing their various intriguing characteristics and promising potentiality in extending canonical Hermitian quantum mechanics. However, despite significant endeavors devoted to this new field of physics, non-Hermitian dynamics of contextuality still remains an uncharted region, either in PT-symmetry or APT-symmetry systems. Since contextuality has also been proven to be the core resource for quantum state discrimination (QSD) tasks, here we systematically investigate the novel performance of contextuality through QSD in both systems, taking mirror-symmetric three-state minimum error discrimination (MED) and maximum confidence discrimination (MCD) scenarios as two examples. The time evolution of contextuality in two scenarios and eight regimes (four regimes for each scenario) are comprehensively compared and analyzed, with the difference of initial states also considered. In the symmetry-unbroken regimes, our simulation shows periodic oscillations of contextuality for both MED and MCD scenarios, the period of which is state-independent but related to non-Hermiticity of the system. Both MED and MCD shows non-trivial recovery of contextuality exceeding its initial value in PT system, which is only existent for MCD in APT system. In the symmetry-broken regimes, the success probabilities of both scenarios start from a prompt decay at first, ending up with a stable value which is constantly 1/3. Non-triviality is found only for MCD scenario in PT system, where the recovered contextuality exceeds its initial value. | 翻訳日:2024-03-14 16:22:31 公開日:2024-03-12 |
# 最小誤差における文脈アドバンテージの実証実験
最大信頼ミラー状態判別
Experimental demonstration of Contextual Advantage in minimum error and maximum confidence mirror-state discrimination ( http://arxiv.org/abs/2403.08073v1 ) ライセンス: Link先を確認 | Xuan Fan, Ya Xiao, Yongjian Gu | (参考訳) 文脈性は古典理論と量子理論の境界を定め、量子上の優位性を示すタスクを特定するための重要な資源としてよく知られている。
最近の研究(Schmid and Spekkens, Phys.Rev.X 8, 011015 (2018), Mukherjee, Naonit and Pan, Phys.Rev.A 106, 012216 (2022), Flatt, Lee, Carceller, Brask and Bae, PRX QUANTUM 3, 030337 (2022)] では、最小誤差判定(MED)や最大信頼判定(MCD)を含む量子状態識別(QSD)タスクにおいてコンテキスト性が重要なリソースであることが示されている。
上記の作品の根本的な進歩にもかかわらず、誰も、このリソースを実際のQSDタスクに適用する最終目標に間違いなく必要となる、彼らの派手な提案を実現する方法について言及していない。
本稿では、QSDにおける任意の図形に容易に一般化できる干渉量子ウォークを用いて、3つのミラー対称状態に対して、MDDとMDDの両方で文脈的優位性を示す最初の実験例を報告する。
本実験は, 理論的シミュレーションの結果とよく一致し, また, この手法を応用して, 文脈性の検証やQSDを必要とする様々なタスクの四項的優位性を示すために, より単純なバージョンを探索する可能性を示した。
Contextuality is well known as a vital resource for locating the boundary between classical and quantum theories, as well as identifying tasks showing quantum advantage. In a surge of recent works [Schmid and Spekkens, Phys.Rev.X 8, 011015 (2018); Mukherjee, Naonit and Pan, Phys.Rev.A 106, 012216 (2022); Flatt, Lee, Carceller, Brask and Bae, PRX QUANTUM 3, 030337 (2022)], it has also been shown that contextuality is the crucial resource in quantum state discrimination (QSD) tasks, including minimum error discrimination (MED) and maximum confidence discrimination (MCD), together with many other figure-of-merits. Despite the fundamental progress made by those aforementioned works, none of them mention about how to realize their fancy proposals, which is doubtlessly necessary for the final goal of applying this resource in real QSD tasks. In this paper, we report the first experimental demonstration of contextual advantage in both MED and MCD for three mirror-symmetric states using interferometric quantum walk, which can be easily generalized to any figure-of-merit in QSD. Our experiment agrees well with the result of theoretical simulation, and also shows the great potentiality of leveraging this method to explore a simpler version for the witness of contextuality, as well as demonstrating quanutm advantage of various tasks that require QSD. | 翻訳日:2024-03-14 16:22:30 公開日:2024-03-12 |
# Zero-Rating, One Big Mess: 差分価格のプラクティスの分析
ヨーロッパMNO
Zero-Rating, One Big Mess: Analyzing Differential Pricing Practices of European MNOs ( http://arxiv.org/abs/2403.08066v1 ) ライセンス: Link先を確認 | Gabriel Karl Gegenhuber, Wilfried Mayer, Edgar Weippl | (参考訳) 特定のアプリケーションに属するデータトラフィックを請求しないZero-ratingは、世界中のモバイルエコシステムで人気を集めている。
モバイル事業者がトラフィックの差別化を許すべきなのか、ネット中立性規制がこれを阻止すべきなのか、議論が続いている。
この問題の重要性にもかかわらず、実装がモバイル事業者によって秘密にされているため、ゼロレーティングの技術的側面についてはほとんど分かっていないので、エンドユーザーや規制機関には不透明である。
この研究は、EUの7つの異なるモバイルオペレーターで4つの人気アプリケーションのゼロレーティングに使用される分類プラクティスを独立して監査することを目的としている。
国内および国際的にローミングされた環境下で300以上の制御された実験を実施・評価し、ほぼすべてのオペレーターに対して潜在的に問題のある行動を特定する。
この研究により、現在のプラクティスに関する透明性を高め、今後の決定と方針を通知したいと思っています。
Zero-rating, the practice of not billing data traffic that belongs to certain applications, has become popular within the mobile ecosystem around the globe. There is an ongoing debate whether mobile operators should be allowed to differentiate traffic or whether net neutrality regulations should prevent this. Despite the importance of this issue, we know little about the technical aspects of zero-rating offers since the implementation is kept secret by mobile operators and therefore is opaque to end-users and regulatory agencies. This work aims to independently audit classification practices used for zero-rating of four popular applications at seven different mobile operators in the EU. We execute and evaluate more than 300 controlled experiments within domestic and internationally roamed environments and identify potentially problematic behavior at almost all investigated operators. With this study, we hope to increase transparency around the current practices and inform future decisions and policies. | 翻訳日:2024-03-14 16:22:30 公開日:2024-03-12 |
# シンプレクティック双対ペアとしてのヒルベルト双加群の古典的極限
Classical Limits of Hilbert Bimodules as Symplectic Dual Pairs ( http://arxiv.org/abs/2403.08060v1 ) ライセンス: Link先を確認 | Benjamin H. Feintzeig and Jer Steeger | (参考訳) ヒルベルト双加群は量子系のC*-代数モデルの間の射であり、シンプレクティック双対は古典系のポアソン幾何学モデルの間の射である。
これらの射はどちらも、関連するモデルの表現論的構造を保存する。
以前は、厳密な変形量子化により、あるシンプレクティック双対をヒルベルト双加群に関手的に関連付けることができることが示されている。
逆方向において、厳密な変形量子化は、シンプレクティック双対を再構成するためにヒルベルト双加群の古典的極限を函手的に取ることを可能にする。
Hilbert bimodules are morphisms between C*-algebraic models of quantum systems, while symplectic dual pairs are morphisms between Poisson geometric models of classical systems. Both of these morphisms preserve representation-theoretic structures of the relevant types of models. Previously, it has been shown that one can functorially associate certain symplectic dual pairs to Hilbert bimodules through strict deformation quantization. We show that, in the inverse direction, strict deformation quantization also allows one to functorially take the classical limit of a Hilbert bimodule to reconstruct a symplectic dual pair. | 翻訳日:2024-03-14 16:22:29 公開日:2024-03-12 |
# FluoroSAM:X線画像のための言語対応基盤モデル
セグメンテーション
FluoroSAM: A Language-aligned Foundation Model for X-ray Image Segmentation ( http://arxiv.org/abs/2403.08059v1 ) ライセンス: Link先を確認 | Benjamin D. Killeen, Liam J. Wang, Han Zhang, Mehran Armand, Russell H. Taylor, Greg Osgood, Mathias Unberath | (参考訳) 自動X線画像分割は、診断および介入精度医学の研究と開発を加速する。
それまでの取り組みは、特定の画像分析問題を解決するタスク固有のモデルに貢献してきたが、これらのモデルの実用性は特定のタスク領域に限定されており、より広範囲に使用するためには、追加のデータ、ラベル、再訓練が必要である。
近年、大量の高可変データに基づいてトレーニングされた機械学習モデルであるファンデーションモデル(FM)が、自動画像解析のための有望なツールとして登場した。
医用画像解析のための既存のFMは、内視鏡における外科的ツールセグメンテーションのような視覚的に明らかな境界によって、オブジェクトが明確に定義されるシナリオとモダリティに焦点を当てている。
対照的に、X線イメージングは一般的にそのような明確な境界線や構造を提示しない。
X線画像形成において、複雑な3D構造が撮像面に投影され、不透明度と形状の重なり合いが生じる。
任意の医療用X線画像の包括的かつ自動解析を行うためのFMへの道を開くために,1.6Mの合成X線画像に対してゼロから訓練したセグメント・アニーシング・モデルの言語対応版であるFluoroSAMを開発した。
FluoroSAMは128種類の臓器と464の非解剖学的物体(ツールやインプラントなど)のマスクを含むデータに基づいて訓練されている。
実際のカダベリック標本のX線画像では、FluoroSAMはテキストのみのプロンプトで0.51と0.79のDICEで、全ての構造に対して競合するSAM変異よりも優れている。
FluoroSAMはまた、言語アライメントのおかげでトレーニングセット以外のセグメンテーションクラスへのゼロショットの一般化も可能であり、実際の胸部X線で肺の完全なセグメンテーションを実証する。
Automated X-ray image segmentation would accelerate research and development in diagnostic and interventional precision medicine. Prior efforts have contributed task-specific models capable of solving specific image analysis problems, but the utility of these models is restricted to their particular task domain, and expanding to broader use requires additional data, labels, and retraining efforts. Recently, foundation models (FMs) -- machine learning models trained on large amounts of highly variable data thus enabling broad applicability -- have emerged as promising tools for automated image analysis. Existing FMs for medical image analysis focus on scenarios and modalities where objects are clearly defined by visually apparent boundaries, such as surgical tool segmentation in endoscopy. X-ray imaging, by contrast, does not generally offer such clearly delineated boundaries or structure priors. During X-ray image formation, complex 3D structures are projected in transmission onto the imaging plane, resulting in overlapping features of varying opacity and shape. To pave the way toward an FM for comprehensive and automated analysis of arbitrary medical X-ray images, we develop FluoroSAM, a language-aligned variant of the Segment-Anything Model, trained from scratch on 1.6M synthetic X-ray images. FluoroSAM is trained on data including masks for 128 organ types and 464 non-anatomical objects, such as tools and implants. In real X-ray images of cadaveric specimens, FluoroSAM is able to segment bony anatomical structures based on text-only prompting with 0.51 and 0.79 DICE with point-based refinement, outperforming competing SAM variants for all structures. FluoroSAM is also capable of zero-shot generalization to segmenting classes beyond the training set thanks to its language alignment, which we demonstrate for full lung segmentation on real chest X-rays. | 翻訳日:2024-03-14 16:22:29 公開日:2024-03-12 |
# 学習可能で説明可能なシンプルマップニューラルネットワーク
Trainable and Explainable Simplicial Map Neural Networks ( http://arxiv.org/abs/2306.00010v3 ) ライセンス: Link先を確認 | Eduardo Paluzo-Hidalgo, Miguel A. Guti\'errez-Naranjo, Rocio Gonzalez-Diaz | (参考訳) 単純マップニューラルネットワーク(Simplicial Map Neural Network, SMNN)は、一般的な近似能力や、適切な条件下での敵の例に対する堅牢性といった興味深い特性を持つトポロジーベースのニューラルネットワークである。
しかし、SMNNは高次元データセットに適用可能なボトルネックをいくつか提示する。
第一に、SMNNは固定重量を事前に計算しており、SMNNトレーニングプロセスは定義されていないため、一般化能力に欠ける。
第二に、SMNNは入力データセットを囲む凸ポリトープを構築する必要がある。
本稿では,与えられたデータセットのサポートサブセットに基づいてSMNNトレーニング手順を提案し,ハイパースフィアへの投影に基づく手法により凸ポリトープの構成を置き換えることで,これらの課題を克服する。
また,本論文では,SMNNの説明可能性と効果的な実装についても紹介する。
Simplicial map neural networks (SMNNs) are topology-based neural networks with interesting properties such as universal approximation ability and robustness to adversarial examples under appropriate conditions. However, SMNNs present some bottlenecks for their possible application in high-dimensional datasets. First, SMNNs have precomputed fixed weight and no SMNN training process has been defined so far, so they lack generalization ability. Second, SMNNs require the construction of a convex polytope surrounding the input dataset. In this paper, we overcome these issues by proposing an SMNN training procedure based on a support subset of the given dataset and replacing the construction of the convex polytope by a method based on projections to a hypersphere. In addition, the explainability capacity of SMNNs and an effective implementation are also newly introduced in this paper. | 翻訳日:2024-03-14 11:16:57 公開日:2024-03-12 |
# スパースカウントデータのためのAL$\ell_0$COREテンソル分解
The AL$\ell_0$CORE Tensor Decomposition for Sparse Count Data ( http://arxiv.org/abs/2403.06153v2 ) ライセンス: Link先を確認 | John Hood, Aaron Schein | (参考訳) 本稿では、確率的非負テンソル分解の新しい形式であるAL$\ell_0$COREを紹介する。
AL$\ell_0$COREはタッカー分解であり、コアテンソルのゼロでない要素の数(例えば$\ell_0$-norm)は、コアのサイズよりもかなり小さいプリセット値$Q$に制約される。
ユーザは総予算$Q$を指示するが、非ゼロ要素の位置と値は潜伏変数であり、推論中にコアテンソル全体に割り当てられる。
AL$\ell_0$CORE -- つまり$allo$cated $\ell_0$-$co$nstrained $core$-- なので、CP分解の計算的トラクタビリティと、Tuckerの質的に魅力的な潜在構造の両方を楽しむことができる。
実データ実験のスイートでは、AL$\ell_0$COREは通常、完全なTucker分解と同じ結果を得るためには、完全なコアの小さな分数(例えば、~1%)しか必要としないことを示した。
This paper introduces AL$\ell_0$CORE, a new form of probabilistic non-negative tensor decomposition. AL$\ell_0$CORE is a Tucker decomposition where the number of non-zero elements (i.e., the $\ell_0$-norm) of the core tensor is constrained to a preset value $Q$ much smaller than the size of the core. While the user dictates the total budget $Q$, the locations and values of the non-zero elements are latent variables and allocated across the core tensor during inference. AL$\ell_0$CORE -- i.e., $allo$cated $\ell_0$-$co$nstrained $core$-- thus enjoys both the computational tractability of CP decomposition and the qualitatively appealing latent structure of Tucker. In a suite of real-data experiments, we demonstrate that AL$\ell_0$CORE typically requires only tiny fractions (e.g.,~1%) of the full core to achieve the same results as full Tucker decomposition at only a correspondingly tiny fraction of the cost. | 翻訳日:2024-03-14 10:59:13 公開日:2024-03-12 |
# 電子におけるサイス格子の実装とキャラクタリゼーション
量子シミュレーター
Implementation and characterization of the dice lattice in the electron quantum simulator ( http://arxiv.org/abs/2403.06040v2 ) ライセンス: Link先を確認 | Camillo Tassi and Dario Bercioux | (参考訳) 接点、局所状態、平らなバンドを特徴とする材料は、トポロジー、量子幾何学、超伝導、相互作用に影響を及ぼすため、凝縮物質や人工システムに大きな関心を持っている。
本研究では, 111)銅表面の二次元電子系上に一酸化炭素分子を配置することにより, 調整可能なパラメータによるダイス格子の実験的実現を提案する。
まず、ほぼ自由な電子近似の中でスペクトル特性を得るための理論的枠組みを開発し、それらを強結合計算と比較する。
本研究は, ショックレー状態電子の高モビリティにより, 局所密度における接触点, 準平ら帯, 局所格子部位の挙動の出現により, 隣り合う強結合モデルを用いて, 人工格子の正確な理論的記述が可能であることを明らかにした。
さらに,次のアレスト近傍ホッピング項を考慮した長波長低エネルギーモデルに関する理論的結果を示す。
さらに、理論的には、格子モデルに磁場を組み込む理論物理学において一般的に用いられるピエル置換法を用いて、外部磁場下でのモデルの挙動を理論的に検討する。
実験結果から,アハロノフ-ボームケージ機構にともなう高縮退エネルギーは,電子移動性に起因している可能性が示唆された。
Materials featuring touching points, localized states, and flat bands are of great interest in condensed matter and artificial systems due to their implications in topology, quantum geometry, superconductivity, and interactions. In this theoretical study, we propose the experimental realization of the dice lattice with adjustable parameters by arranging carbon monoxide molecules on a two-dimensional electron system at a (111) copper surface. First, we develop a theoretical framework to obtain the spectral properties within a nearly free electron approximation and then compare them with tight-binding calculations. Our investigation reveals that the high mobility of Shockley state electrons enables an accurate theoretical description of the artificial lattice using a next-nearest-neighbor tight-binding model, resulting in the emergence of a touching point, a quasi-flat band, and localized lattice site behavior in the local density of states. Additionally, we present theoretical results for a long-wavelength low-energy model that accounts for next-nearest-neighbor hopping terms. Furthermore, we theoretically examine the model's behavior under an external magnetic field by employing Peierl's substitution, a commonly used technique in theoretical physics to incorporate magnetic fields into lattice models. Our theoretical findings suggest that, owing to the exceptional electron mobility, the highly degenerate eigenenergy associated with the Aharonov-Bohm caging mechanism may not manifest in the proposed experiment. | 翻訳日:2024-03-14 10:59:12 公開日:2024-03-12 |
# ガウスの単一インデックスモデルにおける計算統計的ギャップ
Computational-Statistical Gaps in Gaussian Single-Index Models ( http://arxiv.org/abs/2403.05529v2 ) ライセンス: Link先を確認 | Alex Damian, Loucas Pillaud-Vivien, Jason D. Lee, Joan Bruna | (参考訳) 単一インデックスモデル(Single-Index Models)は、植木構造における高次元回帰問題であり、ラベルは汎用的で非線形で潜在的に非決定論的変換を通じて入力の未知の1次元の射影に依存する。
このように、それらは幅広い統計的推論タスクを包含し、高次元状態における統計的および計算的トレードオフを研究するための豊富なテンプレートを提供する。
隠れた方向を復元する情報理論的なサンプル複雑性は$d$で線形であるが、統計的クエリ (SQ) と低デグレ多項式 (LDP) フレームワークの両方において計算効率のよいアルゴリズムは、必然的に$\Omega(d^{k^\star/2})$サンプルを必要とする。
さらに、このサンプルの複雑さも、部分トレースアルゴリズムを用いて一致した上限を確立することで十分であることを示す。
したがって、この結果は、$k^\star>2$のとき、(SQクラスとLDPクラスの両方で)鋭い計算と統計のギャップの証拠となる。
この研究を完了するために、任意に大きい生成指数を$k^\star$とする滑らかかつリプシッツ決定論的対象関数の例を示す。
Single-Index Models are high-dimensional regression problems with planted structure, whereby labels depend on an unknown one-dimensional projection of the input via a generic, non-linear, and potentially non-deterministic transformation. As such, they encompass a broad class of statistical inference tasks, and provide a rich template to study statistical and computational trade-offs in the high-dimensional regime. While the information-theoretic sample complexity to recover the hidden direction is linear in the dimension $d$, we show that computationally efficient algorithms, both within the Statistical Query (SQ) and the Low-Degree Polynomial (LDP) framework, necessarily require $\Omega(d^{k^\star/2})$ samples, where $k^\star$ is a "generative" exponent associated with the model that we explicitly characterize. Moreover, we show that this sample complexity is also sufficient, by establishing matching upper bounds using a partial-trace algorithm. Therefore, our results provide evidence of a sharp computational-to-statistical gap (under both the SQ and LDP class) whenever $k^\star>2$. To complete the study, we provide examples of smooth and Lipschitz deterministic target functions with arbitrarily large generative exponents $k^\star$. | 翻訳日:2024-03-14 10:59:10 公開日:2024-03-12 |
# 高速高精度イメージングのためのR2D2ディープニューラルネットワークシリーズパラダイム
電波天文学では
The R2D2 deep neural network series paradigm for fast precision imaging in radio astronomy ( http://arxiv.org/abs/2403.05452v2 ) ライセンス: Link先を確認 | Amir Aghabiglou, Chung San Chu, Arwa Dabbech, Yves Wiaux | (参考訳) ラジオインターフェロメトリ(RI)イメージングは、大容量データから高解像度の高ダイナミックレンジ逆問題を解決する。
最適化理論に基づく最近の画像再構成技術は、CLEANの能力をはるかに超えて、画像の精度を著しく向上させることを示した。
これらは、SARAファミリーのような手作りの正規化演算子によって推進される高度な近位アルゴリズムから、AIRIのような学習正規化復号器によって推進されるハイブリッドプラグアンドプレイ(PnP)アルゴリズムまで様々である。
しかし、最適化とPnP構造は非常に反復的であり、将来の機器から期待される極端なデータサイズを扱う能力を妨げる。
このスケーラビリティ問題に対処するため,我々は‘Residual-to-Residual DNN series for High-Dynamic Range Imaging’という新しいディープラーニング手法を導入する。
R2D2の再構成は一連の残像として形成され、前回の反復のイメージ推定と関連するデータを入力として取り込むディープニューラルネットワーク(DNN)の出力として反復的に推定される。
これにより、PnPアルゴリズムとCLEANの基盤となるマッチング追従アルゴリズムの学習バージョンとのハイブリッド構造を取る。
本稿では,DNNアーキテクチャによって区別される複数のインカーネーションを特徴とするアプローチを包括的に検討する。
我々は、望遠鏡固有のアプローチをターゲットとした、そのトレーニングプロセスの詳細な説明を提供する。
高精度を実現するR2D2の能力は、Very Large Array (VLA) を用いた様々な画像および観測設定のシミュレーションで実証されている。
その復元速度も示される: ダイナミックレンジでデータ残基を最大100000まで掃除するのに必要なイテレーションは数回しかなく、R2D2は高速な精度の撮像のためにドアを開く。
R2D2コードはGitHubのBASPLibライブラリから入手できる。
Radio-interferometric (RI) imaging entails solving high-resolution high-dynamic range inverse problems from large data volumes. Recent image reconstruction techniques grounded in optimization theory have demonstrated remarkable capability for imaging precision, well beyond CLEAN's capability. These range from advanced proximal algorithms propelled by handcrafted regularization operators, such as the SARA family, to hybrid plug-and-play (PnP) algorithms propelled by learned regularization denoisers, such as AIRI. Optimization and PnP structures are however highly iterative, which hinders their ability to handle the extreme data sizes expected from future instruments. To address this scalability challenge, we introduce a novel deep learning approach, dubbed ``Residual-to-Residual DNN series for high-Dynamic range imaging''. R2D2's reconstruction is formed as a series of residual images, iteratively estimated as outputs of Deep Neural Networks (DNNs) taking the previous iteration's image estimate and associated data residual as inputs. It thus takes a hybrid structure between a PnP algorithm and a learned version of the matching pursuit algorithm that underpins CLEAN. We present a comprehensive study of our approach, featuring its multiple incarnations distinguished by their DNN architectures. We provide a detailed description of its training process, targeting a telescope-specific approach. R2D2's capability to deliver high precision is demonstrated in simulation, across a variety of image and observation settings using the Very Large Array (VLA). Its reconstruction speed is also demonstrated: with only few iterations required to clean data residuals at dynamic ranges up to 100000, R2D2 opens the door to fast precision imaging. R2D2 codes are available in the BASPLib library on GitHub. | 翻訳日:2024-03-14 10:59:09 公開日:2024-03-12 |
# Lottery Ticket仮説の検討
A Survey of Lottery Ticket Hypothesis ( http://arxiv.org/abs/2403.04861v2 ) ライセンス: Link先を確認 | Bohan Liu, Zijie Zhang, Peixiong He, Zhensen Wang, Yang Xiao, Ruimeng Ye, Yang Zhou, Wei-Shinn Ku, Bo Hui | (参考訳) Lottery Ticket hypothesis (LTH) は、高密度ニューラルネットワークモデルには、高度にスパースなサブネット(すなわち、当選チケット)が含まれており、単独で訓練された場合、元のモデルよりもパフォーマンスが向上すると述べている。
LTHは経験的にも理論的にも多くの研究で証明されているが、効率性やスケーラビリティなど、未解決の問題がまだいくつか残っている。
また、オープンソースフレームワークやコンセンサスな実験環境の欠如は、将来のLTHの研究に課題をもたらしている。
我々は,LTHに関するこれまでの研究と研究を,異なる視点から初めて検討した。
既存の作業の問題点についても議論し、今後の探索の方向性を列挙する。
この調査は、LTHの現状を詳細に把握し、実験を行い、最も更新されたベースラインと比較する、完全に保守されたプラットフォームを開発することを目的としている。
The Lottery Ticket Hypothesis (LTH) states that a dense neural network model contains a highly sparse subnetwork (i.e., winning tickets) that can achieve even better performance than the original model when trained in isolation. While LTH has been proved both empirically and theoretically in many works, there still are some open issues, such as efficiency and scalability, to be addressed. Also, the lack of open-source frameworks and consensual experimental setting poses a challenge to future research on LTH. We, for the first time, examine previous research and studies on LTH from different perspectives. We also discuss issues in existing works and list potential directions for further exploration. This survey aims to provide an in-depth look at the state of LTH and develop a duly maintained platform to conduct experiments and compare with the most updated baselines. | 翻訳日:2024-03-14 10:59:08 公開日:2024-03-12 |
# 視覚的人物認証のための動的クロスアテンション
Dynamic Cross Attention for Audio-Visual Person Verification ( http://arxiv.org/abs/2403.04661v2 ) ライセンス: Link先を確認 | R. Gnana Praveen, Jahangir Alam | (参考訳) 個人や個人認証は顔や声などの個別のモダリティを用いて主に検討されてきたが、近年では音声と視覚の融合が一助的アプローチを上回る可能性を示している。
音声と視覚のモダリティは、しばしば強い相補関係を生じさせ、効果的な視覚融合において重要な役割を担っている。
しかし、必ずしも互いに強く補完するとは限らないし、補間関係が弱く、結果として音声・視覚的特徴表現が貧弱になることもある。
本稿では,音声と視覚の相補的関係に基づき,動的クロスアテンション(DCA)モデルを提案する。
特に、条件付きゲーティング層は、クロスアテンション機構の寄与を評価し、強い相補的関係を示す場合にのみクロスアテンション特徴を選択するように設計されている。
Voxceleb1データセットで大規模な実験を行い、提案モデルの堅牢性を実証した。
その結果,提案モデルでは,複数種類のクロスアテンションの性能が常に向上し,最先端の手法よりも優れていたことが示唆された。
Although person or identity verification has been predominantly explored using individual modalities such as face and voice, audio-visual fusion has recently shown immense potential to outperform unimodal approaches. Audio and visual modalities are often expected to pose strong complementary relationships, which plays a crucial role in effective audio-visual fusion. However, they may not always strongly complement each other, they may also exhibit weak complementary relationships, resulting in poor audio-visual feature representations. In this paper, we propose a Dynamic Cross-Attention (DCA) model that can dynamically select the cross-attended or unattended features on the fly based on the strong or weak complementary relationships, respectively, across audio and visual modalities. In particular, a conditional gating layer is designed to evaluate the contribution of the cross-attention mechanism and choose cross-attended features only when they exhibit strong complementary relationships, otherwise unattended features. Extensive experiments are conducted on the Voxceleb1 dataset to demonstrate the robustness of the proposed model. Results indicate that the proposed model consistently improves the performance on multiple variants of cross-attention while outperforming the state-of-the-art methods. | 翻訳日:2024-03-14 10:59:07 公開日:2024-03-12 |
# 再帰的関節融合に基づく聴覚・視覚人物の検証
交差注意
Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention ( http://arxiv.org/abs/2403.04654v2 ) ライセンス: Link先を確認 | R. Gnana Praveen, Jahangir Alam | (参考訳) 近年,顔や声が互いに密接な関連性を共有しているため,音声と視覚の融合による個人認証や身元確認が注目されている。
従来の音声-視覚融合に基づくアプローチは、スコアレベルまたは初期特徴レベルの融合技術に依存している。
既存のアプローチでは、単調なシステムよりも改善が見られたが、人物認証のための音声-視覚融合の可能性は、十分に活用されていない。
本稿では,音声と視覚の両モード間の相互関係を効果的に把握する可能性について検討した。
特に,共用音声・視覚的特徴表現を相互意図の枠組みで再帰的に活用し,モーダル内およびモーダル間関係を効果的に捉えることのできる特徴表現を段階的に洗練する,連用音声・視覚的特徴表現モデルの再帰的融合を導入する。
音声・視覚的特徴表現をさらに強化するため,音声・視覚的特徴表現の時間的モデリングを改善するため,BLSTMについても検討した。
提案モデルを評価するために,Voxceleb1データセット上で大規模な実験を行った。
以上の結果から,本モデルでは,音声と視覚の相違点を網羅的に捉えることにより,融合性能が向上することが示唆された。
Person or identity verification has been recently gaining a lot of attention using audio-visual fusion as faces and voices share close associations with each other. Conventional approaches based on audio-visual fusion rely on score-level or early feature-level fusion techniques. Though existing approaches showed improvement over unimodal systems, the potential of audio-visual fusion for person verification is not fully exploited. In this paper, we have investigated the prospect of effectively capturing both the intra- and inter-modal relationships across audio and visual modalities, which can play a crucial role in significantly improving the fusion performance over unimodal systems. In particular, we introduce a recursive fusion of a joint cross-attentional model, where a joint audio-visual feature representation is employed in the cross-attention framework in a recursive fashion to progressively refine the feature representations that can efficiently capture the intra-and inter-modal relationships. To further enhance the audio-visual feature representations, we have also explored BLSTMs to improve the temporal modeling of audio-visual feature representations. Extensive experiments are conducted on the Voxceleb1 dataset to evaluate the proposed model. Results indicate that the proposed model shows promising improvement in fusion performance by adeptly capturing the intra-and inter-modal relationships across audio and visual modalities. | 翻訳日:2024-03-14 10:59:07 公開日:2024-03-12 |
# 三次元観測データにおける治療効果のロバスト評価のための2段階特徴選択手法 A Two-Stage Feature Selection Approach for Robust Evaluation of Treatment Effects in High-Dimensional Observational Data ( http://arxiv.org/abs/2111.13800v2 ) ライセンス: Link先を確認 | Md Saiful Islam, Sahil Shikalgar, Md. Noor-E-Alam | (参考訳) ランダム化制御試験(rct)は、あらゆる介入や治療の効果を評価するための金本位制であると考えられている。
しかし、その実現可能性はしばしば倫理的、経済的、法的な考慮によって妨げられ、観察データは因果的結論を引き出す貴重な代替手段となる。
それでも、医療観察データは、その高次元性のために困難であり、不偏で信頼性があり、堅牢な因果推論を保証するために慎重に考慮する必要がある。
この課題を克服するため,本研究では,マッチング技術を用いた因果推論の堅牢化を目的とした2段階特徴選択手法であるOutcome Adaptive Elastic Net(OAENet)を提案する。
OAENetは、既存のメソッドと比較して相関データと高次元データの優れたパフォーマンス、特定の変数(共同設立者や結果のみに関連する変数を含む)を選択する能力など、既存のメソッドに対するいくつかの重要な利点を提供している。
これにより堅牢性が保証され、因果効果の偏りのない推定が容易になる。
シミュレーションデータに関する数値実験により、OAENetは高い品質の見積や同等の見積を極めて少ない時間で生成することで最先端の手法を著しく上回ることを示した。
OAENetの適用性を説明するために,Opioid Use Disorder (OUD) が自殺行動に与える影響を推定するために,米国の大規模医療データを用いた。
競合する手法と比較すると、oaenet は oud と自殺行動の関係に関する既存の文献と密接に一致している。
シミュレーションデータと実世界のデータの両方のパフォーマンスは、OAENetが治療効果の推定や因果推論による政策決定の精度を著しく向上していることを強調している。 A Randomized Control Trial (RCT) is considered as the gold standard for evaluating the effect of any intervention or treatment. However, its feasibility is often hindered by ethical, economical, and legal considerations, making observational data a valuable alternative for drawing causal conclusions. Nevertheless, healthcare observational data presents a difficult challenge due to its high dimensionality, requiring careful consideration to ensure unbiased, reliable, and robust causal inferences. To overcome this challenge, in this study, we propose a novel two-stage feature selection technique called, Outcome Adaptive Elastic Net (OAENet), explicitly designed for making robust causal inference decisions using matching techniques. OAENet offers several key advantages over existing methods: superior performance on correlated and high-dimensional data compared to the existing methods and the ability to select specific sets of variables (including confounders and variables associated only with the outcome). This ensures robustness and facilitates an unbiased estimate of the causal effect. Numerical experiments on simulated data demonstrate that OAENet significantly outperforms state-of-the-art methods by either producing a higher-quality estimate or a comparable estimate in significantly less time. To illustrate the applicability of OAENet, we employ large-scale US healthcare data to estimate the effect of Opioid Use Disorder (OUD) on suicidal behavior. When compared to competing methods, OAENet closely aligns with existing literature on the relationship between OUD and suicidal behavior. Performance on both simulated and real-world data highlights that OAENet notably enhances the accuracy of estimating treatment effects or evaluating policy decision-making with causal inference. | 翻訳日:2024-03-14 02:58:38 公開日:2024-03-12 |
# 量子情報次元と幾何学的エントロピー Quantum Information Dimension and Geometric Entropy ( http://arxiv.org/abs/2111.06374v2 ) ライセンス: Link先を確認 | Fabio Anza and James P. Crutchfield | (参考訳) 幾何学的量子力学は、その微分幾何学的基盤を通して、量子力学を古典力学に近づける解析と解釈のツールを提供する:両方の状態空間はシンプレクティック幾何学を備えている。
これは、幾何学的な観点から、量子エントロピーの性質のような基礎的な問題や問題を再考する扉を開く。
これの中心は幾何学的量子状態の概念であり、純粋状態の系の空間上の確率測度である。
この空間の連続性は、レニイの情報理論にインスパイアされた2つの解析ツールを導入し、幾何量子状態の基本的な性質を特徴づけ、定量化する: 幾何量子状態圧縮の速度である量子情報次元と、量子状態に格納された情報を監視する次元幾何学エントロピーである。
古典的定義、情報理論的な意味、物理的解釈を記述し、幾何学的アプローチによって量子システムに適用する。
その後、量子システムの様々な例やクラスで明示的に計算します。
我々は、幾何学量子力学における情報に対する今後の方向性についてコメントする。 Geometric quantum mechanics, through its differential-geometric underpinning, provides additional tools of analysis and interpretation that bring quantum mechanics closer to classical mechanics: state spaces in both are equipped with symplectic geometry. This opens the door to revisiting foundational questions and issues, such as the nature of quantum entropy, from a geometric perspective. Central to this is the concept of geometric quantum state -- the probability measure on a system's space of pure states. This space's continuity leads us to introduce two analysis tools, inspired by Renyi's information theory, to characterize and quantify fundamental properties of geometric quantum states: the quantum information dimension that is the rate of geometric quantum state compression and the dimensional geometric entropy that monitors information stored in quantum states. We recount their classical definitions, information-theoretic meanings, and physical interpretations, and adapt them to quantum systems via the geometric approach. We then explicitly compute them in various examples and classes of quantum system. We conclude commenting on future directions for information in geometric quantum mechanics. | 翻訳日:2024-03-14 02:58:10 公開日:2024-03-12 |
# ランダム化SVDの効率的なGPU実装とその応用 Efficient GPU implementation of randomized SVD and its applications ( http://arxiv.org/abs/2110.03423v2 ) ライセンス: Link先を確認 | {\L}ukasz Struski, Pawe{\l} Morkisz, Przemys{\l}aw Spurek, Samuel Rodriguez Bernabeu, Tomasz Trzci\'nski | (参考訳) 行列分解は、次元削減、データ圧縮、ディープラーニングアルゴリズムなど、機械学習においてユビキタスである。
行列分解の典型的な解は多項式複雑性を持ち、計算コストと時間を大幅に増加させる。
本研究では, 計算機行列分解の計算負担を軽減するために, ディープラーニングなどの計算アーキテクチャである, 最新のグラフィカル処理ユニット(GPU)上で並列に動作可能な効率的な処理処理処理を利用する。
具体的には、ランダム化分解問題を再構築し、高速行列乗算演算(BLAS-3)をビルディングブロックとして組み込む。
この定式化と高速な乱数生成器を組み合わせることで、gpuに実装された並列処理の可能性を完全に活用できることを示す。
本研究は,本研究の成果を公式なCUDA実装の一部として公表する(https://docs.nvidia.com/cuda/cusolver/index.html)。 Matrix decompositions are ubiquitous in machine learning, including applications in dimensionality reduction, data compression and deep learning algorithms. Typical solutions for matrix decompositions have polynomial complexity which significantly increases their computational cost and time. In this work, we leverage efficient processing operations that can be run in parallel on modern Graphical Processing Units (GPUs), predominant computing architecture used e.g. in deep learning, to reduce the computational burden of computing matrix decompositions. More specifically, we reformulate the randomized decomposition problem to incorporate fast matrix multiplication operations (BLAS-3) as building blocks. We show that this formulation, combined with fast random number generators, allows to fully exploit the potential of parallel processing implemented in GPUs. Our extensive evaluation confirms the superiority of this approach over the competing methods and we release the results of this research as a part of the official CUDA implementation (https://docs.nvidia.com/cuda/cusolver/index.html). | 翻訳日:2024-03-14 02:57:51 公開日:2024-03-12 |
# 回帰・分類課題に対するパラメータ空間削減への局所的アプローチ A local approach to parameter space reduction for regression and classification tasks ( http://arxiv.org/abs/2107.10867v3 ) ライセンス: Link先を確認 | Francesco Romor and Marco Tezzele and Gianluigi Rozza | (参考訳) パラメータ空間の削減は、特に高次元パラメトリゼーションシステムが存在する場合、最適化、逆問題、感度解析、サロゲートモデルの設計など、多くの数値タスクの実行を高速化する重要なツールであることが証明されている。
本研究では,より効率的なパラメータ空間の次元縮小を実現するために,教師付きクラスタリング手法を用いてアクティブ部分空間の相乗効果を探索する,局所活性部分空間 (las) と呼ばれる新しい手法を提案する。
グローバルアクティブ部分空間によって誘導される距離メトリックを導入することにより、入出力関係を失うことなくクラスタリングを行う。
K-メロイドと階層的なトップダウンアプローチの2つのクラスタリングアルゴリズムを提案し、パラメータ空間削減タスクに特化して、様々なサブディビジョン基準を課すことができる。
この方法は、サロゲートモデリングに取り組んでいるコミュニティにとって特に有用である。
しばしば、パラメータ空間は、関心の目的関数が異なる方向に沿って平均的に変化しない部分領域を示す。
したがって、これらのサブドメインに制限され、個別に研究すれば、より正確に近似することができる。
本研究では, 複雑化の数値実験を行い, ベクトル出力の扱い方, 局所活性部分空間次元に対して異なる領域を分類する方法を示した。
この分類手法をパラメータ空間の前処理ステップ、あるいはベクトルアウトプットの場合の出力空間として用いると、サロゲートモデリングの目的のために顕著な結果が得られる。 Parameter space reduction has been proved to be a crucial tool to speed-up the execution of many numerical tasks such as optimization, inverse problems, sensitivity analysis, and surrogate models' design, especially when in presence of high-dimensional parametrized systems. In this work we propose a new method called local active subspaces (LAS), which explores the synergies of active subspaces with supervised clustering techniques in order to carry out a more efficient dimension reduction in the parameter space. The clustering is performed without losing the input-output relations by introducing a distance metric induced by the global active subspace. We present two possible clustering algorithms: K-medoids and a hierarchical top-down approach, which is able to impose a variety of subdivision criteria specifically tailored for parameter space reduction tasks. This method is particularly useful for the community working on surrogate modelling. Frequently, the parameter space presents subdomains where the objective function of interest varies less on average along different directions. So, it could be approximated more accurately if restricted to those subdomains and studied separately. We tested the new method over several numerical experiments of increasing complexity, we show how to deal with vectorial outputs, and how to classify the different regions with respect to the local active subspace dimension. Employing this classification technique as a preprocessing step in the parameter space, or output space in case of vectorial outputs, brings remarkable results for the purpose of surrogate modelling. | 翻訳日:2024-03-14 02:56:08 公開日:2024-03-12 |
# パス重み付けを用いたグラフニューラルネットワークのカスタマイズ Customizing Graph Neural Networks using Path Reweighting ( http://arxiv.org/abs/2106.10866v3 ) ライセンス: Link先を確認 | Jianpeng Chen and Yujing Wang and Ming Zeng and Zongyi Xiang and Bitan Hou and Yunhai Tong and Ole J. Mengshoel and Yazhou Ren | (参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データのマイニングに広く利用されている。
しかし、これらの従来のGNNは様々な下流タスクを区別しないため、組み込まれた埋め込みは必ずしも効果的ではない。
直感的には、グラフ内のパスは異なる下流タスクに対する異なる意味論を暗示する。
そこで我々は,経路再重み付きカスタムグラフニューラルネットワーク(略してCustomGNN)という,新しいGNNソリューションを設計した。
具体的には、提案したCustomGNNは、特定の下流タスクのハイレベルなセマンティクスを自動的に学習し、意味論的に関連するパスを強調し、グラフ内のタスク非関連ノイズをフィルタリングする。
さらに、CustomGNNが学んだセマンティクスを実証的に分析し、従来のGNNの3つの固有の問題、すなわち過度なスムーシング、貧弱な堅牢性、過度な適合を避ける能力を示す。
ノード分類タスクの実験では、CustomGNNは3つの標準グラフデータセットと4つの大きなグラフデータセットに対して最先端の精度を達成する。
提案されたCustomGNNのソースコードは、 \url{https://github.com/cjpcool/CustomGNN}で入手できる。 Graph Neural Networks (GNNs) have been extensively used for mining graph-structured data with impressive performance. However, because these traditional GNNs do not distinguish among various downstream tasks, embeddings embedded by them are not always effective. Intuitively, paths in a graph imply different semantics for different downstream tasks. Inspired by this, we design a novel GNN solution, namely Customized Graph Neural Network with Path Reweighting (CustomGNN for short). Specifically, the proposed CustomGNN can automatically learn the high-level semantics for specific downstream tasks to highlight semantically relevant paths as well to filter out task-irrelevant noises in a graph. Furthermore, we empirically analyze the semantics learned by CustomGNN and demonstrate its ability to avoid the three inherent problems in traditional GNNs, i.e., over-smoothing, poor robustness, and overfitting. In experiments with the node classification task, CustomGNN achieves state-of-the-art accuracies on three standard graph datasets and four large graph datasets. The source code of the proposed CustomGNN is available at \url{https://github.com/cjpcool/CustomGNN}. | 翻訳日:2024-03-14 02:55:44 公開日:2024-03-12 |
# 構造化透明性によるプライバシトレードオフを超えて Beyond Privacy Trade-offs with Structured Transparency ( http://arxiv.org/abs/2012.08347v2 ) ライセンス: Link先を確認 | Andrew Trask and Emma Bluemke and Teddy Collins and Ben Garfinkel Eric Drexler and Claudia Ghezzou Cuervas-Mons and Iason Gabriel and Allan Dafoe and William Isaac | (参考訳) コラボレーションの成功には情報共有が伴います。
しかし、当事者はどのように情報を共有するべきかについて意見が一致しないかもしれない。
情報の一部がコピーされ、共有されると、送信者は受信者がそれをどのように使用するか制御できなくなる。
各コラボレータの観点から、これは協調を阻害するジレンマを示す。
コピー問題はしばしば、バンドル、編集、再帰的強制問題と呼ばれる3つの関連する問題によって増幅される。
コピー問題は解決できないが、これらの増幅問題の側面は様々な分野において解決されている。
これらの取り組みを組み合わせることで,情報フローの統制性が向上し,コラボレーションのインセンティブが向上すると考えられる。
我々は、これらの取り組みを特定の機能にグループ化し、「構造化透明性」と呼ばれる包括的なビジョンに統合するための基盤を提供する5つのフレームワークを提案する。
最後に、構造化された透明性原則とその関連能力を説明するユースケースの配列を調査した。 Successful collaboration involves sharing information. However, parties may disagree on how the information they need to share should be used. We argue that many of these concerns reduce to 'the copy problem': once a bit of information is copied and shared, the sender can no longer control how the recipient uses it. From the perspective of each collaborator, this presents a dilemma that can inhibit collaboration. The copy problem is often amplified by three related problems which we term the bundling, edit, and recursive enforcement problems. We find that while the copy problem is not solvable, aspects of these amplifying problems have been addressed in a variety of disconnected fields. We observe that combining these efforts could improve the governability of information flows and thereby incentivise collaboration. We propose a five-part framework which groups these efforts into specific capabilities and offers a foundation for their integration into an overarching vision we call "structured transparency". We conclude by surveying an array of use-cases that illustrate the structured transparency principles and their related capabilities. | 翻訳日:2024-03-14 02:54:45 公開日:2024-03-12 |
# 幾何学量子熱力学 Geometric Quantum Thermodynamics ( http://arxiv.org/abs/2008.08683v2 ) ライセンス: Link先を確認 | Fabio Anza and James P. Crutchfield | (参考訳) 幾何学的量子力学と古典力学の並列性に基づいて、基底状態空間の微分幾何学を利用する量子熱力学の代替基盤を探索する。
量子状態の多様体上の分布として連続混合状態を導入するマイクロカノニカルアンサンブルと正準アンサンブルの両方を開発する。
実験の結果をクウディッツのガスの 実験結果と呼びます
我々は、量子熱を定義し、単軌跡の仕事を含む本質的な方法で働き、古典的、量子的、情報論的エントロピーと一致する方法で熱力学的エントロピーを再構成する。
熱力学の第一法則と第二法則とジャジンキのゆらぎ理論の両方を与える。
この結果は従来よりも透明な物理学であり、古典力学と量子力学の基礎となる数学的構造と物理的直観は密接に整合している。 Building on parallels between geometric quantum mechanics and classical mechanics, we explore an alternative basis for quantum thermodynamics that exploits the differential geometry of the underlying state space. We develop both microcanonical and canonical ensembles, introducing continuous mixed states as distributions on the manifold of quantum states. We call out the experimental consequences for a gas of qudits. We define quantum heat and work in an intrinsic way, including single-trajectory work, and reformulate thermodynamic entropy in a way that accords with classical, quantum, and information-theoretic entropies. We give both the First and Second Laws of Thermodynamics and Jarzynki's Fluctuation Theorem. The result is a more transparent physics, than conventionally available, in which the mathematical structure and physical intuitions underlying classical and quantum dynamics are seen to be closely aligned. | 翻訳日:2024-03-14 02:54:32 公開日:2024-03-12 |
# mgsvf: クラスインクリメンタル学習のための多粒度スロー対高速フレームワーク MgSvF: Multi-Grained Slow vs. Fast Framework for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2006.15524v4 ) ライセンス: Link先を確認 | Hanbin Zhao, Yongjian Fu, Mintong Kang, Qi Tian, Fei Wu, Xi Li | (参考訳) 難題として、FSCIL(英語版)は課題の連続を継続的に学習し、古い知識の忘れが遅いことと新しい知識への適応が速いというジレンマに直面している。
本稿では,この「遅い対速い」(SvF)ジレンマに集中して,どの知識コンポーネントを遅い方法で,あるいは速い方法で更新すべきかを判断し,古知識保存と新知識適応のバランスをとる。
本研究では,SvFジレンマを空間内(同じ特徴空間内)と空間間(異なる特徴空間間)の2つの異なる粒子から処理する多粒SvF学習戦略を提案する。
提案手法は空間内svf能力を高めるための新しい周波数認識正規化を設計、一方で空間間svf学習性能を向上させるために新しい特徴空間合成操作を開発する。
マルチグラデーションSvF学習戦略により,本手法は最先端の手法よりも大きなマージンで優れる。 As a challenging problem, few-shot class-incremental learning (FSCIL) continually learns a sequence of tasks, confronting the dilemma between slow forgetting of old knowledge and fast adaptation to new knowledge. In this paper, we concentrate on this "slow vs. fast" (SvF) dilemma to determine which knowledge components to be updated in a slow fashion or a fast fashion, and thereby balance old-knowledge preservation and new-knowledge adaptation. We propose a multi-grained SvF learning strategy to cope with the SvF dilemma from two different grains: intra-space (within the same feature space) and inter-space (between two different feature spaces). The proposed strategy designs a novel frequency-aware regularization to boost the intra-space SvF capability, and meanwhile develops a new feature space composition operation to enhance the inter-space SvF learning performance. With the multi-grained SvF learning strategy, our method outperforms the state-of-the-art approaches by a large margin. | 翻訳日:2024-03-14 02:54:00 公開日:2024-03-12 |
# エポック進化型ガウス過程指導学習 Epoch-evolving Gaussian Process Guided Learning ( http://arxiv.org/abs/2006.14347v2 ) ライセンス: Link先を確認 | Jiabao Cui, Xuewei Li, Bin Li, Hanbin Zhao, Bourahla Omar, and Xi Li | (参考訳) 本稿では,バッチレベル分布とグローバルデータ分布の相関情報を特徴付けることを目的とした,エポック進化型ガウスプロセスガイド学習(GPGL)と呼ばれる新しい学習手法を提案する。
このような相関情報はコンテキストラベルとしてエンコードされ、エポックごとに更新する必要がある。
文脈ラベルと基底真理ラベルのガイダンスにより、GPGLスキームは三角形の整合性損失でモデルパラメータを更新することでより効率的な最適化を提供する。
さらに,既存のバッチベースの最先端モデル(cifar-10,cifar-100,tiny-imagenet)を著しく上回って,gpglスキームをさらに一般化し,現在の深層モデルに適用することができる。 In this paper, we propose a novel learning scheme called epoch-evolving Gaussian Process Guided Learning (GPGL), which aims at characterizing the correlation information between the batch-level distribution and the global data distribution. Such correlation information is encoded as context labels and needs renewal every epoch. With the guidance of the context label and ground truth label, GPGL scheme provides a more efficient optimization through updating the model parameters with a triangle consistency loss. Furthermore, our GPGL scheme can be further generalized and naturally applied to the current deep models, outperforming the existing batch-based state-of-the-art models on mainstream datasets (CIFAR-10, CIFAR-100, and Tiny-ImageNet) remarkably. | 翻訳日:2024-03-14 02:53:40 公開日:2024-03-12 |
# SATformer: トランスフォーマーベースのUNSATコア学習 SATformer: Transformer-Based UNSAT Core Learning ( http://arxiv.org/abs/2209.00953v2 ) ライセンス: Link先を確認 | Zhengyuan Shi (1), Min Li (1), Yi Liu (1), Sadaf Khan (1), Junhua Huang (2), Hui-Ling Zhen (2), Mingxuan Yuan (2), Qiang Xu (1) ((1) The Chinese University of Hong Kong, (2) Huawei Noah's Ark Lab) | (参考訳) 本稿では,SAT 問題に対する Transformer ベースの新しいアプローチである SATformer を紹介する。
satformerは、問題を直接解決するのではなく、不満足に焦点を合わせ、反対の方向から問題にアプローチする。
具体的には、不満足なサブプロブレムを識別するために節間相互作用をモデル化する。
グラフニューラルネットワークを用いて節を節埋め込みに変換し,階層型トランスフォーマーモデルを用いて句相関を理解する。
SATformerは、UNSAT問題に対する単一ビット満足度結果と最小不満足コア(MUC)を用いて、マルチタスク学習アプローチで訓練される。
エンドツーエンドの学習ベース満足度分類器として、SATformerの性能はNeuroSATよりも大幅に向上した。
さらに,SATformer の節節予測を現代のヒューリスティックなSATソルバに統合し,論理等価性チェックタスクによるアプローチの有効性を検証する。
実験の結果,SATformerは既存のソルバのランタイムを平均21.33%削減できることがわかった。 This paper introduces SATformer, a novel Transformer-based approach for the Boolean Satisfiability (SAT) problem. Rather than solving the problem directly, SATformer approaches the problem from the opposite direction by focusing on unsatisfiability. Specifically, it models clause interactions to identify any unsatisfiable sub-problems. Using a graph neural network, we convert clauses into clause embeddings and employ a hierarchical Transformer-based model to understand clause correlation. SATformer is trained through a multi-task learning approach, using the single-bit satisfiability result and the minimal unsatisfiable core (MUC) for UNSAT problems as clause supervision. As an end-to-end learning-based satisfiability classifier, the performance of SATformer surpasses that of NeuroSAT significantly. Furthermore, we integrate the clause predictions made by SATformer into modern heuristic-based SAT solvers and validate our approach with a logic equivalence checking task. Experimental results show that our SATformer can decrease the runtime of existing solvers by an average of 21.33%. | 翻訳日:2024-03-14 02:47:56 公開日:2024-03-12 |
# $\beta$-divergence を用いたスパース非負行列分解の最小化 Majorization-minimization for Sparse Nonnegative Matrix Factorization with the $\beta$-divergence ( http://arxiv.org/abs/2207.06316v4 ) ライセンス: Link先を確認 | Arthur Marmin, Jos\'e Henrique de Morais Goulart, C\'edric F\'evotte | (参考訳) この記事では、2つの因子のうちの1つ(例えば活性化行列)の$\beta$-divergenceとスパース正規化による非負行列因子化の新しい乗法的更新を紹介する。
他の因子(辞書行列)のノルムは、不適切な定式化を避けるために制御する必要があることはよく知られている。
標準的な実践は辞書の列を単位ノルムに制限することであり、これは非自明な最適化問題につながる。
提案手法は,元問題の再パラメータ化を利用して,等価スケール不変目的関数の最適化を行う。
そこで我々は,$\ell_{1}$-regularization あるいはより "攻撃的" なログ正規化に対して,単純な乗法的更新をもたらすブロック・ディフレッシブ・プライマリゼーション・最小化アルゴリズムを導出する。
他の最先端手法とは対照的に、我々のアルゴリズムは任意の$\beta$-divergence(すなわち$\beta$の値)に適用可能であり、収束保証付きであるという意味で普遍的である。
本研究では,顔画像,音声スペクトログラム,ハイパースペクトルデータ,曲の演奏数などを用いて,既存のヒューリスティックおよびラグランジアン法との比較を行った。
提案手法は, コンバージェンス(類似目的値)において, CPU時間を大幅に短縮した類似品質の解が得られることを示す。 This article introduces new multiplicative updates for nonnegative matrix factorization with the $\beta$-divergence and sparse regularization of one of the two factors (say, the activation matrix). It is well known that the norm of the other factor (the dictionary matrix) needs to be controlled in order to avoid an ill-posed formulation. Standard practice consists in constraining the columns of the dictionary to have unit norm, which leads to a nontrivial optimization problem. Our approach leverages a reparametrization of the original problem into the optimization of an equivalent scale-invariant objective function. From there, we derive block-descent majorization-minimization algorithms that result in simple multiplicative updates for either $\ell_{1}$-regularization or the more "aggressive" log-regularization. In contrast with other state-of-the-art methods, our algorithms are universal in the sense that they can be applied to any $\beta$-divergence (i.e., any value of $\beta$) and that they come with convergence guarantees. We report numerical comparisons with existing heuristic and Lagrangian methods using various datasets: face images, an audio spectrogram, hyperspectral data, and song play counts. We show that our methods obtain solutions of similar quality at convergence (similar objective values) but with significantly reduced CPU times. | 翻訳日:2024-03-14 02:47:38 公開日:2024-03-12 |
# マルチオブジェクトトラッキングのための埋め込み手法の最近の進歩:調査 Recent Advances in Embedding Methods for Multi-Object Tracking: A Survey ( http://arxiv.org/abs/2205.10766v2 ) ライセンス: Link先を確認 | Gaoang Wang, Mingli Song, Jenq-Neng Hwang | (参考訳) マルチオブジェクトトラッキング(mot:multi-object tracking)は、ビデオフレームにまたがる対象オブジェクトを関連付けることを目的としている。
ディープニューラルネットワークの進歩とインテリジェントビデオ分析の需要の増加により、MOTはコンピュータビジョンコミュニティへの関心を著しく高めている。
埋め込み法はMOTにおける物体の位置推定と時間的同一性関連において重要な役割を果たす。
画像分類、オブジェクト検出、再識別、セグメンテーションなどの他のコンピュータビジョンタスクとは異なり、motへの埋め込みメソッドには大きなバリエーションがあり、体系的に分析され、まとめられていない。
本稿では,まず,パッチレベルの組込み,シングルフレーム組込み,クロスフレームジョイント組込み,相関組込み,シーケンシャル組込み,トラックレット組込み,クロストラックリレーショナル組込みといった7つの視点から,motにおける組込みメソッドの詳細な解析を行う。
さらに,既存のmotデータセットを要約し,その組込み戦略に従って既存の最先端手法の利点を分析する。
最後に,批判的かつ未調査領域と今後の研究方向について述べる。 Multi-object tracking (MOT) aims to associate target objects across video frames in order to obtain entire moving trajectories. With the advancement of deep neural networks and the increasing demand for intelligent video analysis, MOT has gained significantly increased interest in the computer vision community. Embedding methods play an essential role in object location estimation and temporal identity association in MOT. Unlike other computer vision tasks, such as image classification, object detection, re-identification, and segmentation, embedding methods in MOT have large variations, and they have never been systematically analyzed and summarized. In this survey, we first conduct a comprehensive overview with in-depth analysis for embedding methods in MOT from seven different perspectives, including patch-level embedding, single-frame embedding, cross-frame joint embedding, correlation embedding, sequential embedding, tracklet embedding, and cross-track relational embedding. We further summarize the existing widely used MOT datasets and analyze the advantages of existing state-of-the-art methods according to their embedding strategies. Finally, some critical yet under-investigated areas and future research directions are discussed. | 翻訳日:2024-03-14 02:47:11 公開日:2024-03-12 |
# 非平衡対称性を保護した位相秩序:半局所ギブスアンサンブルの出現 Nonequilibrium symmetry-protected topological order: emergence of semilocal Gibbs ensembles ( http://arxiv.org/abs/2205.02221v2 ) ライセンス: Link先を確認 | Maurizio Fagotti, Vanja Mari\'c, Lenart Zadnik | (参考訳) 我々は、グローバルクエンチ後の量子スピン鎖における非平衡時間進化を考察する。
通常、非平衡量子多体系は局所的に、準局所密度を持つ保存作用素からなる(一般化された)ギブスアンサンブルに緩和される。
ここでは、準局所ではないが時間発展が起こる対称性制限空間において作用する密度を持つ保存則を持つ局所ハミルトンの明示的な例を示す。
このため、無限に現れる定常状態は例外的な特徴を示すことができる。
我々はスピンフリップ対称性を持つ特定の例に焦点を当て、スピン-1/2$連鎖で遭遇する最も一般的な大域対称性である。
特異な性質のうち、初期状態における局所摂動によって引き起こされるスピンブロックのエントロピーの超過は、サブシステムの長さとともに対数的に増加する。
ゼロ温度での平衡における対称性保護トポロジカル秩序との接続を確立し,初期状態の(対称性破壊)回転あるいは温度上昇によって誘導される秩序の融解について検討する。 We consider nonequilibrium time evolution in quantum spin chains after a global quench. Usually a nonequilibium quantum many-body system locally relaxes to a (generalised) Gibbs ensemble built from conserved operators with quasilocal densities. Here we exhibit explicit examples of local Hamiltonians that possess conservation laws with densities that are not quasilocal but act as such in the symmetry-restricted space where time evolution occurs. Because of them, the stationary state emerging at infinite time can exhibit exceptional features. We focus on a specific example with a spin-flip symmetry, which is the commonest global symmetry encountered in spin-$1/2$ chains. Among the exceptional properties, we find that, at late times, the excess of entropy of a spin block triggered by a local perturbation in the initial state grows logarithmically with the subsystem's length. We establish a connection with symmetry-protected topological order in equilibrium at zero temperature and study the melting of the order induced either by a (symmetry-breaking) rotation of the initial state or by an increase of the temperature. | 翻訳日:2024-03-14 02:46:52 公開日:2024-03-12 |
# 医用画像の雑音化のための逆歪学習 Adversarial Distortion Learning for Medical Image Denoising ( http://arxiv.org/abs/2204.14100v2 ) ライセンス: Link先を確認 | Morteza Ghahremani, Mohammad Khateri, Alejandra Sierra, and Jussi Tohka | (参考訳) 本稿では,二次元および三次元(2d/3d)生体医用画像データに対してadl(adversarial distortion learning)を提案する。
提案されたADLは2つの自動エンコーダで構成されている。
デノイザは入力データからノイズを除去し、識別器はデノイ化結果とノイズフリー結果と比較する。
このプロセスは、識別器が基準と切り離されたデータを区別できないまで繰り返される。
denoiser と discriminator はどちらも efficient-unet と呼ばれる自動エンコーダ上に構築されている。
Efficient-Unetは、残余ブロックと、バックボーンに新しいピラミッドアプローチを使用して、特徴マップを効率的に抽出し再利用するライトアーキテクチャを備えている。
トレーニング中、テキスト情報とコントラストは2つの新しい損失関数によって制御される。
Efficient-Unetのアーキテクチャにより、提案手法をあらゆる生物医学データに一般化することができる。
私たちのネットワークの2dバージョンはimagenetでトレーニングされ、imagenetとは完全に異なる分布を持つバイオメディカルデータセットでテストされました。
MRI, 皮膚顕微鏡, 電子顕微鏡, X線データを用いた実験結果から, 提案手法が各ベンチマークで最高の成績を示した。
我々の実装と事前訓練されたモデルはhttps://github.com/mogvision/ADL.comで利用可能です。 We present a novel adversarial distortion learning (ADL) for denoising two- and three-dimensional (2D/3D) biomedical image data. The proposed ADL consists of two auto-encoders: a denoiser and a discriminator. The denoiser removes noise from input data and the discriminator compares the denoised result to its noise-free counterpart. This process is repeated until the discriminator cannot differentiate the denoised data from the reference. Both the denoiser and the discriminator are built upon a proposed auto-encoder called Efficient-Unet. Efficient-Unet has a light architecture that uses the residual blocks and a novel pyramidal approach in the backbone to efficiently extract and re-use feature maps. During training, the textural information and contrast are controlled by two novel loss functions. The architecture of Efficient-Unet allows generalizing the proposed method to any sort of biomedical data. The 2D version of our network was trained on ImageNet and tested on biomedical datasets whose distribution is completely different from ImageNet; so, there is no need for re-training. Experimental results carried out on magnetic resonance imaging (MRI), dermatoscopy, electron microscopy and X-ray datasets show that the proposed method achieved the best on each benchmark. Our implementation and pre-trained models are available at https://github.com/mogvision/ADL. | 翻訳日:2024-03-14 02:46:34 公開日:2024-03-12 |
# Referring Expression Comprehensionのための自己ペースト多重モード相互相互作用モデリング Self-paced Multi-grained Cross-modal Interaction Modeling for Referring Expression Comprehension ( http://arxiv.org/abs/2204.09957v3 ) ライセンス: Link先を確認 | Peihan Miao, Wei Su, Gaoang Wang, Xuewei Li, Xi Li | (参考訳) 視覚言語タスクにおける重要かつ困難な問題として、表現理解(REC)を参照するには、正確な推論を実現するために、視覚的・言語的モダリティの多義的な情報が多い。
加えて、視覚的なシーンの多様性と言語表現のバリエーションにより、いくつかの難しい例は、他のものよりも豊富な多彩な情報を持っている。
異なるモダリティから多粒度情報を集約し、ハードな例から豊富な知識を抽出する方法は、RECタスクにおいて不可欠である。
上記の課題に対処するため,本稿では,ネットワーク構造と学習機構の革新を通じて言語間ローカライゼーション能力を向上させるセルフペースト多言語相互相互作用モデリングフレームワークを提案する。
具体的には,視覚および言語エンコーダに固有の多面的情報を有効に活用するトランスフォーマティブ型多面的クロスモーダルアテンションの設計を行う。
さらに,サンプルのばらつきが大きいことを考慮し,多点情報を含むサンプルのネットワーク学習を適応的に強化する自己ペースサンプル情報化学習を提案する。
提案フレームワークは,RefCOCO,RefCOCO+,RefCOCOg,ReferItGameなどの広く使用されているデータセット上で,最先端の手法よりも優れ,本手法の有効性を示す。 As an important and challenging problem in vision-language tasks, referring expression comprehension (REC) generally requires a large amount of multi-grained information of visual and linguistic modalities to realize accurate reasoning. In addition, due to the diversity of visual scenes and the variation of linguistic expressions, some hard examples have much more abundant multi-grained information than others. How to aggregate multi-grained information from different modalities and extract abundant knowledge from hard examples is crucial in the REC task. To address aforementioned challenges, in this paper, we propose a Self-paced Multi-grained Cross-modal Interaction Modeling framework, which improves the language-to-vision localization ability through innovations in network structure and learning mechanism. Concretely, we design a transformer-based multi-grained cross-modal attention, which effectively utilizes the inherent multi-grained information in visual and linguistic encoders. Furthermore, considering the large variance of samples, we propose a self-paced sample informativeness learning to adaptively enhance the network learning for samples containing abundant multi-grained information. The proposed framework significantly outperforms state-of-the-art methods on widely used datasets, such as RefCOCO, RefCOCO+, RefCOCOg, and ReferItGame datasets, demonstrating the effectiveness of our method. | 翻訳日:2024-03-14 02:46:13 公開日:2024-03-12 |
# 変調の観点からの学習画像圧縮における変換 Transformations in Learned Image Compression from a Modulation Perspective ( http://arxiv.org/abs/2203.02158v3 ) ライセンス: Link先を確認 | Youneng Bao, Fangyang Meng, Wen Tan, Chao Li, Yonghong Tian and Yongsheng Liang | (参考訳) 本稿では、変調の観点から学習画像圧縮(lic)における統一変換法を提案する。
第一に、licの量子化は加法的一様雑音を持つ一般化されたチャネルと見なされる。
さらに、構造と最適化目的の一貫性に応じて、licを特定の通信システムとして解釈する。
したがって、通信システムの技術は、モジュールの設計をlicでガイドするために応用できる。
さらに、信号変調(TSM)に基づく統一変換法を定義する。
tsmの観点からは、既存の変換法は線形変調に数学的に還元される。
TPMやTJMといった一連の変換法は、非線形変調に拡張することで得られる。
各種データセットおよびバックボーンアーキテクチャの実験結果から,提案手法の有効性とロバスト性を検証した。
さらに重要なことは、コミュニケーションの観点からlic設計を導く可能性をさらに確認することである。
例えば、バックボーンアーキテクチャがハイパープリオ結合コンテキストモデルである場合、複雑さを増すことなく、kodakデータセット上のgdnよりも3.52$\%$ bdレートの削減を達成します。 In this paper, a unified transformation method in learned image compression(LIC) is proposed from the perspective of modulation. Firstly, the quantization in LIC is considered as a generalized channel with additive uniform noise. Moreover, the LIC is interpreted as a particular communication system according to the consistency in structures and optimization objectives. Thus, the technology of communication systems can be applied to guide the design of modules in LIC. Furthermore, a unified transform method based on signal modulation (TSM) is defined. In the view of TSM, the existing transformation methods are mathematically reduced to a linear modulation. A series of transformation methods, e.g. TPM and TJM, are obtained by extending to nonlinear modulation. The experimental results on various datasets and backbone architectures verify that the effectiveness and robustness of the proposed method. More importantly, it further confirms the feasibility of guiding LIC design from a communication perspective. For example, when backbone architecture is hyperprior combining context model, our method achieves 3.52$\%$ BD-rate reduction over GDN on Kodak dataset without increasing complexity. | 翻訳日:2024-03-14 02:45:47 公開日:2024-03-12 |
# Chebyshev近似を用いたグラフ上の畳み込みニューラルネットワークの再検討 Convolutional Neural Networks on Graphs with Chebyshev Approximation, Revisited ( http://arxiv.org/abs/2202.03580v5 ) ライセンス: Link先を確認 | Mingguo He, Zhewei Wei, Ji-Rong Wen | (参考訳) スペクトル畳み込みネットワークの設計は、グラフ学習において難しい問題である。
初期の試みの一つであるchebnetは、チェビシェフ多項式を用いたスペクトルグラフ畳み込みを近似している。
GCNはChebNetを単純化し、最初の2つのChebyshev多項式のみを使用しながら、実世界のデータセットでそれより優れている。
GPR-GNNとBernNetは、スペクトルグラフの畳み込みを学習するという点で、モノミアル基底とベルンシュタイン基底もチェビシェフ基底より優れていることを示した。
このような結論は近似理論の分野では直感的ではなく、チェビシェフ多項式が函数を近似するための最適収束率を達成することが証明される。
本稿では,チェビシェフ多項式を用いたスペクトルグラフ畳み込みの近似問題を再検討する。
我々は,ChebNetが解析フィルタ関数を近似することで学習した不正な係数が,過度に適合することを示す。
次に,チェビシェフ補間に基づく新しいGNNモデルであるChebNetIIを提案する。
我々は、ChebNetIIが任意のグラフ畳み込みを学習し、完全なノード分類タスクと半教師付きノード分類タスクの両方において優れた性能を発揮することを示すために、広範な実験を行った。
最も注目すべきは、chebnetiiを10億のグラフogbn-papers100mにスケールすることです。
私たちのコードはhttps://github.com/ivam-he/chebnetiiで利用可能です。 Designing spectral convolutional networks is a challenging problem in graph learning. ChebNet, one of the early attempts, approximates the spectral graph convolutions using Chebyshev polynomials. GCN simplifies ChebNet by utilizing only the first two Chebyshev polynomials while still outperforming it on real-world datasets. GPR-GNN and BernNet demonstrate that the Monomial and Bernstein bases also outperform the Chebyshev basis in terms of learning the spectral graph convolutions. Such conclusions are counter-intuitive in the field of approximation theory, where it is established that the Chebyshev polynomial achieves the optimum convergent rate for approximating a function. In this paper, we revisit the problem of approximating the spectral graph convolutions with Chebyshev polynomials. We show that ChebNet's inferior performance is primarily due to illegal coefficients learnt by ChebNet approximating analytic filter functions, which leads to over-fitting. We then propose ChebNetII, a new GNN model based on Chebyshev interpolation, which enhances the original Chebyshev polynomial approximation while reducing the Runge phenomenon. We conducted an extensive experimental study to demonstrate that ChebNetII can learn arbitrary graph convolutions and achieve superior performance in both full- and semi-supervised node classification tasks. Most notably, we scale ChebNetII to a billion graph ogbn-papers100M, showing that spectral-based GNNs have superior performance. Our code is available at https://github.com/ivam-he/ChebNetII. | 翻訳日:2024-03-14 02:45:11 公開日:2024-03-12 |
# aiの透明性向上のための方法論の評価 - ケーススタディ Evaluating a Methodology for Increasing AI Transparency: A Case Study ( http://arxiv.org/abs/2201.13224v2 ) ライセンス: Link先を確認 | David Piorkowski, John Richards, Michael Hind | (参考訳) 人工知能(AI)の潜在的な害に対する懸念が高まる中、社会はAIモデルやシステムの作成と利用についてより透明性を求めるようになった。
これらの懸念に対処するために、モデル開発者が答えるべき質問を含むドキュメントテンプレートを提案している。
これらのテンプレートは有用な出発点を提供するが、多様なドキュメンテーションコンシューマのニーズをカバーできる単一のテンプレートは存在しない。
しかし、原則として、本当に有用なドキュメントを生成するために反復可能な方法論を作成することは可能である。
Richardsら。
25] 特定のドキュメントのニーズを特定し,それらのニーズに対応するテンプレートを作成するための方法論を提案しました。
これは有望な提案であるが、評価されていない。
本稿では、いくつかのAIモデルの透明性を高めるために、医療分野におけるAIチームの経験を報告し、実際にこのユーザ中心の方法論を初めて評価する。
この方法論は、ユーザ中心のテクニックを訓練していない開発者が使用でき、異なるモデルやユースケースで再利用しながら、コンシューマの特定のニーズに対処するドキュメントテンプレートの作成をガイドする。
本手法の便益と費用を概説し,方法論と支援ツールの双方についてさらに改善するための提案を行う。 In reaction to growing concerns about the potential harms of artificial intelligence (AI), societies have begun to demand more transparency about how AI models and systems are created and used. To address these concerns, several efforts have proposed documentation templates containing questions to be answered by model developers. These templates provide a useful starting point, but no single template can cover the needs of diverse documentation consumers. It is possible in principle, however, to create a repeatable methodology to generate truly useful documentation. Richards et al. [25] proposed such a methodology for identifying specific documentation needs and creating templates to address those needs. Although this is a promising proposal, it has not been evaluated. This paper presents the first evaluation of this user-centered methodology in practice, reporting on the experiences of a team in the domain of AI for healthcare that adopted it to increase transparency for several AI models. The methodology was found to be usable by developers not trained in user-centered techniques, guiding them to creating a documentation template that addressed the specific needs of their consumers while still being reusable across different models and use cases. Analysis of the benefits and costs of this methodology are reviewed and suggestions for further improvement in both the methodology and supporting tools are summarized. | 翻訳日:2024-03-14 02:44:44 公開日:2024-03-12 |
# In-of-distriion Calibrated Inferenceのためのカーネル密度グラフの深部判別 Deep Discriminative to Kernel Density Graph for In- and Out-of-distribution Calibrated Inference ( http://arxiv.org/abs/2201.13001v7 ) ライセンス: Link先を確認 | Jayanta Dey, Will LeVine, Haoyin Xu, Ashwin De Silva, Tyler M. Tomita, Ali Geisa, Tiffany Chu, Jacob Desman, Joshua T. Vogelstein | (参考訳) ランダムフォレストやディープニューラルネットワークのような深い識別アプローチは、最近、多くの重要な現実世界シナリオで応用されている。
しかし、安全クリティカルなアプリケーションにこれらの学習アルゴリズムをデプロイすることは、特に、分散データポイントと分散データポイントの両方に対する信頼性のキャリブレーションの確保に関して、懸念を生じさせる。
アイソトニック回帰やプラットのシグモノイド回帰といった,IDキャリブレーション(IDキャリブレーション)のための多くの一般的な手法は,優れたIDキャリブレーション性能を示す。
しかし、これらの方法は機能空間全体に対して調整されていないため、out-of-distribution (ood) サンプルの場合、過剰な信頼感をもたらす。
スペクトルの反対側では、既存のout-of-distribution (ood) のキャリブレーション手法は、一般的には不適切なin-distribution (id)キャリブレーションを示す。
本稿では,IDとOODの校正問題を共同で解決する。
我々は、ランダム森林とディープネットを含む深層モデルが、アフィン活性化関数を持つポリトープの結合である内部表現を学習し、特徴空間の分割規則としてそれらの両方を概念化するという事実を活用する。
トレーニングデータにポピュレートされた各ポリトープのアフィン関数をガウス核に置換する。
提案手法が対応するクラス条件密度の一貫した推定子となるための十分条件を提案する。
さらに,本提案手法は,分布領域における元のアルゴリズムの分類精度を保ったり向上させたりしながら,よく校正された後部を抽出し,分布外入力を適切に処理するためのトレーニングデータを超えて外挿することを示す。 Deep discriminative approaches like random forests and deep neural networks have recently found applications in many important real-world scenarios. However, deploying these learning algorithms in safety-critical applications raises concerns, particularly when it comes to ensuring confidence calibration for both in-distribution and out-of-distribution data points. Many popular methods for in-distribution (ID) calibration, such as isotonic regression and Platt's sigmoidal regression, exhibit excellent ID calibration performance. However, these methods are not calibrated for the entire feature space, leading to overconfidence in the case of out-of-distribution (OOD) samples. On the other end of the spectrum, existing out-of-distribution (OOD) calibration methods generally exhibit poor in-distribution (ID) calibration. In this paper, we address ID and OOD calibration problems jointly. We leveraged the fact that deep models, including both random forests and deep-nets, learn internal representations which are unions of polytopes with affine activation functions to conceptualize them both as partitioning rules of the feature space. We replace the affine function in each polytope populated by the training data with a Gaussian kernel. We propose sufficient conditions for our proposed methods to be consistent estimators of the corresponding class conditional densities. Moreover, our experiments on both tabular and vision benchmarks show that the proposed approaches obtain well-calibrated posteriors while mostly preserving or improving the classification accuracy of the original algorithm for in-distribution region, and extrapolates beyond the training data to handle out-of-distribution inputs appropriately. | 翻訳日:2024-03-14 02:44:24 公開日:2024-03-12 |
# メタ学習によるドメイン間深層コード検索 Cross-Domain Deep Code Search with Meta Learning ( http://arxiv.org/abs/2201.00150v6 ) ライセンス: Link先を確認 | Yitian Chai, Hongyu Zhang, Beijun Shen, Xiaodong Gu | (参考訳) 近年、CodeBERTのような事前訓練されたプログラミング言語モデルでは、コード検索が大幅に向上している。
パフォーマンスは優れていますが、クエリとコード間のセマンティックマッピングを微調整するために、大量の並列データの可用性に依存しています。
これにより、ドメイン特化言語における実用性は比較的乏しく高価なデータで制限される。
本稿ではドメイン固有コード検索の新しいアプローチであるCroCSを提案する。
CroCSは、初期プログラム表現モデルが(JavaやPythonのような)共通プログラミング言語の大規模なコーパスで事前訓練され、SQLやSolidityのようなドメイン固有言語にさらに適応するトランスファーラーニングフレームワークを採用している。
ターゲット言語で直接微調整されたクロス言語CodeBERTとは異なり、CroCSはMAMLと呼ばれる数発のメタ学習アルゴリズムを適用し、モデルパラメータの優れた初期化を学ぶ。
提案した2つのドメイン固有言語,すなわちSQLとSolidityに対するアプローチを,広く使用されている2つの言語(PythonとJava)からモデルを移行して評価した。
実験の結果、CDCSはドメイン固有言語で直接微調整された従来の事前学習コードモデルよりも大幅に優れており、特に少ないデータに対して有効であることがわかった。 Recently, pre-trained programming language models such as CodeBERT have demonstrated substantial gains in code search. Despite showing great performance, they rely on the availability of large amounts of parallel data to fine-tune the semantic mappings between queries and code. This restricts their practicality in domain-specific languages with relatively scarce and expensive data. In this paper, we propose CroCS, a novel approach for domain-specific code search. CroCS employs a transfer learning framework where an initial program representation model is pre-trained on a large corpus of common programming languages (such as Java and Python) and is further adapted to domain-specific languages such as SQL and Solidity. Unlike cross-language CodeBERT, which is directly fine-tuned in the target language, CroCS adapts a few-shot meta-learning algorithm called MAML to learn the good initialization of model parameters, which can be best reused in a domain-specific language. We evaluate the proposed approach on two domain-specific languages, namely, SQL and Solidity, with model transferred from two widely used languages (Python and Java). Experimental results show that CDCS significantly outperforms conventional pre-trained code models that are directly fine-tuned in domain-specific languages, and it is particularly effective for scarce data. | 翻訳日:2024-03-14 02:43:53 公開日:2024-03-12 |
# 多元アノテーションに対する異種コントラスト回帰学習 Disjoint Contrastive Regression Learning for Multi-Sourced Annotations ( http://arxiv.org/abs/2112.15411v2 ) ライセンス: Link先を確認 | Xiaoqian Ruan, Gaoang Wang | (参考訳) 大規模データセットはディープラーニングモデルの開発に重要である。
このようなデータセットは通常、非常に時間がかかり、費用がかかる、大量のアノテーションを必要とする。
アノテーション手順を加速するために、データの異なるサブセットをラベル付けるために複数のアノテーションを使用することができる。
しかし,この課題に対処すべく,本論文では,各サンプルが1つのアノテーションによってラベル付けされ,複数のアノテーションがデータの非結合部分集合に作用する,非結合アノテーション問題に対処するための新しい対比回帰フレームワークを提案する。
アノテーション内一貫性とアノテーション間一貫性の両方を考慮するために、2つの戦略を採り入れ、まず、同じ注釈者の異なるサンプル間の相対的なランキングを学ぶためにコントラストベースの損失を適用し、同じ注釈者からのサンプルのランキングが満場一致であるように仮定する。
第二に、異なるアノテータに不変なロバスト表現を学習するために勾配反転層を適用する。
顔表情予測タスクと画像品質評価タスクの実験により,提案手法の有効性が検証された。 Large-scale datasets are important for the development of deep learning models. Such datasets usually require a heavy workload of annotations, which are extremely time-consuming and expensive. To accelerate the annotation procedure, multiple annotators may be employed to label different subsets of the data. However, the inconsistency and bias among different annotators are harmful to the model training, especially for qualitative and subjective tasks.To address this challenge, in this paper, we propose a novel contrastive regression framework to address the disjoint annotations problem, where each sample is labeled by only one annotator and multiple annotators work on disjoint subsets of the data. To take account of both the intra-annotator consistency and inter-annotator inconsistency, two strategies are employed.Firstly, a contrastive-based loss is applied to learn the relative ranking among different samples of the same annotator, with the assumption that the ranking of samples from the same annotator is unanimous. Secondly, we apply the gradient reversal layer to learn robust representations that are invariant to different annotators. Experiments on the facial expression prediction task, as well as the image quality assessment task, verify the effectiveness of our proposed framework. | 翻訳日:2024-03-14 02:43:33 公開日:2024-03-12 |
# ドメイン対応連続ゼロショット学習 Domain-Aware Continual Zero-Shot Learning ( http://arxiv.org/abs/2112.12989v3 ) ライセンス: Link先を確認 | Kai Yi, Paul Janson, Wenxuan Zhang, Mohamed Elhoseiny | (参考訳) 現代の視覚系は、種発見の支援、野生動物のモニタリングなど、自然科学研究のための視覚タスクに幅広い可能性を持っている。
しかし、現実の視覚タスクは環境条件の変化を経験し、キャプチャ画像の提示方法に変化をもたらす可能性がある。
この問題に対処するために,連続的に変化する領域において,未知のカテゴリの画像を認識するタスクであるdaczsl(domain-aware continual zero-shot learning)を導入する。
そこで本研究では,ドメインシフトのための因子化特徴を学習するためのドメイン不変ネットワーク(DIN)を提案する。
DINは、ドメイン不変およびタスク不変の機能のためのグローバル共有ネットワークと、タスク固有の機能のためのタスクごとのプライベートネットワークを継続的に学習する。
さらに,クラスレベルで学習可能なプロンプトによるデュアルネットワークを強化し,クラスレベルのテキスト表現を改善し,将来の未認識クラスのゼロショット予測を改善した。
DACZSLを評価するために、DomainNet-CZSLとiWildCam-CZSLの2つのベンチマークを導入する。
以上の結果から,DINは既存のベースラインを5%以上の高調波精度で,1%以上の後方転送を達成し,新たなSoTAを実現している。 Modern visual systems have a wide range of potential applications in vision tasks for natural science research, such as aiding in species discovery, monitoring animals in the wild, and so on. However, real-world vision tasks may experience changes in environmental conditions, leading to shifts in how captured images are presented. To address this issue, we introduce Domain-Aware Continual Zero-Shot Learning (DACZSL), a task to recognize images of unseen categories in continuously changing domains. Accordingly, we propose a Domain-Invariant Network (DIN) to learn factorized features for shifting domains and improved textual representation for unseen classes. DIN continually learns a global shared network for domain-invariant and task-invariant features, and per-task private networks for task-specific features. Furthermore, we enhance the dual network with class-wise learnable prompts to improve class-level text representation, thereby improving zero-shot prediction of future unseen classes. To evaluate DACZSL, we introduce two benchmarks, DomainNet-CZSL and iWildCam-CZSL. Our results show that DIN significantly outperforms existing baselines by over 5% in harmonic accuracy and over 1% in backward transfer and achieves a new SoTA. | 翻訳日:2024-03-14 02:43:13 公開日:2024-03-12 |
# 明るく暗い光の状態:古典的干渉の量子的起源 Bright and dark states of light: The quantum origin of classical interference ( http://arxiv.org/abs/2112.05512v2 ) ライセンス: Link先を確認 | Celso J. Villas-Boas, Carlos E. M\'aximo, Paulo P. de Souza, Romain Bachelard, Gerhard Rempe | (参考訳) 古典的理論では、いくつかの電磁波はゼロに破壊的に干渉しても物質と相互作用できないが、量子力学は平均的な電場が消滅しても非自明な光物質力学を予測する。
ここでは、量子光学における古典的干渉は、光の集合的明るい状態と暗い状態から出現し、多モード光子数状態の絡み合った重ね合わせを示す。
これにより、光の粒子記述と線形系の重ね合わせ原理を用いて波動干渉を説明することができる。 Classical theory asserts that several electromagnetic waves cannot interact with matter if they interfere destructively to zero, whereas quantum mechanics predicts a nontrivial light-matter dynamics even when the average electric field vanishes. Here we show that in quantum optics classical interference emerges from collective bright and dark states of light, \textit{i.e.}, entangled superpositions of multi-mode photon-number states. This makes it possible to explain wave interference using the particle description of light and the superposition principle for linear systems. | 翻訳日:2024-03-14 02:42:52 公開日:2024-03-12 |
# 弱教師付き物体定位に対する知識誘導因果介入 Knowledge-guided Causal Intervention for Weakly-supervised Object Localization ( http://arxiv.org/abs/2301.01060v2 ) ライセンス: Link先を確認 | Feifei Shao, Yawei Luo, Fei Gao, Yi Yang, Jun Xiao | (参考訳) 従来のwsol(weakly supervised object localization)法は、アクティベーションマップの識別領域を拡張してオブジェクト全体をカバーすることを目的としているが、画像レベルのラベルのみに依存する場合の2つの固有の課題を無視する。
まず、`enangled context' という問題は、オブジェクトコンテキストの共起 (\eg, fish and water) から生じ、モデル検査がオブジェクト境界を明確に区別することが困難になる。
第二に、「C-Lジレンマ」は、正確な分類のための意味情報と正確な局所化のための重要な情報の両方を保持するのに苦労するプール層によって引き起こされる情報減衰から生じる。
本稿では,この2つの未解決問題に対処するために,kg-ci-camと呼ばれる知識誘導因果介入法を提案する。
具体的には、画像の特徴、コンテキスト、カテゴリ間の因果関係を探索し、クラスアクティベーションマップにおける偏りのあるオブジェクト-コンテキストの絡みを除去する因果介入による共起コンテキスト共創問題に取り組む。
この不整合オブジェクトの特徴に基づいて,モデルの学習中に,分類知識の吸収と局所化知識のバランスをとるための多元的知識指導フレームワークを導入する。
いくつかのベンチマークデータセットで行った広範囲な実験は、異なるオブジェクト境界の学習におけるkg-ci-camの有効性を実証し、分類とローカライズ性能のジレンマを緩和する。 Previous weakly-supervised object localization (WSOL) methods aim to expand activation map discriminative areas to cover the whole objects, yet neglect two inherent challenges when relying solely on image-level labels. First, the ``entangled context'' issue arises from object-context co-occurrence (\eg, fish and water), making the model inspection hard to distinguish object boundaries clearly. Second, the ``C-L dilemma'' issue results from the information decay caused by the pooling layers, which struggle to retain both the semantic information for precise classification and those essential details for accurate localization, leading to a trade-off in performance. In this paper, we propose a knowledge-guided causal intervention method, dubbed KG-CI-CAM, to address these two under-explored issues in one go. More specifically, we tackle the co-occurrence context confounder problem via causal intervention, which explores the causalities among image features, contexts, and categories to eliminate the biased object-context entanglement in the class activation maps. Based on the disentangled object feature, we introduce a multi-source knowledge guidance framework to strike a balance between absorbing classification knowledge and localization knowledge during model training. Extensive experiments conducted on several benchmark datasets demonstrate the effectiveness of KG-CI-CAM in learning distinct object boundaries amidst confounding contexts and mitigating the dilemma between classification and localization performance. | 翻訳日:2024-03-14 02:38:15 公開日:2024-03-12 |
# StoRM:音声強調と残響の拡散に基づく確率的再生モデル StoRM: A Diffusion-based Stochastic Regeneration Model for Speech Enhancement and Dereverberation ( http://arxiv.org/abs/2212.11851v2 ) ライセンス: Link先を確認 | Jean-Marie Lemercier and Julius Richter and Simon Welker and Timo Gerkmann | (参考訳) 拡散モデルは、音声強調のための予測的アプローチと生成的アプローチの間の性能ギャップを埋める優れた能力を示している。
非付加的な汚職タイプや、不一致条件で評価された場合、予測結果よりも優れる可能性がある。
しかし、拡散モデルは主に逆拡散ステップごとにニューラルネットワークを実行する必要があるため、高い計算負荷を負う一方で、予測アプローチでは1つのパスしか必要としない。
拡散モデルは生成的アプローチであるため、悪条件下で発声や呼吸のアーチファクトを生み出すこともある。
対照的に、このような難しいシナリオでは、予測モデルは通常そのような成果物を生成せず、代わりに対象の音声を歪ませる傾向があり、それによって音声品質が低下する。
本研究では,予測モデルによる推定値がさらなる拡散のガイドとして提供される確率的再生手法を提案する。
提案手法は, 予測モデルを用いて発声と呼吸のアーチファクトを除去し, 拡散モデルにより非常に高品質なサンプルを生成できることを示す。
さらに,本手法は,より少ない拡散ステップでより軽量なサンプリング方式を,品質を犠牲にすることなく利用可能であることを示し,計算負荷を桁違いに高めている。
ソースコードとオーディオサンプルはオンラインで入手できる(https://uhh.de/inf-sp-storm)。 Diffusion models have shown a great ability at bridging the performance gap between predictive and generative approaches for speech enhancement. We have shown that they may even outperform their predictive counterparts for non-additive corruption types or when they are evaluated on mismatched conditions. However, diffusion models suffer from a high computational burden, mainly as they require to run a neural network for each reverse diffusion step, whereas predictive approaches only require one pass. As diffusion models are generative approaches they may also produce vocalizing and breathing artifacts in adverse conditions. In comparison, in such difficult scenarios, predictive models typically do not produce such artifacts but tend to distort the target speech instead, thereby degrading the speech quality. In this work, we present a stochastic regeneration approach where an estimate given by a predictive model is provided as a guide for further diffusion. We show that the proposed approach uses the predictive model to remove the vocalizing and breathing artifacts while producing very high quality samples thanks to the diffusion model, even in adverse conditions. We further show that this approach enables to use lighter sampling schemes with fewer diffusion steps without sacrificing quality, thus lifting the computational burden by an order of magnitude. Source code and audio examples are available online (https://uhh.de/inf-sp-storm). | 翻訳日:2024-03-14 02:37:46 公開日:2024-03-12 |
# 多領域意味セグメンテーションのための普遍視覚概念の弱い教師付き学習 Weakly supervised training of universal visual concepts for multi-domain semantic segmentation ( http://arxiv.org/abs/2212.10340v3 ) ライセンス: Link先を確認 | Petra Bevandi\'c, Marin Or\v{s}i\'c, Ivan Grubi\v{s}i\'c, Josip \v{S}ari\'c, Sini\v{s}a \v{S}egvi\'c | (参考訳) 深層監視モデルには、大量のトレーニングデータを吸収する前例のない能力がある。
したがって、複数のデータセットのトレーニングは、通常のシーンにおける強い一般化とエッジケースにおける優雅なパフォーマンス劣化への選択方法となる。
残念ながら、異なるデータセットは互換性のないラベルを持つことが多い。
例えば、Cityscapesロードクラスはすべての走行面を仮定し、Vistasは道路マーキングやマンホールなどの別々のクラスを定義している。
さらに、多くのデータセットには重複ラベルがある。
例えば、ピックアップはVIPERのトラック、Vistaの車、ADE20kのバンとしてラベル付けされる。
我々は、ラベルを普遍的な視覚概念の連合として考えることで、この問題に対処する。
これにより、relabelingの労力を必要とせずに、マルチドメインデータセットコレクション上でシームレスで原則的な学習が可能になる。
本手法は,データセット内およびデータセット間を競争的に一般化するとともに,トレーニングデータセットに別々にラベル付けされていない視覚概念を学習する能力を有する。
実験では、2つのマルチドメインデータセットコレクションとWildDash 2ベンチマークで、競合や最先端のパフォーマンスが明らかになった。 Deep supervised models have an unprecedented capacity to absorb large quantities of training data. Hence, training on multiple datasets becomes a method of choice towards strong generalization in usual scenes and graceful performance degradation in edge cases. Unfortunately, different datasets often have incompatible labels. For instance, the Cityscapes road class subsumes all driving surfaces, while Vistas defines separate classes for road markings, manholes etc. Furthermore, many datasets have overlapping labels. For instance, pickups are labeled as trucks in VIPER, cars in Vistas, and vans in ADE20k. We address this challenge by considering labels as unions of universal visual concepts. This allows seamless and principled learning on multi-domain dataset collections without requiring any relabeling effort. Our method achieves competitive within-dataset and cross-dataset generalization, as well as ability to learn visual concepts which are not separately labeled in any of the training datasets. Experiments reveal competitive or state-of-the-art performance on two multi-domain dataset collections and on the WildDash 2 benchmark. | 翻訳日:2024-03-14 02:37:24 公開日:2024-03-12 |
# APOLLO: 長期数値推論のための最適化トレーニングアプローチ APOLLO: An Optimized Training Approach for Long-form Numerical Reasoning ( http://arxiv.org/abs/2212.07249v3 ) ライセンス: Link先を確認 | Jiashuo Sun, Hang Zhang, Chen Lin, Xiangdong Su, Yeyun Gong, Jian Guo | (参考訳) 金融分析におけるロングフォームな数値推論は、ある質問に対する正しい答えを計算するための推論プログラムを作成することを目的としている。
以前の研究は、レトリバー-ジェネレータフレームワークに従い、レトリバーはロングフォームドキュメントからキーファクトを選択し、ジェネレータは、検索されたファクトに基づいて推論プログラムを生成する。
しかし、全ての事実を等しく扱うことは、事実と数字の異なる貢献を考慮せずに行う。
一方、プログラムの一貫性は教師付きトレーニングでは無視され、トレーニング精度と多様性が低下した。
これらの問題を解決するため、我々は長文の数値推論フレームワークを改善するためにAPOLLOを提案した。
検索者に対しては,鍵となる数値的事実に対する識別性を高めるために,数値認識型負サンプリング戦略を採用する。
生成元に対しては,プログラム実行結果の一貫性に基づいて,一貫性に基づく強化学習と目標プログラム拡張戦略を設計する。
FinQAとConvFinQAのリーダーボードによる実験結果から,提案手法の有効性を検証し,新しい最先端技術を実現する。 Long-form numerical reasoning in financial analysis aims to generate a reasoning program to calculate the correct answer for a given question. Previous work followed a retriever-generator framework, where the retriever selects key facts from a long-form document, and the generator generates a reasoning program based on retrieved facts. However, they treated all facts equally without considering the different contributions of facts with and without numbers. Meanwhile, the program consistency were ignored under supervised training, resulting in lower training accuracy and diversity. To solve these problems, we proposed APOLLO to improve the long-form numerical reasoning framework. For the retriever, we adopt a number-aware negative sampling strategy to enable the retriever to be more discriminative on key numerical facts. For the generator, we design consistency-based reinforcement learning and target program augmentation strategy based on the consistency of program execution results. Experimental results on the FinQA and ConvFinQA leaderboard verify the effectiveness of our proposed method, achieving the new state-of-the-art. | 翻訳日:2024-03-14 02:37:06 公開日:2024-03-12 |
# データ中心型AI(DCAI)の原理 The Principles of Data-Centric AI (DCAI) ( http://arxiv.org/abs/2211.14611v2 ) ライセンス: Link先を確認 | Mohammad Hossein Jarrahi, Ali Memariani, Shion Guha | (参考訳) 人工知能(AI)システムが学習する上で、データは重要な基盤である。
しかしながら、これらのシステムは、主にモデル中心であり、データ品質を犠牲にして、モデルにプレミアムを課している。
データ品質の問題は、特に下流のデプロイメントや現実世界のアプリケーションにおいて、AIシステムのパフォーマンスを低下させる。
新たな概念としてのデータ中心型AI(DCAI)は、反復的かつ体系的なアプローチを通じて、AIシステムを考慮したデータ、その品質、ダイナミズムを最前線にもたらす。
最初の概要の1つとして、本記事ではデータ中心の視点と概念をまとめて、DCAIの基礎を概説する。
具体的には、研究者と実践者のための6つの指針原則を定式化し、DCAIの今後の進歩の方向性を示す。 Data is a crucial infrastructure to how artificial intelligence (AI) systems learn. However, these systems to date have been largely model-centric, putting a premium on the model at the expense of the data quality. Data quality issues beset the performance of AI systems, particularly in downstream deployments and in real-world applications. Data-centric AI (DCAI) as an emerging concept brings data, its quality and its dynamism to the forefront in considerations of AI systems through an iterative and systematic approach. As one of the first overviews, this article brings together data-centric perspectives and concepts to outline the foundations of DCAI. It specifically formulates six guiding principles for researchers and practitioners and gives direction for future advancement of DCAI. | 翻訳日:2024-03-14 02:36:49 公開日:2024-03-12 |
# ニューラルDAE:拘束型ニューラルネットワーク Neural DAEs: Constrained neural networks ( http://arxiv.org/abs/2211.14302v4 ) ライセンス: Link先を確認 | Tue Boesen, Eldad Haber, Uri Michael Ascher | (参考訳) 本稿では,動的システムのニューラルネットワークに補助的代数的軌道情報を明示的に付加する効果について検討する。
微分代数方程式と多様体上の微分方程式の分野からインスピレーションを得て、いくつかの基本的なシナリオの違いにもかかわらず、残留ニューラルネットワークで関連する手法を実装した。
拘束的あるいは補助的な情報効果は, 安定化法や投影法によって組み込まれ, 多体振り子と分子動力学シナリオのシミュレーションを含む実験に基づいて, どのような手法を使うかを示す。
私たちのメソッドのいくつかは、既存のコードで簡単に実装でき、トレーニングパフォーマンスへの影響は限られています。 This article investigates the effect of explicitly adding auxiliary algebraic trajectory information to neural networks for dynamical systems. We draw inspiration from the field of differential-algebraic equations and differential equations on manifolds and implement related methods in residual neural networks, despite some fundamental scenario differences. Constraint or auxiliary information effects are incorporated through stabilization as well as projection methods, and we show when to use which method based on experiments involving simulations of multi-body pendulums and molecular dynamics scenarios. Several of our methods are easy to implement in existing code and have limited impact on training performance while giving significant boosts in terms of inference. | 翻訳日:2024-03-14 02:36:38 公開日:2024-03-12 |
# 検索に基づくソフトウェアマイクロベンチマーク優先化の評価 Evaluating Search-Based Software Microbenchmark Prioritization ( http://arxiv.org/abs/2211.13525v3 ) ライセンス: Link先を確認 | Christoph Laaber, Tao Yue, Shaukat Ali | (参考訳) コード変更の後にソフトウェアのパフォーマンスが劣化しないようにするのが最重要です。
解決策は、(機能的な)ユニットテストに似たパフォーマンステスト技術であるソフトウェアマイクロベンチマークを定期的に実行することです。
この課題に対処するため、テストケース優先順位付け(TCP)のような回帰テスト手法を調査し、マイクロベンチマークスイート内での実行を順序付けして、より早くより大きなパフォーマンス変化を検出する。
このようなテクニックはユニットテスト用に設計され、マイクロベンチマークでサブパーを実行するか、複雑なパフォーマンスモデルを必要とする。
本稿では,単目的および多目的の検索に基づくマイクロベンチマーク優先順位付け手法を実験的に評価し,その効果と効率性について検討した。
そこで我々は,3つの検索目標,すなわち最大化のためのカバレッジ,最小化のためのカバレッジ重なり,最大化のための過去のパフォーマンス変化検出を考案する。
検索アルゴリズム(SA)は競争力があるばかりでなく、最高の欲求、カバレッジベースのベースラインを上回りません。
しかし、パフォーマンス変更履歴のみを利用する単純な欲求的手法(カバレッジ情報なしで)は、最高のカバレッジベースの手法と同等かそれ以上に効果的であるが、実行時のオーバーヘッドは1%未満である。
これらの結果は、単純な非カバレッジベースのテクニックが、複雑なカバレッジベース技術よりもマイクロベンチマークに適していることを示している。 Ensuring that software performance does not degrade after a code change is paramount. A solution is to regularly execute software microbenchmarks, a performance testing technique similar to (functional) unit tests, which, however, often becomes infeasible due to extensive runtimes. To address that challenge, research has investigated regression testing techniques, such as test case prioritization (TCP), which reorder the execution within a microbenchmark suite to detect larger performance changes sooner. Such techniques are either designed for unit tests and perform sub-par on microbenchmarks or require complex performance models, drastically reducing their potential application. In this paper, we empirically evaluate single- and multi-objective search-based microbenchmark prioritization techniques to understand whether they are more effective and efficient than greedy, coverage-based techniques. For this, we devise three search objectives, i.e., coverage to maximize, coverage overlap to minimize, and historical performance change detection to maximize. We find that search algorithms (SAs) are only competitive with but do not outperform the best greedy, coverage-based baselines. However, a simple greedy technique utilizing solely the performance change history (without coverage information) is equally or more effective than the best coverage-based techniques while being considerably more efficient, with a runtime overhead of less than 1%. These results show that simple, non-coverage-based techniques are a better fit for microbenchmarks than complex coverage-based techniques. | 翻訳日:2024-03-14 02:36:26 公開日:2024-03-12 |
# マルチドメイン協調学習のための適応型プロンプトチューニング Federated Adaptive Prompt Tuning for Multi-Domain Collaborative Learning ( http://arxiv.org/abs/2211.07864v4 ) ライセンス: Link先を確認 | Shangchao Su and Mingzhao Yang and Bin Li and Xiangyang Xue | (参考訳) フェデレートラーニング(FL)は、複数のクライアントがデータを開示することなく、協力的にグローバルモデルをトレーニングすることを可能にする。
以前の研究では、しばしば完全なモデルパラメータを訓練する必要がある。
しかし、強力な事前学習モデルの出現により、FLの学習可能なパラメータが少なく、より高い性能を達成することができる。
本稿では,CLIPのような強力な基盤モデルを用いた多領域協調画像分類のための適応型プロンプトチューニングアルゴリズムであるFedAPTを提案する。
直接のフェデレーションプロンプトチューニングと比較して、私たちの核となるアイデアは、各テストサンプルの特定のドメイン知識を適応的にアンロックして、パーソナライズされたプロンプトを提供することです。
このアイデアを実現するために,メタプロンプト,適応ネットワーク,いくつかのキーからなる適応型プロンプトチューニングモジュールを設計した。
サーバはランダムにキーのセットを生成し、各クライアントにユニークなキーを割り当てる。
そして、すべてのクライアントがグローバル適応ネットワークとメタプロンプトをローカルデータセットと凍結キーで協調的にトレーニングする。
最終的に、グローバルアグリゲーションモデルは、各テストサンプルのドメイン機能に基づいて、パーソナライズされたプロンプトをCLIPに割り当てることができる。
教師なしと教師なしの2つの異なる設定にまたがる2つのマルチドメイン画像分類データセットに関する広範な実験を行います。
その結果、FedAPTは、完全に訓練されたモデルのパラメータの10分の1以下でより良い性能を達成でき、グローバルモデルは多様なクライアントドメインで同時に性能を発揮できることがわかった。
ソースコードは \url{https://github.com/leondada/FedAPT} で入手できる。 Federated learning (FL) enables multiple clients to collaboratively train a global model without disclosing their data. Previous researches often require training the complete model parameters. However, the emergence of powerful pre-trained models makes it possible to achieve higher performance with fewer learnable parameters in FL. In this paper, we propose a federated adaptive prompt tuning algorithm, FedAPT, for multi-domain collaborative image classification with powerful foundation models, like CLIP. Compared with direct federated prompt tuning, our core idea is to adaptively unlock specific domain knowledge for each test sample in order to provide them with personalized prompts. To implement this idea, we design an adaptive prompt tuning module, which consists of a meta prompt, an adaptive network, and some keys. The server randomly generates a set of keys and assigns a unique key to each client. Then all clients cooperatively train the global adaptive network and meta prompt with the local datasets and the frozen keys. Ultimately, the global aggregation model can assign a personalized prompt to CLIP based on the domain features of each test sample. We perform extensive experiments on two multi-domain image classification datasets across two different settings -- supervised and unsupervised. The results show that FedAPT can achieve better performance with less than 10\% of the number of parameters of the fully trained model, and the global model can perform well in diverse client domains simultaneously. The source code is available at \url{https://github.com/leondada/FedAPT}. | 翻訳日:2024-03-14 02:36:01 公開日:2024-03-12 |
# ConsPrompt:Fewshot Prompt Learningのためのコントラストサンプルのエクスプロイト ConsPrompt: Exploiting Contrastive Samples for Fewshot Prompt Learning ( http://arxiv.org/abs/2211.04118v3 ) ライセンス: Link先を確認 | Jinta Weng and Yifan Deng and d Donghao Li and Hao You and Yue Hu and Heyan Huang | (参考訳) このプロンプトは、事前学習された言語モデルを活用するための効果的な言語ツールとなった。
しかし、少数のシナリオでは、プロンプトデザインの微妙な変更によって結果は常に大きく異なり、プロンプト学習方法によって限られたサンプルをオーバーフィットさせるのも容易になる。
そこで,本研究では,適切なコントラストサンプルと多角的コントラスト学習法を用いて,プロンプト表現のロバスト性を改善する。
そこで,提案したConspromptと,プロンプト符号化ネットワーク,コントラストサンプリングモジュール,およびコントラストスコアリングモジュールを組み合わせることで,差分コントラスト学習を実現する。
実験では,多次元コントラスト学習をプロンプトベースの微調整プロセスで活用する効果も検証した。 The prompt has become an effective linguistic tool for utilizing pre-trained language models. However, in few-shot scenarios, subtle changes in the prompt design always make the result widely different, and the prompt learning methods also make it easy to overfit the limited samples. To alleviate this, we explore utilizing suitable contrastive samples and multi-degree contrastive learning methods to improve the robustness of the prompt representation. Therefore, the proposed Consprompt combined with the prompt encoding network, contrastive sampling modules, and contrastive scoring modules, is introduced to realize differential contrastive learning. Our results exhibit state-of-the-art performance in different few-shot settings, and the ablation experiments also certify the effectiveness of utilizing multi-degree contrastive learning in the prompt-based fine-tuning process. | 翻訳日:2024-03-14 02:35:37 公開日:2024-03-12 |
# prompter: データ効率の良いエンボディドインストラクションのための大規模言語モデルプロンプトの利用 Prompter: Utilizing Large Language Model Prompting for a Data Efficient Embodied Instruction Following ( http://arxiv.org/abs/2211.03267v2 ) ライセンス: Link先を確認 | Yuki Inoue and Hiroki Ohashi | (参考訳) embodied instruction following (eif)は、自然言語命令によって記述される長いホリゾンタスクを達成するために、自律的な移動操作ロボットをどのように制御すべきかを研究する。
EIFに関する多くの研究はシミュレーターで行われているが、最終的な目標はエージェントを実生活に展開することである。
これは、最近の手法がエンドツーエンドのトレーニングモデルから離れ、コストのかかる専門家の操作データを必要としないモジュラーアプローチに移行した理由の1つです。
しかし、まだモジュール化されたアイデアをEIFにインポートする初期段階であるため、EIFタスクに有効なモジュールを探すことは、まだ結論には至っていない。
本稿では,2つの外部情報源から得られた知識を用いてモジュール設計を拡張することを提案する。
まず,ロボットの物理的制約をモジュール設計に組み込むことが極めて効果的であることを示す。
私たちの設計では、同じモジュールシステムを、最小限の修正で、さまざまな構成のロボットで動作させることも可能です。
第2に,事前学習された大規模言語モデルにランドマークとオブジェクトの関係性を求める実装に置き換えることで,専用トレーニングデータの収集を不要にできることを示す。
提案手法では,高レベル命令のみとステップバイステップ命令でそれぞれ41.53\%と45.32\%を達成し,従来の5.46\%と9.91\%を大きく上回った。 Embodied Instruction Following (EIF) studies how autonomous mobile manipulation robots should be controlled to accomplish long-horizon tasks described by natural language instructions. While much research on EIF is conducted in simulators, the ultimate goal of the field is to deploy the agents in real life. This is one of the reasons why recent methods have moved away from training models end-to-end and take modular approaches, which do not need the costly expert operation data. However, as it is still in the early days of importing modular ideas to EIF, a search for modules effective in the EIF task is still far from a conclusion. In this paper, we propose to extend the modular design using knowledge obtained from two external sources. First, we show that embedding the physical constraints of the deployed robots into the module design is highly effective. Our design also allows the same modular system to work across robots of different configurations with minimal modifications. Second, we show that the landmark-based object search, previously implemented by a trained model requiring a dedicated set of data, can be replaced by an implementation that prompts pretrained large language models for landmark-object relationships, eliminating the need for collecting dedicated training data. Our proposed Prompter achieves 41.53\% and 45.32\% on the ALFRED benchmark with high-level instructions only and step-by-step instructions, respectively, significantly outperforming the previous state of the art by 5.46\% and 9.91\%. | 翻訳日:2024-03-14 02:35:21 公開日:2024-03-12 |
# WaveNets: Wavelet Channel Attention Networks WaveNets: Wavelet Channel Attention Networks ( http://arxiv.org/abs/2211.02695v2 ) ライセンス: Link先を確認 | Hadi Salman, Caleb Parks, Shi Yin Hong, Justin Zhan | (参考訳) チャネルアテンションは、コンピュータビジョンの分野における効果的な技術としてスプリームを支配する。
しかし,SENetが提案するチャネルアテンションは,GAP(Global Average Pooling)を用いてチャネルをスカラーとして表現することで特徴学習における情報損失に悩まされる。
したがって、効果的なチャネルアテンション機構を設計するには、チャネル間依存性のモデリングにおける特徴保存のソリューションを見つける必要がある。
本研究では,チャネル表現問題の解法としてウェーブレット変換圧縮を利用する。
まず,従来のチャネルアテンションモジュールを備えた自動エンコーダモデルとしてウェーブレット変換をテストした。
次に、独立チャネル圧縮法としてウェーブレット変換をテストする。
大域平均プーリングは再帰近似ハールウェーブレット変換と同値であることが証明される。
この証明により、Wavelet圧縮を用いてチャネルアテンションを一般化し、WaveNetと命名する。
提案手法の実装は,既存のチャネルアテンション手法に数行のコードで組み込むことができる。
画像分類タスクにimagenetデータセットを用いた提案手法をテストする。
本手法は,ベースラインセネを上回り,最先端の結果を得る。
私たちのコード実装はhttps://github.com/hady1011/WaveNet-Cで公開されています。 Channel Attention reigns supreme as an effective technique in the field of computer vision. However, the proposed channel attention by SENet suffers from information loss in feature learning caused by the use of Global Average Pooling (GAP) to represent channels as scalars. Thus, designing effective channel attention mechanisms requires finding a solution to enhance features preservation in modeling channel inter-dependencies. In this work, we utilize Wavelet transform compression as a solution to the channel representation problem. We first test wavelet transform as an Auto-Encoder model equipped with conventional channel attention module. Next, we test wavelet transform as a standalone channel compression method. We prove that global average pooling is equivalent to the recursive approximate Haar wavelet transform. With this proof, we generalize channel attention using Wavelet compression and name it WaveNet. Implementation of our method can be embedded within existing channel attention methods with a couple of lines of code. We test our proposed method using ImageNet dataset for image classification task. Our method outperforms the baseline SENet, and achieves the state-of-the-art results. Our code implementation is publicly available at https://github.com/hady1011/WaveNet-C. | 翻訳日:2024-03-14 02:34:53 公開日:2024-03-12 |
# ssit:糖尿病網膜症格付けのための自己教師付き画像トランスフォーマ SSiT: Saliency-guided Self-supervised Image Transformer for Diabetic Retinopathy Grading ( http://arxiv.org/abs/2210.10969v5 ) ライセンス: Link先を確認 | Yijin Huang, Junyan Lyu, Pujin Cheng, Roger Tam, Xiaoying Tang | (参考訳) 自己教師付き学習(ssl)はラベルのない画像を利用して画像表現を学ぶために広く利用されている。
しかし, 医用画像解析分野では完全には研究されていない。
本研究は,糖尿病網膜症 (dr) に対するssit (saliency-guided self-supervised image transformer) の提案である。
我々は,自己教師付き事前学習をドメイン固有の事前知識で導くことを目標として,ssl にサリエンシーマップを導入する。
具体的には,(1) モーメントコントラストに基づいてサラエンシー誘導型コントラスト学習を行い, モーメント更新キーエンコーダの入力シーケンスから自明なパッチを除去するために, 眼底画像のサラエンシーマップを利用する。
したがって、キーエンコーダは、有意な領域に着目したターゲット表現を提供し、クエリエンコーダに有意な特徴を捉えるよう指示する。
2) クエリエンコーダは, 精度のセグメンテーションを予測するために訓練され, 学習した表現の微細な情報保存を促進する。
提案手法を評価するために,4つの公開アクセス可能な基礎画像データセットを採用した。
1つのデータセットが事前トレーニングに使用され、他の3つは、下流DRグレーディングでトレーニング済みモデルのパフォーマンスを評価するために使用される。
提案したSSiTは、ダウンストリームデータセットおよび様々な評価設定下で、他の最先端SSLメソッドよりも大幅に優れている。
例えば、SSiTはDDRデータセットの81.88%のKappaスコアを微調整で達成し、ViTベースのSSLメソッドを少なくとも9.48%上回る。 Self-supervised Learning (SSL) has been widely applied to learn image representations through exploiting unlabeled images. However, it has not been fully explored in the medical image analysis field. In this work, Saliency-guided Self-Supervised image Transformer (SSiT) is proposed for Diabetic Retinopathy (DR) grading from fundus images. We novelly introduce saliency maps into SSL, with a goal of guiding self-supervised pre-training with domain-specific prior knowledge. Specifically, two saliency-guided learning tasks are employed in SSiT: (1) Saliency-guided contrastive learning is conducted based on the momentum contrast, wherein fundus images' saliency maps are utilized to remove trivial patches from the input sequences of the momentum-updated key encoder. Thus, the key encoder is constrained to provide target representations focusing on salient regions, guiding the query encoder to capture salient features. (2) The query encoder is trained to predict the saliency segmentation, encouraging the preservation of fine-grained information in the learned representations. To assess our proposed method, four publicly-accessible fundus image datasets are adopted. One dataset is employed for pre-training, while the three others are used to evaluate the pre-trained models' performance on downstream DR grading. The proposed SSiT significantly outperforms other representative state-of-the-art SSL methods on all downstream datasets and under various evaluation settings. For example, SSiT achieves a Kappa score of 81.88% on the DDR dataset under fine-tuning evaluation, outperforming all other ViT-based SSL methods by at least 9.48%. | 翻訳日:2024-03-14 02:34:36 公開日:2024-03-12 |
# 視覚の効率的な拡散モデル:調査 Efficient Diffusion Models for Vision: A Survey ( http://arxiv.org/abs/2210.09292v3 ) ライセンス: Link先を確認 | Anwaar Ulhaq and Naveed Akhtar | (参考訳) 拡散モデル (DM) は, 逆行訓練を必要とせず, コンテンツ生成における最先端の性能を示す。
これらのモデルは2段階のプロセスで訓練される。
第一に、前方拡散 - 過程は徐々にデータム(通常は画像)にノイズを付加する。
その後、後ろ向きの逆拡散 - プロセスはノイズを徐々に取り除き、対象分布のサンプルとしてモデル化する。
DMは非平衡熱力学にインスパイアされ、本質的に高い計算複雑性を持つ。
高次元空間での頻繁な関数評価と勾配計算のため、これらのモデルはトレーニングと推論の段階でかなりの計算オーバーヘッドを負う。
これは拡散に基づくモデリングの民主化を妨げるだけでなく、現実の応用における拡散モデルの適応を妨げる。
言うまでもなく、計算モデルの効率性は、過度のエネルギー消費と環境問題のために急速に重要な関心事になりつつある。
これらの要因は、計算効率の良いDMを考案することに焦点を当てた文献に多くの貢献をもたらした。
本稿では,視覚の拡散モデルにおける最新の進歩について述べる。特に,DMの計算効率に影響を与える重要な設計側面に着目して述べる。
特に、最近提案された設計選択が、より効率的なDMに繋がったことを強調する。
広義の拡散モデルについて論じる他の最近のレビューとは違い,本調査は,幅広い研究コミュニティの実践可能なモデルとなる文献のデザイン戦略を強調することにより,この研究の方向性を推し進めることを目的としている。
また,その計算効率の観点からの拡散モデルの将来展望について述べる。 Diffusion Models (DMs) have demonstrated state-of-the-art performance in content generation without requiring adversarial training. These models are trained using a two-step process. First, a forward - diffusion - process gradually adds noise to a datum (usually an image). Then, a backward - reverse diffusion - process gradually removes the noise to turn it into a sample of the target distribution being modelled. DMs are inspired by non-equilibrium thermodynamics and have inherent high computational complexity. Due to the frequent function evaluations and gradient calculations in high-dimensional spaces, these models incur considerable computational overhead during both training and inference stages. This can not only preclude the democratization of diffusion-based modelling, but also hinder the adaption of diffusion models in real-life applications. Not to mention, the efficiency of computational models is fast becoming a significant concern due to excessive energy consumption and environmental scares. These factors have led to multiple contributions in the literature that focus on devising computationally efficient DMs. In this review, we present the most recent advances in diffusion models for vision, specifically focusing on the important design aspects that affect the computational efficiency of DMs. In particular, we emphasize the recently proposed design choices that have led to more efficient DMs. Unlike the other recent reviews, which discuss diffusion models from a broad perspective, this survey is aimed at pushing this research direction forward by highlighting the design strategies in the literature that are resulting in practicable models for the broader research community. We also provide a future outlook of diffusion models in vision from their computational efficiency viewpoint. | 翻訳日:2024-03-14 02:34:05 公開日:2024-03-12 |
# CEPCにおけるヒッグス物理研究における量子機械学習の適用 Application of Quantum Machine Learning in a Higgs Physics Study at the CEPC ( http://arxiv.org/abs/2209.12788v2 ) ライセンス: Link先を確認 | Abdualazem Fadol, Qiyu Sha, Yaquan Fang, Zhan Li, Sitian Qian, Yuyang Xiao, Yu Zhang, Chen Zhou | (参考訳) 機械学習はここ数十年で花を咲かせ、多くの分野で必須となっている。
粒子物理学において、粒子再構成や事象分類など、いくつかの問題を著しく解決した。
しかし、量子コンピューティングによる従来の機械学習の限界を打破する時が来た。
量子カーネル推定器(QSVM-Kernel)を用いたサポートベクトルマシンアルゴリズムは、高次元量子状態空間を利用して背景からの信号を特定する。
本研究では、この量子機械学習アルゴリズムを用いて、粒子物理学の電子弱対称性の破れを研究するためのヒッグス工場であるCircular Electron-Positron Collider (CEPC)で、$e^{+}e^{-} \rightarrow ZH$プロセスを研究する。
量子コンピュータシミュレータの6キュービットを用いて,QSVM-Kernelアルゴリズムを最適化し,従来のサポートベクトルマシンアルゴリズムと同様の分類性能を得た。
さらに,IBM と Origin Quantum の量子コンピュータハードウェア上での6量子ビットを用いた QSVM-Kernel アルゴリズムの検証を行った。
さらに、原産地量子ハードウェアの結果は、我々の研究における不確実性の中でibm量子ハードウェアと類似している。
我々の研究は、最先端の量子コンピューティング技術は、大きな実験データに依存する基礎科学の分野である粒子物理学によって活用できることを示した。 Machine learning has blossomed in recent decades and has become essential in many fields. It significantly solved some problems in particle physics -- particle reconstruction, event classification, etc. However, it is now time to break the limitation of conventional machine learning with quantum computing. A support-vector machine algorithm with a quantum kernel estimator (QSVM-Kernel) leverages high-dimensional quantum state space to identify a signal from backgrounds. In this study, we have pioneered employing this quantum machine learning algorithm to study the $e^{+}e^{-} \rightarrow ZH$ process at the Circular Electron-Positron Collider (CEPC), a proposed Higgs factory to study electroweak symmetry breaking of particle physics. Using 6 qubits on quantum computer simulators, we optimised the QSVM-Kernel algorithm and obtained a classification performance similar to the classical support-vector machine algorithm. Furthermore, we have validated the QSVM-Kernel algorithm using 6-qubits on quantum computer hardware from both IBM and Origin Quantum: the classification performances of both are approaching noiseless quantum computer simulators. In addition, the Origin Quantum hardware results are similar to the IBM Quantum hardware within the uncertainties in our study. Our study shows that state-of-the-art quantum computing technologies could be utilised by particle physics, a branch of fundamental science that relies on big experimental data. | 翻訳日:2024-03-14 02:33:45 公開日:2024-03-12 |
# 量子安定化のための散逸フィードバックスイッチング Dissipative Feedback Switching for Quantum Stabilization ( http://arxiv.org/abs/2209.11709v2 ) ライセンス: Link先を確認 | Weichao Liang, Tommaso Grigoletto, Francesco Ticozzi | (参考訳) スイッチング制御ダイナミクスは、純粋状態と部分空間の量子安定化のための高速で柔軟な制御設計法を可能にする。
測定に基づく散逸的フィードバック設計への新しいアプローチを導入し、制御強度を変調することで望ましくないおしゃべりやゼノ効果を回避しつつも、厳密な不変な仮定を必要とせず、従来提案されていた手法に対する切り替え手法の適用性を拡張する。
一方、スイッチングダイナミクスがターゲットを不変にしておくと、ターゲットへの指数収束は変調なしで実施可能であること、また、チャットを避けるためにヒステリシスと固定あるいは確率的に行うことができるスイッチング時間を示す。
提案手法の有効性は,単純だがパラダイム的な例の数値シミュレーションにより示され,開ループ工学による散逸よりもスイッチング戦略の収束が早いことを示す。 Switching controlled dynamics allows for fast, flexible control design methods for quantum stabilization of pure states and subspaces, which naturally include both Hamiltonian and dissipative control actions. A novel approach to measurement-based, dissipative feedback design is introduced, and extends the applicability of switching techniques with respect to previously proposed ones, as it does not need stringent invariance assumptions, while it still avoids undesired chattering or Zeno effects by modulating the control intensity. When the switching dynamics do leave the target invariant, on the other hand, we show that exponential convergence to the target can be enforced without modulation, and switching times that can be either fixed or stochastic with hysteresis to avoid chattering. The effectiveness of the proposed methods is illustrated via numerical simulations of simple yet paradigmatic examples, demonstrating how switching strategies converge faster than open-loop engineered dissipation. | 翻訳日:2024-03-14 02:33:21 公開日:2024-03-12 |
# OpenBox: 汎用ブラックボックス最適化のためのPythonツールキット OpenBox: A Python Toolkit for Generalized Black-box Optimization ( http://arxiv.org/abs/2304.13339v2 ) ライセンス: Link先を確認 | Huaijun Jiang, Yu Shen, Yang Li, Beicheng Xu, Sixian Du, Wentao Zhang, Ce Zhang and Bin Cui | (参考訳) black-box optimization(bbo)は、自動機械学習、実験設計、データベースノブチューニングなど、幅広いアプリケーションを備えている。
しかしながら、既存のソフトウェアパッケージと互換性のある問題にBBOメソッドを適用する場合、適用性、性能、効率の面で課題に直面している。
本稿では,ユーザビリティを向上したオープンソースのBBOツールキットOpenBoxを提案する。
ユーザがタスクを定義し管理するためのユーザフレンドリーなインターフェースと視覚化を実装している。
OpenBoxを支えるモジュール設計は、既存のシステムに柔軟なデプロイを容易にする。
実験結果は既存のシステムに対するopenboxの有効性と効率を示す。
OpenBoxのソースコードはhttps://github.com/PKU-DAIR/open-boxで入手できる。 Black-box optimization (BBO) has a broad range of applications, including automatic machine learning, experimental design, and database knob tuning. However, users still face challenges when applying BBO methods to their problems at hand with existing software packages in terms of applicability, performance, and efficiency. This paper presents OpenBox, an open-source BBO toolkit with improved usability. It implements user-friendly inferfaces and visualization for users to define and manage their tasks. The modular design behind OpenBox facilitates its flexible deployment in existing systems. Experimental results demonstrate the effectiveness and efficiency of OpenBox over existing systems. The source code of OpenBox is available at https://github.com/PKU-DAIR/open-box. | 翻訳日:2024-03-14 02:27:06 公開日:2024-03-12 |
# 動的分解能スケーリングを有する代数離散量子調和振動子 Algebraic discrete quantum harmonic oscillator with dynamic resolution scaling ( http://arxiv.org/abs/2304.01486v2 ) ライセンス: Link先を確認 | Michael May and Hong Qin | (参考訳) 離散量子調和発振器(DQHO)の代数的定式化を開発し、有限で等間隔のエネルギースペクトルと離散領域上で定義されるエネルギー固有関数(Su(2)あるいはKravchuk発振器)を定式化する。
従来のアプローチとは異なり、我々の手法はシュリンガー方程式の離散化と特殊関数の反復関係に依存しない。
この代数的定式化には自然の su(2) 代数が与えられ、それぞれの有限次元既約表現はその分解によってラベル付けされた異なる DQHO を定義する。
エネルギーラグ演算子に加えて、この定式化により、すべてのDQHOを異なる解像度で接続できる。
このように解像子演算子は、有限自由度量子シミュレーションの解像の動的スケーリングを可能にする。
代数的dqho形式を用いることで、連続あるいは無限離散設定では不可能である微分方程式や微分作用素を用いることなく、qhoのエネルギー固有波動関数を純粋に代数的な方法で厳密に導出することができる。
dqhoのコヒーレント状態が構築され、その期待位置は古典的な調和振動子として振動することが証明される。
DQHOコヒーレント状態は、大きな解像度で量子調和振動子の状態を取り戻す。
代数的定式化はまた、既知の連続対応を持たない逆dqhoの存在を予測する。 We develop an algebraic formulation for the discrete quantum harmonic oscillator (DQHO) with a finite, equally-spaced energy spectrum and energy eigenfunctions defined on a discrete domain, which is known as the su(2) or Kravchuk oscillator. Unlike previous approaches, ours does not depend on the discretization of the Schr\"odinger equation and recurrence relations of special functions. This algebraic formulation is endowed with a natural su(2) algebra, each finite dimensional irreducible representation of which defines a distinct DQHO labeled by its resolution. In addition to energy ladder operators, the formulation allows for resolution ladder operators connecting all DQHOs with different resolutions. The resolution ladder operators thus enable the dynamic scaling of the resolution of finite degree-of-freedom quantum simulations. Using the algebraic DQHO formalism, we are able to rigorously derive the energy eigenstate wave functions of the QHO in a purely algebraic manner without using differential equations or differential operators, which is impossible in the continuous or infinite discrete setting. The coherent state of the DQHO is constructed, and its expected position is proven to oscillate as a classical harmonic oscillator. The DQHO coherent state recovers that of the quantum harmonic oscillator at large resolution. The algebraic formulation also predicts the existence of an inverse DQHO that has no known continuous counterpart. | 翻訳日:2024-03-14 02:26:58 公開日:2024-03-12 |
# レイアウト拡散:レイアウト画像生成のための制御可能な拡散モデル LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation ( http://arxiv.org/abs/2303.17189v2 ) ライセンス: Link先を確認 | Guangcong Zheng, Xianpan Zhou, Xuewei Li, Zhongang Qi, Ying Shan, Xi Li | (参考訳) 近年,拡散モデルは画像合成において大きな成功を収めている。
しかし、画像が複数のオブジェクトの複雑なシーンを持つレイアウトからイメージへの生成に関して、グローバルレイアウトマップと個々の詳細なオブジェクトの両方を強固に制御する方法は、依然として難しい課題である。
本稿では,従来よりも高い品質と高い制御性が得られる拡散モデルであるlayoutdiffusionを提案する。
画像とレイアウトのマルチモーダルな融合を克服するために,領域情報を含む構造的イメージパッチを構築し,パッチされたイメージを特別なレイアウトに変換することで,通常のレイアウトと統一した形態で融合する。
さらに,複数物体間の関係をモデル化するためにlfm(layout fusion module)とoaca(object-aware cross attention)を提案する。
大規模な実験の結果、LayoutDiffusionは従来のSOTA法よりも46.35%、COCO-stuff法が26.70%、VG法が44.29%、41.82%優れていた。
コードはhttps://github.com/ZGCTroy/LayoutDiffusionで入手できる。 Recently, diffusion models have achieved great success in image synthesis. However, when it comes to the layout-to-image generation where an image often has a complex scene of multiple objects, how to make strong control over both the global layout map and each detailed object remains a challenging task. In this paper, we propose a diffusion model named LayoutDiffusion that can obtain higher generation quality and greater controllability than the previous works. To overcome the difficult multimodal fusion of image and layout, we propose to construct a structural image patch with region information and transform the patched image into a special layout to fuse with the normal layout in a unified form. Moreover, Layout Fusion Module (LFM) and Object-aware Cross Attention (OaCA) are proposed to model the relationship among multiple objects and designed to be object-aware and position-sensitive, allowing for precisely controlling the spatial related information. Extensive experiments show that our LayoutDiffusion outperforms the previous SOTA methods on FID, CAS by relatively 46.35%, 26.70% on COCO-stuff and 44.29%, 41.82% on VG. Code is available at https://github.com/ZGCTroy/LayoutDiffusion. | 翻訳日:2024-03-14 02:25:48 公開日:2024-03-12 |
# ChatGPTは知識に乏しいが経験不足な解法:大規模言語モデルにおける常識問題の検討 ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models ( http://arxiv.org/abs/2303.16421v2 ) ライセンス: Link先を確認 | Ning Bian, Xianpei Han, Le Sun, Hongyu Lin, Yaojie Lu, Ben He, Shanshan Jiang, Bin Dong | (参考訳) 大規模言語モデル(LLM)はNLPにおいて大きな進歩を遂げた。
しかし、常識的な知識を記憶し、表現し、活用する能力はよく知られている。
本稿では,広く利用されており,容易にアクセス可能なLLMであるChatGPTに着目し,(1)ChatGPTが日常的な質問に効果的に答えられるか,という質問を行う。
2) ChatGPTは特定の質問に答える上でのコモンセンス知識を意識しているか?
(3)ChatGPTは常識に通じているか?
(4) ChatGPTは、質問に対するコモンセンスを効果的に活用できるか?
本研究は,ChatGPTのコモンセンス能力を評価するために,11のデータセット上で一連の実験を行い,コモンセンス質問への回答,必要な知識の同定,知識記述の生成,知識記述の活用などを行った。
実験の結果,(1)ChatGPTは,特定のデータセットの領域で苦戦しながら,コモンセンスタスクにおいて良好なQAアキュラシーを達成できることがわかった。
2) ChatGPTは知識があり,知識プロンプトを用いて,常識知識の大部分を正確に生成することができる。
(3) 知識にもかかわらず、ChatGPTは未経験のコモンセンス問題解法であり、特定の質問に答えるために必要なコモンセンスを正確に識別することができない。
これらの知見は、ChatGPTのようなLLMにコモンセンスを効果的に組み込むための改善されたメカニズムを探求する必要性を提起する。 Large language models (LLMs) have made significant progress in NLP. However, their ability to memorize, represent, and leverage commonsense knowledge has been a well-known pain point. In this paper, we specifically focus on ChatGPT, a widely used and easily accessible LLM, and ask the following questions: (1) Can ChatGPT effectively answer commonsense questions? (2) Is ChatGPT aware of the underlying commonsense knowledge for answering a specific question? (3) Is ChatGPT knowledgeable in commonsense? (4) Can ChatGPT effectively leverage commonsense for answering questions? We conduct a series of experiments on 11 datasets to evaluate ChatGPT's commonsense abilities, including answering commonsense questions, identifying necessary knowledge, generating knowledge descriptions, and using knowledge descriptions to answer questions again. Experimental results show that: (1) ChatGPT can achieve good QA accuracies in commonsense tasks, while still struggling with certain domains of datasets. (2) ChatGPT is knowledgeable, and can accurately generate most of the commonsense knowledge using knowledge prompts. (3) Despite its knowledge, ChatGPT is an inexperienced commonsense problem solver, which cannot precisely identify the needed commonsense for answering a specific question. These findings raise the need to explore improved mechanisms for effectively incorporating commonsense into LLMs like ChatGPT, such as better instruction following and commonsense guidance. | 翻訳日:2024-03-14 02:25:21 公開日:2024-03-12 |
# ディファッセン:生成的室内シーン合成のための音化拡散モデル DiffuScene: Denoising Diffusion Models for Generative Indoor Scene Synthesis ( http://arxiv.org/abs/2303.14207v2 ) ライセンス: Link先を確認 | Jiapeng Tang, Yinyu Nie, Lev Markhasin, Angela Dai, Justus Thies, Matthias Nie{\ss}ner | (参考訳) 拡散モデルに基づく屋内3次元シーン合成のためのDiffuSceneを提案する。
非順序オブジェクトセットに格納された3dインスタンスプロパティを生成し、各オブジェクト構成に対して最も類似したジオメトリを取得する。
本研究では,非秩序なオブジェクト属性の集合を認知することにより,3次元屋内オブジェクトの集合を合成する拡散ネットワークを提案する。
非秩序なパラメトリゼーションは関節分布近似を単純化し、緩和する。
形状特徴の拡散は、対称性を含む自然な物体配置を促進する。
本手法は,シーン補完,シーン配置,テキストコンディショニングシーン合成など,多くの下流アプリケーションを可能にする。
3d-frontデータセットを用いた実験では,最先端の手法よりも物理的に妥当で多様な室内シーンを合成できることが示されている。
大規模なアブレーション研究は、シーン拡散モデルにおける設計選択の有効性を検証する。 We present DiffuScene for indoor 3D scene synthesis based on a novel scene configuration denoising diffusion model. It generates 3D instance properties stored in an unordered object set and retrieves the most similar geometry for each object configuration, which is characterized as a concatenation of different attributes, including location, size, orientation, semantics, and geometry features. We introduce a diffusion network to synthesize a collection of 3D indoor objects by denoising a set of unordered object attributes. Unordered parametrization simplifies and eases the joint distribution approximation. The shape feature diffusion facilitates natural object placements, including symmetries. Our method enables many downstream applications, including scene completion, scene arrangement, and text-conditioned scene synthesis. Experiments on the 3D-FRONT dataset show that our method can synthesize more physically plausible and diverse indoor scenes than state-of-the-art methods. Extensive ablation studies verify the effectiveness of our design choice in scene diffusion models. | 翻訳日:2024-03-14 02:24:55 公開日:2024-03-12 |
# 感情推論を支援する感情概念知識の言語特異的表現 Language-Specific Representation of Emotion-Concept Knowledge Causally Supports Emotion Inference ( http://arxiv.org/abs/2302.09582v5 ) ライセンス: Link先を確認 | Ming Li, Yusheng Su, Hsiu-Yuan Huang, Jiali Cheng, Xin Hu, Xinmiao Zhang, Huadong Wang, Yujia Qin, Xiaozhi Wang, Kristen A. Lindquist, Zhiyuan Liu, Dan Zhang | (参考訳) 人間は間違いなく言語を使って感情的な経験を伝えるが、言語は人間が感情を理解するのを助けるのか、それとも言語は単なるコミュニケーションの手段なのか?
本研究では、大規模言語モデル(LLM)として知られる人工知能(AI)の形式を用いて、感情の言語に基づく表現が、新しい状況の感情的意味に関する推論を生成するAIの能力に因果的に寄与するかどうかを評価する。
ヒトの感情概念の表現の14の属性は、LLMの異なる人工ニューロン集団によって表現されている。
これらの属性関連ニューロンを操作することで、生成的感情推論における感情概念知識の役割を実証した。
属性特異的なパフォーマンス劣化は、人間の精神空間における異なる属性の重要性に関連していた。
本研究は,LLMでも知覚モダ表現の欠如による感情の学習が可能であり,言語由来の感情概念知識の感情推論への寄与を強調した。 Humans no doubt use language to communicate about their emotional experiences, but does language in turn help humans understand emotions, or is language just a vehicle of communication? This study used a form of artificial intelligence (AI) known as large language models (LLMs) to assess whether language-based representations of emotion causally contribute to the AI's ability to generate inferences about the emotional meaning of novel situations. Fourteen attributes of human emotion concept representation were found to be represented by the LLM's distinct artificial neuron populations. By manipulating these attribute-related neurons, we in turn demonstrated the role of emotion concept knowledge in generative emotion inference. The attribute-specific performance deterioration was related to the importance of different attributes in human mental space. Our findings provide a proof-in-concept that even a LLM can learn about emotions in the absence of sensory-motor representations and highlight the contribution of language-derived emotion-concept knowledge for emotion inference. | 翻訳日:2024-03-14 02:24:19 公開日:2024-03-12 |
# 混合状態トポロジカル秩序の診断と量子メモリの破壊 Diagnostics of mixed-state topological order and breakdown of quantum memory ( http://arxiv.org/abs/2301.05689v2 ) ライセンス: Link先を確認 | Ruihua Fan, Yimu Bao, Ehud Altman, Ashvin Vishwanath | (参考訳) トポロジカル量子メモリは、局所誤差から有限エラーしきい値まで情報を保護することができる。
このようなしきい値は通常、破損した記憶を記述する混合状態の固有の性質よりも、復号アルゴリズムの成功に基づいて決定される。
ここでは、トポロジカルな量子メモリの破壊の本質的な特徴として、デコードアルゴリズムの性能に制約を与え、トポロジカルな混合状態の例を示す。
地中トポロジカル秩序の診断の一般化とみなすことができる3つの情報理論量を用いて, 誤差破壊混合状態におけるトポロジカル秩序の定義を行う。
量子相対エントロピーとコヒーレント情報に基づく絡み合いネガティビティに対する位相的貢献と他の2つの指標について考察する。
局所的なビットフリップと位相誤差を持つ2次元トーリック符号の具体例では、2次元古典スピンモデルの観測可能量に3つの量をマッピングし、同じ誤差閾値で遷移を解析的に示す。
このしきい値は、任意の復号アルゴリズムで達成された上限であり、トーリック符号の最適復号アルゴリズムでは実際に飽和している。 Topological quantum memory can protect information against local errors up to finite error thresholds. Such thresholds are usually determined based on the success of decoding algorithms rather than the intrinsic properties of the mixed states describing corrupted memories. Here we provide an intrinsic characterization of the breakdown of topological quantum memory, which both gives a bound on the performance of decoding algorithms and provides examples of topologically distinct mixed states. We employ three information-theoretical quantities that can be regarded as generalizations of the diagnostics of ground-state topological order, and serve as a definition for topological order in error-corrupted mixed states. We consider the topological contribution to entanglement negativity and two other metrics based on quantum relative entropy and coherent information. In the concrete example of the 2D Toric code with local bit-flip and phase errors, we map three quantities to observables in 2D classical spin models and analytically show they all undergo a transition at the same error threshold. This threshold is an upper bound on that achieved in any decoding algorithm and is indeed saturated by that in the optimal decoding algorithm for the Toric code. | 翻訳日:2024-03-14 02:23:18 公開日:2024-03-12 |
# LF-PGVIO:点と測地線を用いた大規模視野カメラのためのビジュアル慣性オドメトリーフレームワーク LF-PGVIO: A Visual-Inertial-Odometry Framework for Large Field-of-View Cameras using Points and Geodesic Segments ( http://arxiv.org/abs/2306.06663v2 ) ライセンス: Link先を確認 | Ze Wang, Kailun Yang, Hao Shi, Yufan Zhang, Zhijie Xu, Fei Gao, Kaiwei Wang | (参考訳) 本稿では,点と測地線を用いた負面を有する大型視野カメラのための視覚慣性オドメトリ(vio)フレームワークlf-pgvioを提案する。
我々の研究の目的は、負平面フォブカメラでさえも、大焦点全方位カメラで点線オドメトリの可能性を解き放つことである。
そこで本研究では,パノラマ環状画像,魚眼画像,各種パノラマ画像など,大きな歪みのある画像に適用可能なカメラモデルと組み合わせたOmnidirectional Curve Segment Detection (OCSD)法を提案する。
ジオデシックセグメントをラジアンに基づいて複数の直線セグメントに分割し、デクリプタを抽出して再結合する。
ディスクリプタマッチングは、複数のフレーム内の3dラインセグメント間の制約関係を確立する。
vioシステムでは、大型カメラをサポートするためにライン機能残差も拡張しています。
公開データセットの大規模評価は、最先端手法と比較してLF-PGVIOの精度と堅牢性に優れていた。
ソースコードはhttps://github.com/flysoaryun/lf-pgvioで公開されている。 In this paper, we propose LF-PGVIO, a Visual-Inertial-Odometry (VIO) framework for large Field-of-View (FoV) cameras with a negative plane using points and geodesic segments. The purpose of our research is to unleash the potential of point-line odometry with large-FoV omnidirectional cameras, even for cameras with negative-plane FoV. To achieve this, we propose an Omnidirectional Curve Segment Detection (OCSD) method combined with a camera model which is applicable to images with large distortions, such as panoramic annular images, fisheye images, and various panoramic images. The geodesic segment is sliced into multiple straight-line segments based on the radian and descriptors are extracted and recombined. Descriptor matching establishes the constraint relationship between 3D line segments in multiple frames. In our VIO system, line feature residual is also extended to support large-FoV cameras. Extensive evaluations on public datasets demonstrate the superior accuracy and robustness of LF-PGVIO compared to state-of-the-art methods. The source code will be made publicly available at https://github.com/flysoaryun/LF-PGVIO. | 翻訳日:2024-03-14 02:17:31 公開日:2024-03-12 |
# ベイズ周波数推定による原子時計ロック Atomic clock locking via Bayesian frequency estimation ( http://arxiv.org/abs/2306.06608v2 ) ライセンス: Link先を確認 | Chengyin Han, Zhu Ma, Yuxiang Qiu, Ruihuan Fang, Jiatao Wu, Chang Zhan, Maojie Li, Jiahao Huang, Bo Lu and Chaohong Lee | (参考訳) 原子時計は基礎科学と実用技術において重要な役割を果たす。
しかし、その感度は通常、個々の粒子による平行測定や1つの粒子による繰り返し測定によって決定される標準量子限界によって制限される。
この制限を克服するには、粒子間の相関や尋問時間を利用する必要がある。
量子エンタングルメントを利用してハイゼンベルク限界への感度の向上が実証されているが、全問合せ時間に対する感度のスケーリングがハイゼンベルクのスケーリングを達成することができるかどうかは不明である。
本稿では,ハイゼンベルクスケーリングにアプローチした適応ベイズ周波数推定プロトコルを開発し,その妥当性をコールド原子コヒーレント・ポピュレーション・トラッピングクロックを用いて実験的に実証する。
さらに,我々はベイズ周波数推定プロトコルを用いて,原子時計のロバスト閉ループロックを実現する。
従来のクロックロックと比較して、ベイズ時計のクロックロックは周波数安定性が5.1(4)dB向上する。
我々の発見は、原子時計をロックする代替アプローチを提供するだけでなく、量子磁気センサや原子干渉計といった他の量子センサーにも有望な応用をもたらす。 Atomic clocks play a vital role in fundamental science and practical technology. However, their sensitivity is typically limited by the standard quantum limit, which is determined by parallel measurements with individual particles or repeated measurements with a single particle. Overcoming this limitation requires exploiting correlations between particles or interrogation times. While it has been demonstrated that sensitivity can be improved to the Heisenberg limit by utilizing quantum entanglement, it remains unclear whether the scaling of sensitivity with respect to total interrogation time can achieve the Heisenberg scaling. Here, we develop an adaptive Bayesian frequency estimation protocol that approaches the Heisenberg scaling and experimentally demonstrate its validity with a cold-atom coherent-population-trapping clock. In further, we achieve robust closed-loop locking of the atomic clock by utilizing our Bayesian frequency estimation protocol. In comparison with the conventional clock locking, our Bayesian clock locking yields an improvement of 5.1(4) dB in fractional frequency stability. Our findings not only provide an alternative approach to locking atomic clocks but also hold promising applications in other quantum sensors, such as quantum magnetometers and atomic interferometers. | 翻訳日:2024-03-14 02:17:14 公開日:2024-03-12 |
# SGAT4PASS: Panoramic Semantic Segmentationのための球形状認識変換器 SGAT4PASS: Spherical Geometry-Aware Transformer for PAnoramic Semantic Segmentation ( http://arxiv.org/abs/2306.03403v2 ) ライセンス: Link先を確認 | Xuewei Li, Tao Wu, Zhongang Qi, Gaoang Wang, Ying Shan, Xi Li | (参考訳) PAnoramic Semantic Segmentation (PASS)は、コンピュータビジョンにおける重要かつ困難な問題として、超広視野の視点に基づく完全なシーン認識を提供する。
通常、2次元パノラマ画像入力を持つPASS法は、画像歪みを解くことに重点を置いているが、元の360^{\circ}$データの3D特性を考慮していない。
したがって、パノラマ画像の3Dインプットでは、パフォーマンスが大幅に低下する。
本研究では,3次元球面形状の知識を考慮したPanoramic Semantic Segmentation (SGAT4PASS) のための球面形状認識変換器を提案する。
具体的には,PASSに対して球面形状認識フレームワークを提案する。
球形形状対応画像投影、球状変形可能なパッチ埋め込み、パノラマ認識損失という3つのモジュールを含み、3次元乱れを考慮した入力イメージを考慮に入れ、既存の変形可能なパッチ埋め込みに球形幾何学対応の制約を加え、それぞれ360円円のデータのピクセル密度を示す。
スタンフォード2D3Dパノラマデータセットの実験結果から,SGAT4PASSはmIoUの約2%増加とともに性能とロバスト性を大幅に向上し,データに小さな3D障害が発生した場合,その安定性は桁違いに向上することが示された。
コードと補足資料はhttps://github.com/TencentARC/SGAT4PASS.comで公開されています。 As an important and challenging problem in computer vision, PAnoramic Semantic Segmentation (PASS) gives complete scene perception based on an ultra-wide angle of view. Usually, prevalent PASS methods with 2D panoramic image input focus on solving image distortions but lack consideration of the 3D properties of original $360^{\circ}$ data. Therefore, their performance will drop a lot when inputting panoramic images with the 3D disturbance. To be more robust to 3D disturbance, we propose our Spherical Geometry-Aware Transformer for PAnoramic Semantic Segmentation (SGAT4PASS), considering 3D spherical geometry knowledge. Specifically, a spherical geometry-aware framework is proposed for PASS. It includes three modules, i.e., spherical geometry-aware image projection, spherical deformable patch embedding, and a panorama-aware loss, which takes input images with 3D disturbance into account, adds a spherical geometry-aware constraint on the existing deformable patch embedding, and indicates the pixel density of original $360^{\circ}$ data, respectively. Experimental results on Stanford2D3D Panoramic datasets show that SGAT4PASS significantly improves performance and robustness, with approximately a 2% increase in mIoU, and when small 3D disturbances occur in the data, the stability of our performance is improved by an order of magnitude. Our code and supplementary material are available at https://github.com/TencentARC/SGAT4PASS. | 翻訳日:2024-03-14 02:16:57 公開日:2024-03-12 |
# Slovo: ロシアの手話データセット Slovo: Russian Sign Language Dataset ( http://arxiv.org/abs/2305.14527v3 ) ライセンス: Link先を確認 | Alexander Kapitanov, Karina Kvanchiani, Alexander Nagaev, Elizaveta Petrova | (参考訳) 手話認識タスクの主な課題の1つは、難聴社会と聴覚社会のギャップにより、適切なデータセットを集めることの難しさである。
さらに、各国の手話は大きく異なり、それぞれに新しいデータの作成を義務付けている。
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
データ収集からビデオアノテーションまで、データセット生成パイプライン全体も、以下のデモアプリケーションで提供しています。
いくつかのニューラルネットワークがslovo上でトレーニングされ、その教育能力を示すために評価される。
提案されたデータと事前訓練されたモデルが公開されている。 One of the main challenges of the sign language recognition task is the difficulty of collecting a suitable dataset due to the gap between hard-of-hearing and hearing societies. In addition, the sign language in each country differs significantly, which obliges the creation of new data for each of them. This paper presents the Russian Sign Language (RSL) video dataset Slovo, produced using crowdsourcing platforms. The dataset contains 20,000 FullHD recordings, divided into 1,000 classes of isolated RSL gestures received by 194 signers. We also provide the entire dataset creation pipeline, from data collection to video annotation, with the following demo application. Several neural networks are trained and evaluated on the Slovo to demonstrate its teaching ability. Proposed data and pre-trained models are publicly available. | 翻訳日:2024-03-14 02:15:12 公開日:2024-03-12 |
# SpokenWOZ:タスク指向対話エージェントのための大規模音声テキストベンチマーク SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents ( http://arxiv.org/abs/2305.13040v5 ) ライセンス: Link先を確認 | Shuzheng Si, Wentao Ma, Haoyu Gao, Yuchuan Wu, Ting-En Lin, Yinpei Dai, Hangyu Li, Rui Yan, Fei Huang, Yongbin Li | (参考訳) タスク指向対話(TOD)モデルは近年大きな進歩を遂げている。
しかし,従来の研究は主にアノテータによるデータセットに焦点を当てており,学術研究と実世界の会話シナリオのギャップが生じた。
いくつかの小規模音声TODデータセットは、ASRエラーなどの堅牢性問題に対処するために提案されているが、音声会話におけるユニークな課題は無視されている。
この制限に対処するために,8つのドメイン,203kのターン,5.7kの対話,対人会話からの249時間の音声を含む,音声TODのための大規模音声テキストデータセットであるSpkenWOZを導入する。
SpokenWOZはさらに、音声言語における単語間処理や推論などの一般的な音声特徴を取り入れている。
これらの特徴に基づき,新たな課題としてクロスターンスロットと推論スロット検出を提案する。
テキストモーダルモデル,新たに提案されたデュアルモーダルモデル,LLM,例えばChatGPTなど,さまざまなベースライン上で実験を行う。
その結果、最も先進的な対話状態追跡装置は、結合目標精度が25.65%しか達成できず、somaエンドツーエンドモデルでは52.1%の対話でユーザ要求を正しく完了している。
データセット、コード、およびleaderboardは、https://spokenwoz.github.io/で利用可能である。 Task-oriented dialogue (TOD) models have made significant progress in recent years. However, previous studies primarily focus on datasets written by annotators, which has resulted in a gap between academic research and real-world spoken conversation scenarios. While several small-scale spoken TOD datasets are proposed to address robustness issues such as ASR errors, they ignore the unique challenges in spoken conversation. To tackle the limitations, we introduce SpokenWOZ, a large-scale speech-text dataset for spoken TOD, containing 8 domains, 203k turns, 5.7k dialogues and 249 hours of audios from human-to-human spoken conversations. SpokenWOZ further incorporates common spoken characteristics such as word-by-word processing and reasoning in spoken language. Based on these characteristics, we present cross-turn slot and reasoning slot detection as new challenges. We conduct experiments on various baselines, including text-modal models, newly proposed dual-modal models, and LLMs, e.g., ChatGPT. The results show that the current models still have substantial room for improvement in spoken conversation, where the most advanced dialogue state tracker only achieves 25.65% in joint goal accuracy and the SOTA end-to-end model only correctly completes the user request in 52.1% of dialogues. The dataset, code, and leaderboard are available: https://spokenwoz.github.io/. | 翻訳日:2024-03-14 02:14:59 公開日:2024-03-12 |
# ワッサーシュタイン距離における密度マップの配向 Alignment of Density Maps in Wasserstein Distance ( http://arxiv.org/abs/2305.12310v2 ) ライセンス: Link先を確認 | Amit Singer and Ruiyi Yang | (参考訳) 本稿では, 極低温電子顕微鏡の応用により, 密度マップとして表現された3次元物体を整列するアルゴリズムを提案する。
このアルゴリズムは、剛性変換後の密度写像間の1-ワッサーシュタイン距離を最小化することに基づいている。
誘導損失関数はユークリッド関数よりも良質な景観を享受し、ベイズ最適化を計算に利用する。
数値実験により、実際のタンパク質分子のアライメントに関する既存のアルゴリズムよりも精度と効率が向上した。
ヘテロジニアス対を整列する文脈において,新たな距離関数の必要性を示す。 In this paper we propose an algorithm for aligning three-dimensional objects when represented as density maps, motivated by applications in cryogenic electron microscopy. The algorithm is based on minimizing the 1-Wasserstein distance between the density maps after a rigid transformation. The induced loss function enjoys a more benign landscape than its Euclidean counterpart and Bayesian optimization is employed for computation. Numerical experiments show improved accuracy and efficiency over existing algorithms on the alignment of real protein molecules. In the context of aligning heterogeneous pairs, we illustrate a potential need for new distance functions. | 翻訳日:2024-03-14 02:14:13 公開日:2024-03-12 |
# 個別攻撃に対する差動位相シフトQKDの安全性 Security of differential phase shift QKD against explicit individual attacks ( http://arxiv.org/abs/2305.11822v2 ) ライセンス: Link先を確認 | Valliamai Ramanathan, Anil Prabhakar, and Prabha Mandayam | (参考訳) 量子鍵分布(QKD)は原則として無条件で安全であることが知られているが、実用の観点からQKDプロトコルのセキュリティを定量化することは依然として重要な課題である。
本稿では、位相ベースのQKDプロトコルに着目し、個別攻撃に対する3とnのパルス差動位相シフト量子鍵分布(DPS QKD)プロトコルのセキュリティを特徴付ける。
特に、最小誤り判別(MED)とクローン攻撃に着目し、セキュアな鍵を得るために、シフされた鍵を縮小する必要がある縮小係数を求める。
一般個人攻撃下で得られたセキュリティキーレートと既知の下位境界との比較を行った。
明示的な攻撃戦略を持たない理論的下界から離れて、我々の研究は、既知の実装による攻撃に基づく位相ベースのプロトコルのセキュリティを実践的に評価する。 Quantum key distribution (QKD) is known to be unconditionally secure in principle, but quantifying the security of QKD protocols from a practical standpoint continues to remain an important challenge. Here, we focus on phase-based QKD protocols and characterize the security of the 3 and n-pulse Differential Phase Shift Quantum Key Distribution (DPS QKD) protocols against individual attacks. In particular, we focus on the minimum error discrimination (MED) and cloning attacks and obtain the corresponding shrinking factor by which the sifted key needs to be shrunk in order to get a secure key. We compare the secure key rates thus obtained with the known lower bounds under a general individual attack. In a departure from the theoretical lower bounds, which have no explicit attack strategies, our work provides a practical assessment of the security of phase-based protocols based on attacks with known implementations. | 翻訳日:2024-03-14 02:14:04 公開日:2024-03-12 |
# 合成データ生成の実用性理論 Utility Theory of Synthetic Data Generation ( http://arxiv.org/abs/2305.10015v2 ) ライセンス: Link先を確認 | Shirong Xu and Will Wei Sun and Guang Cheng | (参考訳) 合成データアルゴリズムは下流学習タスクのための人工データを生成する産業で広く利用されている。
既存の研究は主に合成データの実用性を実証的に評価することに焦点を当てているが、その理論的理解はほとんど欠けている。
本稿では,統計的学習フレームワークにおける実用理論の確立により,実践と理論のギャップを埋める。
合成データに基づいてトレーニングされたモデルの一般化とランキングの2つのユーティリティメトリクスを考える。
前者は、合成と実データで訓練されたモデル間の一般化差として定義される。
この実用的メトリクスの解析的境界を導出することにより、合成特徴分布は、下流学習タスクにおいて適切なモデル仕様を提供する合成モデルの同等な一般化を保証するために、実データと類似する必要はないことを実証する。
後者のユーティリティメトリックは、合成データで訓練されたモデルの相対的性能を研究する。
特に,合成データの分布が実データと必ずしも類似しているとは限らないことを見出し,一貫性のあるモデル比較を行う。
興味深いことに、合成応答が十分に生成されていない場合でも、一般化ギャップによって下流モデルが分離できる限り、一貫性のあるモデル比較が達成可能である。
最後に、これらの理論的発見を検証するために、非パラメトリックモデルとディープニューラルネットワークに関する広範な実験が行われた。 Synthetic data algorithms are widely employed in industries to generate artificial data for downstream learning tasks. While existing research primarily focuses on empirically evaluating utility of synthetic data, its theoretical understanding is largely lacking. This paper bridges the practice-theory gap by establishing relevant utility theory in a statistical learning framework. It considers two utility metrics: generalization and ranking of models trained on synthetic data. The former is defined as the generalization difference between models trained on synthetic and on real data. By deriving analytical bounds for this utility metric, we demonstrate that the synthetic feature distribution does not need to be similar as that of real data for ensuring comparable generalization of synthetic models, provided proper model specifications in downstream learning tasks. The latter utility metric studies the relative performance of models trained on synthetic data. In particular, we discover that the distribution of synthetic data is not necessarily similar as the real one to ensure consistent model comparison. Interestingly, consistent model comparison is still achievable even when synthetic responses are not well generated, as long as downstream models are separable by a generalization gap. Finally, extensive experiments on non-parametric models and deep neural networks have been conducted to validate these theoretical findings. | 翻訳日:2024-03-14 02:13:49 公開日:2024-03-12 |
# GradTree: 勾配の未熟な軸方向決定木を学習する GradTree: Learning Axis-Aligned Decision Trees with Gradient Descent ( http://arxiv.org/abs/2305.03515v6 ) ライセンス: Link先を確認 | Sascha Marton and Stefan L\"udtke and Christian Bartelt and Heiner Stuckenschmidt | (参考訳) 決定木(DT)は、高い解釈可能性のために多くの機械学習タスクに一般的に使用される。
しかし、DTをデータから学習することは、非凸で微分不可能であるため、難しい最適化問題である。
したがって、共通のアプローチは各内部ノードの局所的な不純物を最小化する欲望成長アルゴリズムを用いてdtsを学ぶ。
残念なことに、この欲深い手順は不正確な木につながる可能性がある。
本稿では,勾配勾配の強い軸方向のDTを学習するための新しい手法を提案する。
提案手法では,高密度dt表現上のストレートスルー演算子を用いたバックプロパゲーションを用いて,全木パラメータを協調的に最適化する。
提案手法は,バイナリ分類ベンチマークの既存手法を上回り,マルチクラスタスクの競合結果を得る。
https://github.com/s-marton/GradTree Decision Trees (DTs) are commonly used for many machine learning tasks due to their high degree of interpretability. However, learning a DT from data is a difficult optimization problem, as it is non-convex and non-differentiable. Therefore, common approaches learn DTs using a greedy growth algorithm that minimizes the impurity locally at each internal node. Unfortunately, this greedy procedure can lead to inaccurate trees. In this paper, we present a novel approach for learning hard, axis-aligned DTs with gradient descent. The proposed method uses backpropagation with a straight-through operator on a dense DT representation, to jointly optimize all tree parameters. Our approach outperforms existing methods on binary classification benchmarks and achieves competitive results for multi-class tasks. The method is available under: https://github.com/s-marton/GradTree | 翻訳日:2024-03-14 02:13:14 公開日:2024-03-12 |
# 高頻度半導体量子ドットの断熱的量子アドミタンス:リフレクションメトリーをポラロンダイナミクスとして再考 Beyond-adiabatic Quantum Admittance of a Semiconductor Quantum Dot at High Frequencies: Rethinking Reflectometry as Polaron Dynamics ( http://arxiv.org/abs/2307.16725v3 ) ライセンス: Link先を確認 | L. Peri, G. A. Oakes, L. Cochrane, C. J. B. Ford, M. F. Gonzalez-Zalba | (参考訳) 動的に動作する半導体量子ドットは、量子センサーやコンピュータのような多くの量子技術の基礎である。
したがって、マイクロ波周波数での電気特性のモデル化は、より大きな電子回路での性能をシミュレートするために不可欠である。
本研究では,コヒーレント光子浴の効果の下で電荷貯水池に結合した量子ドットトンネルの入射性を得るために,自己整合型量子マスター方程式を定式化する。
本研究では, フォトニックドライブの共振器と共振器との結合が増大し, 寿命の推移とともに, 既知の半古典的(熱的)限界を捉えたアクセタンスに対する一般表現を求める。
さらに,qd状態のドレッシングによって決定されるフロッケ広化と,系の光子損失によって決定される広化の2つの新しい光子媒介レジームについて述べる。
本研究では,QDの高周波挙動を広範囲に再現し,過去の実験を記述し,新しいQD-光子相互作用の探索法を提案する。 Semiconductor quantum dots operated dynamically are the basis of many quantum technologies such as quantum sensors and computers. Hence, modelling their electrical properties at microwave frequencies becomes essential to simulate their performance in larger electronic circuits. Here, we develop a self-consistent quantum master equation formalism to obtain the admittance of a quantum dot tunnel-coupled to a charge reservoir under the effect of a coherent photon bath. We find a general expression for the admittance that captures the well-known semiclassical (thermal) limit, along with the transition to lifetime and power broadening regimes due to the increased coupling to the reservoir and amplitude of the photonic drive, respectively. Furthermore, we describe two new photon-mediated regimes: Floquet broadening, determined by the dressing of the QD states, and broadening determined by photon loss in the system. Our results provide a method to simulate the high-frequency behaviour of QDs in a wide range of limits, describe past experiments, and propose novel explorations of QD-photon interactions. | 翻訳日:2024-03-14 02:08:07 公開日:2024-03-12 |
# 1\times1$畳み込みネットワークによる軽量画像の超高解像度化 Fully $1\times1$ Convolutional Network for Lightweight Image Super-Resolution ( http://arxiv.org/abs/2307.16140v2 ) ライセンス: Link先を確認 | Gang Wu, Junjun Jiang, Kui Jiang, Xianming Liu | (参考訳) 深層モデルはシングルイメージスーパーレゾリューション(sisr)タスク、特に大きなカーネルを持つ大規模モデル(3\times3$以上)において重要なプロセスを達成している。
しかし、そのようなモデルの計算量が多いため、リアルタイムのリソース制約のある環境でのデプロイメントが妨げられる。
逆に、$1\times1$の畳み込みは計算効率を大幅に向上させるが、SISRモデルに不可欠な局所空間表現の集約に苦労する。
この二分法に反応して、$3\times3$と$1\times1$カーネルのメリットを調和させ、軽量なSISRタスクにおいて大きな可能性を活用することを提案する。
具体的には,shift-conv-based network (scnet) という,単純かつ効果的で完全な 1\times1$ 畳み込みネットワークを提案する。
パラメータフリーの空間シフト演算を組み込むことで、計算効率を著しく向上しつつ、強力な表現能力を備えた完全な1\times1$畳み込みネットワークを備える。
SCNetは、完全な1\times1$畳み込み構造にもかかわらず、通常の畳み込みを使用する既存の軽量SRモデルの性能と一貫して一致または超えている。
コードと事前訓練されたモデルはhttps://github.com/Aitical/SCNet.comにある。 Deep models have achieved significant process on single image super-resolution (SISR) tasks, in particular large models with large kernel ($3\times3$ or more). However, the heavy computational footprint of such models prevents their deployment in real-time, resource-constrained environments. Conversely, $1\times1$ convolutions bring substantial computational efficiency, but struggle with aggregating local spatial representations, an essential capability to SISR models. In response to this dichotomy, we propose to harmonize the merits of both $3\times3$ and $1\times1$ kernels, and exploit a great potential for lightweight SISR tasks. Specifically, we propose a simple yet effective fully $1\times1$ convolutional network, named Shift-Conv-based Network (SCNet). By incorporating a parameter-free spatial-shift operation, it equips the fully $1\times1$ convolutional network with powerful representation capability while impressive computational efficiency. Extensive experiments demonstrate that SCNets, despite its fully $1\times1$ convolutional structure, consistently matches or even surpasses the performance of existing lightweight SR models that employ regular convolutions. The code and pre-trained models can be found at https://github.com/Aitical/SCNet. | 翻訳日:2024-03-14 02:07:48 公開日:2024-03-12 |
# 多項式関数の効率的な量子振幅符号化 Efficient quantum amplitude encoding of polynomial functions ( http://arxiv.org/abs/2307.10917v4 ) ライセンス: Link先を確認 | Javier Gonzalez-Conde, Thomas W. Watts, Pablo Rodriguez-Grasa and Mikel Sanz | (参考訳) 量子コンピュータへの関数のロードは、量子偏微分方程式解法のようないくつかの量子アルゴリズムにおいて重要なステップである。
したがって、このプロセスの非効率性は、これらのアルゴリズムの適用に大きなボトルネックをもたらす。
ここでは,n$ qubits 上の実多項式関数の振幅符号化のための2つの効率的な方法を提案し,比較する。
この場合、閉区間上の任意の連続函数は多項式関数によって任意の精度で一様に近似できるので、特別な関係を持つ。
最初のアプローチは行列積の状態表現に依存する。
結合次元が小さいと仮定された場合の目標状態の近似について検討およびベンチマークを行った。
2つ目のアルゴリズムは2つのサブルーチンを組み合わせる。
当初、線形関数は、線形関数のアダマール・ウォルシュ級数を読み込む多制御ゲートのドロークシーケンスで量子レジスタにエンコードし、線形関数のアダマール・ウォルシュ級数が最終忠実性にどのように影響するかを探索する。
逆離散アダマール=ウォルシュ変換を適用すると、級数係数は線形関数の振幅符号化に変換される。
次に、この構成をビルディングブロックとして使用して、$k_0$ qubits上の線形関数に対応する振幅のブロック符号化を実現し、振幅のブロック符号化に多項式変換を実装する量子特異値変換を適用する。
Amplitude Amplificationアルゴリズムと組み合わせることで、$k_0$ qubitsで多項式関数を符号化する量子状態を作成することができる。
最後に、$n-k_0$ qubitsをパッドして、$n$ qubitsに多項式の近似符号化を生成し、$k_0$に依存する誤差を分析する。
本稿では,制御可能なエラーを導入することにより,最先端の複雑さを改善する手法を提案する。 Loading functions into quantum computers represents an essential step in several quantum algorithms, such as quantum partial differential equation solvers. Therefore, the inefficiency of this process leads to a major bottleneck for the application of these algorithms. Here, we present and compare two efficient methods for the amplitude encoding of real polynomial functions on $n$ qubits. This case holds special relevance, as any continuous function on a closed interval can be uniformly approximated with arbitrary precision by a polynomial function. The first approach relies on the matrix product state representation. We study and benchmark the approximations of the target state when the bond dimension is assumed to be small. The second algorithm combines two subroutines. Initially we encode the linear function into the quantum registers with a swallow sequence of multi-controlled gates that loads the linear function's Hadamard-Walsh series, exploring how truncating the Hadamard-Walsh series of the linear function affects the final fidelity. Applying the inverse discrete Hadamard-Walsh transform transforms the series coefficients into an amplitude encoding of the linear function. Then, we use this construction as a building block to achieve a block encoding of the amplitudes corresponding to the linear function on $k_0$ qubits and apply the quantum singular value transformation that implements a polynomial transformation to the block encoding of the amplitudes. This unitary together with the Amplitude Amplification algorithm will enable us to prepare the quantum state that encodes the polynomial function on $k_0$ qubits. Finally we pad $n-k_0$ qubits to generate an approximated encoding of the polynomial on $n$ qubits, analyzing the error depending on $k_0$. In this regard, our methodology proposes a method to improve the state-of-the-art complexity by introducing controllable errors. | 翻訳日:2024-03-14 02:07:23 公開日:2024-03-12 |
# VAEの対称平衡学習 Symmetric Equilibrium Learning of VAEs ( http://arxiv.org/abs/2307.09883v2 ) ライセンス: Link先を確認 | Boris Flach and Dmitrij Schlesinger and Alexander Shekhovtsov | (参考訳) 我々は変分オートエンコーダ(vae)をデコーダとエンコーダのペアとして捉え、データ空間内の分布を潜在空間内の分布にマップし、その逆も行う。
VAEの標準的な学習方法は、エビデンスローバウンド(ELBO)の最大化である。
エンコーダを補助手段としてのみ使用しながら潜在変数モデルを学習することが目的であることは非対称である。
さらに、閉じた形式のa-priori 潜在分布も必要である。
これにより、一般的な半教師付き学習や複雑な生成モデルなど、より複雑なシナリオでの適用性が制限される。
本研究では,エンコーダとデコーダに対して対称なナッシュ均衡学習手法を提案し,データと潜伏分布の両方がサンプリングによってのみアクセス可能な状況下でのVAEの学習を可能にする。
このアプローチの柔軟性とシンプルさにより、幅広い学習シナリオとダウンストリームタスクに応用することができる。 We view variational autoencoders (VAE) as decoder-encoder pairs, which map distributions in the data space to distributions in the latent space and vice versa. The standard learning approach for VAEs is the maximisation of the evidence lower bound (ELBO). It is asymmetric in that it aims at learning a latent variable model while using the encoder as an auxiliary means only. Moreover, it requires a closed form a-priori latent distribution. This limits its applicability in more complex scenarios, such as general semi-supervised learning and employing complex generative models as priors. We propose a Nash equilibrium learning approach, which is symmetric with respect to the encoder and decoder and allows learning VAEs in situations where both the data and the latent distributions are accessible only by sampling. The flexibility and simplicity of this approach allows its application to a wide range of learning scenarios and downstream tasks. | 翻訳日:2024-03-14 02:06:51 公開日:2024-03-12 |
# より深い画像登録に向けて Towards Saner Deep Image Registration ( http://arxiv.org/abs/2307.09696v3 ) ライセンス: Link先を確認 | Bin Duan and Ming Zhong and Yan Yan | (参考訳) 近年のコンピューティングハードウェアの進歩とディープラーニングアーキテクチャの急激な普及により、学習に基づくディープラーニングの登録方法は、メトリックのパフォーマンスと推論時間の観点から、従来のものを上回っている。
しかし、これらの手法はDiceのようなパフォーマンス測定の改善に重点を置いており、特に医用画像の登録に等しく望ましいモデル行動にはあまり注意を払わない。
本稿では, 衛生検査顕微鏡を用いて, 一般的な学習に基づく深層登録のための行動について検討する。
既存のほとんどの登録は、過度に最適化された画像類似性により、逆一貫性が低く、同一のペアの非識別に悩まされている。
これらの挙動を正すため、深層モデルに2つの正則性チェックを課し、逆一貫性エラーを低減し、同時に判別能力を高める新しい正則化ベースの正則性強化法を提案する。
さらに, 画像の正当性チェック手法に関する理論的保証のセットを導出し, 理論的結果と, 性能を犠牲にすることなくモデルの正当性向上に有効性を示す実験結果を得た。
私たちのコードとモデルはhttps://github.com/tuffr5/saner-deep-registrationで利用可能です。 With recent advances in computing hardware and surges of deep-learning architectures, learning-based deep image registration methods have surpassed their traditional counterparts, in terms of metric performance and inference time. However, these methods focus on improving performance measurements such as Dice, resulting in less attention given to model behaviors that are equally desirable for registrations, especially for medical imaging. This paper investigates these behaviors for popular learning-based deep registrations under a sanity-checking microscope. We find that most existing registrations suffer from low inverse consistency and nondiscrimination of identical pairs due to overly optimized image similarities. To rectify these behaviors, we propose a novel regularization-based sanity-enforcer method that imposes two sanity checks on the deep model to reduce its inverse consistency errors and increase its discriminative power simultaneously. Moreover, we derive a set of theoretical guarantees for our sanity-checked image registration method, with experimental results supporting our theoretical findings and their effectiveness in increasing the sanity of models without sacrificing any performance. Our code and models are available at https://github.com/tuffr5/Saner-deep-registration. | 翻訳日:2024-03-14 02:06:35 公開日:2024-03-12 |
# tdCoxSNN:連続時間動的予測のための時間依存コックス生存ニューラルネットワーク tdCoxSNN: Time-Dependent Cox Survival Neural Network for Continuous-time Dynamic Prediction ( http://arxiv.org/abs/2307.05881v2 ) ライセンス: Link先を確認 | Lang Zeng, Jipeng Zhang, Wei Chen, Ying Ding | (参考訳) 動的予測の目的は、新しいデータが利用可能になると更新される個人化されたリスク予測を時間とともに提供することである。
加齢黄斑変性症(amd)の進行眼疾患に対する動的予測モデルの構築のために,縦型眼底画像を用いてその進行を予測するための時間依存coxサバイバルニューラルネットワーク(tdcoxsnn)を提案する。
tdCoxSNNは、ニューラルネットワークを使用して、生存結果に対する時間依存共変体の非線形効果をキャプチャすることで、時間依存コックスモデルに基づいて構築される。
さらに、畳み込みニューラルネットワーク(CNN)とサバイバルネットワークを同時に統合することにより、tdCoxSNNは縦画像を直接入力として取り込むことができる。
提案手法と共同モデリングおよびランドマーク手法を広範囲なシミュレーションにより評価・比較する。
提案手法を2つの実データに適用した。
AREDS(Aage-Related Eye Disease Study、老化関連眼疾患研究)は、4000人以上の参加者に対して、12年間に5万枚以上の眼底画像が撮影された大規模なAMD研究である。
もうひとつは原発性胆汁性肝硬変(PBC)のデータセットで、複数の実験室で経時的に採取し、移植までの時間を予測する。
本手法は, シミュレーションと実データ解析の両方において, 予測性能が向上することを示す。 The aim of dynamic prediction is to provide individualized risk predictions over time, which are updated as new data become available. In pursuit of constructing a dynamic prediction model for a progressive eye disorder, age-related macular degeneration (AMD), we propose a time-dependent Cox survival neural network (tdCoxSNN) to predict its progression using longitudinal fundus images. tdCoxSNN builds upon the time-dependent Cox model by utilizing a neural network to capture the non-linear effect of time-dependent covariates on the survival outcome. Moreover, by concurrently integrating a convolutional neural network (CNN) with the survival network, tdCoxSNN can directly take longitudinal images as input. We evaluate and compare our proposed method with joint modeling and landmarking approaches through extensive simulations. We applied the proposed approach to two real datasets. One is a large AMD study, the Age-Related Eye Disease Study (AREDS), in which more than 50,000 fundus images were captured over a period of 12 years for more than 4,000 participants. Another is a public dataset of the primary biliary cirrhosis (PBC) disease, where multiple lab tests were longitudinally collected to predict the time-to-liver transplant. Our approach demonstrates commendable predictive performance in both simulation studies and the analysis of the two real datasets. | 翻訳日:2024-03-14 02:06:15 公開日:2024-03-12 |
# chexmask: 胸部x線画像のための解剖学的セグメンテーションマスクの大規模データセット CheXmask: a large-scale dataset of anatomical segmentation masks for multi-center chest x-ray images ( http://arxiv.org/abs/2307.03293v3 ) ライセンス: Link先を確認 | Nicol\'as Gaggion, Candelaria Mosquera, Lucas Mansilla, Julia Mariel Saidman, Martina Aineseder, Diego H. Milone, Enzo Ferrante | (参考訳) 胸部X線分析のための人工知能モデルの開発は、高品質なアノテーションを持つ大規模で多様なデータセットに依存している。
胸部X線画像のデータベースがいくつか公開されているが、そのほとんどは疾患診断ラベルを含んでいるが、詳細なピクセルレベルの解剖学的分類ラベルがない。
このギャップに対処するため,ChestX-ray8,Chexpert,MIMIC-CXR-JPG,Padchest,VinDr-CXRの5つの公開データベースから得られる画像に対して,均一かつ微細な解剖学的アノテーションを付加した胸部X線多中心セグメンテーションデータセットを導入した。
提案手法はHybridGNetモデルを用いて,全データセットの一貫性と高品質なセグメンテーションを保証する。
専門医の評価と自動品質管理を含む厳密な検証を行い、その結果のマスクを検証する。
さらに,マスク毎の個別品質指標とデータセット毎の全体的な品質推定も提供する。
このデータセットは、胸部x線分析における革新的な方法論の開発と評価を合理化し、より広い科学コミュニティにとって貴重な資源となっている。
CheXmaskデータセットは、https://physionet.org/content/chexmask-cxr-segmentation-data/で公開されている。 The development of successful artificial intelligence models for chest X-ray analysis relies on large, diverse datasets with high-quality annotations. While several databases of chest X-ray images have been released, most include disease diagnosis labels but lack detailed pixel-level anatomical segmentation labels. To address this gap, we introduce an extensive chest X-ray multi-center segmentation dataset with uniform and fine-grain anatomical annotations for images coming from five well-known publicly available databases: ChestX-ray8, Chexpert, MIMIC-CXR-JPG, Padchest, and VinDr-CXR, resulting in 657,566 segmentation masks. Our methodology utilizes the HybridGNet model to ensure consistent and high-quality segmentations across all datasets. Rigorous validation, including expert physician evaluation and automatic quality control, was conducted to validate the resulting masks. Additionally, we provide individualized quality indices per mask and an overall quality estimation per dataset. This dataset serves as a valuable resource for the broader scientific community, streamlining the development and assessment of innovative methodologies in chest X-ray analysis. The CheXmask dataset is publicly available at: https://physionet.org/content/chexmask-cxr-segmentation-data/ | 翻訳日:2024-03-14 02:05:33 公開日:2024-03-12 |
# tnpar:イベントシーケンスからグレンジャー因果構造を学ぶためのトポロジカルニューラルポアソン自己回帰モデル TNPAR: Topological Neural Poisson Auto-Regressive Model for Learning Granger Causal Structure from Event Sequences ( http://arxiv.org/abs/2306.14114v2 ) ライセンス: Link先を確認 | Yuequn Liu, Ruichu Cai, Wei Chen, Jie Qiao, Yuguang Yan, Zijian Li, Keli Zhang, Zhifeng Hao | (参考訳) イベントシーケンスからグランジャー因果関係を学ぶことは、さまざまなアプリケーションで難しいが不可欠なタスクである。
既存のメソッドのほとんどは、イベントシーケンスが独立かつ同一分散である(i.i.d.)という仮定に依存している。
しかし、この i.d. 仮定は、イベントシーケンス間の固有の依存関係のためにしばしば違反される。
幸いなことに、実際にはこれらの依存関係はトポロジカルネットワークによってモデル化することができ、Granger因果発見に先立つトポロジカルネットワークを導入することで、非i.d.問題に対する潜在的な解決策を示唆している。
この観察は、次の2つの課題に取り組むよう促す。
1)事前トポロジカルネットワークと潜在グランジャー因果構造の両方を取り込んでイベントシーケンスをモデル化する方法、及び
2)グランジャー因果構造をどのように学ぶか。
この目的のために、2つのプロセスからなる統合トポロジカルニューラル・ポアソン自己回帰モデルを開発した。
生成過程において,神経ポアソン過程の変種を用いて,位相ネットワークとグランジャー因果構造の両方の影響を考慮した事象列のモデル化を行う。
推論過程において, 補正された推論アルゴリズムを定式化し, 潜伏したグランガー因果構造を推定する。
我々はこれら2つのプロセスを統一された可能性関数にカプセル化し、このタスクのエンドツーエンドフレームワークを提供する。
シミュレーションおよび実世界のデータを用いた実験により,本手法の有効性が示された。 Learning Granger causality from event sequences is a challenging but essential task across various applications. Most existing methods rely on the assumption that event sequences are independent and identically distributed (i.i.d.). However, this i.i.d. assumption is often violated due to the inherent dependencies among the event sequences. Fortunately, in practice, we find these dependencies can be modeled by a topological network, suggesting a potential solution to the non-i.i.d. problem by introducing the prior topological network into Granger causal discovery. This observation prompts us to tackle two ensuing challenges: 1) how to model the event sequences while incorporating both the prior topological network and the latent Granger causal structure, and 2) how to learn the Granger causal structure. To this end, we devise a unified topological neural Poisson auto-regressive model with two processes. In the generation process, we employ a variant of the neural Poisson process to model the event sequences, considering influences from both the topological network and the Granger causal structure. In the inference process, we formulate an amortized inference algorithm to infer the latent Granger causal structure. We encapsulate these two processes within a unified likelihood function, providing an end-to-end framework for this task. Experiments on simulated and real-world data demonstrate the effectiveness of our approach. | 翻訳日:2024-03-14 02:05:07 公開日:2024-03-12 |
# 微分表示型測光ステレオ Differentiable Display Photometric Stereo ( http://arxiv.org/abs/2306.13325v4 ) ライセンス: Link先を確認 | Seokjun Choi, Seungwoo Yoon, Giljoo Nam, Seungyong Lee, Seung-Hwan Baek | (参考訳) 光度ステレオは照明条件の変化を利用して表面の正常さを再構築する。
従来のモニタを照明源として使用するディスプレイフォトメトリックステレオは、バルクで使いづらい従来の設定でしばしば発生する制限を克服する可能性を秘めている。
本稿では、表示パターンの設計において、しばしば見落とされがちな課題に対処する、微分可能な表示測光ステレオ(DDPS)を提案する。
DDPSは、ヒューリスティックな表示パターンの使用から離れ、エンド・ツー・エンドでターゲットシステムに対して正確な正常な再構築をもたらす表示パターンを学習する。
そこで本研究では,基底照度画像形成と分析的測光・ステレオ再構成を結合した微分可能な枠組みを提案する。
微分可能なフレームワークは、自動微分によるディスプレイパターンの効果的な学習を容易にする。
また,実世界のトレーニングデータセット作成に3Dプリンティングを用いることで,ターゲットのリアルワールド設定の正確な再構築を可能にすることを提案する。
最後に、従来のLCDモニタは偏光を放射し、偏光カメラと組み合わせることで回折反射とスペクトル反射の光学的分離を可能にし、正確な正規化を実現する。
DDPSの大規模評価は、ヒューリスティックパターンと比較して正常再構成精度が向上し、パターンの初期化やキャリブレーションエラーに対する堅牢性、画像形成と再構成の単純化といった魅力的な特性を示す。 Photometric stereo leverages variations in illumination conditions to reconstruct surface normals. Display photometric stereo, which employs a conventional monitor as an illumination source, has the potential to overcome limitations often encountered in bulky and difficult-to-use conventional setups. In this paper, we present differentiable display photometric stereo (DDPS), addressing an often overlooked challenge in display photometric stereo: the design of display patterns. Departing from using heuristic display patterns, DDPS learns the display patterns that yield accurate normal reconstruction for a target system in an end-to-end manner. To this end, we propose a differentiable framework that couples basis-illumination image formation with analytic photometric-stereo reconstruction. The differentiable framework facilitates the effective learning of display patterns via auto-differentiation. Also, for training supervision, we propose to use 3D printing for creating a real-world training dataset, enabling accurate reconstruction on the target real-world setup. Finally, we exploit that conventional LCD monitors emit polarized light, which allows for the optical separation of diffuse and specular reflections when combined with a polarization camera, leading to accurate normal reconstruction. Extensive evaluation of DDPS shows improved normal-reconstruction accuracy compared to heuristic patterns and demonstrates compelling properties such as robustness to pattern initialization, calibration errors, and simplifications in image formation and reconstruction. | 翻訳日:2024-03-14 02:04:45 公開日:2024-03-12 |
# ProMIL: 医用画像の確率的多重学習 ProMIL: Probabilistic Multiple Instance Learning for Medical Imaging ( http://arxiv.org/abs/2306.10535v2 ) ライセンス: Link先を確認 | {\L}ukasz Struski, Dawid Rymarczyk, Arkadiusz Lewicki, Robert Sabiniewicz, Jacek Tabor, Bartosz Zieli\'nski | (参考訳) マルチインスタンスラーニング(MIL)は、ひとつのラベルがインスタンスの袋全体に割り当てられる弱い教師付き問題である。
MILモデルの重要なクラスはインスタンスベースで、まずインスタンスを分類し、その予測を集約してバッグラベルを取得する。
最も一般的なMILモデルは、バッグが正のラベルを持つ場合、そのインスタンスの少なくとも1つが正のラベルを持つ場合である。
しかし、この推論は、ポジティブなバッグラベルが特定のポジティブなインスタンスのパーセンテージの結果であるような、多くの現実のシナリオでは成り立たない。
この問題に対処するために,深層ニューラルネットワークとベルンシュタイン多項式推定に基づく,ProMILと呼ばれる専用インスタンスベースの手法を提案する。
ProMILの重要な利点は、意思決定に最適なパーセンテージを自動的に検出できることである。
ProMILは実世界の医療応用において標準のインスタンスベースMILよりも優れていることを示す。
コードを利用可能にします。 Multiple Instance Learning (MIL) is a weakly-supervised problem in which one label is assigned to the whole bag of instances. An important class of MIL models is instance-based, where we first classify instances and then aggregate those predictions to obtain a bag label. The most common MIL model is when we consider a bag as positive if at least one of its instances has a positive label. However, this reasoning does not hold in many real-life scenarios, where the positive bag label is often a consequence of a certain percentage of positive instances. To address this issue, we introduce a dedicated instance-based method called ProMIL, based on deep neural networks and Bernstein polynomial estimation. An important advantage of ProMIL is that it can automatically detect the optimal percentage level for decision-making. We show that ProMIL outperforms standard instance-based MIL in real-world medical applications. We make the code available. | 翻訳日:2024-03-14 02:04:22 公開日:2024-03-12 |
# 等化量子回帰への不確実性認識の統合 Integrating Uncertainty Awareness into Conformalized Quantile Regression ( http://arxiv.org/abs/2306.08693v2 ) ライセンス: Link先を確認 | Raphael Rossellini, Rina Foygel Barber, Rebecca Willett | (参考訳) Conformalized Quantile Regression (CQR) は、分布的仮定を作らずに、共変量$X$の応答に対して予測間隔を構築する方法である。
しかし、cqrの既存の構成は、質的レグレッシャが機能空間の特定の部分において他の部分よりも良く機能する問題に対して効果がない可能性がある。
理由は、CQR の予測間隔が 2 つの不確かさを区別しないからである: まず、$Y$ の条件分布のばらつき(すなわち、アレター的不確実性)と、この条件分布を推定する不確実性(すなわち、疫学的不確実性)である。
これは、認識の不確実性が高い地域では過度に狭い間隔に繋がる可能性がある。
そこで本研究では,これら2つの不確実性源を明示的に分離し,特徴空間をまたいで分位レグレッセプタを調整する,不確実性対応型cqr(uacqr)を提案する。
CQRと比較して,本手法は,シミュレーション設定や実世界のデータセット等における条件付きカバレッジ特性の強化を実証しながら,分布のない理論的カバレッジ保証を享受する。 Conformalized Quantile Regression (CQR) is a recently proposed method for constructing prediction intervals for a response $Y$ given covariates $X$, without making distributional assumptions. However, existing constructions of CQR can be ineffective for problems where the quantile regressors perform better in certain parts of the feature space than others. The reason is that the prediction intervals of CQR do not distinguish between two forms of uncertainty: first, the variability of the conditional distribution of $Y$ given $X$ (i.e., aleatoric uncertainty), and second, our uncertainty in estimating this conditional distribution (i.e., epistemic uncertainty). This can lead to intervals that are overly narrow in regions where epistemic uncertainty is high. To address this, we propose a new variant of the CQR methodology, Uncertainty-Aware CQR (UACQR), that explicitly separates these two sources of uncertainty to adjust quantile regressors differentially across the feature space. Compared to CQR, our methods enjoy the same distribution-free theoretical coverage guarantees, while demonstrating in our experiments stronger conditional coverage properties in simulated settings and real-world data sets alike. | 翻訳日:2024-03-14 02:03:48 公開日:2024-03-12 |
# 大規模言語モデルの知識蒸留 Knowledge Distillation of Large Language Models ( http://arxiv.org/abs/2306.08543v3 ) ライセンス: Link先を確認 | Yuxian Gu, Li Dong, Furu Wei, Minlie Huang | (参考訳) 知識蒸留 (KD) は, 大規模言語モデル (LLM) の高い計算需要を減らすための有望な手法である。
しかしながら、従来のKDメソッドは、主にホワイトボックス分類モデルや、ChatGPTのようなブラックボックスモデルAPIを模倣する小さなモデルの訓練に適用される。
ホワイトボックスLSMの知識を小さなモデルに効果的に蒸留する方法はまだ未発見であり、オープンソースLSMの繁栄によりより重要になる。
本研究では,LLMをより小さな言語モデルに蒸留するKD手法を提案する。
我々はまず,教師分布の低確率領域を過大評価しないように,生成言語モデル上でKDに適した逆KLDを用いて,標準KDアプローチにおけるKLL(Kulback-Leibler divergence)目標のフォワードを置き換える。
そして、この目的を学習するための効果的な最適化アプローチを導出する。
学生モデルはMiniLLMと名付けられた。
命令追従設定における広範囲な実験により、MiniLLMはベースラインよりも高い全体的な品質、低い露出バイアス、キャリブレーション、高い長文生成性能でより正確な応答を生成することが示された。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリーに対してスケーラブルである。
コード、データ、モデルチェックポイントはhttps://github.com/microsoft/LMOps/tree/main/minillm.comで確認できます。 Knowledge Distillation (KD) is a promising technique for reducing the high computational demand of large language models (LLMs). However, previous KD methods are primarily applied to white-box classification models or training small models to imitate black-box model APIs like ChatGPT. How to effectively distill the knowledge of white-box LLMs into small models is still under-explored, which becomes more important with the prosperity of open-source LLMs. In this work, we propose a KD approach that distills LLMs into smaller language models. We first replace the forward Kullback-Leibler divergence (KLD) objective in the standard KD approaches with reverse KLD, which is more suitable for KD on generative language models, to prevent the student model from overestimating the low-probability regions of the teacher distribution. Then, we derive an effective optimization approach to learn this objective. The student models are named MiniLLM. Extensive experiments in the instruction-following setting show that MiniLLM generates more precise responses with higher overall quality, lower exposure bias, better calibration, and higher long-text generation performance than the baselines. Our method is scalable for different model families with 120M to 13B parameters. Our code, data, and model checkpoints can be found in https://github.com/microsoft/LMOps/tree/main/minillm. | 翻訳日:2024-03-14 02:03:23 公開日:2024-03-12 |
# 量子近似最適化アルゴリズムのための多重レベル跳躍初期化 Multilevel leapfrogging initialization for quantum approximate optimization algorithm ( http://arxiv.org/abs/2306.06986v4 ) ライセンス: Link先を確認 | Xiao-Hui Ni, Bin-Bin Cai, Hai-Ling Liu, Su-Juan Qin, Fei Gao and Qiao-Yan Wen | (参考訳) 近年、Zhouらは、量子近似最適化アルゴリズム(QAOA)において、パラメータ化量子回路(PQC)の初期パラメータを生成する新しい補間(INTERP)戦略を提案している。
InterPは、最適化されたパラメータに線形補間を適用することで、レベル$i+1$で初期パラメータを推定し、ランダム初期化(RI)よりも優れたパフォーマンスを達成する。
にもかかわらず InterP は PQC の各レベルで最適化を必要とするため、深い QAOA のランニングコストを消費する。
この問題に対処するため,Multilevel Leapfrogging Interpolation (MLI) 戦略を提案する。
MLIは、レベル$i+1$から$i+l$$$$l>1$)までの初期パラメータの推測を、レベル$i+1$から$(i+l-1)$までの最適化ラウンドを省略することができる。
最終結果は、MLIが各レベルよりも少ないレベルで最適化を実行することであり、この操作はMultilevel Leapfrogging Optimization (M-Leap)と呼ばれる。
mliの性能は,maxcut問題について検討した。
InterPと比較すると、MLIはほとんどの最適化ラウンドを減らす。
興味深いことに、シミュレーションの結果は、MLIがInterPと同じ準オプティマを達成できる一方で、InterPが必要とするランニングコストの1/2しか消費できないことを示した。
さらに、レベル1ドル以外のRIがないMLIに対しては、greedy-MLI戦略が提示される。
シミュレーションの結果, greedy-mli は interp よりも安定性(平均近似比が高い)が向上し, interp と同じ準オプティマが得られる可能性が示唆された。
準オプティマを見つける効率により、m-leapのアイデアは他のトレーニングタスク、特に適応量子回路のトレーニングのような多くの最適化を必要とするタスクにも拡張できる。 Recently, Zhou et al. have proposed a novel Interpolation-based (INTERP) strategy to generate the initial parameters for the Parameterized Quantum Circuit (PQC) in Quantum Approximate Optimization Algorithm (QAOA). INTERP produces the guess of the initial parameters at level $i+1$ by applying linear interpolation to the optimized parameters at level $i$, achieving better performance than random initialization (RI). Nevertheless, INTERP consumes extensive running costs for deep QAOA because it necessitates optimization at each level of the PQC. To address this problem, a Multilevel Leapfrogging Interpolation (MLI) strategy is proposed. MLI can produce the guess of the initial parameters from level $i+1$ to $i+l$ ($l>1$) at level $i$, omitting the optimization rounds from level $i+1$ to $(i+l-1)$. The final result is that MLI executes optimization at few levels rather than each level, and this operation is referred to as Multilevel Leapfrogging optimization (M-Leap). The performance of MLI is investigated on the Maxcut problem. Compared with INTERP, MLI reduces most optimization rounds. Remarkably, the simulation results demonstrate that MLI can achieve the same quasi-optima as INTERP while consuming only 1/2 of the running costs required by INTERP. In addition, for MLI, where there is no RI except for level $1$, the greedy-MLI strategy is presented. The simulation results suggest that greedy-MLI has better stability (i.e., a higher average approximation ratio) than INTERP and MLI beyond obtaining the same quasi-optima as INTERP. According to the efficiency of finding the quasi-optima, the idea of M-Leap might be extended to other training tasks, especially those requiring numerous optimizations, such as training adaptive quantum circuits. | 翻訳日:2024-03-14 02:02:58 公開日:2024-03-12 |
# 大規模言語モデルにおけるバイアスと公正性:調査 Bias and Fairness in Large Language Models: A Survey ( http://arxiv.org/abs/2309.00770v2 ) ライセンス: Link先を確認 | Isabel O. Gallegos, Ryan A. Rossi, Joe Barrow, Md Mehrab Tanjim, Sungchul Kim, Franck Dernoncourt, Tong Yu, Ruiyi Zhang, Nesreen K. Ahmed | (参考訳) 大規模言語モデル(LLM)の急速な進歩により、人間のようなテキストの処理、理解、生成が可能となり、社会領域に触れるシステムへの統合が拡大した。
この成功にもかかわらず、これらのモデルは有害な社会的バイアスを学び、永続し、増幅することができる。
本稿では,LLMのバイアス評価と緩和技術に関する総合的な調査を行う。
まず自然言語処理における社会的バイアスと公平性の概念を整理し、形式化し、拡張し、異なる害面を定義し、llmの公平性を運用するためにいくつかのデシデラータを導入する。
次に、3つの直感的な分類法、バイアス評価のための2つの指標とデータセット、緩和のための1つを提案する。
バイアス評価のためのメトリクスの最初の分類法は、メトリクスと評価データセットの関係を曖昧にし、それらがモデルで運用するさまざまなレベルによってメトリクスを整理する。
バイアス評価のためのデータセットの第2の分類法は、その構造によるデータセットを対実的な入力やプロンプトとして分類し、ターゲットとなる害や社会集団を特定します。
偏差緩和技術の第3の分類法は, 事前処理, イントレーニング, イントラプロセッシング, ポストプロセッシングの介入によって, 研究動向を解明する粒度のサブカテゴリを分類する。
最後に、今後の作業におけるオープンな問題と課題を特定します。
近年の幅広い研究を合成し、研究者や実践者がLLMのバイアスの伝播をよりよく理解し防止できるように、既存の文献の明確なガイドを提供することを目指している。 Rapid advancements of large language models (LLMs) have enabled the processing, understanding, and generation of human-like text, with increasing integration into systems that touch our social sphere. Despite this success, these models can learn, perpetuate, and amplify harmful social biases. In this paper, we present a comprehensive survey of bias evaluation and mitigation techniques for LLMs. We first consolidate, formalize, and expand notions of social bias and fairness in natural language processing, defining distinct facets of harm and introducing several desiderata to operationalize fairness for LLMs. We then unify the literature by proposing three intuitive taxonomies, two for bias evaluation, namely metrics and datasets, and one for mitigation. Our first taxonomy of metrics for bias evaluation disambiguates the relationship between metrics and evaluation datasets, and organizes metrics by the different levels at which they operate in a model: embeddings, probabilities, and generated text. Our second taxonomy of datasets for bias evaluation categorizes datasets by their structure as counterfactual inputs or prompts, and identifies the targeted harms and social groups; we also release a consolidation of publicly-available datasets for improved access. Our third taxonomy of techniques for bias mitigation classifies methods by their intervention during pre-processing, in-training, intra-processing, and post-processing, with granular subcategories that elucidate research trends. Finally, we identify open problems and challenges for future work. Synthesizing a wide range of recent research, we aim to provide a clear guide of the existing literature that empowers researchers and practitioners to better understand and prevent the propagation of bias in LLMs. | 翻訳日:2024-03-14 01:56:35 公開日:2024-03-12 |
# 高密度物体検出における蒸留用クロスタスクプロトコルの不整合のブリッジング Bridging Cross-task Protocol Inconsistency for Distillation in Dense Object Detection ( http://arxiv.org/abs/2308.14286v2 ) ライセンス: Link先を確認 | Longrong Yang, Xianpan Zhou, Xuewei Li, Liang Qiao, Zheyang Li, Ziwei Yang, Gaoang Wang, Xi Li | (参考訳) 知識蒸留(kd)は高密度物体検出においてコンパクトモデルを学ぶ可能性を示した。
しかし、一般的に用いられるソフトマックスベースの蒸留は、個々のカテゴリの絶対的な分類スコアを無視している。
したがって、蒸留損失の最適化は、高密度物体検出器の最適学生分類スコアを必ずしも生かさない。
このクロスタスクプロトコルの不整合は、特に高密度物体検出器では、フォアグラウンドのカテゴリーは極めて不均衡である。
蒸留と分類のプロトコルの違いに対処するため,高密度物体検出に適したクロスタスク一貫したプロトコルを用いた新しい蒸留法を提案する。
分類蒸留では,教師モデルと学生モデルの両方の分類ロジットマップを複数の二分分類マップとして定式化し,各地図に二分分類蒸留損失を適用することで,クロスタスクプロトコルの不整合問題に対処する。
ローカル化蒸留では, 特定のネットワーク構造を伴わず, 既存のローカライゼーション蒸留損失と比較可能な, IoUベースのローカライゼーション蒸留損失を設計する。
提案手法は単純だが有効であり,既存の手法よりも優れていることを示す実験結果である。
コードはhttps://github.com/TinyTigerPan/BCKDで入手できる。 Knowledge distillation (KD) has shown potential for learning compact models in dense object detection. However, the commonly used softmax-based distillation ignores the absolute classification scores for individual categories. Thus, the optimum of the distillation loss does not necessarily lead to the optimal student classification scores for dense object detectors. This cross-task protocol inconsistency is critical, especially for dense object detectors, since the foreground categories are extremely imbalanced. To address the issue of protocol differences between distillation and classification, we propose a novel distillation method with cross-task consistent protocols, tailored for the dense object detection. For classification distillation, we address the cross-task protocol inconsistency problem by formulating the classification logit maps in both teacher and student models as multiple binary-classification maps and applying a binary-classification distillation loss to each map. For localization distillation, we design an IoU-based Localization Distillation Loss that is free from specific network structures and can be compared with existing localization distillation losses. Our proposed method is simple but effective, and experimental results demonstrate its superiority over existing methods. Code is available at https://github.com/TinyTigerPan/BCKD. | 翻訳日:2024-03-14 01:55:52 公開日:2024-03-12 |
# SEGNO:物理誘導バイアスを用いた等変グラフニューラルネットワークの一般化 SEGNO: Generalizing Equivariant Graph Neural Networks with Physical Inductive Biases ( http://arxiv.org/abs/2308.13212v2 ) ライセンス: Link先を確認 | Yang Liu, Jiashun Cheng, Haihong Zhao, Tingyang Xu, Peilin Zhao, Fugee Tsung, Jia Li, Yu Rong | (参考訳) 等価特性を持つグラフニューラルネットワーク(gnns)は、多目的物理システムの複雑なダイナミクスをモデリングするための強力なツールとして登場してきた。
しかし、それらの一般化能力は、物理的帰納バイアスの不十分な考慮によって制限される:(1) 既存の研究は、システム状態間の遷移の連続性を見落とし、いくつかの離散変換層を用いて隣接する2つの状態間の直接マッピングを学習することを選択している。
これらの帰納バイアスを組み込むため、二階同変グラフニューラル正規微分方程式(SEGNO)を提案する。
具体的には、同変特性を維持しながら、二階連続性をGNNに組み込む方法を示す。
さらに、SEGNOに関する理論的知見を提供し、モデル一般化に不可欠な隣接状態間のユニークな軌道を学習できることを強調した。
さらに、このSEGNOの学習軌跡と真の軌跡との相違が有界であることを証明する。
分子動力学やモーションキャプチャーなどの複雑な力学系に関する広範な実験は、我々のモデルが最先端のベースラインよりも大きな改善をもたらすことを示している。 Graph Neural Networks (GNNs) with equivariant properties have emerged as powerful tools for modeling complex dynamics of multi-object physical systems. However, their generalization ability is limited by the inadequate consideration of physical inductive biases: (1) Existing studies overlook the continuity of transitions among system states, opting to employ several discrete transformation layers to learn the direct mapping between two adjacent states; (2) Most models only account for first-order velocity information, despite the fact that many physical systems are governed by second-order motion laws. To incorporate these inductive biases, we propose the Second-order Equivariant Graph Neural Ordinary Differential Equation (SEGNO). Specifically, we show how the second-order continuity can be incorporated into GNNs while maintaining the equivariant property. Furthermore, we offer theoretical insights into SEGNO, highlighting that it can learn a unique trajectory between adjacent states, which is crucial for model generalization. Additionally, we prove that the discrepancy between this learned trajectory of SEGNO and the true trajectory is bounded. Extensive experiments on complex dynamical systems including molecular dynamics and motion capture demonstrate that our model yields a significant improvement over the state-of-the-art baselines. | 翻訳日:2024-03-14 01:55:31 公開日:2024-03-12 |
# 大規模言語モデルに基づく自律エージェントに関する調査 A Survey on Large Language Model based Autonomous Agents ( http://arxiv.org/abs/2308.11432v3 ) ライセンス: Link先を確認 | Lei Wang and Chen Ma and Xueyang Feng and Zeyu Zhang and Hao Yang and Jingsen Zhang and Zhiyuan Chen and Jiakai Tang and Xu Chen and Yankai Lin and Wayne Xin Zhao and Zhewei Wei and Ji-Rong Wen | (参考訳) 自律エージェントは長い間、学術コミュニティと産業コミュニティの両方で重要な研究対象であった。
この分野での以前の研究は、しばしば孤立した環境の中で限られた知識を持つ訓練エージェントに焦点を当てており、それは人間の学習プロセスと大きく異なるため、エージェントが人間のような決定を下すのを困難にしている。
近年,膨大な量のWeb知識の獲得により,人間レベルの知能を実現する上で,大きな言語モデル(LLM)が顕著な可能性を示している。
LLMをベースとした自律型エージェントの研究が急増した。
本稿では,これらの研究の包括的調査を行い,総合的な観点からllmベースの自律エージェントの分野を体系的に検討する。
より具体的には、LLMに基づく自律エージェントの構築について論じ、前回の作業の大部分を包含する統一的なフレームワークを提案する。
次に,社会科学,自然科学,工学の分野におけるllmに基づく自律エージェントの多様な応用について概観する。
最後に、llmベースの自律エージェントで一般的に使用される評価戦略について考察する。
本研究は,本分野における課題と今後の方向性についても述べる。
このフィールドを追跡し、調査を継続的に更新するために、関連する参照のリポジトリをhttps://github.com/paitesanshi/llm-agent-surveyに保持します。 Autonomous agents have long been a prominent research focus in both academic and industry communities. Previous research in this field often focuses on training agents with limited knowledge within isolated environments, which diverges significantly from human learning processes, and thus makes the agents hard to achieve human-like decisions. Recently, through the acquisition of vast amounts of web knowledge, large language models (LLMs) have demonstrated remarkable potential in achieving human-level intelligence. This has sparked an upsurge in studies investigating LLM-based autonomous agents. In this paper, we present a comprehensive survey of these studies, delivering a systematic review of the field of LLM-based autonomous agents from a holistic perspective. More specifically, we first discuss the construction of LLM-based autonomous agents, for which we propose a unified framework that encompasses a majority of the previous work. Then, we present a comprehensive overview of the diverse applications of LLM-based autonomous agents in the fields of social science, natural science, and engineering. Finally, we delve into the evaluation strategies commonly used for LLM-based autonomous agents. Based on the previous studies, we also present several challenges and future directions in this field. To keep track of this field and continuously update our survey, we maintain a repository of relevant references at https://github.com/Paitesanshi/LLM-Agent-Survey. | 翻訳日:2024-03-14 01:55:06 公開日:2024-03-12 |
# スティーフェル多様体上の分散リーマン共役勾配法 Decentralized Riemannian Conjugate Gradient Method on the Stiefel Manifold ( http://arxiv.org/abs/2308.10547v3 ) ライセンス: Link先を確認 | Jun Chen, Haishan Ye, Mengmeng Wang, Tianxin Huang, Guang Dai, Ivor W.Tsang, Yong Liu | (参考訳) 共役勾配法は、一般に最も急勾配法よりも早く収束する重要な1次最適化法であり、その計算コストは2次法よりもはるかに低い。
しかし、様々な共役勾配法がユークリッド空間やリーマン多様体で研究されているが、分散シナリオでの研究はほとんどない。
本稿では、スティーフェル多様体上の大域関数の最小化を目的とした分散リーマン共役勾配降下法(DRCGD)を提案する。
最適化問題は、各エージェントが局所関数に関連付けられたエージェントのネットワークに分散され、エージェント間の通信は無向連結グラフ上で発生する。
スティーフェル多様体は非凸集合であるため、大域函数はおそらく非凸(しかし滑らかな)局所函数の有限和として表現される。
提案手法は,リトラクション,指数写像,ベクトル輸送などの高価なリーマン幾何学演算を不要とし,各エージェントが必要とする計算複雑性を低減させる。
我々の知る限りでは、dcgdはスティーフェル多様体上の大域収束を達成する最初の分散リーマン共役勾配アルゴリズムである。 The conjugate gradient method is a crucial first-order optimization method that generally converges faster than the steepest descent method, and its computational cost is much lower than that of second-order methods. However, while various types of conjugate gradient methods have been studied in Euclidean spaces and on Riemannian manifolds, there is little study for those in distributed scenarios. This paper proposes a decentralized Riemannian conjugate gradient descent (DRCGD) method that aims at minimizing a global function over the Stiefel manifold. The optimization problem is distributed among a network of agents, where each agent is associated with a local function, and the communication between agents occurs over an undirected connected graph. Since the Stiefel manifold is a non-convex set, a global function is represented as a finite sum of possibly non-convex (but smooth) local functions. The proposed method is free from expensive Riemannian geometric operations such as retractions, exponential maps, and vector transports, thereby reducing the computational complexity required by each agent. To the best of our knowledge, DRCGD is the first decentralized Riemannian conjugate gradient algorithm to achieve global convergence over the Stiefel manifold. | 翻訳日:2024-03-14 01:54:44 公開日:2024-03-12 |
# 地下不確かさの定量化と解釈を支援する安定化低次元空間の剛性変換 Rigid Transformations for Stabilized Lower Dimensional Space to Support Subsurface Uncertainty Quantification and Interpretation ( http://arxiv.org/abs/2308.08079v3 ) ライセンス: Link先を確認 | Ademide O. Mabadeje and Michael J. Pyrcz | (参考訳) 地下データセットは、様々な物理的、工学的、地質学的入力からの次元性の呪いによってさらに複雑化され、膨大な量、多様な特徴、高いサンプリング速度などのビッグデータ特性を持つ。
既存の次元減少法 (DR) では, 非線形次元減少法 (NDR) や, 特に距離-多次元スケーリング法 (MDS) が, その複雑さから地下データセットに好まれる。
MDSは本質的なデータ構造を保持し、不確実性を定量化するが、その制限にはユークリッド変換に不変な不安定な一意解や、オフ・オブ・サンプル・ポイント(OOSP)拡張の欠如が含まれる。
地下推論と機械学習のワークフローを強化するためには、データセットをOOSPに対応する安定で縮小された次元表現に変換する必要がある。
我々の解は LDS の安定ユークリッド不変表現に対して剛変換を用いる。
MDS入力の相似性行列を計算し、多重実現に剛性変換を適用することにより、変換不変性を保証し、OOSPを統合する。
このプロセスは凸船体アルゴリズムを利用し、歪み定量化のために損失関数と正規化応力を組み込む。
我々はDuvernay層から得られた合成データ、様々な距離測定値、および実世界の井戸を用いてアプローチを検証する。
その結果,一貫した LDS 表現の達成における本手法の有効性が確認できた。
さらに,提案する「ストレス比」(sr)指標は不確実性に対する洞察を提供し,モデル調整や推論分析に有用である。
その結果,我々のワークフローは,NDRにおける地下エネルギー資源工学と関連するビッグデータワークフローの再現性とコンパラビリティの向上を約束している。 Subsurface datasets inherently possess big data characteristics such as vast volume, diverse features, and high sampling speeds, further compounded by the curse of dimensionality from various physical, engineering, and geological inputs. Among the existing dimensionality reduction (DR) methods, nonlinear dimensionality reduction (NDR) methods, especially Metric-multidimensional scaling (MDS), are preferred for subsurface datasets due to their inherent complexity. While MDS retains intrinsic data structure and quantifies uncertainty, its limitations include unstabilized unique solutions invariant to Euclidean transformations and an absence of out-of-sample points (OOSP) extension. To enhance subsurface inferential and machine learning workflows, datasets must be transformed into stable, reduced-dimension representations that accommodate OOSP. Our solution employs rigid transformations for a stabilized Euclidean invariant representation for LDS. By computing an MDS input dissimilarity matrix, and applying rigid transformations on multiple realizations, we ensure transformation invariance and integrate OOSP. This process leverages a convex hull algorithm and incorporates loss function and normalized stress for distortion quantification. We validate our approach with synthetic data, varying distance metrics, and real-world wells from the Duvernay Formation. Results confirm our method's efficacy in achieving consistent LDS representations. Furthermore, our proposed "stress ratio" (SR) metric provides insight into uncertainty, beneficial for model adjustments and inferential analysis. Consequently, our workflow promises enhanced repeatability and comparability in NDR for subsurface energy resource engineering and associated big data workflows. | 翻訳日:2024-03-14 01:54:25 公開日:2024-03-12 |
# 視覚野の幾何学と画像インパインティング・エンハンスメントへの応用 Geometry of the Visual Cortex with Applications to Image Inpainting and Enhancement ( http://arxiv.org/abs/2308.07652v2 ) ライセンス: Link先を確認 | Francesco Ballerin and Erlend Grong | (参考訳) 視覚野V1にインスパイアされたサブリーマン構造を持つロト翻訳群を$SE(2)$とすることで,低楕円波拡散に基づく画像の塗布と強調を行うアルゴリズムを提案する。
我々はCitti,Sarti,Boscainらによる従来の手法の実装を革新し、フェードを防止し、WaxOn-WaxOffと呼ばれる手順でよりシャープな結果を生成する方法を提案する。
また,2次元画像処理のための古典的アンシャープフィルタに類似した$SE(2)$を用いて,完全に新しいアンシャープフィルタを定義するために,サブリーマン構造を利用する。
網膜スキャンによる血管造影法について検討した。 Equipping the rototranslation group $SE(2)$ with a sub-Riemannian structure inspired by the visual cortex V1, we propose algorithms for image inpainting and enhancement based on hypoelliptic diffusion. We innovate on previous implementations of the methods by Citti, Sarti, and Boscain et al., by proposing an alternative that prevents fading and is capable of producing sharper results in a procedure that we call WaxOn-WaxOff. We also exploit the sub-Riemannian structure to define a completely new unsharp filter using $SE(2)$, analogous to the classical unsharp filter for 2D image processing. We demonstrate our method on blood vessels enhancement in retinal scans. | 翻訳日:2024-03-14 01:54:00 公開日:2024-03-12 |
# インストラクション・バックトランスレーションによる自己アライメント Self-Alignment with Instruction Backtranslation ( http://arxiv.org/abs/2308.06259v3 ) ライセンス: Link先を確認 | Xian Li, Ping Yu, Chunting Zhou, Timo Schick, Omer Levy, Luke Zettlemoyer, Jason Weston, Mike Lewis | (参考訳) 本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な言語モデルを構築するためのスケーラブルな手法を提案する。
我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
シードモデルは、Webドキュメント(自己拡張)の命令プロンプトを生成し、これらの候補の中から高品質なサンプルを選択することで、トレーニング例を構築するために使用される。
このデータは、より強力なモデルを微調整するために使用される。
LLaMaを2回繰り返して微調整することで、Alpacaのリーダーボード上の他のLLaMaモデルよりも優れており、高い有効自己整合性を示すことができる。 We present a scalable method to build a high quality instruction following language model by automatically labelling human-written text with corresponding instructions. Our approach, named instruction backtranslation, starts with a language model finetuned on a small amount of seed data, and a given web corpus. The seed model is used to construct training examples by generating instruction prompts for web documents (self-augmentation), and then selecting high quality examples from among these candidates (self-curation). This data is then used to finetune a stronger model. Finetuning LLaMa on two iterations of our approach yields a model that outperforms all other LLaMa-based models on the Alpaca leaderboard not relying on distillation data, demonstrating highly effective self-alignment. | 翻訳日:2024-03-14 01:53:46 公開日:2024-03-12 |
# リフォーカスによるロバストなポイントクラウドネットワーク Robustifying Point Cloud Networks by Refocusing ( http://arxiv.org/abs/2308.05525v3 ) ライセンス: Link先を確認 | Meir Yossef Levi, Guy Gilboa | (参考訳) アウトオブディストリビューション(ood)の腐敗や敵対的な攻撃に対処する能力は、現実世界の安全要求アプリケーションにおいて不可欠である。
本研究では,焦点分析に基づくニューラルネットワークのロバスト性を高める汎用メカニズムを提案する。
最近の研究では、パフォーマンス低下につながる \textit{overfocusing} 現象が明らかにされている。
ネットワークが主に小さな入力領域の影響を受けると、ノイズや腐敗の下では、ロバストが小さくなり、誤分類されやすくなります。
しかし、過剰焦点の定量化はまだ曖昧であり、明確な定義がない。
ここでは、 \textbf{focus}, \textbf{overfocusing} および \textbf{underfocusing} の数学的定義を提供する。
概念は一般的だが,本研究では3次元点雲の場合を具体的に検討する。
劣化した集合がクリーンなトレーニングセットに比べて偏りのある焦点分布をもたらすことを観察する。
トレーニングフェーズで学んだものから焦点分布が逸脱するにつれて、分類性能が低下することを示す。
したがって,同一分布下ですべての腐敗を統一することを目的としたパラメータフリーな \textbf{refocusing} アルゴリズムを提案する。
3次元ゼロショット分類タスクにおいて,modelnet-cデータセット上でのロバストな3次元分類と,形状不変攻撃に対する敵対的防御においてsotaが達成されたことを検証した。
コードは、https://github.com/yossilevii100/refocusing.comで入手できる。 The ability to cope with out-of-distribution (OOD) corruptions and adversarial attacks is crucial in real-world safety-demanding applications. In this study, we develop a general mechanism to increase neural network robustness based on focus analysis. Recent studies have revealed the phenomenon of \textit{Overfocusing}, which leads to a performance drop. When the network is primarily influenced by small input regions, it becomes less robust and prone to misclassify under noise and corruptions. However, quantifying overfocusing is still vague and lacks clear definitions. Here, we provide a mathematical definition of \textbf{focus}, \textbf{overfocusing} and \textbf{underfocusing}. The notions are general, but in this study, we specifically investigate the case of 3D point clouds. We observe that corrupted sets result in a biased focus distribution compared to the clean training set. We show that as focus distribution deviates from the one learned in the training phase - classification performance deteriorates. We thus propose a parameter-free \textbf{refocusing} algorithm that aims to unify all corruptions under the same distribution. We validate our findings on a 3D zero-shot classification task, achieving SOTA in robust 3D classification on ModelNet-C dataset, and in adversarial defense against Shape-Invariant attack. Code is available in: https://github.com/yossilevii100/refocusing. | 翻訳日:2024-03-14 01:53:31 公開日:2024-03-12 |
# 異種データ型ステガナリシスのための深層学習:方法,分類,課題,今後の方向性について Deep Learning for Steganalysis of Diverse Data Types: A review of methods, taxonomy, challenges and future directions ( http://arxiv.org/abs/2308.04522v3 ) ライセンス: Link先を確認 | Hamza Kheddar, Mustapha Hemis, Yassine Himeur, David Meg\'ias, Abbes Amira | (参考訳) ステガノグラフィーとステガナリシスは情報セキュリティの分野における2つの相互関係の側面である。
ステガノグラフィーは通信を隠蔽しようとするが、ステガナリシスはそれらを見つけるか、可能であればそれらを含むデータを回収することを目的としている。
ステガノグラフィーとステガナリシスは特に法執行機関から大きな関心を集めている。
ステガノグラフィーは、多くの国で暗号が禁止または制限されているため、しばしばサイバー犯罪者やテロリストが犯罪証拠を所持している間に捕らえられるのを避けるために使用される。
したがって、隠蔽情報を明らかにするための最先端技術に関する知識は、違法行為の暴露に不可欠である。
ここ数年、多くの強固で信頼性の高いステガノグラフィーとステグアナリシス技術が文献に紹介されている。
本稿では,デジタルメディア内の隠れ情報を検出するための深層学習に基づくseg analysis技術の概要について述べる。
本論文は、画像、音声、ビデオを含む、ステガナリシスにおけるあらゆる種類のカバーをカバーし、最もよく使われているディープラーニング技術について論じる。
さらに,より高度な深層学習技術である深層移動学習 (DTL) や深層強化学習 (DRL) をステガナリシスシステムの性能向上に活用することを検討した。
本稿は,最近の研究におけるデータセットや評価指標を含む最近の研究の体系的レビューを提供する。
また, dtlに基づくsteg analysisアプローチの詳細な解析と, 異なるデータセット上での性能について述べる。
このレビューは、ディープラーニングに基づくステガナリシスの現状、課題、今後の研究方向性に関する議論から締めくくっている。 Steganography and steganalysis are two interrelated aspects of the field of information security. Steganography seeks to conceal communications, whereas steganalysis is aimed to either find them or even, if possible, recover the data they contain. Steganography and steganalysis have attracted a great deal of interest, particularly from law enforcement. Steganography is often used by cybercriminals and even terrorists to avoid being captured while in possession of incriminating evidence, even encrypted, since cryptography is prohibited or restricted in many countries. Therefore, knowledge of cutting-edge techniques to uncover concealed information is crucial in exposing illegal acts. Over the last few years, a number of strong and reliable steganography and steganalysis techniques have been introduced in the literature. This review paper provides a comprehensive overview of deep learning-based steganalysis techniques used to detect hidden information within digital media. The paper covers all types of cover in steganalysis, including image, audio, and video, and discusses the most commonly used deep learning techniques. In addition, the paper explores the use of more advanced deep learning techniques, such as deep transfer learning (DTL) and deep reinforcement learning (DRL), to enhance the performance of steganalysis systems. The paper provides a systematic review of recent research in the field, including data sets and evaluation metrics used in recent studies. It also presents a detailed analysis of DTL-based steganalysis approaches and their performance on different data sets. The review concludes with a discussion on the current state of deep learning-based steganalysis, challenges, and future research directions. | 翻訳日:2024-03-14 01:53:08 公開日:2024-03-12 |
# 多空間深層モデルを用いた脳波信号によるメンタルワークロード推定 Mental Workload Estimation with Electroencephalogram Signals by Combining Multi-Space Deep Models ( http://arxiv.org/abs/2308.02409v2 ) ライセンス: Link先を確認 | Hong-Hai Nguyen, Ngumimi Karen Iyortsuun, Seungwon Kim, Hyung-Jeong Yang, and Soo-Hyung Kim | (参考訳) 人間の脳は、働くか休んでいるかにかかわらず、継続的に活動する。
精神活動は日常的なプロセスであり、過負荷として知られる脳が過度に活動すると、人間の健康に悪影響を及ぼす可能性がある。
近年,精神状態の早期予測の進歩が出現し,深刻な結果の防止と生活の質の向上が目指されている。
その結果、精神状態の推定は、その潜在的な利益のために、様々な研究者から大きな注目を集めている。
様々な信号が精神状態を評価するために用いられる一方で、脳に関する広範な情報を含む脳波は研究者によって広く利用されている。
本稿では,メンタルワークロードを3つの状態(低,中,高)に分類し,メンタルワークロードレベルの連続性を推定する。
本手法は,複数の空間次元からの情報を活用し,知的推定に最適な結果を得る。
時間領域アプローチでは、時間的畳み込みネットワークを採用しています。
周波数領域では,多次元残差ブロックと呼ばれる残差ブロックを結合した新しいアーキテクチャを導入する。
これら2つのドメインの統合は、各ドメインの個々の見積もりと比較して大きな結果をもたらす。
提案手法は3クラス分類において74.98%の精度を達成し,結果の69.00%を上回った。
特に本手法は, 0.629の一致相関係数 (concordance correlation coefficient, ccc) の結果から, 連続レベル推定における有効性を示す。
われわれのアプローチにおける時間と周波数領域の分析の組み合わせは、将来医療応用を改善するエキサイティングな可能性を強調している。 The human brain remains continuously active, whether an individual is working or at rest. Mental activity is a daily process, and if the brain becomes excessively active, known as overload, it can adversely affect human health. Recently, advancements in early prediction of mental health conditions have emerged, aiming to prevent serious consequences and enhance the overall quality of life. Consequently, the estimation of mental status has garnered significant attention from diverse researchers due to its potential benefits. While various signals are employed to assess mental state, the electroencephalogram, containing extensive information about the brain, is widely utilized by researchers. In this paper, we categorize mental workload into three states (low, middle, and high) and estimate a continuum of mental workload levels. Our method leverages information from multiple spatial dimensions to achieve optimal results in mental estimation. For the time domain approach, we employ Temporal Convolutional Networks. In the frequency domain, we introduce a novel architecture based on combining residual blocks, termed the Multi-Dimensional Residual Block. The integration of these two domains yields significant results compared to individual estimates in each domain. Our approach achieved a 74.98% accuracy in the three-class classification, surpassing the provided data results at 69.00%. Specially, our method demonstrates efficacy in estimating continuous levels, evidenced by a corresponding Concordance Correlation Coefficient (CCC) result of 0.629. The combination of time and frequency domain analysis in our approach highlights the exciting potential to improve healthcare applications in the future. | 翻訳日:2024-03-14 01:52:41 公開日:2024-03-12 |
# 環境分光のためのスペクトル密度分類 Spectral Density Classification For Environment Spectroscopy ( http://arxiv.org/abs/2308.00831v2 ) ライセンス: Link先を確認 | Jessica Barr, Giorgio Zicari, Alessandro Ferraro, Mauro Paternostro | (参考訳) 開量子系問題におけるシステム環境相互作用を特徴付ける関連情報をスペクトル密度でエンコードする。
このような情報はシステムの力学を決定する鍵となる。
本研究では,機械学習技術の可能性を活用し,環境の特徴を再構築する。
具体的には、観測可能なシステムの時間進化を、人工知能ニューラルネットワークによって、スペクトル密度の主な特徴を推測することができることを示す。
特にスピンボソンモデルの関連する例では、環境のオーミック性パラメータをOhmic、sub-Ohmic、Super-Ohmicのいずれかとして高精度に分類し、異なる形態の散逸を区別することができる。 Spectral densities encode the relevant information characterising the system-environment interaction in an open-quantum system problem. Such information is key to determining the system's dynamics. In this work, we leverage the potential of machine learning techniques to reconstruct the features of the environment. Specifically, we show that the time evolution of a system observable can be used by an artificial neural network to infer the main features of the spectral density. In particular, for relevant examples of spin-boson models, we can classify with high accuracy the Ohmicity parameter of the environment as either Ohmic, sub-Ohmic or super-Ohmic, thereby distinguishing between different forms of dissipation. | 翻訳日:2024-03-14 01:52:17 公開日:2024-03-12 |
# 統合画像復元のための分解型相乗学習 Decomposition Ascribed Synergistic Learning for Unified Image Restoration ( http://arxiv.org/abs/2308.00759v2 ) ライセンス: Link先を確認 | Jinghao Zhang, Feng Zhao | (参考訳) 単一のモデル内で複数の画像劣化を復元する学習は、現実世界のアプリケーションにとって非常に有益である。
しかしながら、既存の研究は通常、個々の分解に独立して集中するが、それらの関係は相乗的学習を保証するためにあまり利用されていない。
この目的のために,分解された特異ベクトルと特異値が,自然に異なる分解情報のタイプを受け取り,様々な復元タスクを2つのグループ,\ie,特異ベクトル支配,特異値支配に分割する観察を行い,特異値分解のレンズを通して多様な分解を再考する。
上記の分析は、以前のタスクレベルの独立した学習と比較して、さまざまな劣化を補うための、より統一的な視点を示している。
劣化した特異ベクトルと特異値の専用最適化は、様々な復元タスク間の潜在的な関係を本質的に利用しており、これはDASL(Decomposition Ascribed Synergistic Learning)に起因する。
具体的には、daslはsveo(single vector operator)とsvao(single value operator)の2つの効果的な演算子で構成されており、既存の画像復元バックボーンに軽量に統合できる分解最適化を好む。
さらに, 連続的な分解損失を補助として考案した。
ブレンドした5つの画像復元タスクの大規模な実験により,本手法の有効性が示された。 Learning to restore multiple image degradations within a single model is quite beneficial for real-world applications. Nevertheless, existing works typically concentrate on regarding each degradation independently, while their relationship has been less exploited to ensure the synergistic learning. To this end, we revisit the diverse degradations through the lens of singular value decomposition, with the observation that the decomposed singular vectors and singular values naturally undertake the different types of degradation information, dividing various restoration tasks into two groups, \ie, singular vector dominated and singular value dominated. The above analysis renders a more unified perspective to ascribe the diverse degradations, compared to previous task-level independent learning. The dedicated optimization of degraded singular vectors and singular values inherently utilizes the potential relationship among diverse restoration tasks, attributing to the Decomposition Ascribed Synergistic Learning (DASL). Specifically, DASL comprises two effective operators, namely, Singular VEctor Operator (SVEO) and Singular VAlue Operator (SVAO), to favor the decomposed optimization, which can be lightly integrated into existing image restoration backbone. Moreover, the congruous decomposition loss has been devised for auxiliary. Extensive experiments on blended five image restoration tasks demonstrate the effectiveness of our method. | 翻訳日:2024-03-14 01:52:05 公開日:2024-03-12 |
# 大規模言語モデルにおける知識編集の落とし穴 Unveiling the Pitfalls of Knowledge Editing for Large Language Models ( http://arxiv.org/abs/2310.02129v3 ) ライセンス: Link先を確認 | Zhoubo Li, Ningyu Zhang, Yunzhi Yao, Mengru Wang, Xi Chen, Huajun Chen | (参考訳) 微調整型Large Language Models(LLMs)のコストが上昇するにつれて、最近の研究はLLMに埋め込まれた暗黙の知識を編集する方法論の開発に向けられた。
しかし、まだダーククラウドのオーバーヘッドは残っている -- 知識の編集は蝶効果を引き起こすのだろうか?
知識編集が潜在的なリスクをもたらす副作用をもたらすかどうかはまだ不明である。
本稿では,LLMの知識編集に伴う潜在的な落とし穴について検討する。
そこで我々は,新しいベンチマークデータセットを導入し,革新的な評価指標を提案する。
1) 知識衝突: 論理的に衝突する事実群を編集することで, 従来の手法で無視されたLCMの面における固有の矛盾を増大させることができる。
2) 知識歪み: 事実知識の編集を目的としたパラメータの変更は, LLMの自然知識構造を不可避的に歪曲することができる。
実験の結果は、知識編集が意図しない結果の影をLLMに不注意に落とし、将来の作品に注意と努力を喚起することを示した。
コードとデータはhttps://github.com/zjunlp/pitfallsknowledgeeditingで入手できる。 As the cost associated with fine-tuning Large Language Models (LLMs) continues to rise, recent research efforts have pivoted towards developing methodologies to edit implicit knowledge embedded within LLMs. Yet, there's still a dark cloud lingering overhead -- will knowledge editing trigger butterfly effect? since it is still unclear whether knowledge editing might introduce side effects that pose potential risks or not. This paper pioneers the investigation into the potential pitfalls associated with knowledge editing for LLMs. To achieve this, we introduce new benchmark datasets and propose innovative evaluation metrics. Our results underline two pivotal concerns: (1) Knowledge Conflict: Editing groups of facts that logically clash can magnify the inherent inconsistencies in LLMs-a facet neglected by previous methods. (2) Knowledge Distortion: Altering parameters with the aim of editing factual knowledge can irrevocably warp the innate knowledge structure of LLMs. Experimental results vividly demonstrate that knowledge editing might inadvertently cast a shadow of unintended consequences on LLMs, which warrant attention and efforts for future works. Code and data are available at https://github.com/zjunlp/PitfallsKnowledgeEditing. | 翻訳日:2024-03-14 01:47:13 公開日:2024-03-12 |
# GRANDE: タブラルデータのための勾配に基づく決定木アンサンブル GRANDE: Gradient-Based Decision Tree Ensembles for Tabular Data ( http://arxiv.org/abs/2309.17130v3 ) ライセンス: Link先を確認 | Sascha Marton, Stefan L\"udtke, Christian Bartelt, Heiner Stuckenschmidt | (参考訳) テキストや画像データに対するディープラーニングの成功にもかかわらず、ツリーベースのアンサンブルモデルは、不均一な表データを用いた機械学習の最先端である。
しかし,その柔軟性から,表特異的な勾配に基づく手法が必要となる。
本稿では,エンド・ツー・エンドの勾配降下を用いて,軸に整列した決定木を学習するための新しいアプローチである,$\text{grande}$,$\text{gra}$die$\text{n}$t-based$\text{d}$ecision tree $\text{e}$nsemblesを提案する。
GRANDEはツリーアンサンブルの密度の高い表現に基づいており、すべてのモデルパラメータを協調的に最適化するために、ストレートスルー演算子とバックプロパゲーションを使用することができる。
本手法は,表データに対して有用なインダクティブバイアスである軸方向分割と,勾配に基づく最適化の柔軟性を組み合わせたものである。
さらに、単一モデル内での単純かつ複雑な関係の学習表現を容易にする高度なインスタンスワイド重み付けを導入する。
19の分類データセットを用いた事前定義されたベンチマークを広範囲に評価し,提案手法が既存の勾配ブースティングおよびディープラーニングフレームワークよりも優れていることを示す。
このメソッドは、https://github.com/s-marton/grandeで利用可能である。 Despite the success of deep learning for text and image data, tree-based ensemble models are still state-of-the-art for machine learning with heterogeneous tabular data. However, there is a significant need for tabular-specific gradient-based methods due to their high flexibility. In this paper, we propose $\text{GRANDE}$, $\text{GRA}$die$\text{N}$t-Based $\text{D}$ecision Tree $\text{E}$nsembles, a novel approach for learning hard, axis-aligned decision tree ensembles using end-to-end gradient descent. GRANDE is based on a dense representation of tree ensembles, which affords to use backpropagation with a straight-through operator to jointly optimize all model parameters. Our method combines axis-aligned splits, which is a useful inductive bias for tabular data, with the flexibility of gradient-based optimization. Furthermore, we introduce an advanced instance-wise weighting that facilitates learning representations for both, simple and complex relations, within a single model. We conducted an extensive evaluation on a predefined benchmark with 19 classification datasets and demonstrate that our method outperforms existing gradient-boosting and deep learning frameworks on most datasets. The method is available under: https://github.com/s-marton/GRANDE | 翻訳日:2024-03-14 01:46:55 公開日:2024-03-12 |
# 再帰的に構成した多粒度表現による変換器の拡張 Augmenting Transformers with Recursively Composed Multi-grained Representations ( http://arxiv.org/abs/2309.16319v2 ) ライセンス: Link先を確認 | Xiang Hu, Qingyang Zhu, Kewei Tu, Wei Wu | (参考訳) 本稿では,原文の階層的構文構造を,学習と推論の両方において金木に頼らずに明示的にモデル化できる再帰的合成変換器ReCATを提案する。
この線に沿った既存の研究は、階層木構造に従うデータを制限するため、スパン間通信が欠如している。
そこでは,ボトムアップパスが低レベルのスパンを構成することで,ボトムアップパスが高レベルのスパンの表現を形成する一方で,トップダウンパスがスパンの内外の情報を組み合わせた,新しいコンテキスト内面(CIO)層を提案する。
トランスフォーマーの埋め込み層とアテンション層の間にcio層を積み重ねることで、recatモデルは深いスパン内相互作用と深いスパン間相互作用の両方を実行し、それによって、他のスパンと完全にコンテキスト化された複数の粒度の表現を生成することができる。
さらに、CIO層をTransformerと共同で事前トレーニングすることで、ReCATはスケーリング能力、パフォーマンスの強化、解釈性を同時に享受することができる。
様々な文レベルおよびスパンレベルのタスクについて実験を行う。
評価結果から、ReCATは、再帰的ネットワークと自然言語推論タスクのトランスフォーマーを組み合わせた全てのスパンレベルタスクとベースラインにおいて、バニラトランスフォーマーモデルを大幅に上回ることを示す。
さらに興味深いのは、ReCATによって誘導される階層構造は、人間に注釈付けされた構文木との強い整合性を示し、CIO層によってもたらされる優れた解釈可能性を示していることだ。 We present ReCAT, a recursive composition augmented Transformer that is able to explicitly model hierarchical syntactic structures of raw texts without relying on gold trees during both learning and inference. Existing research along this line restricts data to follow a hierarchical tree structure and thus lacks inter-span communications. To overcome the problem, we propose a novel contextual inside-outside (CIO) layer that learns contextualized representations of spans through bottom-up and top-down passes, where a bottom-up pass forms representations of high-level spans by composing low-level spans, while a top-down pass combines information inside and outside a span. By stacking several CIO layers between the embedding layer and the attention layers in Transformer, the ReCAT model can perform both deep intra-span and deep inter-span interactions, and thus generate multi-grained representations fully contextualized with other spans. Moreover, the CIO layers can be jointly pre-trained with Transformers, making ReCAT enjoy scaling ability, strong performance, and interpretability at the same time. We conduct experiments on various sentence-level and span-level tasks. Evaluation results indicate that ReCAT can significantly outperform vanilla Transformer models on all span-level tasks and baselines that combine recursive networks with Transformers on natural language inference tasks. More interestingly, the hierarchical structures induced by ReCAT exhibit strong consistency with human-annotated syntactic trees, indicating good interpretability brought by the CIO layers. | 翻訳日:2024-03-14 01:46:25 公開日:2024-03-12 |
# 教師なし多人数3次元ポーズ推定 : 2次元ポーズ単独による検討 Unsupervised Multi-Person 3D Human Pose Estimation From 2D Poses Alone ( http://arxiv.org/abs/2309.14865v3 ) ライセンス: Link先を確認 | Peter Hardy and Hansung Kim | (参考訳) 現在の非教師なし2D-3Dヒトポーズ推定(HPE)法は、単眼画像における視点のあいまいさのため、多人数シナリオでは機能しない。
そこで本研究では,人間インタラクションの再構築に焦点をあてた2dポーズ単独による非教師付き多人数2d-3d hpeの実現可能性について検討した。
視界のあいまいさに対処するために、被験者の骨盤に対するカメラの高度角を予測することにより、先行作業に対処する。
これにより、予測されたポーズを地上面と水平に回転させ、個人間の3次元の垂直オフセットの推定値を得ることができる。
提案手法では,各被験者の2次元ポーズを独立して3次元に上げ,共有3次元座標系で組み合わせる。
ポーズは、スケールする前に予測された高度角によって回転し、オフセットされる。
これにより、ポーズの正確な3d再構築ができます。
本稿では, CHI3Dデータセットを用いて, 3つの新しい定量的指標を用いた教師なし2D-3Dポーズ推定手法を導入し, 今後の研究のベンチマークを作成する。 Current unsupervised 2D-3D human pose estimation (HPE) methods do not work in multi-person scenarios due to perspective ambiguity in monocular images. Therefore, we present one of the first studies investigating the feasibility of unsupervised multi-person 2D-3D HPE from just 2D poses alone, focusing on reconstructing human interactions. To address the issue of perspective ambiguity, we expand upon prior work by predicting the cameras' elevation angle relative to the subjects' pelvis. This allows us to rotate the predicted poses to be level with the ground plane, while obtaining an estimate for the vertical offset in 3D between individuals. Our method involves independently lifting each subject's 2D pose to 3D, before combining them in a shared 3D coordinate system. The poses are then rotated and offset by the predicted elevation angle before being scaled. This by itself enables us to retrieve an accurate 3D reconstruction of their poses. We present our results on the CHI3D dataset, introducing its use for unsupervised 2D-3D pose estimation with three new quantitative metrics, and establishing a benchmark for future research. | 翻訳日:2024-03-14 01:45:53 公開日:2024-03-12 |
# InstructERC:Retrieval Multi-task LLMs Frameworkを用いた会話における感情認識の再構築 InstructERC: Reforming Emotion Recognition in Conversation with a Retrieval Multi-task LLMs Framework ( http://arxiv.org/abs/2309.11911v4 ) ライセンス: Link先を確認 | Shanglin Lei, Guanting Dong, Xiaoping Wang, Keheng Wang, Sirui Wang | (参考訳) 会話の感情認識(ERC)の分野は、文の特徴的エンコーディングと文脈モデリングを分離することに注力し、統一設計に基づく生成パラダイムの探索を欠いている。
本研究では,ercタスクを判別フレームワークから大規模言語モデル(llm)に基づく生成フレームワークへ再編成する,新しい手法である \textbf{instructerc} を提案する。
instructercは、3つの重要な貢献をしている: (1) シンプルで効果的な検索テンプレートモジュールを導入し、モデルがマルチグラニュラ性対話の監督情報を明示的に統合するのを助ける。
2)会話における対話の役割関係と将来の感情傾向を暗黙的にモデル化するために,話者識別と感情予測という2つの追加的な感情アライメントタスクを導入する。
3) 先駆的に、実際のアプリケーションシナリオに合うように感触ホイールを通して、ベンチマーク全体で感情ラベルを統一する。
instructercはいまだにこの統一データセットで素晴らしいパフォーマンスを保っています。
LLMベースのプラグインフレームワークは,従来のすべてのモデルより大幅に優れており,一般的に使用されている3つのERCデータセットに対して包括的なSOTAを実現する。
パラメータ効率およびデータスケーリング実験の大規模解析は、実践シナリオに適用するための実証的なガイダンスを提供する。
私たちのコードとアライメントされた統合データセット(UIME)はGithubのリンクで参照できます。
footnote{ you can findical realization in the github link: https://github.com/lin-shang/instructerc} The field of emotion recognition of conversation (ERC) has been focusing on separating sentence feature encoding and context modeling, lacking exploration in generative paradigms based on unified designs. In this study, we propose a novel approach, \textbf{InstructERC}, to reformulate the ERC task from a discriminative framework to a generative framework based on Large Language Models (LLMs). InstructERC makes three significant contributions: (1) it introduces a simple yet effective retrieval template module, which helps the model explicitly integrate multi-granularity dialogue supervision information. (2) We introduce two additional emotion alignment tasks, namely speaker identification and emotion prediction tasks, to implicitly model the dialogue role relationships and future emotional tendencies in conversations. (3) Pioneeringly, we unify emotion labels across benchmarks through the feeling wheel to fit real application scenarios. InstructERC still perform impressively on this unified dataset. Our LLM-based plugin framework significantly outperforms all previous models and achieves comprehensive SOTA on three commonly used ERC datasets. Extensive analysis of parameter-efficient and data-scaling experiments provides empirical guidance for applying it in practical scenarios. Our code and aligned unified dataset (UIME) can be found in the Github link.\footnote{You can find the offical realization in the Github link: https://github.com/LIN-SHANG/InstructERC} | 翻訳日:2024-03-14 01:45:37 公開日:2024-03-12 |
# 単視点新規ビュー合成のための光拡散 Light Field Diffusion for Single-View Novel View Synthesis ( http://arxiv.org/abs/2309.11525v3 ) ライセンス: Link先を確認 | Yifeng Xiong, Haoyu Ma, Shanlin Sun, Kun Han, Hao Tang, Xiaohui Xie | (参考訳) 単一の参照画像に基づいて新たな視点から画像を生成する作業であるNVS(Single-view novel view synthesis)は、コンピュータビジョンにおいて重要であるが困難である。
NVSの最近の進歩は、高忠実度画像を生成するのに優れた能力として、Denoising Diffusion Probabilistic Models (DDPMs)を活用している。
しかし、現在の拡散ベースの手法では、一般的にカメラのポーズ行列を用いて3D制約をグローバルかつ暗黙的に強制し、特に複雑なテクスチャや構造を持つ領域において、様々な視点から生成された画像に矛盾をもたらす可能性がある。
これらの制約に対処するために,従来のカメラポーズ行列に依存する条件付き拡散に基づく新しいアプローチである光場拡散(LFD)を提案する。
カメラのポーズ行列から始め、LFDはそれらを基準画像と同じ形状の光場符号化に変換し、各光線の方向を記述する。
参照画像に光フィールドエンコーディングを統合することで、拡散プロセス内に局所的なピクセル単位の制約を課し、ビュー一貫性の強化を図る。
当社のアプローチでは,ShapeNet Carデータセット上でLFDをトレーニングするだけでなく,Objaverseデータセット上でトレーニング済みの潜伏拡散モデルを微調整する。
これにより、潜在lfdモデルがrtmvやin-the-wildイメージといった分散データセットにまたがる顕著なゼロショット一般化能力を発揮することができます。
実験により、LFDは高忠実度画像を生成するだけでなく、複雑な領域において優れた3D整合性を実現し、既存の新しいビュー合成法よりも優れていることが示された。 Single-view novel view synthesis (NVS), the task of generating images from new viewpoints based on a single reference image, is important but challenging in computer vision. Recent advancements in NVS have leveraged Denoising Diffusion Probabilistic Models (DDPMs) for their exceptional ability to produce high-fidelity images. However, current diffusion-based methods typically utilize camera pose matrices to globally and implicitly enforce 3D constraints, which can lead to inconsistencies in images generated from varying viewpoints, particularly in regions with complex textures and structures. To address these limitations, we present Light Field Diffusion (LFD), a novel conditional diffusion-based approach that transcends the conventional reliance on camera pose matrices. Starting from the camera pose matrices, LFD transforms them into light field encoding, with the same shape as the reference image, to describe the direction of each ray. By integrating light field encoding with the reference image, our method imposes local pixel-wise constraints within the diffusion process, fostering enhanced view consistency. Our approach not only involves training image LFD on the ShapeNet Car dataset but also includes fine-tuning a pre-trained latent diffusion model on the Objaverse dataset. This enables our latent LFD model to exhibit remarkable zero-shot generalization capabilities across out-of-distribution datasets like RTMV as well as in-the-wild images. Experiments demonstrate that LFD not only produces high-fidelity images but also achieves superior 3D consistency in complex regions, outperforming existing novel view synthesis methods. | 翻訳日:2024-03-14 01:45:13 公開日:2024-03-12 |
# MINT: ツールと言語フィードバックとのマルチターンインタラクションにおけるLLMの評価 MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback ( http://arxiv.org/abs/2309.10691v3 ) ライセンス: Link先を確認 | Xingyao Wang, Zihan Wang, Jiateng Liu, Yangyi Chen, Lifan Yuan, Hao Peng, Heng Ji | (参考訳) 複雑なタスクを解決するために、大規模な言語モデル(llm)は、しばしばユーザとの対話の複数のラウンドを必要とする。
しかしながら、現在の評価プロトコルは、ユーザ、LLM、外部ツール間のあいまいな相互作用を無視しながら、シングルターン交換によるベンチマーク性能を強調し、また、ユーザからの自然言語フィードバックの重要性を過小評価する。
これらの監視は、研究ベンチマーク評価と実世界のユースケースの相違に寄与する。
MINTは,(1)ツールと(2)自然言語フィードバックの活用による多ターンインタラクションによるタスク解決能力の評価を行うベンチマークである。
再現性を確保するため,LLMはPythonコードを実行し,GPT-4でシミュレートされたユーザの自然言語フィードバックを受け取ることで,ツールにアクセス可能な評価フレームワークを提供する。
我々は、推論、コーディング、意思決定に焦点をあてた様々な確立された評価データセットを再利用し、効率的な評価のためにそれらをコンパクトなサブセットに注意深くキュレーションする。
20のオープンソースおよびクローズドソース LLM の解析は興味深い結果をもたらす。
(a) LLMは一般的に、ツールと言語からのフィードバックの恩恵を受けており、ツールの使用ごとにパフォーマンスが1~8%、自然言語によるフィードバックが2~17%向上しています。
(b)シングルターン性能の向上は、マルチターン性能の向上を保証しない。
(c)LLMの評価では、教師あり指導ファインタニング(SIFT)と人間フィードバックからの強化学習(RLHF)が多ターン能力に悪影響を及ぼすことが多かった。
我々は、MINTが、マルチターンインタラクションにおけるLCMの能力向上の研究、特にマルチターンヒューマン評価がより少ないオープンソースコミュニティの進歩を計測し、インセンティブを高めることができると期待している。 To solve complex tasks, large language models (LLMs) often require multiple rounds of interactions with the user, sometimes assisted by external tools. However, current evaluation protocols often emphasize benchmark performance with single-turn exchanges, neglecting the nuanced interactions among the user, LLMs, and external tools, while also underestimating the importance of natural language feedback from users. These oversights contribute to discrepancies between research benchmark evaluations and real-world use cases. We introduce MINT, a benchmark that evaluates LLMs' ability to solve tasks with multi-turn interactions by (1) using tools and (2) leveraging natural language feedback. To ensure reproducibility, we provide an evaluation framework where LLMs can access tools by executing Python code and receive users' natural language feedback simulated by GPT-4. We repurpose a diverse set of established evaluation datasets focusing on reasoning, coding, and decision-making and carefully curate them into a compact subset for efficient evaluation. Our analysis of 20 open- and closed-source LLMs offers intriguing findings. (a) LLMs generally benefit from tools and language feedback, with performance gains (absolute, same below) of 1-8% for each turn of tool use and 2-17% with natural language feedback. (b) Better single-turn performance does not guarantee better multi-turn performance. (c) Surprisingly, on the LLMs evaluated, supervised instruction-finetuning (SIFT) and reinforcement learning from human feedback (RLHF) generally hurt multi-turn capabilities. We expect MINT can help measure progress and incentivize research in improving LLMs' capabilities in multi-turn interactions, especially for open-source communities where multi-turn human evaluation can be less accessible compared to commercial LLMs with a larger user base. | 翻訳日:2024-03-14 01:44:46 公開日:2024-03-12 |
# ハイブリッド量子支援カラム生成アルゴリズムによるフリート変換問題の解法 A Hybrid Quantum-assisted Column Generation Algorithm for the Fleet Conversion Problem ( http://arxiv.org/abs/2309.08267v3 ) ライセンス: Link先を確認 | Yagnik Chatterjee, Zaid Allybokus, Marko J. Ran\v{c}i\'c, Eric Bourreau | (参考訳) フリート変換の問題は、特定のツアーのための車両群を運用するための二酸化炭素排出量とコストを削減することを目的としている。
最大重み付き独立セット(MWIS)問題をスレーブとして列生成スキームとしてモデル化することができる。
量子変分アルゴリズムはここ数年で大きな関心を集めている。
近年,二分最適化(qubo)問題を対数的に少ない量子ビットで表現する手法が提案されている。
ここでは,この手法を用いてMWISスラヴを解き,産業規模のユースケース(最大64ツアー)にアプローチするために量子および古典的解法を併用する方法を実証する。 The problem of Fleet Conversion aims to reduce the carbon emissions and cost of operating a fleet of vehicles for a given set of tours. It can be modelled as a column generation scheme with the Maximum Weighted Independent Set (MWIS) problem as the slave. Quantum variational algorithms have gained significant interest in the past several years. Recently, a method to represent Quadratic Unconstrained Binary Optimization (QUBO) problems using logarithmically fewer qubits was proposed. Here we use this method to solve the MWIS Slaves and demonstrate how quantum and classical solvers can be used together to approach an industrial-sized use-case (up to 64 tours). | 翻訳日:2024-03-14 01:44:13 公開日:2024-03-12 |
# ディープラーニングを成功させる普遍的なメカニズムを目指して Towards a universal mechanism for successful deep learning ( http://arxiv.org/abs/2309.07537v2 ) ライセンス: Link先を確認 | Yuval Meir, Yarden Tzach, Shiri Hodassman, Ofek Tevet and Ido Kanter | (参考訳) 近年, DLモデルの各層, 特にCIFAR-10で訓練されたVGG-16において, 単一フィルタの品質を測定する定量的手法に基づいて, 深層学習(DL)を成功させるメカニズムが提示されている。
この方法では、各フィルタが出力ラベルの小さなクラスタを識別し、クラスタの外側のラベルとして追加ノイズが選択される。
この特徴は各層で徐々に強調され、信号対雑音比(SNR)が向上し、DLネットワークの精度が向上する。
本研究では,CIFAR-100 と ImageNet を用いてトレーニングした VGG-16 と EfficientNet-B0 について検証し,以下の結果を得た。
第一に、各層で精度とSNRが徐々に増大する。
第二に、与えられた深いアーキテクチャでは、最大誤差率は出力ラベルの数とほぼ直線的に増加する。
第三に、[3, 1000]の範囲のデータセットラベルに対して同様の傾向が得られ、このメカニズムの普遍性を支持した。
単一フィルタの性能と支配機能を理解することは、全体的な精度に影響を与えることなく、ディープアーキテクチャを高度に希薄にする方法を舗装し、フィルタのクラスタ接続(AFCC)を適用することで実現することができる。 Recently, the underlying mechanism for successful deep learning (DL) was presented based on a quantitative method that measures the quality of a single filter in each layer of a DL model, particularly VGG-16 trained on CIFAR-10. This method exemplifies that each filter identifies small clusters of possible output labels, with additional noise selected as labels outside the clusters. This feature is progressively sharpened with each layer, resulting in an enhanced signal-to-noise ratio (SNR), which leads to an increase in the accuracy of the DL network. In this study, this mechanism is verified for VGG-16 and EfficientNet-B0 trained on the CIFAR-100 and ImageNet datasets, and the main results are as follows. First, the accuracy and SNR progressively increase with the layers. Second, for a given deep architecture, the maximal error rate increases approximately linearly with the number of output labels. Third, similar trends were obtained for dataset labels in the range [3, 1,000], thus supporting the universality of this mechanism. Understanding the performance of a single filter and its dominating features paves the way to highly dilute the deep architecture without affecting its overall accuracy, and this can be achieved by applying the filter's cluster connections (AFCC). | 翻訳日:2024-03-14 01:44:00 公開日:2024-03-12 |
# 画像化されたヒト脳の正当性に対する計算的限界 Computational limits to the legibility of the imaged human brain ( http://arxiv.org/abs/2309.07096v3 ) ライセンス: Link先を確認 | James K Ruffle, Robert J Gray, Samia Mohinta, Guilherme Pombo, Chaitanya Kaul, Harpreet Hyare, Geraint Rees, Parashkev Nachev | (参考訳) 人口レベルでの人間の脳の組織に関する我々の知識は、個々のレベルでの機能的差異を予測し、臨床応用を制限し、推論されたメカニズムの一般化可能性に疑問を投げかける力にはまだ変換されていない。
この困難は、脳内の生物学的パターンが分別されていないことや、モデルでそれらにアクセスし、処理時に計算する能力が限られていることから生じるかどうかは不明である。
本稿では,このようなパターンの可解性をデータを用いて包括的に調査し,前例のない規模で計算する。
英国バイオバンクの23人中810人を対象に,構造的および機能的神経画像データの組合せから,25個の生物学的特徴の予測可能性を体系的に評価した。
4526時間以上の計算を行い、人口統計学、心理学、血清学、慢性疾患、機能的接続特性の完全接続されたフィードフォワードニューラルネットワークを含む700個の個別予測モデルをトレーニング、最適化、評価し、マクロおよびマイクロ構造脳イメージングの3次元畳み込みニューラルネットワークモデルを構築した。
性別の予測可能性(精度99.7%)、年齢(平均絶対誤差2.048年、R2 0.859)、体重(平均絶対誤差2.609Kg、R2 0.625)の間には顕著な相違が見られ、そこでは新たな最先端性能を設定し、他の特性の予想可能性も驚くほど低い。
構造的および機能的イメージングは、慢性疾患の一致よりも心理学を予測していない(p<0.05)。
血清学的には慢性疾患 (p<0.05) を予測し, p<0.001で予測し, 次いで構造的神経画像 (p<0.05) が得られた。
以上の結果から,ヒト脳から個々のレベルの特徴を抽出するためには,より情報的画像やより強力なモデルが必要であることが示唆された。 Our knowledge of the organisation of the human brain at the population-level is yet to translate into power to predict functional differences at the individual-level, limiting clinical applications, and casting doubt on the generalisability of inferred mechanisms. It remains unknown whether the difficulty arises from the absence of individuating biological patterns within the brain, or from limited power to access them with the models and compute at our disposal. Here we comprehensively investigate the resolvability of such patterns with data and compute at unprecedented scale. Across 23 810 unique participants from UK Biobank, we systematically evaluate the predictability of 25 individual biological characteristics, from all available combinations of structural and functional neuroimaging data. Over 4526 GPU hours of computation, we train, optimize, and evaluate out-of-sample 700 individual predictive models, including fully-connected feed-forward neural networks of demographic, psychological, serological, chronic disease, and functional connectivity characteristics, and both uni- and multi-modal 3D convolutional neural network models of macro- and micro-structural brain imaging. We find a marked discrepancy between the high predictability of sex (balanced accuracy 99.7%), age (mean absolute error 2.048 years, R2 0.859), and weight (mean absolute error 2.609Kg, R2 0.625), for which we set new state-of-the-art performance, and the surprisingly low predictability of other characteristics. Neither structural nor functional imaging predicted psychology better than the coincidence of chronic disease (p<0.05). Serology predicted chronic disease (p<0.05) and was best predicted by it (p<0.001), followed by structural neuroimaging (p<0.05). Our findings suggest either more informative imaging or more powerful models are needed to decipher individual level characteristics from the human brain. | 翻訳日:2024-03-14 01:43:37 公開日:2024-03-12 |
# MRI並列画像再構成のための入射神経表現法 Implicit Neural Representation for MRI Parallel Imaging Reconstruction ( http://arxiv.org/abs/2309.06067v5 ) ライセンス: Link先を確認 | Hao Li, Yusheng Zhou, Jianan Liu, Xiling Liu, Tao Huang, and Zhihan Lv | (参考訳) 磁気共鳴画像(MRI)は常に長い取得時間に悩まされる。
並列イメージング(PI)は、特定のK空間線を周期的にスキップし、アンダーサンプリングされた測定から高品質な画像を再構成することでスキャン時間を短縮する1つの方法である。
近年,物体を空間座標の連続関数として表現する新しい深層学習法として暗黙的ニューラル表現(INR)が登場し,この関数は通常多層パーセプトロン(MLP)によってパラメータ化される。
本稿では,INRに基づく新しいMRI PI再構成手法を提案する。これは,再構成された完全サンプル画像をボクセル座標とアンダーサンプル画像の特徴ベクトルの関数として表現し,INRの一般化問題を克服する。
具体的には,異なるアンダーサンプリングスケールのMR画像からスケール非依存のボクセル特異な特徴を抽出し,座標ベクトルと結合して完全サンプリングされたMR画像の復元を行い,複数スケール再構成を実現する。
提案手法の性能は,公開されているMRIデータセットを用いて評価し,他の再構成手法と比較した。
提案手法が代替手法よりも優れていることを示す定量的評価を行った。 Magnetic resonance imaging (MRI) always suffers from long acquisition times. Parallel imaging (PI) is one solution to reduce scan time by periodically skipping certain K-space lines and then reconstructing high-quality images from undersampled measurements. Recently, implicit neural representation (INR) has emerged as a new deep learning method that represents an object as a continuous function of spatial coordinates, and this function is normally parameterized by a multilayer perceptron (MLP). In this paper, we propose a novel MRI PI reconstruction method based on INR, which represents the reconstructed fully-sampled images as the function of voxel coordinates and prior feature vectors of undersampled images to overcome the generalization problem of INR. Specifically, we introduce a scale-embedded encoder to produce scale-independent voxel-specific features from MR images with different undersampling scales and then concatenate with coordinate vectors to recover fully-sampled MR images, thus achieving multiple scale reconstructions. The performance of the proposed method was assessed by experimenting with publicly available MRI datasets and was compared with other reconstruction methods. Our quantitative evaluation demonstrates the superiority of the proposed method over alternative reconstruction methods. | 翻訳日:2024-03-14 01:43:03 公開日:2024-03-12 |
# ニューラルネットワークを用いた大規模シーンモデリングのためのフェデレートラーニング Federated Learning for Large-Scale Scene Modeling with Neural Radiance Fields ( http://arxiv.org/abs/2309.06030v3 ) ライセンス: Link先を確認 | Teppei Suzuki | (参考訳) 我々は、車両やドローンから収集したデータを用いて、地球規模神経放射野(nerf)に基づく地図を生涯学習的に構築・維持するシステムを提案する。
しかし、NeRFによる既存の大規模モデリングでは、地球規模の環境をモデル化する際のスケーラビリティと保守性に問題がある。
そこで本研究では,NeRFを用いた大規模モデリングのためのフェデレート学習パイプラインを提案する。
我々は、NeRFのフェデレーション学習におけるモデル集約パイプラインを調整し、NeRFの局所的な更新を可能にする。
集約ステップでは、クライアントのグローバルなポーズの正確さが重要です。
また,集約前にクライアントのノイズの多いグローバルなポーズを調整するために,グローバルなポーズアライメントを提案する。
実験では,大規模シーンデータセット mill19 におけるポーズアライメントとフェデレーション学習パイプラインの有効性を示す。 We envision a system to continuously build and maintain a map based on earth-scale neural radiance fields (NeRF) using data collected from vehicles and drones in a lifelong learning manner. However, existing large-scale modeling by NeRF has problems in terms of scalability and maintainability when modeling earth-scale environments. Therefore, to address these problems, we propose a federated learning pipeline for large-scale modeling with NeRF. We tailor the model aggregation pipeline in federated learning for NeRF, thereby allowing local updates of NeRF. In the aggregation step, the accuracy of the clients' global pose is critical. Thus, we also propose global pose alignment to align the noisy global pose of clients before the aggregation step. In experiments, we show the effectiveness of the proposed pose alignment and the federated learning pipeline on the large-scale scene dataset, Mill19. | 翻訳日:2024-03-14 01:42:42 公開日:2024-03-12 |
# 量子モンテカルロにインスパイアされた高速シミュレートアニーリング Fast Simulated Annealing inspired by Quantum Monte Carlo ( http://arxiv.org/abs/2309.02735v2 ) ライセンス: Link先を確認 | Kiyotaka Murashima | (参考訳) 量子モンテカルロ (QMC) は量子アニーリング (QA) のシミュレーションで一般的に用いられるが, ヒューリスティックアプローチとしてのQMCは最小エネルギーを見つけるのに多くの時間を要するため, 非常に困難である。
主に鈴木トロッター分解に由来するトロッター層の存在に依存している。
本稿では,数学的には厳密ではないが,短時間で計算する新しい手法を提案する。
従来のQMC法と比較して,有効性と有利性についても論じる。 Quantum Monte Carlo (QMC) is commonly used in simulations for Quantum Annealing (QA), but QMC as a heuristic approach has great difficulty in that it takes much time to find minimum energy. It mainly depends on the existence of a trotter layer derived from Suzuki-Trotter decomposition. In this paper, I propose a new approach to calculate it in short time, although it isn't rigorous mathematically. Its validity and advantageous points are also discussed, in comparison with conventional QMC methods. | 翻訳日:2024-03-14 01:42:27 公開日:2024-03-12 |
# 効率的な視覚トランスフォーマーに関する調査:アルゴリズム、技術、およびパフォーマンスベンチマーク A survey on efficient vision transformers: algorithms, techniques, and performance benchmarking ( http://arxiv.org/abs/2309.02031v2 ) ライセンス: Link先を確認 | Lorenzo Papa, Paolo Russo, Irene Amerini, and Luping Zhou | (参考訳) Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションに取り組むために人気が高まり、広く使われている。
彼らの主な特徴は、自己追跡機構を通じてグローバル情報を抽出する能力であり、初期の畳み込みニューラルネットワークを上回っている。
しかし、ViTのデプロイメントとパフォーマンスは、サイズ、トレーニング可能なパラメータの数、操作によって着実に向上している。
さらに、自己注意の計算コストとメモリコストは、画像解像度によって2次的に増加する。
一般的に言って、処理や計算能力といった多くのハードウェアや環境上の制約のため、現実のアプリケーションでこれらのアーキテクチャを採用することは困難である。
そこで本研究では,最小最適推定性能を確保するための最も効率的な手法について検討する。
より詳しくは、コンパクトアーキテクチャ、プルーニング、知識蒸留、量子化戦略の4つの効率的なカテゴリが分析される。
さらに、パラメータ数、ビット数、フロップ数、モデルサイズなど、推論時にハードウェアデバイスに影響するモデルの機能を正規化し比較するために、効率的なエラーレートと呼ばれる新しいメトリックが導入された。
本稿ではまず,ビジョントランスフォーマーを効率的にするための戦略を数学的に定義し,現状の方法論を記述し,議論し,その性能を異なるアプリケーションシナリオで分析する。
本稿の最後には,オープンチャレンジと有望な研究方向性についても論じる。 Vision Transformer (ViT) architectures are becoming increasingly popular and widely employed to tackle computer vision applications. Their main feature is the capacity to extract global information through the self-attention mechanism, outperforming earlier convolutional neural networks. However, ViT deployment and performance have grown steadily with their size, number of trainable parameters, and operations. Furthermore, self-attention's computational and memory cost quadratically increases with the image resolution. Generally speaking, it is challenging to employ these architectures in real-world applications due to many hardware and environmental restrictions, such as processing and computational capabilities. Therefore, this survey investigates the most efficient methodologies to ensure sub-optimal estimation performances. More in detail, four efficient categories will be analyzed: compact architecture, pruning, knowledge distillation, and quantization strategies. Moreover, a new metric called Efficient Error Rate has been introduced in order to normalize and compare models' features that affect hardware devices at inference time, such as the number of parameters, bits, FLOPs, and model size. Summarizing, this paper firstly mathematically defines the strategies used to make Vision Transformer efficient, describes and discusses state-of-the-art methodologies, and analyzes their performances over different application scenarios. Toward the end of this paper, we also discuss open challenges and promising research directions. | 翻訳日:2024-03-14 01:42:17 公開日:2024-03-12 |
# LOTUS:教師なしスキル発見によるロボットマニピュレーションのための継続的な模倣学習 LOTUS: Continual Imitation Learning for Robot Manipulation Through Unsupervised Skill Discovery ( http://arxiv.org/abs/2311.02058v3 ) ライセンス: Link先を確認 | Weikang Wan, Yifeng Zhu, Rutav Shah, Yuke Zhu | (参考訳) LOTUSは,ロボットが生涯を通して,新しい操作タスクを継続的に,効率的に学習することを可能にする,連続的な模倣学習アルゴリズムである。
lotusの中核となるアイデアは、少数の人間のデモで新しいタスクの連続から成長を続けるスキルライブラリを構築することだ。
LOTUSは、オープンボキャブラリビジョンモデルを使用して継続的なスキル発見プロセスから始まり、未解決のデモンストレーションで提示される繰り返しパターンとしてスキルを抽出する。
継続的なスキル発見は、過去のタスクが壊滅的に忘れ去られるのを避けるために既存のスキルを更新し、新しいタスクを解決する新しいスキルを追加する。
LOTUSはメタコントローラを訓練し、生涯学習プロセスにおいて視覚ベースの操作タスクに取り組むために様々なスキルを柔軟に構成する。
総合実験の結果,ロータスは最先端ベースラインを11%以上の成功率で上回っており,従来の方法よりも優れた知識伝達能力を示している。
さらなる結果とビデオはプロジェクトのWebサイト(https://ut-austin-rpl.github.io/Lotus/)で見ることができる。 We introduce LOTUS, a continual imitation learning algorithm that empowers a physical robot to continuously and efficiently learn to solve new manipulation tasks throughout its lifespan. The core idea behind LOTUS is constructing an ever-growing skill library from a sequence of new tasks with a small number of human demonstrations. LOTUS starts with a continual skill discovery process using an open-vocabulary vision model, which extracts skills as recurring patterns presented in unsegmented demonstrations. Continual skill discovery updates existing skills to avoid catastrophic forgetting of previous tasks and adds new skills to solve novel tasks. LOTUS trains a meta-controller that flexibly composes various skills to tackle vision-based manipulation tasks in the lifelong learning process. Our comprehensive experiments show that LOTUS outperforms state-of-the-art baselines by over 11% in success rate, showing its superior knowledge transfer ability compared to prior methods. More results and videos can be found on the project website: https://ut-austin-rpl.github.io/Lotus/. | 翻訳日:2024-03-14 01:38:17 公開日:2024-03-12 |
# Multilingual DistilWhisper:言語専門家によるマルチタスク音声モデルの効率的な蒸留 Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts ( http://arxiv.org/abs/2311.01070v3 ) ライセンス: Link先を確認 | Thomas Palmeira Ferraz, Marcely Zanon Boito, Caroline Brun, Vassilina Nikoulina | (参考訳) Whisperは99言語をカバーするマルチタスクおよび多言語音声モデルである。
圧縮可能な自動音声認識(ASR)は、その対象言語のサブセットとなるが、そのモデルは、より小さなモデルバージョンで悪化する問題である、非無視の数の非表現言語ではまだ性能が劣っている。
本稿では,asrの性能ギャップを橋渡しし,マルチタスクと多言語機能の利点を保ちつつ,asrの性能ギャップを橋渡しできる手法であるdistilwhisperを提案する。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
この2つのアプローチにより、マルチタスクと多言語事前学習から受け継いだ堅牢性を保ちながら、ASRの性能を効果的に向上させることができる。
その結果,本手法は通常のファインチューニングやLoRAアダプタよりも有効であり,ドメイン内および外部テストセットのターゲット言語の性能を高めるとともに,推論時のパラメータオーバーヘッドを無視できるだけに抑えた。 Whisper is a multitask and multilingual speech model covering 99 languages. It yields commendable automatic speech recognition (ASR) results in a subset of its covered languages, but the model still underperforms on a non-negligible number of under-represented languages, a problem exacerbated in smaller model versions. In this work, we propose DistilWhisper, an approach able to bridge the performance gap in ASR for these languages while retaining the advantages of multitask and multilingual capabilities. Our approach involves two key strategies: lightweight modular ASR fine-tuning of whisper-small using language-specific experts, and knowledge distillation from whisper-large-v2. This dual approach allows us to effectively boost ASR performance while keeping the robustness inherited from the multitask and multilingual pre-training. Results demonstrate that our approach is more effective than standard fine-tuning or LoRA adapters, boosting performance in the targeted languages for both in- and out-of-domain test sets, while introducing only a negligible parameter overhead at inference. | 翻訳日:2024-03-14 01:38:00 公開日:2024-03-12 |
# POS:テキスト・ビデオ・ジェネレーションのためのPrompts Optimization Suite POS: A Prompts Optimization Suite for Augmenting Text-to-Video Generation ( http://arxiv.org/abs/2311.00949v2 ) ライセンス: Link先を確認 | Shijie Ma, Huayi Xu, Mengjian Li, Weidong Geng, Meng Wang, Yaxiong Wang | (参考訳) 本稿では,雑音とテキストを含む2つの入力プロンプトを改善し,拡散に基づくテキスト対ビデオ生成の促進を目指す。
この目標を達成し,テキスト・ビデオ・モデルの強化を目的としたトレーニング不要な Prompt Optimization Suite であるPOS を提案する。
POSは2つの観測によって動機付けられている:(1)映像生成は雑音の点で不安定である。
同じテキストが与えられた場合、異なるノイズはフレーム品質と時間的一貫性の両方で大きく異なるビデオを生み出す。
この観測は,各テキスト入力に適合する最適な雑音が存在することを示唆するものであり,潜在的な雑音を捉えるために,潜在的な最適な雑音に接近する最適な雑音近似器を提案する。
特に、最適なノイズ近似器は、まずテキストプロンプトと密接に関連したビデオを検索し、次にノイズ空間に反転してテキスト入力のための改良されたノイズプロンプトとして機能する。
2) LLMによるテキストプロンプトの改善は意味的ずれを引き起こすことが多い。
既存のテキスト・ツー・ビジョン作品の多くはllmを使用して、テキストプロンプトの改善と生成の強化を行っている。
しかし、既存の手法は、元のテキストと書き直されたテキスト間の意味的アライメントを無視することが多い。
この問題に対応するために,意味的一貫性を維持するために,文の書き直しと発音の両方に反則を課すセマンティック保存リライターを設計する。
人気のあるベンチマークに関する広範囲な実験は、posがテキストからビデオへのモデルを明確なマージンで改善できることを示しています。
コードはオープンソース化される。 This paper targets to enhance the diffusion-based text-to-video generation by improving the two input prompts, including the noise and the text. Accommodated with this goal, we propose POS, a training-free Prompt Optimization Suite to boost text-to-video models. POS is motivated by two observations: (1) Video generation shows instability in terms of noise. Given the same text, different noises lead to videos that differ significantly in terms of both frame quality and temporal consistency. This observation implies that there exists an optimal noise matched to each textual input; To capture the potential noise, we propose an optimal noise approximator to approach the potential optimal noise. Particularly, the optimal noise approximator initially searches a video that closely relates to the text prompt and then inverts it into the noise space to serve as an improved noise prompt for the textual input. (2) Improving the text prompt via LLMs often causes semantic deviation. Many existing text-to-vision works have utilized LLMs to improve the text prompts for generation enhancement. However, existing methods often neglect the semantic alignment between the original text and the rewritten one. In response to this issue, we design a semantic-preserving rewriter to impose contraints in both rewritng and denoising phrases to preserve the semantic consistency. Extensive experiments on popular benchmarks show that our POS can improve the text-to-video models with a clear margin. The code will be open-sourced. | 翻訳日:2024-03-14 01:37:39 公開日:2024-03-12 |
# 3DCoMPaT$^{++}$: 合成認識のための大規模3次元視覚データセットの改良 3DCoMPaT$^{++}$: An improved Large-scale 3D Vision Dataset for Compositional Recognition ( http://arxiv.org/abs/2310.18511v2 ) ライセンス: Link先を確認 | Habib Slim, Xiang Li, Yuchen Li, Mahmoud Ahmed, Mohamed Ayman, Ujjwal Upadhyay, Ahmed Abdelreheem, Arpit Prajapati, Suhail Pothigara, Peter Wonka, Mohamed Elhoseiny | (参考訳) 本研究では,RGB点雲,3Dテクスチャメッシュ,深度マップ,セグメンテーションマスクと合わせて,1000万以上のスタイリングされた3D形状を慎重に注釈付けしたマルチモーダル2D/3Dデータセットである3DCoMPaT$^{++}を提示する。
3DCoMPaT$^{++}$は、41の形状カテゴリ、275のきめ細かい部分カテゴリ、293のきめ細かい材料クラスをカバーし、3Dオブジェクトの一部に合成することができる。
4つの等間隔ビューと4つのランダムビューから100万のスタイリングされた形状のサブセットを描画し、合計1億6000万のレンダリングを実現しました。
パーツはインスタンスレベルでセグメンテーションされ、粗い粒度ときめ細かいセマンティックレベルを持つ。
我々は,3Dオブジェクトの部品の合成を総合的に認識し,グラウンドドコMPaT認識(GCR)と呼ばれる新しいタスクを導入する。
さらに,cvpr2023で組織されたデータチャレンジの結果を報告するとともに,6次元入力で学習した修正されたpointnet$^{++}$モデルの利用例を示し,gcr強化のための代替手法を検討する。
われわれの研究が、作曲3Dビジョンの今後の研究を容易にすることを願っている。 In this work, we present 3DCoMPaT$^{++}$, a multimodal 2D/3D dataset with 160 million rendered views of more than 10 million stylized 3D shapes carefully annotated at the part-instance level, alongside matching RGB point clouds, 3D textured meshes, depth maps, and segmentation masks. 3DCoMPaT$^{++}$ covers 41 shape categories, 275 fine-grained part categories, and 293 fine-grained material classes that can be compositionally applied to parts of 3D objects. We render a subset of one million stylized shapes from four equally spaced views as well as four randomized views, leading to a total of 160 million renderings. Parts are segmented at the instance level, with coarse-grained and fine-grained semantic levels. We introduce a new task, called Grounded CoMPaT Recognition (GCR), to collectively recognize and ground compositions of materials on parts of 3D objects. Additionally, we report the outcomes of a data challenge organized at CVPR2023, showcasing the winning method's utilization of a modified PointNet$^{++}$ model trained on 6D inputs, and exploring alternative techniques for GCR enhancement. We hope our work will help ease future research on compositional 3D Vision. | 翻訳日:2024-03-14 01:37:13 公開日:2024-03-12 |
# ベイズ回帰市場 Bayesian Regression Markets ( http://arxiv.org/abs/2310.14992v2 ) ライセンス: Link先を確認 | Thomas Falconer and Jalal Kazempour and Pierre Pinson | (参考訳) 機械学習タスクは入力として使用されるデータの品質に弱い。
しかし、企業が適切なデータセットを入手することはしばしば困難であり、所有者間で自然に分散され、実際には下流市場におけるライバルであり、情報の共有に消極的である。
回帰タスクの教師付き学習に着目して、データ共有のための金銭的インセンティブを提供するレグレッション市場を開発する。
提案するメカニズムはベイズ的枠組みを採用しており,より一般的な回帰タスクのクラスを考えることができる。
市場資産の徹底的な調査を行い、現在の文献に類似した提案が、市場エージェントを大規模な金融リスクに晒し、当社の設定を緩和できることを示す。 Machine learning tasks are vulnerable to the quality of data used as input. Yet, it is often challenging for firms to obtain adequate datasets, with them being naturally distributed amongst owners, that in practice, may be competitors in a downstream market and reluctant to share information. Focusing on supervised learning for regression tasks, we develop a regression market to provide a monetary incentive for data sharing. Our proposed mechanism adopts a Bayesian framework, allowing us to consider a more general class of regression tasks. We present a thorough exploration of the market properties, and show that similar proposals in current literature expose the market agents to sizeable financial risks, which can be mitigated in our setup. | 翻訳日:2024-03-14 01:36:44 公開日:2024-03-12 |
# 斜め森林を用いたオンライン環境におけるグループフェアネス向上 Enhancing Group Fairness in Online Settings Using Oblique Decision Forests ( http://arxiv.org/abs/2310.11401v3 ) ライセンス: Link先を確認 | Somnath Basu Roy Chowdhury, Nicholas Monath, Ahmad Beirami, Rahul Kidambi, Avinava Dubey, Amr Ahmed, Snigdha Chaturvedi | (参考訳) 公平性、特にグループ公平性は、機械学習システムのコンテキストにおいて重要な考慮事項である。
最も一般的に採用されているグループフェアネスエンハンシングテクニックは、トレーニングプロセス中にフェアネス目標(例えば、人口比パリティ)とタスク固有の目標(例えば、クロスエントロピー)の混合に依存するインプロセッシング手法である。
しかし、データがオンライン形式で(一度に1つのインスタンス)到着すると、このような公正な目標を最適化することは、いくつかの課題を引き起こします。
特に、グループフェアネスの目標は、異なる人口集団にわたる予測の予測を用いて定義される。
アルゴリズムが一度に1つのインスタンスにアクセスできるオンライン設定では、グループフェアネスの目標を推定するには、追加のストレージと、タスク固有の目標よりもはるかに多くの計算(例えば、前方/後方通過)が必要である。
本稿では,オンライン環境で公平な意思決定を行うために,斜め決定木のアンサンブルであるaranyaniを提案する。
アラニーニの階層木構造はパラメータ分離を可能にし、事前決定の集計統計値を用いて公平度勾配を効率的に計算し、追加ストレージや前方/後方通過の必要性を排除できる。
また,aranyaniを訓練するための効率的な枠組みを提案し,その性質を理論的に解析する。
5つの公開ベンチマーク(ビジョンと言語データセットを含む)で実証的な評価を行い、Aranyaniがベースラインアプローチよりも精度-公正トレードオフが優れていることを示す。 Fairness, especially group fairness, is an important consideration in the context of machine learning systems. The most commonly adopted group fairness-enhancing techniques are in-processing methods that rely on a mixture of a fairness objective (e.g., demographic parity) and a task-specific objective (e.g., cross-entropy) during the training process. However, when data arrives in an online fashion -- one instance at a time -- optimizing such fairness objectives poses several challenges. In particular, group fairness objectives are defined using expectations of predictions across different demographic groups. In the online setting, where the algorithm has access to a single instance at a time, estimating the group fairness objective requires additional storage and significantly more computation (e.g., forward/backward passes) than the task-specific objective at every time step. In this paper, we propose Aranyani, an ensemble of oblique decision trees, to make fair decisions in online settings. The hierarchical tree structure of Aranyani enables parameter isolation and allows us to efficiently compute the fairness gradients using aggregate statistics of previous decisions, eliminating the need for additional storage and forward/backward passes. We also present an efficient framework to train Aranyani and theoretically analyze several of its properties. We conduct empirical evaluations on 5 publicly available benchmarks (including vision and language datasets) to show that Aranyani achieves a better accuracy-fairness trade-off compared to baseline approaches. | 翻訳日:2024-03-14 01:36:13 公開日:2024-03-12 |
# 非標的メタボロミクスにおける値インプテーションを欠くマルチビュー変分オートエンコーダ Multi-View Variational Autoencoder for Missing Value Imputation in Untargeted Metabolomics ( http://arxiv.org/abs/2310.07990v2 ) ライセンス: Link先を確認 | Chen Zhao, Kuan-Jui Su, Chong Wu, Xuewei Cao, Qiuying Sha, Wu Li, Zhe Luo, Tian Qin, Chuan Qiu, Lan Juan Zhao, Anqi Liu, Lindong Jiang, Xiao Zhang, Hui Shen, Weihua Zhou, Hong-Wen Deng | (参考訳) 背景: データの欠落は質量分析に基づくメタボロミクスの一般的な課題であり、偏りや不完全な分析につながる可能性がある。
wgs(whole-genome sequencing)データとメタボロミクスデータの統合は、メタボロミクス研究におけるデータのインプテーションの正確性を高めるための有望なアプローチとして現れてきた。
方法: 本研究は, WGSデータと参照代謝産物の情報を利用して未知の代謝産物を注入する新しい手法を提案する。
提案手法では,多視点変動型オートエンコーダを用いて重み付けスコア,ポリジェネティックリスクスコア(PGS),リンケージ不平衡単一ヌクレオチド多型(SNP)を共同でモデル化し,特徴抽出とメタボロミクスデータ計算の欠如について検討した。
両方のオミクスデータの潜在表現を学習することにより、ゲノム情報に基づくメタボロミクス値の欠落を効果的に誘発することができる。
結果: 経験的メタボロミクスデータセットの性能評価を行い, 従来の計算法と比較して, その優位性を実証した。
テンプレートメタボライト35種, PGS, LD-pruned SNPsを用いて, R^2-scores > 0.01を代謝物の71.55%に対して達成した。
結論: メタボロミクス計算におけるWGSデータの統合は, データの完全性の向上だけでなく, 下流の分析も促進し, 代謝経路や疾患関連に関するより包括的かつ正確な研究の道を開く。
本研究は,WGSデータを用いたメタボロミクスデータ計算における有用性についての知見を提供し,精度医学研究におけるマルチモーダルデータ統合の意義を浮き彫りにした。 Background: Missing data is a common challenge in mass spectrometry-based metabolomics, which can lead to biased and incomplete analyses. The integration of whole-genome sequencing (WGS) data with metabolomics data has emerged as a promising approach to enhance the accuracy of data imputation in metabolomics studies. Method: In this study, we propose a novel method that leverages the information from WGS data and reference metabolites to impute unknown metabolites. Our approach utilizes a multi-view variational autoencoder to jointly model the burden score, polygenetic risk score (PGS), and linkage disequilibrium (LD) pruned single nucleotide polymorphisms (SNPs) for feature extraction and missing metabolomics data imputation. By learning the latent representations of both omics data, our method can effectively impute missing metabolomics values based on genomic information. Results: We evaluate the performance of our method on empirical metabolomics datasets with missing values and demonstrate its superiority compared to conventional imputation techniques. Using 35 template metabolites derived burden scores, PGS and LD-pruned SNPs, the proposed methods achieved R^2-scores > 0.01 for 71.55% of metabolites. Conclusion: The integration of WGS data in metabolomics imputation not only improves data completeness but also enhances downstream analyses, paving the way for more comprehensive and accurate investigations of metabolic pathways and disease associations. Our findings offer valuable insights into the potential benefits of utilizing WGS data for metabolomics data imputation and underscore the importance of leveraging multi-modal data integration in precision medicine research. | 翻訳日:2024-03-14 01:35:25 公開日:2024-03-12 |
# ステップバック:大規模言語モデルの抽象化による推論の回避 Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models ( http://arxiv.org/abs/2310.06117v2 ) ライセンス: Link先を確認 | Huaixiu Steven Zheng, Swaroop Mishra, Xinyun Chen, Heng-Tze Cheng, Ed H. Chi, Quoc V Le and Denny Zhou | (参考訳) これは、llmが抽象化して、特定の詳細を含むインスタンスからハイレベルな概念と最初の原則を導き出すシンプルなプロンプトテクニックです。
推論を導くために概念と原則を使用することで、llmはソリューションへの正しい推論パスに従う能力を大幅に向上させる。
我々は, PaLM-2L, GPT-4, Llama2-70Bモデルを用いたステップバック・プロンプト実験を行い, STEM, Knowledge QA, Multi-Hop Reasoning などの難解な推論集約タスクにおいて, 大幅な性能向上を観測した。
例えば、Step-Back PromptingはMMLU(Physics and Chemistry)のPaLM-2L性能を7%、TimeQAは27%、MuSiQueは7%改善する。 We present Step-Back Prompting, a simple prompting technique that enables LLMs to do abstractions to derive high-level concepts and first principles from instances containing specific details. Using the concepts and principles to guide reasoning, LLMs significantly improve their abilities in following a correct reasoning path towards the solution. We conduct experiments of Step-Back Prompting with PaLM-2L, GPT-4 and Llama2-70B models, and observe substantial performance gains on various challenging reasoning-intensive tasks including STEM, Knowledge QA, and Multi-Hop Reasoning. For instance, Step-Back Prompting improves PaLM-2L performance on MMLU (Physics and Chemistry) by 7% and 11% respectively, TimeQA by 27%, and MuSiQue by 7%. | 翻訳日:2024-03-14 01:34:28 公開日:2024-03-12 |
# ロボット用プラグイン・アンド・プレイ・ビジョン・ベース・グラッピングモジュールを目指して Toward a Plug-and-Play Vision-Based Grasping Module for Robotics ( http://arxiv.org/abs/2310.04349v2 ) ライセンス: Link先を確認 | Fran\c{c}ois H\'el\'enon, Johann Huber, Fa\"iz Ben Amar and St\'ephane Doncieux | (参考訳) ロボット工学におけるAIの最近の進歩にもかかわらず、ベンチマークや再現性制約の欠如によって、把握は部分的に解決された課題である。
本稿では,複数のマニピュレータ間で容易に移動可能な視覚ベースの把握フレームワークを提案する。
qd(quality-diversity)アルゴリズムを活用することで、オープンループ把持軌跡の多様なレパートリーを生成し、多種多様な把持を維持しながら適応性を高める。
本フレームワークは,物体のポーズを検出するオフザシェルフ視覚モジュールの欠如と,ロボット全体の動作空間へのQDトラジェクトリの一般化という2つの問題に対処する。
提案手法は、6DoFオブジェクト検出と追跡のための複数の視覚モジュールを組み合わせるとともに、QD生成軌道を厳格にオブジェクトフレームに変換する。
Franka Research 3 アームと SIH Schunk ハンドによるUR5 アームの実験では、実際のシーンがグルーピング生成に使用されるシミュレーションと一致した場合に同等の性能を示す。
この作業は、新しいプラットフォームに転送可能な、信頼性の高い視覚ベースの把握モジュールの構築に向けた重要な一歩であり、イテレーションをさらにトレーニングすることなく、さまざまなシナリオに適応可能である。 Despite recent advancements in AI for robotics, grasping remains a partially solved challenge, hindered by the lack of benchmarks and reproducibility constraints. This paper introduces a vision-based grasping framework that can easily be transferred across multiple manipulators. Leveraging Quality-Diversity (QD) algorithms, the framework generates diverse repertoires of open-loop grasping trajectories, enhancing adaptability while maintaining a diversity of grasps. This framework addresses two main issues: the lack of an off-the-shelf vision module for detecting object pose and the generalization of QD trajectories to the whole robot operational space. The proposed solution combines multiple vision modules for 6DoF object detection and tracking while rigidly transforming QD-generated trajectories into the object frame. Experiments on a Franka Research 3 arm and a UR5 arm with a SIH Schunk hand demonstrate comparable performance when the real scene aligns with the simulation used for grasp generation. This work represents a significant stride toward building a reliable vision-based grasping module transferable to new platforms, while being adaptable to diverse scenarios without further training iterations. | 翻訳日:2024-03-14 01:34:09 公開日:2024-03-12 |
# 重なり合う近傍での十分に近いオリエンテーリング問題の解法について On Solving Close Enough Orienteering Problem with Overlapped Neighborhoods ( http://arxiv.org/abs/2310.04257v2 ) ライセンス: Link先を確認 | Qiuchen Qian, Yanran Wang, David Boyle | (参考訳) CETSP(Close Enough Traveling Salesman Problem)は、TSPのよく知られた変種であり、エージェントはターゲット地区内の任意の地点でミッションを完了することができる。
シュタイナーゾーン(Steiner Zones, SZ)と呼ばれる重なり合う地区に基づくヒューリスティックスは、CETSPに対処する上で注目されている。
szsは元のグラフに効果的な近似を提供するが、それらの固有の重複は探索空間に制約を課し、潜在的にグローバル最適化の目的と矛盾する。
ここでは,これらの制限を,重複する近傍の賞品を集約することで,十分に近いオリエンテーリング問題(ceop)の利点に転換できることを示す。
古典的CEOPを非一様隣人 (CEOP-N) に拡張し, 賞品収集に非一様コストを導入する。
CEOP と CEOP-N に対処するため, 粒子群最適化 (PSO) と Ant Colony System (ACS), CRaSZe-AntS に基づくハイブリッドアルゴリズムを併用したランダム化されたスタイナーゾーン離散化 (RSZD) 方式の新たなアプローチを開発した。
RSZDスキームはPSO探索のサブリージョンを特定し、ACSは個別の訪問シーケンスを決定する。
CETSP インスタンスから派生した CEOP インスタンス上での RSZD の離散化性能を評価し,CRaSZe-AntS と CRaSZe-AntS を比較した。
また,SZの内部探索と各地区の境界探索の性能を,CEOP-Nの文脈で比較した。
実験結果から,crasze-antsは1つの近傍戦略に比べて計算時間を大幅に削減し,平均140.44%の賞金獲得率と55.18%のアルゴリズム実行時間を短縮できることがわかった。
CRaSZe-AntSは、トラックとドローンの配送シナリオを含む、新たなCEOP-Nの解決に非常に効果的である。 Close Enough Traveling Salesman Problem (CETSP) is a well-known variant of TSP whereby the agent may complete its mission at any point within a target neighborhood. Heuristics based on overlapped neighborhoods, known as Steiner Zones (SZ), have gained attention in addressing CETSP. While SZs offer effective approximations to the original graph, their inherent overlap imposes constraints on search space, potentially conflicting with global optimization objectives. Here we show how such limitations can be converted into advantages in a Close Enough Orienteering Problem (CEOP) by aggregating prizes across overlapped neighborhoods. We further extend classic CEOP with Non-uniform Neighborhoods (CEOP-N) by introducing non-uniform costs for prize collection. To tackle CEOP and CEOP-N, we develop a new approach featuring a Randomized Steiner Zone Discretization (RSZD) scheme coupled with a hybrid algorithm based on Particle Swarm Optimization (PSO) and Ant Colony System (ACS), CRaSZe-AntS. The RSZD scheme identifies sub-regions for PSO exploration, and ACS determines the discrete visiting sequence. We evaluate the RSZD's discretization performance on CEOP instances derived from established CETSP instances and compare CRaSZe-AntS against the most relevant state-of-the-art heuristic focused on single-neighborhood optimization for CEOP instances. We also compare the performance of the interior search within SZs and the boundary search on individual neighborhoods in the context of CEOP-N. Our experimental results show that CRaSZe-AntS can yield comparable solution quality with significantly reduced computation time compared to the single neighborhood strategy, where we observe an average 140.44% increase in prize collection and a 55.18% reduction in algorithm execution time. CRaSZe-AntS is thus highly effective in solving emerging CEOP-N, examples of which include truck-and-drone delivery scenarios. | 翻訳日:2024-03-14 01:33:47 公開日:2024-03-12 |
# TRAM:ブリッジングトラスト領域とシャープネスの最小化 TRAM: Bridging Trust Regions and Sharpness Aware Minimization ( http://arxiv.org/abs/2310.03646v2 ) ライセンス: Link先を確認 | Tom Sherborne, Naomi Saphra, Pradeep Dasigi, Hao Peng | (参考訳) シャープネス対応最小化(SAM)は、パラメータ空間における損失面曲率を低減し、領域一般化を改善することを報告している。
しかし、微調整中の一般化は、しばしば函数空間における表現の転送可能性に依存する。
信頼領域法(TR)は、タスク固有のスキルを採用しながら、事前訓練されたタスクに依存しない情報の破滅的な忘れを減らし、表現曲率を規則化する。
パラメータ空間と関数空間の両方において、これらの戦略を低曲率に統一し、領域外一般化(OOD)を改善することを検討する。
本稿では,パラメータのシャープさを低減し,事前学習した構造を保存したスムーズな情報表現を実現するSAMアルゴリズムTRAMを提案する。
TRAM は SAM の対角線近傍に情報を伝達する信頼領域を用いており、フラットなミニマの最適化における関数曲率の認識を導入している。
視覚(クロスデータセット適応)とテキスト(ood言語モデリング、ゼロショットクロスリンガルトランスファー)タスクにおいて、堅牢なドメイン転送と表現の汎用性が重要であることを実証的に検証した。
TRAMはSAMベースの最適化やTRベースの最適化よりも優れており、特に反相関ドメイン間のハードトランスファーの競合する手法を上回っている。
TRAMは、従来のシャープネス認識法よりも最小限の計算量で、ドメイン一般化可能なモデルの微調整において、新しい標準を確立している。 Sharpness-aware minimization (SAM) reports improving domain generalization by reducing the loss surface curvature in the parameter space. However, generalization during fine-tuning is often more dependent on the transferability of representations in the function space. Trust-region methods (TR) target this goal by regularizing representation curvature to reduce catastrophic forgetting of pre-trained task-agnostic information while adopting task-specific skills. We consider unifying these strategies for low curvature in both parameter space and function space to improve out-of-domain (OOD) generalization. We propose Trust Region Aware Minimization (TRAM), a SAM algorithm fine-tuning for low parameter sharpness and smooth, informative representations preserving pre-trained structure. TRAM uses a trust region bound to inform the SAM adversarial neighborhood, introducing an awareness of function curvature within optimization for flatter minima. We empirically validate TRAM in vision (cross-dataset adaptation) and text (OOD language modeling, zero-shot cross-lingual transfer) tasks where robust domain transfer and representation generality are critical. TRAM outperforms SAM- and TR-based optimization across all tasks, notably surpassing competing methods for hard transfer between anticorrelated domains. TRAM establishes a novel standard in fine-tuning for domain-generalizable models with minimal additional computation over previous sharpness-aware methods. | 翻訳日:2024-03-14 01:33:06 公開日:2024-03-12 |
# 一般化可能なニューラルラジアンスフィールドのための絡み合ったビュー・エポ極情報集約 Entangled View-Epipolar Information Aggregation for Generalizable Neural Radiance Fields ( http://arxiv.org/abs/2311.11845v2 ) ライセンス: Link先を確認 | Zhiyuan Min, Yawei Luo, Wei Yang, Yuesong Wang, Yi Yang | (参考訳) 一般化可能なNeRFは、新しいシーンにまたがる新しいビューを直接合成することができ、バニラのNeRFでシーン固有のリトレーニングを不要にする。
これらのアプローチにおける重要な有効要因は、ソースビューの特徴を集約することで一般化可能な3D表現の抽出である。
本稿では,EVE-NeRFと呼ばれるエンタングルビュー・エピポーラ情報集約手法を提案する。
EVE-NeRFは、横方向や横方向の情報を独立に考慮する既存の方法とは異なり、シーン不変の外観連続性や、アグリゲーションプロセスに先立って幾何整合性を注入することにより、ビュー-横方向の特徴集約を絡み合った方法で行う。
提案手法は, 1次元相互作用による固有幾何学的制約や外観的制約の潜在的な欠如を効果的に軽減し, さらに3次元表現の一般性を高める。
EVE-NeRFは様々な評価シナリオで最先端のパフォーマンスを実現する。
広汎な実験は、一次元の集約よりも、絡み合ったネットワークは3次元のシーン形状と外観再構成の精度が優れていることを実証している。
私たちのコードはhttps://github.com/tatakai1/EVENeRF.comで公開されています。 Generalizable NeRF can directly synthesize novel views across new scenes, eliminating the need for scene-specific retraining in vanilla NeRF. A critical enabling factor in these approaches is the extraction of a generalizable 3D representation by aggregating source-view features. In this paper, we propose an Entangled View-Epipolar Information Aggregation method dubbed EVE-NeRF. Different from existing methods that consider cross-view and along-epipolar information independently, EVE-NeRF conducts the view-epipolar feature aggregation in an entangled manner by injecting the scene-invariant appearance continuity and geometry consistency priors to the aggregation process. Our approach effectively mitigates the potential lack of inherent geometric and appearance constraint resulting from one-dimensional interactions, thus further boosting the 3D representation generalizablity. EVE-NeRF attains state-of-the-art performance across various evaluation scenarios. Extensive experiments demonstate that, compared to prevailing single-dimensional aggregation, the entangled network excels in the accuracy of 3D scene geometry and appearance reconstruction. Our code is publicly available at https://github.com/tatakai1/EVENeRF. | 翻訳日:2024-03-14 01:26:39 公開日:2024-03-12 |
# FedRA:不均一クライアントの力を解き放つためのフェデレーションチューニングのためのランダムアロケーション戦略 FedRA: A Random Allocation Strategy for Federated Tuning to Unleash the Power of Heterogeneous Clients ( http://arxiv.org/abs/2311.11227v2 ) ライセンス: Link先を確認 | Shangchao Su, Bin Li, Xiangyang Xue | (参考訳) 基礎モデルの可用性が高まり、フェデレーションチューニングはフェデレーション学習の分野で注目を集め、複数のクライアントからのデータと計算リソースを活用して、協調的に微調整された基礎モデルを開発した。
しかしながら、現実世界のフェデレーションシナリオでは、計算や通信リソースの異なる多数の異種クライアントが存在することが多く、モデルの微調整プロセス全体をサポートすることができない。
そこで本研究では,新しいフェデレートチューニングアルゴリズムであるFedRAを提案する。
FedRAの実装は単純で、オリジナルのモデルにさらなる変更を加えることなく、トランスフォーマーベースのモデルにシームレスに統合することができる。
具体的には、各通信ラウンドにおいて、FedRAはランダムにアロケーション行列を生成する。
リソース制約のあるクライアントでは、アロケーションマトリックスとアダプタを使用した微調整に基づいて、元のモデルから少数のレイヤを再編成する。
その後、サーバは現在の割り当て行列に従ってクライアントから更新されたアダプタパラメータを元のモデルの対応するレイヤに集約する。
fedraは、すべてのクライアントがグローバルモデルを完全にサポートできないようなシナリオもサポートしていますが、これは素晴らしいアドバンテージです。
大規模な画像データセットであるDomainNetとNICO++を、さまざまな非ID設定で実験する。
その結果,FedRAは比較手法よりも優れていた。
ソースコードは \url{https://github.com/leondada/fedra} で入手できる。 With the increasing availability of Foundation Models, federated tuning has garnered attention in the field of federated learning, utilizing data and computation resources from multiple clients to collaboratively fine-tune foundation models. However, in real-world federated scenarios, there often exist a multitude of heterogeneous clients with varying computation and communication resources, rendering them incapable of supporting the entire model fine-tuning process. In response to this challenge, we propose a novel federated tuning algorithm, FedRA. The implementation of FedRA is straightforward and can be seamlessly integrated into any transformer-based model without the need for further modification to the original model. Specifically, in each communication round, FedRA randomly generates an allocation matrix. For resource-constrained clients, it reorganizes a small number of layers from the original model based on the allocation matrix and fine-tunes using adapters. Subsequently, the server aggregates the updated adapter parameters from the clients according to the current allocation matrix into the corresponding layers of the original model. It is worth noting that FedRA also supports scenarios where none of the clients can support the entire global model, which is an impressive advantage. We conduct experiments on two large-scale image datasets, DomainNet and NICO++, under various non-iid settings. The results demonstrate that FedRA outperforms the compared methods significantly. The source code is available at \url{https://github.com/leondada/FedRA}. | 翻訳日:2024-03-14 01:26:18 公開日:2024-03-12 |
# クラウドソース無線マップを用いたマルチモーダル屋内定位 Multimodal Indoor Localization Using Crowdsourced Radio Maps ( http://arxiv.org/abs/2311.10601v2 ) ライセンス: Link先を確認 | Zhaoguang Yi, Xiangyu Wen, Qiyue Xia, Peize Li, Francisco Zampella, Firas Alsehly, Chris Xiaoxuan Lu | (参考訳) 屋内測位システム(IPS)は伝統的にWiFiのようなオドメトリーや建築インフラに依存しており、精度を高めるためにフロアプランを構築することで補うことが多い。
しかし、更新の可用性とタイムラインの観点からのフロアプランの制限は、幅広い適用可能性に挑戦している。
対照的に、スマートフォンやWiFi対応ロボットの普及により、クラウドソーシングされた無線マップ – データベースが対応する受信信号強度(RSS)とペアリングする場所 – がますますアクセスしやすくなっている。
これらの無線地図はWiFiの指紋位置のペアを提供するだけでなく、フロアプランが課す制約に類似した運動規則を符号化する。
本研究は,マルチモーダルIPSにおけるフロアプランの代替として,これらの無線地図を活用する可能性を検討する。
我々は,無線地図の不正確さとスパースカバレッジの課題に対処する新しい枠組みを導入する。
提案システムは、WiFiローカライゼーションのための不確実性を考慮したニューラルネットワークモデルと、最適な核融合のためのベージアン融合技術を統合する。
複数の実世界のサイトにおける広範囲な評価は、パフォーマンスが大幅に向上し、結果が最高のベースラインに対して約25%改善していることを示している。 Indoor Positioning Systems (IPS) traditionally rely on odometry and building infrastructures like WiFi, often supplemented by building floor plans for increased accuracy. However, the limitation of floor plans in terms of availability and timeliness of updates challenges their wide applicability. In contrast, the proliferation of smartphones and WiFi-enabled robots has made crowdsourced radio maps - databases pairing locations with their corresponding Received Signal Strengths (RSS) - increasingly accessible. These radio maps not only provide WiFi fingerprint-location pairs but encode movement regularities akin to the constraints imposed by floor plans. This work investigates the possibility of leveraging these radio maps as a substitute for floor plans in multimodal IPS. We introduce a new framework to address the challenges of radio map inaccuracies and sparse coverage. Our proposed system integrates an uncertainty-aware neural network model for WiFi localization and a bespoken Bayesian fusion technique for optimal fusion. Extensive evaluations on multiple real-world sites indicate a significant performance enhancement, with results showing ~ 25% improvement over the best baseline | 翻訳日:2024-03-14 01:25:57 公開日:2024-03-12 |
# LLMエージェントのネットワークによるオピニオンダイナミクスのシミュレーション Simulating Opinion Dynamics with Networks of LLM-based Agents ( http://arxiv.org/abs/2311.09618v3 ) ライセンス: Link先を確認 | Yun-Shiuan Chuang, Agam Goyal, Nikunj Harlalka, Siddharth Suresh, Robert Hawkins, Sijia Yang, Dhavan Shah, Junjie Hu, Timothy T. Rogers | (参考訳) 人間の意見の正確なシミュレーションは、偏光や誤情報の拡散など、様々な社会現象を理解するために重要である。
しかしながら、エージェントベースモデル(ABM)は、しばしば人間の振る舞いを過度に単純化する。
本稿では,Large Language Models (LLMs) の集団に基づく意見力学のシミュレーション手法を提案する。
以上の結果から, LLMエージェントの正確な情報生成に対するバイアスが強く, シミュレーションエージェントが科学的現実に一致していることが明らかとなった。
このバイアスは、気候変動のような問題に対するコンセンサスビューに対する抵抗を理解するための有用性を制限する。
しかし,プロンプト・エンジニアリングによる確認バイアスを誘発した後,既存のエージェント・ベース・モデリング・オピニオン・ダイナミクス研究と並行して意見の断片化を観察した。
これらの洞察は、この領域におけるllmエージェントの約束と限界を強調し、前進を示唆している:人間の信念の進化をよりよくシミュレートするために、現実世界の談話でllmを洗練する。 Accurately simulating human opinion dynamics is crucial for understanding a variety of societal phenomena, including polarization and the spread of misinformation. However, the agent-based models (ABMs) commonly used for such simulations often over-simplify human behavior. We propose a new approach to simulating opinion dynamics based on populations of Large Language Models (LLMs). Our findings reveal a strong inherent bias in LLM agents towards producing accurate information, leading simulated agents to consensus in line with scientific reality. This bias limits their utility for understanding resistance to consensus views on issues like climate change. After inducing confirmation bias through prompt engineering, however, we observed opinion fragmentation in line with existing agent-based modeling and opinion dynamics research. These insights highlight the promise and limitations of LLM agents in this domain and suggest a path forward: refining LLMs with real-world discourse to better simulate the evolution of human beliefs. | 翻訳日:2024-03-14 01:25:28 公開日:2024-03-12 |
# デジタル病理のための回転非依存画像表現学習 Rotation-Agnostic Image Representation Learning for Digital Pathology ( http://arxiv.org/abs/2311.08359v2 ) ライセンス: Link先を確認 | Saghir Alfasly, Abubakr Shafique, Peyman Nejat, Jibran Khan, Areej Alsaafin, Ghazal Alabtah, H.R. Tizhoosh | (参考訳) 本稿では,3つの重要な貢献を通じて,病理像解析における複雑な課題について論じる。
まず、全スライディング画像(WSI)解析のための高速パッチ選択法FPSを導入し、精度を維持しながら計算コストを大幅に削減する。
第2に,トランスフォーマーブロック5ブロックとパラメータ900万という最小構成の軽量な病理組織学的特徴抽出装置であるpathdinoを提案する。
第3に,自己教師付き学習を用いたローテーション非依存表現学習パラダイムを導入し,オーバーフィッティングを効果的に軽減する。
また,本モデルでは,4つの部位(胸部,肝臓,皮膚,大腸)と7つの公開データセット(PANDA,CAMELYON16,BRACS,DigestPath,Kather,PanNuke,WSSS4LUAD)にまたがる内部データセットを含む12種類のデータセットにおいて,既存の病理組織特異的ビジョントランスフォーマよりも優れていることを示す。
特に、The Cancer Genome Atlas (TCGA)の600万の病理組織学的パッチのトレーニングデータセットであっても、我々のアプローチはパッチレベルの多数投票のパフォーマンスを平均8.5%改善している。
これらの貢献は、デジタル病理学における画像解析を強化するための堅牢な枠組みを提供し、広範囲な評価を通じて厳格に検証される。
プロジェクトページ: https://kimialabmayo.github.io/pathdino-page/ This paper addresses complex challenges in histopathological image analysis through three key contributions. Firstly, it introduces a fast patch selection method, FPS, for whole-slide image (WSI) analysis, significantly reducing computational cost while maintaining accuracy. Secondly, it presents PathDino, a lightweight histopathology feature extractor with a minimal configuration of five Transformer blocks and only 9 million parameters, markedly fewer than alternatives. Thirdly, it introduces a rotation-agnostic representation learning paradigm using self-supervised learning, effectively mitigating overfitting. We also show that our compact model outperforms existing state-of-the-art histopathology-specific vision transformers on 12 diverse datasets, including both internal datasets spanning four sites (breast, liver, skin, and colorectal) and seven public datasets (PANDA, CAMELYON16, BRACS, DigestPath, Kather, PanNuke, and WSSS4LUAD). Notably, even with a training dataset of 6 million histopathology patches from The Cancer Genome Atlas (TCGA), our approach demonstrates an average 8.5% improvement in patch-level majority vote performance. These contributions provide a robust framework for enhancing image analysis in digital pathology, rigorously validated through extensive evaluation. Project Page: https://kimialabmayo.github.io/PathDino-Page/ | 翻訳日:2024-03-14 01:24:52 公開日:2024-03-12 |
# BizBench:ビジネスとファイナンスのための定量的推論ベンチマーク BizBench: A Quantitative Reasoning Benchmark for Business and Finance ( http://arxiv.org/abs/2311.06602v2 ) ライセンス: Link先を確認 | Rik Koncel-Kedziorski, Michael Krumdick, Viet Lai, Varshini Reddy, Charles Lovering, Chris Tanner | (参考訳) ビジネスとファイナンス内の質問に答えるためには、推論、精度、幅広い技術的知識が必要である。
これらの要求により、この領域は大規模言語モデル(LLM)では困難である。
現実的な金融問題に対するモデルの判断能力を評価するベンチマークであるbizbenchを紹介する。
BizBenchは8つの量的推論タスクで構成され、プログラム合成による財務データに対する質問回答(QA)に焦点を当てている。
新たに収集および拡張されたQAデータから、財務的にテーマ化された3つのコード生成タスクを含む。
さらに、金融qaに必要な推論能力を分離する: 中間値を抽出するための金融テキストと表の理解を読み、複雑な解を計算するのに必要な金融概念と公式を理解する。
総じて、これらのタスクはモデルの財務的背景知識、財務文書の解析能力、コードで問題を解決する能力を評価する。
我々は,オープンソースおよび商用LLMの詳細な評価を行い,コード中心モデルと言語中心モデルの振る舞いを比較し,対比する。
現在のパフォーマンスのボトルネックは、LLMのビジネスと財務の理解の制限によるものであり、この分野における定量的推論のための挑戦的なベンチマークの価値を強調しています。 Answering questions within business and finance requires reasoning, precision, and a wide-breadth of technical knowledge. Together, these requirements make this domain difficult for large language models (LLMs). We introduce BizBench, a benchmark for evaluating models' ability to reason about realistic financial problems. BizBench comprises eight quantitative reasoning tasks, focusing on question-answering (QA) over financial data via program synthesis. We include three financially-themed code-generation tasks from newly collected and augmented QA data. Additionally, we isolate the reasoning capabilities required for financial QA: reading comprehension of financial text and tables for extracting intermediate values, and understanding financial concepts and formulas needed to calculate complex solutions. Collectively, these tasks evaluate a model's financial background knowledge, ability to parse financial documents, and capacity to solve problems with code. We conduct an in-depth evaluation of open-source and commercial LLMs, comparing and contrasting the behavior of code-focused and language-focused models. We demonstrate that the current bottleneck in performance is due to LLMs' limited business and financial understanding, highlighting the value of a challenging benchmark for quantitative reasoning within this domain. | 翻訳日:2024-03-14 01:24:25 公開日:2024-03-12 |
# コンフォメーションエネルギー最小化のための段階的最適化学習 Gradual Optimization Learning for Conformational Energy Minimization ( http://arxiv.org/abs/2311.06295v2 ) ライセンス: Link先を確認 | Artem Tsypin, Leonid Ugadiarov, Kuzma Khrabrov, Alexander Telepov, Egor Rumiantsev, Alexey Skrynnik, Aleksandr I. Panov, Dmitry Vetrov, Elena Tutubalina and Artur Kadurin | (参考訳) 分子コンフォメーション最適化は、コンピュータによる創薬と材料設計に不可欠である。
従来のエネルギー最小化技術は、物理シミュレータ(オークル)によって計算された分子力を反勾配として利用する反復最適化手法に依存している。
しかし、これは物理シミュレータと多くのインタラクションを必要とする計算コストの高いアプローチである。
この手順を加速する1つの方法は、物理シミュレータをニューラルネットワークに置き換えることである。
分子コンフォメーションエネルギー予測のためのニューラルネットワークの最近の進歩にもかかわらず、そのようなモデルは分布シフトを起こしやすいため、不正確なエネルギー最小化につながる。
トレーニングデータとして最適化トラジェクトリを提供することにより、ニューラルネットワークによるエネルギー最小化の質を向上させることができる。
それでも、物理シミュレータの最適化品質に合わせるために、追加のコンフォーメーションを5 \times 10^5$程度必要です。
本研究では,ニューラルネットワークを用いたエネルギー最小化のためのGradual Optimization Learning Framework(GOLF)を提案する。
このフレームワークは効率的なデータ収集スキームと外部オプティマイザで構成されている。
外部オプティマイザは、エネルギー予測モデルからの勾配を利用して最適化軌道を生成し、データ収集スキームは物理シミュレータで処理する追加のトレーニングデータを選択する。
その結果、ゴルフで訓練されたニューラルネットワークは、50ドル以下の追加データを用いて、様々な薬物様分子のベンチマークで、oracleと同等の性能を発揮することがわかった。 Molecular conformation optimization is crucial to computer-aided drug discovery and materials design. Traditional energy minimization techniques rely on iterative optimization methods that use molecular forces calculated by a physical simulator (oracle) as anti-gradients. However, this is a computationally expensive approach that requires many interactions with a physical simulator. One way to accelerate this procedure is to replace the physical simulator with a neural network. Despite recent progress in neural networks for molecular conformation energy prediction, such models are prone to distribution shift, leading to inaccurate energy minimization. We find that the quality of energy minimization with neural networks can be improved by providing optimization trajectories as additional training data. Still, it takes around $5 \times 10^5$ additional conformations to match the physical simulator's optimization quality. In this work, we present the Gradual Optimization Learning Framework (GOLF) for energy minimization with neural networks that significantly reduces the required additional data. The framework consists of an efficient data-collecting scheme and an external optimizer. The external optimizer utilizes gradients from the energy prediction model to generate optimization trajectories, and the data-collecting scheme selects additional training data to be processed by the physical simulator. Our results demonstrate that the neural network trained with GOLF performs on par with the oracle on a benchmark of diverse drug-like molecules using $50$x less additional data. | 翻訳日:2024-03-14 01:24:06 公開日:2024-03-12 |
# 工学的環境による非平衡ボース・アインシュタイン凝縮の制御 Controlling Nonequilibrium Bose-Einstein Condensation with Engineered Environments ( http://arxiv.org/abs/2311.02170v3 ) ライセンス: Link先を確認 | Francesco Petiziol and Andr\'e Eckardt | (参考訳) 熱平衡のため、ボソニック量子系は基底状態からボース凝縮することができ、いわゆるボース選択シナリオにおいて、励起状態や複数の状態のマクロな占有を特徴とする。
以前の研究では、駆動散逸理想のボース気体凝縮状態を予測する理論が開発された。
特定の単粒子状態において、所望の凝縮分数を持つ対象状態が与えられると、利用可能な制御パラメータをチューニングしてどのようにこの構成を達成することができるか?
どのタイプの実験で柔軟な凝縮制御が可能か?
一方,線形計画法に基づく逆問題解法を開発することにより,これらの問題を解く。
一方,超伝導回路で実験的に実装可能なボース「凝縮器」は,共振器の鎖の固有状態へのボース凝縮を人工量子バスとの結合により駆動し,補助的な2レベルシステムによって実現される。
さらに, 増幅, 熱流量制御, 高構造量子浴の設計に応用可能な, 異なるボース凝縮構成間の遷移点の工学的考察を行った。 Out of thermal equilibrium, bosonic quantum systems can Bose-condense away from the ground state, featuring a macroscopic occupation of an excited state or even of multiple states in the so-called Bose-selection scenario. In previous work, a theory was developed that predicts, in which states a driven-dissipative ideal Bose gas condenses. Here, we address the inverse problem: Given a target state with desired condensate fractions in certain single-particle states, how can this configuration be achieved by tuning available control parameters? Which type of experimental setup allows for flexible condensation control? We solve these problems, on the one hand, by developing a theory to solve the inverse problem based on linear programming methods. On the other, we propose a Bose `condenser', experimentally implementable in a superconducting circuit, where targeted Bose condensation into eigenstates of a chain of resonators is driven through the coupling to artificial quantum baths, realized via auxiliary two-level systems. We further discuss the engineering of transition points between different Bose condensation configurations, which may find application for amplification, heat-flow control, and the design of highly-structured quantum baths. | 翻訳日:2024-03-14 01:22:50 公開日:2024-03-12 |
# パーソナライゼーションのための安全な選好学習手法と自動運転車への応用 A Safe Preference Learning Approach for Personalization with Applications to Autonomous Vehicles ( http://arxiv.org/abs/2311.02099v3 ) ライセンス: Link先を確認 | Ruya Karagulle and Nikos Arechiga and Andrew Best and Jonathan DeCastro and Necmiye Ozay | (参考訳) この研究は、自動運転車への適用とともに、所定の仕様に準拠することを保証する選好学習手法を導入する。
本手法では,トラフィックルールを記述する信号時相論理(stl)式を学習フレームワークに優先順序付けする。
パラメトリック重み付き信号時相論理(pwstl)を活用し,ペアワイズ比較に基づく安全性保証型選好学習の問題を定式化し,この課題を解決するためのアプローチを提案する。
提案手法は, 与えられたPWSTL式を重み付けし, これらの重み付けにより, 優先信号が非優先値よりも重み付けされた量的満足度測定値であることを示す。
提案手法により得られた重みの有意な評価は,重み付きSTL式に導かれる。
本手法は,停止標識と横断歩道を含む2つの運転シナリオをシミュレートし,被験者による被験者実験を用いて実演する。
提案手法は,既存の選好学習手法と比較して,嗜好を捉え,安全性を考慮すれば特に優れる。 This work introduces a preference learning method that ensures adherence to given specifications, with an application to autonomous vehicles. Our approach incorporates the priority ordering of Signal Temporal Logic (STL) formulas describing traffic rules into a learning framework. By leveraging Parametric Weighted Signal Temporal Logic (PWSTL), we formulate the problem of safety-guaranteed preference learning based on pairwise comparisons and propose an approach to solve this learning problem. Our approach finds a feasible valuation for the weights of the given PWSTL formula such that, with these weights, preferred signals have weighted quantitative satisfaction measures greater than their non-preferred counterparts. The feasible valuation of weights given by our approach leads to a weighted STL formula that can be used in correct-and-custom-by-construction controller synthesis. We demonstrate the performance of our method with a pilot human subject study in two different simulated driving scenarios involving a stop sign and a pedestrian crossing. Our approach yields competitive results compared to existing preference learning methods in terms of capturing preferences and notably outperforms them when safety is considered. | 翻訳日:2024-03-14 01:22:28 公開日:2024-03-12 |
# SparQ注意:バンド幅効率のLLM推論 SparQ Attention: Bandwidth-Efficient LLM Inference ( http://arxiv.org/abs/2312.04985v3 ) ライセンス: Link先を確認 | Luka Ribar, Ivan Chelombiev, Luke Hudlass-Galley, Charlie Blake, Carlo Luschi, Douglas Orr | (参考訳) 大規模言語モデル(LLM)推論の計算困難さは、広く展開する上で重要な障害である。
長い入力シーケンスをサポートし、大きなバッチで処理する多くのアプリケーションの必要性は、通常、データ転送によってトークン生成のボトルネックを引き起こす。
そこで本研究では,メモリ帯域幅をメモリ層内で効率的に活用し,キャッシュ履歴を選択的にフェッチすることでllmのスループットを向上させる手法であるsparq attentionを提案する。
提案手法は,プレトレーニング設定や追加の微調整を必要とせずに,市販のLCMに直接適用することができる。
Llama 2 と Mistral と Pythia を広範囲の下流タスクで評価することにより,SparQ Attention は注意データ転送の 8 倍の削減を実現していることを示す。 The computational difficulties of large language model (LLM) inference remain a significant obstacle to their widespread deployment. The need for many applications to support long input sequences and process them in large batches typically causes token-generation to be bottlenecked by data-transfer. For this reason, we introduce SparQ Attention, a technique for increasing the inference throughput of LLMs by utilising memory bandwidth more efficiently within the attention layers, through selective fetching of the cached history. Our proposed technique can be applied directly to off-the-shelf LLMs during inference, without requiring any modification to the pre-training setup or additional fine-tuning. We show that SparQ Attention brings up to 8x savings in attention data-transfers without substantial drops in accuracy, by evaluating Llama 2, Mistral and Pythia models on a wide range of downstream tasks. | 翻訳日:2024-03-14 01:18:40 公開日:2024-03-12 |
# 量子ドットアレイにおけるホールフライング量子ビット Hole Flying Qubits in Quantum Dot Arrays ( http://arxiv.org/abs/2312.04631v3 ) ライセンス: Link先を確認 | D. Fern\'andez-Fern\'andez, Yue Ban, Gloria Platero | (参考訳) 量子情報転送は、あらゆる潜在的プラットフォームとアーキテクチャにおけるスケーラブルな量子コンピューティングの基盤である。
ホールスピン量子ビットは、固有のスピン軌道相互作用(SOI)により、量子ゲートの実装に基本となる高速量子演算を約束する。
しかし、量子転送プロトコルにおけるSOIの影響は未解決のままである。
本稿では,穴スピン状態の長距離移動や,半導体量子ドットアレイ内の絡み合ったペアの量子分布など,断熱プロトコルへのショートカットを用いてホールフライング量子ビットを調べる。
我々は、電場操作がSOIの動的制御を可能にし、転送中に量子ゲートの実装を同時に可能とし、量子アルゴリズムを著しく高速化することができることを示した。
転送と平行に量子ゲートを実行する能力を利用することで、スピン状態に焦点を合わせ保存するために動的デカップリング方式を用いて、転送忠実度を高める。 Quantum information transfer is fundamental for scalable quantum computing in any potential platform and architecture. Hole spin qubits, owing to their intrinsic spin-orbit interaction (SOI), promise fast quantum operations which are fundamental for the implementation of quantum gates. Yet, the influence of SOI in quantum transfer protocols remains an open question. Here, we investigate hole flying qubits using shortcuts to adiabaticity protocols, i.e., the long-range transfer of hole spin states and the quantum distribution of entangled pairs in semiconductor quantum dot arrays. We show that electric field manipulation allows dynamical control of the SOI, enabling simultaneously the implementation of quantum gates during the transfer, with the potential to significantly accelerate quantum algorithms. By harnessing the ability to perform quantum gates in parallel with the transfer, we employ dynamical decoupling schemes to focus and preserve the spin state, leading to higher transfer fidelity. | 翻訳日:2024-03-14 01:18:24 公開日:2024-03-12 |
# 拡張木上の量子ダーウィン主義-エンコード遷移 Quantum Darwinism-encoding transitions on expanding trees ( http://arxiv.org/abs/2312.04284v2 ) ライセンス: Link先を確認 | Beno\^it Fert\'e, Xiangyu Cao | (参考訳) 量子ダーウィン主義 (Quantum Darwinism, QD) は、古典的客観性は、顕微鏡的自由度に関する情報を多体環境の複数の分節に伝達することから生じると提唱している。
このような情報の放送は、強い相互作用の下での揺らぎとは対照的である。
近年、ブロードキャストとスクランブルの間を補間する量子力学は、情報伝達の鋭い位相遷移を示すことが示されている。
ここでは,一般の非クリフォード設定における系統的研究を開始する。
まず,情報伝達を等長法としてモデル化し,入力quditが基準と絡み合う一般的な理論設定において,環境分数を計測した後の参照密度行列の分布を示す遷移のプローブを提案する。
このプローブは、分数とインジェクションされた情報の間の古典的相関を測定する。
次に、このフレームワークを拡大木上のテンソルネットワークで定義された2つの類似モデルに適用し、スピンハーフの$z$成分をブロードキャストしようとするノイズのある装置をモデル化する。
我々は密度行列分布の正確な再帰関係を導出し、解析的および数値的に解析する。
その結果、QD、中間および符号化の3つの相と、2つの連続遷移が見つかる。
エンコーディング・中間遷移は、基準と小さな環境分数の非ゼロ相関の成立を記述しており、中間空間における非ガウス的および対称性の破れとなる分数の総スピン-z$の「粗い粒度」測度によって探究することができる。
QD-中間遷移は相関が完璧かどうかに関するものである。
微細な測度によって探索されなければならず、レプリカ空間のより微妙な対称性の破れに対応する。 Quantum Darwinism (QD) proposes that classical objectivity emerges from the broadcast of information about a microscopic degree of freedom into multiple fractions of a many-body environment. Such a broadcast of information is in sharp contrast with its scrambling under strong interaction. It was recently shown that quantum dynamics interpolating between broadcasting and scrambling may display sharp phase transitions of information propagation, named QD-encoding transitions. Here, we initiate their systematic study in generic, non-Clifford settings. First, in a general theoretical setup where the information propagation is modeled as an isometry, whose input qudit is entangled with a reference, we propose a probe of the transitions -- the distribution of the density matrix of the reference after measuring an environment fraction. This probe measures the classical correlation between the fraction and the injected information. We then apply the framework to two similar models defined by a tensor network on an expanding tree, modeling a noisy apparatus that attempts to broadcast the $z$ component of a spin-half. We derive an exact recursion relation of the density matrix distribution, which we analyze analytically and numerically. As a result we find three phases: QD, intermediate and encoding, and two continuous transitions. The encoding-intermediate transition describes the establishment of nonzero correlation between the reference and a small environment fraction, and can be probed by a ``coarse-grained'' measure of the total spin-$z$ of the fraction, which becomes non-Gaussian and symmetry breaking in the intermediate space. The QD-intermediate transition is about whether the correlation is perfect. It must be probed by fined-grained measures, and corresponds to a more subtle symmetry breaking in the replica space. | 翻訳日:2024-03-14 01:18:09 公開日:2024-03-12 |
# Lite-Mind: 効率的でロバストな脳表現ネットワークを目指して Lite-Mind: Towards Efficient and Robust Brain Representation Network ( http://arxiv.org/abs/2312.03781v2 ) ライセンス: Link先を確認 | Zixuan Gong, Qi Zhang, Duoqian Miao, Guangyin Bao, Liang Hu | (参考訳) 脳からの視覚情報、特に非侵襲的fMRI法による復号化の研究が急速に進んでいる。
この課題は、fMRI信号の限られたデータ可用性と低信号-雑音比から生じ、fMRI-画像検索の低精度タスクにつながる。
最先端のMindEyeは、CLIPの視覚変換器の最終的な隠蔽層にfMRI埋め込みを合わせるために、高いパラメータ数オーダーの深いMLP、すなわち被写体毎の996万のMLPバックボーンを活用することにより、fMRIから画像への検索性能を著しく向上させる。
しかし、同一の実験的な設定であっても、被験者間で有意な個人差が存在し、被験者固有のモデルの訓練を行う。
重要なパラメータは、fMRIデコーディングを実用機器、特に各被験者に特定のモデルを必要とする場合に、重大な課題となる。
そこで本研究では,FMRIボクセルをCLIPの微細な情報に効率よく整列する,離散フーリエ変換に基づく軽量で効率的で多用途な脳表現ネットワークLite-Mindを提案する。
実験の結果,Lite-Mind は対象1の NSD データセットに対して,94.3% fMRI-to-image の精度を達成でき,パラメータは MindEye よりも98.7% 少ないことがわかった。
Lite-Mindはまた、より小さな脳データセットに移行できることが証明されており、GODデータセット上でゼロショット分類のための新しい最先端技術を確立している。
コードはhttps://github.com/gongzix/lite-mindで入手できる。 Research in decoding visual information from the brain, particularly through the non-invasive fMRI method, is rapidly progressing. The challenge arises from the limited data availability and the low signal-to-noise ratio of fMRI signals, leading to a low-precision task of fMRI-to-image retrieval. State-of-the-art MindEye remarkably improves fMRI-to-image retrieval performance by leveraging a deep MLP with a high parameter count orders of magnitude, i.e., a 996M MLP Backbone per subject, to align fMRI embeddings to the final hidden layer of CLIP's vision transformer. However, significant individual variations exist among subjects, even within identical experimental setups, mandating the training of subject-specific models. The substantial parameters pose significant challenges in deploying fMRI decoding on practical devices, especially with the necessitating of specific models for each subject. To this end, we propose Lite-Mind, a lightweight, efficient, and versatile brain representation network based on discrete Fourier transform, that efficiently aligns fMRI voxels to fine-grained information of CLIP. Our experiments demonstrate that Lite-Mind achieves an impressive 94.3% fMRI-to-image retrieval accuracy on the NSD dataset for Subject 1, with 98.7% fewer parameters than MindEye. Lite-Mind is also proven to be able to be migrated to smaller brain datasets and establishes a new state-of-the-art for zero-shot classification on the GOD dataset. The code is available at https://github.com/gongzix/Lite-Mind. | 翻訳日:2024-03-14 01:17:35 公開日:2024-03-12 |
# 次のトークン予測としてのオブジェクト認識 Object Recognition as Next Token Prediction ( http://arxiv.org/abs/2312.02142v3 ) ライセンス: Link先を確認 | Kaiyu Yue, Bor-Chun Chen, Jonas Geiping, Hengduo Li, Tom Goldstein, Ser-Nam Lim | (参考訳) 本稿では,次のトークン予測として物体認識を行う手法を提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
この予測処理を自動回帰で行うために,デコーダの非因果注意マスクをカスタマイズし,異なるラベルから独立したトークンをモデリングし,画像トークンをプレフィックスとして扱うという2つの重要な特徴を取り入れた。
このマスキング機構は、推論中に複数のラベルのトークンを並列にサンプリングし、その確率によって生成されたラベルをランク付けする効率的な方法であるワンショットサンプリングを誘導する。
さらに効率を高めるために,事前学習した言語モデルの中間ブロックを単に破棄して,コンパクトデコーダを構築するための簡易な方法を提案する。
このアプローチでは、デコーダが完全なモデルのパフォーマンスにマッチし、より効率的である。
コードはhttps://github.com/kaiyuyue/nxtpで入手できる。 We present an approach to pose object recognition as next token prediction. The idea is to apply a language decoder that auto-regressively predicts the text tokens from image embeddings to form labels. To ground this prediction process in auto-regression, we customize a non-causal attention mask for the decoder, incorporating two key features: modeling tokens from different labels to be independent, and treating image tokens as a prefix. This masking mechanism inspires an efficient method - one-shot sampling - to simultaneously sample tokens of multiple labels in parallel and rank generated labels by their probabilities during inference. To further enhance the efficiency, we propose a simple strategy to construct a compact decoder by simply discarding the intermediate blocks of a pretrained language model. This approach yields a decoder that matches the full model's performance while being notably more efficient. The code is available at https://github.com/kaiyuyue/nxtp | 翻訳日:2024-03-14 01:17:02 公開日:2024-03-12 |
# ドメイン特化コード生成における大規模言語モデルの有効性について On the Effectiveness of Large Language Models in Domain-Specific Code Generation ( http://arxiv.org/abs/2312.01639v2 ) ライセンス: Link先を確認 | Meng Chen, Hongyu Zhang, Chengcheng Wan, Zhao Wei, Yong Xu, Juhong Wang, Xiaodong Gu | (参考訳) ChatGPTのような大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。
大きな成果にもかかわらず、彼らは広大なオープンドメイン知識を得るために巨大なトレーニングデータに頼る。
さらにその評価は、主にプログラミングコンテストで構成されるhumanevalのようなオープンドメインベンチマークを中心に展開されている。
したがって、特定の領域(例えば、ウェブ、ゲーム、数学)に関連する複雑さと課題を完全に特徴づけるのは困難である。
本稿では,ドメイン固有コード生成におけるLLMの詳細な研究を行う。
その結果, LLMは, ドメイン固有ライブラリの利用能力に限界があるため, ドメイン固有コードの生成において準最適性能を示すことがわかった。
さらに、API知識をプロンプトとして組み込むことで、LLMがよりプロフェッショナルなコードを生成することができることを観察する。
これらの知見に基づいて,コード生成プロセスにAPI知識を効率的に組み込む方法について検討する。
ドメイン知識、すなわち外部知識の問い合わせ、思考の連鎖、思考の連鎖という3つの戦略を実験する。
これらの戦略をdomcoderと呼ばれる新しいコード生成アプローチと呼びます。
実験の結果,DomCoderのすべての戦略が,特定の設定下でのドメイン固有コード生成の有効性の向上につながることが示された。
また,今後の作業の可能性にも基づいて,さらなる改善の余地が十分にあることも示唆した。 Large language models (LLMs) such as ChatGPT have shown remarkable capabilities in code generation. Despite the great achievement, they rely on enormous training data to acquire a broad spectrum of open-domain knowledge. Besides, their evaluation revolves around open-domain benchmarks like HumanEval, which primarily consist of programming contests. Therefore, it is hard to fully characterize the intricacies and challenges associated with particular domains (e.g., web, game, and math). In this paper, we conduct an in-depth study of the LLMs in domain-specific code generation. Our results demonstrate that LLMs exhibit sub-optimal performance in generating domain-specific code, due to their limited proficiency in utilizing domain-specific libraries. We further observe that incorporating API knowledge as prompts can empower LLMs to generate more professional code. Based on these findings, we further investigate how to efficiently incorporate API knowledge into the code generation process. We experiment with three strategies for incorporating domain knowledge, namely, external knowledge inquirer, chain-of-thought prompting, and chain-of-thought fine-tuning. We refer to these strategies as a new code generation approach called DomCoder. Experimental results show that all strategies of DomCoder lead to improvement in the effectiveness of domain-specific code generation under certain settings. The results also show that there is still ample room for further improvement, based on which we suggest possible future works. | 翻訳日:2024-03-14 01:16:45 公開日:2024-03-12 |
# 視覚言語モデルによる高効率部分関連映像検索のためのスーパーイメージ学習 Vision-Language Models Learn Super Images for Efficient Partially Relevant Video Retrieval ( http://arxiv.org/abs/2312.00414v2 ) ライセンス: Link先を確認 | Taichi Nishimura and Shota Nakada and Masayoshi Kondo | (参考訳) 本稿では,入力テキストクエリに関連する少なくとも1つのモーメントを含む長大映像を検索することを目的とした,部分関連ビデオ検索のための効率的かつ高性能な手法を提案する。
この課題は、視覚的なバックボーンを使って高密度フレームをエンコードすることにある。
これにより、フレームの増大を扱うモデルが必要となり、長いビデオの計算コストが大幅に増大する。
コストを軽減するために、従来の研究では軽量な視覚バックボーンを使用しており、その限られた能力のため、最適以下の検索性能が得られる。
しかし、低効率のため、バックボーンを高性能な大規模視覚言語モデル(VLM)に置き換えることは望ましくない。
このジレンマに対処するために、高密度フレームの代わりに、ビデオフレームを$N \times N$ gridレイアウトで並べ替えることで生成されるスーパーイメージに焦点を当てる。
これにより、視覚符号化の回数を$\frac{1}{N^2}$に減らし、大きなVLMの低効率を緩和する。
このアイデアに基づいて、私たちは2つの貢献をします。
まず,vlmがゼロショット設定でスーパーイメージに一般化するかどうかを検討する。
そこで本研究では,入力クエリに関連する部分モーメントに対応するクエリ・アテンティブ・スーパーイメージ検索(qasir)という手法を提案する。
ゼロショットQASIRは、(1)VLMをスーパーイメージに一般化し、(2)グリッドサイズが$N$、画像解像度、およびVLMサイズがパフォーマンスと計算コストの間の重要なトレードオフパラメータである、という2つの発見をもたらす。
第2に,高効率モデルと低効率モデルを組み合わせた微調整ハイブリッドQASIRを導入し,性能と計算コストのバランスをとる。
この結果から,(1)微調整QASIRはスーパーイメージを効果的に学習するためにVLMを強化し,(2)ハイブリッドQASIRは計算コストを低減しつつ,大規模VLMの性能低下を最小限に抑えていることがわかった。 In this paper, we propose an efficient and high-performance method for partially relevant video retrieval, which aims to retrieve long videos that contain at least one moment relevant to the input text query. The challenge lies in encoding dense frames using visual backbones. This requires models to handle the increased frames, resulting in significant computation costs for long videos. To mitigate the costs, previous studies use lightweight visual backbones, yielding sub-optimal retrieval performance due to their limited capabilities. However, it is undesirable to simply replace the backbones with high-performance large vision-and-language models (VLMs) due to their low efficiency. To address this dilemma, instead of dense frames, we focus on super images, which are created by rearranging the video frames in an $N \times N$ grid layout. This reduces the number of visual encodings to $\frac{1}{N^2}$ and mitigates the low efficiency of large VLMs. Based on this idea, we make two contributions. First, we explore whether VLMs generalize to super images in a zero-shot setting. To this end, we propose a method called query-attentive super image retrieval (QASIR), which attends to partial moments relevant to the input query. The zero-shot QASIR yields two discoveries: (1) it enables VLMs to generalize to super images and (2) the grid size $N$, image resolution, and VLM size are key trade-off parameters between performance and computation costs. Second, we introduce fine-tuning and hybrid QASIR that combines high- and low-efficiency models to strike a balance between performance and computation costs. This reveals two findings: (1) the fine-tuning QASIR enhances VLMs to learn super images effectively, and (2) the hybrid QASIR minimizes the performance drop of large VLMs while reducing the computation costs. | 翻訳日:2024-03-14 01:16:23 公開日:2024-03-12 |
# OPERA:マルチモーダル大言語モデルにおける過度な罰とふりかえりによる幻覚の緩和 OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation ( http://arxiv.org/abs/2311.17911v3 ) ライセンス: Link先を確認 | Qidong Huang, Xiaoyi Dong, Pan Zhang, Bin Wang, Conghui He, Jiaqi Wang, Dahua Lin, Weiming Zhang, Nenghai Yu | (参考訳) マルチモーダルな大規模言語モデル(MLLM)の広汎な挑戦として提起された幻覚は、正確な判断を要求する現実世界の使用を著しく妨げている。
既存の方法は、特定の設計データによるトレーニングや、他のソースからの外部知識による推論によってこの問題を軽減する。
本稿では,過剰な信頼感と遡及的配置戦略を基礎とした新たなmllm復号法であるoperaを,追加データや知識,訓練を伴わずに幻覚問題を緩和するための,ほぼ無償のランチとして提供する。
我々のアプローチは、ほとんどの幻覚は自己注意行列に現れる知識集約パターンと密接に結びついている、すなわちMLLMはいくつかの要約トークンに焦点をあてて新しいトークンを生成する傾向がある、という興味深い観察から始まります。
このような部分的な過剰な傾きは、画像トークンを無視し、幻覚を伴う画像内容を記述する。
この観察に基づいてoperaは、ビームサーチデコード中にモデルロジットにペナルティ項を導入し、過剰な信頼の問題を軽減するとともに、事前に生成されたトークンにおける要約トークンの存在を振り返り、必要に応じてトークン選択を再配置するロールバック戦略を導入する。
大規模な実験により、OPERAは様々なMLLMとメトリクスに対して幻覚軽減性能を示し、その効果と汎用性を証明した。
私たちのコードは、https://github.com/shikiw/OPERA.comで利用可能です。 Hallucination, posed as a pervasive challenge of multi-modal large language models (MLLMs), has significantly impeded their real-world usage that demands precise judgment. Existing methods mitigate this issue with either training with specific designed data or inferencing with external knowledge from other sources, incurring inevitable additional costs. In this paper, we present OPERA, a novel MLLM decoding method grounded in an Over-trust Penalty and a Retrospection-Allocation strategy, serving as a nearly free lunch to alleviate the hallucination issue without additional data, knowledge, or training. Our approach begins with an interesting observation that, most hallucinations are closely tied to the knowledge aggregation patterns manifested in the self-attention matrix, i.e., MLLMs tend to generate new tokens by focusing on a few summary tokens, but not all the previous tokens. Such partial over-trust inclination results in the neglecting of image tokens and describes the image content with hallucination. Based on the observation, OPERA introduces a penalty term on the model logits during the beam-search decoding to mitigate the over-trust issue, along with a rollback strategy that retrospects the presence of summary tokens in the previously generated tokens, and re-allocate the token selection if necessary. With extensive experiments, OPERA shows significant hallucination-mitigating performance on different MLLMs and metrics, proving its effectiveness and generality. Our code is available at: https://github.com/shikiw/OPERA. | 翻訳日:2024-03-14 01:15:50 公開日:2024-03-12 |
# MM-SafetyBench:マルチモーダル大言語モデルの安全性評価ベンチマーク MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models ( http://arxiv.org/abs/2311.17600v2 ) ライセンス: Link先を確認 | Xin Liu, Yichen Zhu, Jindong Gu, Yunshi Lan, Chao Yang, Yu Qiao | (参考訳) LLM(Large Language Models)を取り巻くセキュリティの懸念が広く検討されているが、MLLM(Multimodal Large Language Models)の安全性はいまだ検討されていない。
本稿では,Multimodal Large Language Models (MLLM) が,テキストクエリ自体が悪意のあるものであるかのように,クエリ関連画像によって容易に妥協できることを示す。
そこで本稿では,MLLMの安全性評価を行うための総合的なフレームワークであるMM-SafetyBenchを紹介する。
13のシナリオからなるデータセットをコンパイルした結果,合計5,040のテキストイメージペアが得られた。
12の最先端モデルを対象に分析を行った結果,mllmは安全対策を講じた場合でも,侵入の影響を受けやすいことが明らかとなった。
そこで本研究では,これらの攻撃に対するMLLMのレジリエンスを高めるための,単純かつ効果的なプロンプト戦略を提案する。
我々の研究は、オープンソースmllmの潜在的な悪用に対する安全対策を強化し、強化するための協力的な取り組みの必要性を強調している。
リソースは \href{this https URL}{https://github.com/isXinLiu/MM-SafetyBench} で入手できる。 The security concerns surrounding Large Language Models (LLMs) have been extensively explored, yet the safety of Multimodal Large Language Models (MLLMs) remains understudied. In this paper, we observe that Multimodal Large Language Models (MLLMs) can be easily compromised by query-relevant images, as if the text query itself were malicious. To address this, we introduce MM-SafetyBench, a comprehensive framework designed for conducting safety-critical evaluations of MLLMs against such image-based manipulations. We have compiled a dataset comprising 13 scenarios, resulting in a total of 5,040 text-image pairs. Our analysis across 12 state-of-the-art models reveals that MLLMs are susceptible to breaches instigated by our approach, even when the equipped LLMs have been safety-aligned. In response, we propose a straightforward yet effective prompting strategy to enhance the resilience of MLLMs against these types of attacks. Our work underscores the need for a concerted effort to strengthen and enhance the safety measures of open-source MLLMs against potential malicious exploits. The resource is available at \href{this https URL}{https://github.com/isXinLiu/MM-SafetyBench}. | 翻訳日:2024-03-14 01:15:22 公開日:2024-03-12 |
# 凍結マルチモーダル基礎モデルによるソースフリードメイン適応 Source-Free Domain Adaptation with Frozen Multimodal Foundation Model ( http://arxiv.org/abs/2311.16510v2 ) ライセンス: Link先を確認 | Song Tang, Wenxin Su, Mao Ye, and Xiatian Zhu | (参考訳) Source-Free Domain Adaptation (SFDA)は、未ラベルのターゲットトレーニングデータと教師付きソースドメインで事前トレーニングされたソースモデルのみにアクセスして、ターゲットドメインにソースモデルを適用することを目的としている。
疑似ラベリングおよび/または補助的監視に基づく従来の手法は、必然的にエラーを起こしやすい。
この制限を緩和するために、この研究では、不均一な知識を持ちながらリッチで、市販のヴィジュアル言語(ViL)マルチモーダルモデル(例えばCLIP)のポテンシャルを初めて探求する。
ゼロショット方式でターゲット領域に直接ViLモデルを適用することは、この特定のタスクに特化せず、概ね汎用的であるため、不満足である。
タスクを具体化するために, 蒸留マルチモーダル基礎モデル(difo)を応用した新しい蒸留法を提案する。
具体的には、DIFOは順応中に2つのステップを交互に切り替える。
一 ターゲットモデルとの相互情報を素早い学習方法で最大化することにより、ViLモデルをカスタマイズすること。
(II)このカスタマイズされたViLモデルの知識をターゲットモデルに拡張する。
より微細で信頼性の高い蒸留には、さらに2つの効果的な正則化項、すなわち最も類似したカテゴリーの奨励と予測整合を導入する。
大規模な実験により、DIFOは最先端の代替品よりも著しく優れていることが示された。
コードはここです Source-Free Domain Adaptation (SFDA) aims to adapt a source model for a target domain, with only access to unlabeled target training data and the source model pre-trained on a supervised source domain. Relying on pseudo labeling and/or auxiliary supervision, conventional methods are inevitably error-prone. To mitigate this limitation, in this work we for the first time explore the potentials of off-the-shelf vision-language (ViL) multimodal models (e.g.,CLIP) with rich whilst heterogeneous knowledge. We find that directly applying the ViL model to the target domain in a zero-shot fashion is unsatisfactory, as it is not specialized for this particular task but largely generic. To make it task specific, we propose a novel Distilling multimodal Foundation model(DIFO)approach. Specifically, DIFO alternates between two steps during adaptation: (i) Customizing the ViL model by maximizing the mutual information with the target model in a prompt learning manner, (ii) Distilling the knowledge of this customized ViL model to the target model. For more fine-grained and reliable distillation, we further introduce two effective regularization terms, namely most-likely category encouragement and predictive consistency. Extensive experiments show that DIFO significantly outperforms the state-of-the-art alternatives. Code is here | 翻訳日:2024-03-14 01:15:00 公開日:2024-03-12 |
# wsicaption: ギガピクセル全スライダー画像における病理報告の複数インスタンス生成 WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images ( http://arxiv.org/abs/2311.16480v2 ) ライセンス: Link先を確認 | Pingyi Chen, Honglin Li, Chenglu Zhu, Sunyi Zheng, Zhongyi Shui, Lin Yang | (参考訳) 全スライド画像は、癌の診断と治療のためのデジタル病理の基礎である。
病理報告を書くことは、経験の浅い病理学者にとって面倒で誤りやすい。
作業負荷を低減し, 臨床自動化を改善するため, スライド画像全体の病態レポートの作成方法について検討した。
データエンドでは、最大のWSIテキストデータセット(TCGA-PathoText)をキュレートしました。
具体的には,TCGAにおける診断スライドの認識とクリーニングにより,約10000の高品質なWSIテキストペアを視覚言語モデルで収集した。
モデル終端では、ギガピクセルWSIに対する病理報告を生成できる多重インスタンス生成モデル(MI-Gen)を提案する。
TCGA-PathoTextの最大のサブセットにモデルをベンチマークする。
実験結果から,複数の臨床所見を含む病理所見が得られた。
さらに、WSIテキスト予測は、視覚言語による事前学習のアプローチと見なすことができ、がんのグレーディングや表現型化といった下流診断タスクにモデルを転送することができる。
BRCAサブタイピングにおいて,病的報告からの単純な意味抽出が,パラメータや微調整を伴わずに最高の性能(F1スコアの0.838)を達成できることが観察された。
収集したデータセットと関連するコードは利用可能です。 Whole slide images are the foundation of digital pathology for the diagnosis and treatment of carcinomas. Writing pathology reports is laborious and error-prone for inexperienced pathologists. To reduce the workload and improve clinical automation, we investigate how to generate pathology reports given whole slide images. On the data end, we curated the largest WSI-text dataset (TCGA-PathoText). In specific, we collected nearly 10000 high-quality WSI-text pairs for visual-language models by recognizing and cleaning pathology reports which narrate diagnostic slides in TCGA. On the model end, we propose the multiple instance generative model (MI-Gen) which can produce pathology reports for gigapixel WSIs. We benchmark our model on the largest subset of TCGA-PathoText. Experimental results show our model can generate pathology reports which contain multiple clinical clues. Furthermore, WSI-text prediction can be seen as an approach of visual-language pre-training, which enables our model to be transferred to downstream diagnostic tasks like carcinoma grading and phenotyping. We observe that simple semantic extraction from the pathology reports can achieve the best performance (0.838 of F1 score) on BRCA subtyping without adding extra parameters or tricky fine-tuning. Our collected dataset and related code are available. | 翻訳日:2024-03-14 01:14:38 公開日:2024-03-12 |
# GPT4Vis: GPT-4はゼロショット視覚認識に何ができるか? GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? ( http://arxiv.org/abs/2311.15732v2 ) ライセンス: Link先を確認 | Wenhao Wu, Huanjin Yao, Mengxi Zhang, Yuxin Song, Wanli Ouyang, Jingdong Wang | (参考訳) 本論文は,新しい手法を提示しない。
代わりに、ジェネレーティブ・人工知能(GenAI:Generative Artificial Intelligence)の最新の進歩、つまり視覚的理解のための GPT-4 の利用に照らして、必要不可欠なベースラインへと発展する。
本研究は,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てた。
次に,多様な視覚コンテンツを直接認識するgpt-4の視覚能力を評価する。
我々は16のベンチマークデータセットを用いて,GPT-4の性能を画像,ビデオ,点群で体系的に評価し,トップ1とトップ5の精度を測定した。
その結果,GPT-4は言語記述が豊富に強化され,ゼロショット認識が大幅に向上し,全データセットの平均トップ1精度が7%向上した。
gpt-4は視覚認識に優れており、openai-clipのvit-lよりも優れており、特にビデオデータセットhmdb-51とutf-101ではeva-clipのvit-eに匹敵する。
この研究が今後の研究に貴重なデータポイントと経験をもたらすことを願っています。
コードはhttps://github.com/whwu95/gpt4visでリリースします。 This paper does not present a novel method. Instead, it delves into an essential, yet must-know baseline in light of the latest advancements in Generative Artificial Intelligence (GenAI): the utilization of GPT-4 for visual understanding. Our study centers on the evaluation of GPT-4's linguistic and visual capabilities in zero-shot visual recognition tasks: Firstly, we explore the potential of its generated rich textual descriptions across various categories to enhance recognition performance without any training. Secondly, we evaluate GPT-4's visual proficiency in directly recognizing diverse visual content. We conducted extensive experiments to systematically evaluate GPT-4's performance across images, videos, and point clouds, using 16 benchmark datasets to measure top-1 and top-5 accuracy. Our findings show that GPT-4, enhanced with rich linguistic descriptions, significantly improves zero-shot recognition, offering an average top-1 accuracy increase of 7% across all datasets. GPT-4 excels in visual recognition, outshining OpenAI-CLIP's ViT-L and rivaling EVA-CLIP's ViT-E, particularly in video datasets HMDB-51 and UCF-101, where it leads by 22% and 9%, respectively. We hope this research contributes valuable data points and experience for future studies. We release our code at https://github.com/whwu95/GPT4Vis. | 翻訳日:2024-03-14 01:14:19 公開日:2024-03-12 |
# ニューラル3dストローク: 3dストロークのベクトル化によるスタイリッシュな3dシーンの作成 Neural 3D Strokes: Creating Stylized 3D Scenes with Vectorized 3D Strokes ( http://arxiv.org/abs/2311.15637v2 ) ライセンス: Link先を確認 | Hao-Bin Duan, Miao Wang, Yan-Xun Li and Yong-Liang Yang | (参考訳) 本研究では,多視点2次元画像から任意の新規ビューで3次元シーンのスタイライゼーション画像を生成する新しい手法であるneural 3d strokesを提案する。
ボクセルレベルのトレーニングされたニューラルラディアンスフィールドにスタイリングを適用する既存の手法とは異なり,本手法は画像から絵画へのアプローチからインスピレーションを得て,ベクターストロークによる人間のアートワークのプログレッシブペイント過程をシミュレートする。
基本的なプリミティブとスプラインからの3次元ストロークのパレットを開発し,これら3次元ストロークプリミティブに基づく多視点復元プロセスとして3次元シーンスタイライゼーションタスクを考察する。
これらの3Dストロークのパラメータを直接検索する代わりに、勾配勾配勾配を用いてストロークパラメータを最適化できる微分可能なレンダラーを導入し、消滅する勾配問題を緩和するためのトレーニングスキームを提案する。
本手法は,異なる視点で一貫した外観を維持しつつ,重要な幾何学的,美的スタイライゼーションを伴う3dシーンを効果的に合成することを示す。
本手法は,カラートランスファーやテキスト駆動の3Dシーン描画など,スタイル損失や画像テキストのコントラストモデルとさらに統合してアプリケーションを拡張することができる。
結果とコードはhttp://buaavrcg.github.io/neural3d strokesで入手できる。 We present Neural 3D Strokes, a novel technique to generate stylized images of a 3D scene at arbitrary novel views from multi-view 2D images. Different from existing methods which apply stylization to trained neural radiance fields at the voxel level, our approach draws inspiration from image-to-painting methods, simulating the progressive painting process of human artwork with vector strokes. We develop a palette of stylized 3D strokes from basic primitives and splines, and consider the 3D scene stylization task as a multi-view reconstruction process based on these 3D stroke primitives. Instead of directly searching for the parameters of these 3D strokes, which would be too costly, we introduce a differentiable renderer that allows optimizing stroke parameters using gradient descent, and propose a training scheme to alleviate the vanishing gradient issue. The extensive evaluation demonstrates that our approach effectively synthesizes 3D scenes with significant geometric and aesthetic stylization while maintaining a consistent appearance across different views. Our method can be further integrated with style loss and image-text contrastive models to extend its applications, including color transfer and text-driven 3D scene drawing. Results and code are available at http://buaavrcg.github.io/Neural3DStrokes. | 翻訳日:2024-03-14 01:13:55 公開日:2024-03-12 |
# テキストプロンプト拡散による画像超解像 Image Super-Resolution with Text Prompt Diffusion ( http://arxiv.org/abs/2311.14282v2 ) ライセンス: Link先を確認 | Zheng Chen, Yulun Zhang, Jinjin Gu, Xin Yuan, Linghe Kong, Guihai Chen, Xiaokang Yang | (参考訳) 画像スーパーレゾリューション(sr)法は通常、複雑で未知の劣化シナリオにおける再構成精度を向上させるために劣化をモデル化する。
しかし、低解像度画像から劣化情報を抽出することは困難であり、モデルの性能が制限される。
イメージsrのパフォーマンスを高めるためには、追加の事前設定を導入する方法がある。
マルチモーダル手法とテキストプロンプト画像処理の進歩に触発されて、画像SRにテキストプロンプトを導入し、劣化の先行情報を提供する。
具体的には,テキスト分解表現と分解モデルを通じてsrデータセットにテキストを統合するテキスト画像生成パイプラインをまず設計する。
テキスト表現は、その分解を抽象的に記述するビンニング法に基づく離散化方式を適用する。
この方法はテキストの柔軟性を保ち、ユーザフレンドリーである。
一方,テキストプロンプトSRを実現するために,PromptSRを提案する。
PromptSRは、事前訓練された言語モデル(例えば、T5やCLIP)を使用して復元を強化する。
生成されたテキストイメージデータセットでモデルをトレーニングします。
大規模な実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で優れた結果が得られることが示されている。
コードはhttps://github.com/zhengchen1999/promptsr。 Image super-resolution (SR) methods typically model degradation to improve reconstruction accuracy in complex and unknown degradation scenarios. However, extracting degradation information from low-resolution images is challenging, which limits the model performance. To boost image SR performance, one feasible approach is to introduce additional priors. Inspired by advancements in multi-modal methods and text prompt image processing, we introduce text prompts to image SR to provide degradation priors. Specifically, we first design a text-image generation pipeline to integrate text into the SR dataset through the text degradation representation and degradation model. The text representation applies a discretization manner based on the binning method to describe the degradation abstractly. This method maintains the flexibility of the text and is user-friendly. Meanwhile, we propose the PromptSR to realize the text prompt SR. The PromptSR utilizes the pre-trained language model (e.g., T5 or CLIP) to enhance restoration. We train the model on the generated text-image dataset. Extensive experiments indicate that introducing text prompts into SR, yields excellent results on both synthetic and real-world images. Code is available at: https://github.com/zhengchen1999/PromptSR. | 翻訳日:2024-03-14 01:13:29 公開日:2024-03-12 |
# 最も単純なシナリオで非古典性を目撃する別の頑健な方法 Alternative robust ways of witnessing nonclassicality in the simplest scenario ( http://arxiv.org/abs/2311.13474v2 ) ライセンス: Link先を確認 | Massy Khoshbin, Lorenzo Catani, Matthew Leifer | (参考訳) 本稿では,非古典性の概念を最も単純な非自明なシナリオ (4つの準備と2つの双対トモグラフィによる完全な測定からなるシナリオ) に関連付ける。
具体的には、[pusey, pra 98,022112(2018)]で開発された確立された手法を、[chaturvedi and saha, quantum 4, 345 (2020)]で定義される準備のための境界的存在論的識別の概念に基づくアプローチで、テスト対象の運用等価性が予め指定されている実験には適さない、非文脈性違反を目撃するために関連付ける。
提案手法では、通信するビットの偶性および奇数性に関連する情報処理タスクに関連する2つの特定の準備について、有界な存在論的識別性をテストする。
この距離が保存される存在論的モデルが存在する場合、パリティ保存について述べる。
本研究の主な結果は、パリティ保存(およびその有界な存在論的識別性)に違反するノイズ閾値であり、最も単純な非自明なシナリオにおいて、準備文脈性を確認するための確立された方法に一致する。
これは、まずパリティ保存の違反と、[Marvian, arXiv:2003.05984(2020)]で展開された到達不能情報の観点からの文脈性の定量化を関連づけることで達成される。
本研究の応用として,ノイズの有無による2ビットパリティ多重化の症例を報告する。
特に、ノイズのない場合において、プロトコルの量子的優位性のためのリソースとして準備条件を確立する結果が、ノイズのない場合においても引き続き成立する条件を提供する。 In this paper we relate notions of nonclassicality in the simplest nontrivial scenario (a prepare and measure scenario composed of four preparations and two binary-outcome tomographically complete measurements). Specifically, we relate the established method developed in [Pusey, PRA 98,022112(2018)] to witness a violation of preparation noncontextuality, that is not suitable in experiments where the operational equivalences to be tested are specified in advance, with an approach based on the notion of bounded ontological distinctness for preparations, defined in [Chaturvedi and Saha, Quantum 4, 345 (2020)]. In our approach, we test bounded ontological distinctness for two particular preparations that are relevant in certain information processing tasks in that they are associated with the even- and odd-parity of the bits to communicate. When there exists an ontological model where this distance is preserved we talk of parity preservation. Our main result provides a noise threshold under which violating parity preservation (and so bounded ontological distinctness) agrees with the established method for witnessing preparation contextuality in the simplest nontrivial scenario. This is achieved by first relating the violation of parity preservation to the quantification of contextuality in terms of inaccessible information as developed in [Marvian, arXiv:2003.05984(2020)], that we also show, given the way we quantify noise, to be more robust in witnessing contextuality than Pusey's noncontextuality inequality. As an application of our findings, we treat the case of two-bit parity-oblivious multiplexing in the presence of noise. In particular, we provide a condition for which the result establishing preparation contextuality as a resource for the quantum advantage of the protocol in the noiseless case still holds in the noisy case. | 翻訳日:2024-03-14 01:13:10 公開日:2024-03-12 |
# scissorhands:ネットワークの接続感度によるデータのスクラブ Scissorhands: Scrub Data Influence via Connection Sensitivity in Networks ( http://arxiv.org/abs/2401.06187v2 ) ライセンス: Link先を確認 | Jing Wu and Mehrtash Harandi | (参考訳) 機械学習は、トレーニングされたモデルからデータの影響を消すための重要なタスクになっている。
これは最近のデータ規制基準に準拠し、機械学習アプリケーションのプライバシとセキュリティを強化する。
本稿では,新しい機械学習手法であるsassorhandsを提案する。
当初、Scisorhandsは接続感度による忘れたデータに対して、与えられたモデルの中で最も重要なパラメータを識別する。
これらのパラメータの最も影響力のある上位kパーセントを再起動することにより、忘れデータの影響を消去するトリミングモデルを得る。
その後、Scisorhandは勾配投影に基づくアプローチでトリミングモデルを微調整し、残りのデータに関する情報を保存し、忘れたデータに関する情報を破棄するパラメータを求める。
画像分類と画像生成タスクにまたがって行った実験の結果,Scisorhandsは既存の手法と比較して競合性能を示すことがわかった。 Machine unlearning has become a pivotal task to erase the influence of data from a trained model. It adheres to recent data regulation standards and enhances the privacy and security of machine learning applications. In this work, we present a new machine unlearning approach Scissorhands. Initially, Scissorhands identifies the most pertinent parameters in the given model relative to the forgetting data via connection sensitivity. By reinitializing the most influential top-k percent of these parameters, a trimmed model for erasing the influence of the forgetting data is obtained. Subsequently, Scissorhands fine-tunes the trimmed model with a gradient projection-based approach, seeking parameters that preserve information on the remaining data while discarding information related to the forgetting data. Our experimental results, conducted across image classification and image generation tasks, demonstrate that Scissorhands, showcases competitive performance when compared to existing methods. | 翻訳日:2024-03-14 01:08:03 公開日:2024-03-12 |
# 概念クラスタの複雑さに基づくWebスケールデータセットの効率的なプルーニング Effective pruning of web-scale datasets based on complexity of concept clusters ( http://arxiv.org/abs/2401.04578v2 ) ライセンス: Link先を確認 | Amro Abbas, Evgenia Rusak, Kushal Tirumala, Wieland Brendel, Kamalika Chaudhuri, Ari S. Morcos | (参考訳) 大規模なWebスケールデータセットを使用することで、機械学習モデルでは前例のないパフォーマンス向上が達成されている。
トレーニングとデータ効率を改善するために、我々はCLIPスタイルのモデルをトレーニングするための大規模マルチモーダルデータセットのプルーニングの限界を押し進める。
ImageNetクラスタのデータサンプルに対する今日の最も効果的なプルーニング手法は、埋め込みとプルーンにより、最もプロトタイプ的なサンプルを分離する。
このアプローチをlaionに拡大し、pruning rateは概念に特有で、概念の複雑さに適応すべきであることを指摘して改善します。
シンプルで直感的な複雑性測定を使って、トレーニングコストを通常のトレーニングの4分の1に削減できます。
LAIONデータセットからフィルタリングすることで、より小さな高品質なデータセットでのトレーニングが、トレーニングコストを大幅に削減して、より高いパフォーマンスにつながることが分かる。
より具体的には、ImageNetゼロショット精度でLAIONで訓練されたOpenCLIP-ViT-B32モデルを1.1pで上回ります。
しかし、データとトレーニングの計算は27.7%に過ぎない。
トレーニングコストは大幅に削減されているが、ImageNet Dist. shifts、検索タスク、VTABの改善も見られる。
datacomp mediumベンチマークでは、38の評価タスクにおいて、新しい最先端のイメージhttps://info.arxiv.org/help/prep#commentsnetゼロショット精度と競合平均ゼロショット精度を達成する。 Utilizing massive web-scale datasets has led to unprecedented performance gains in machine learning models, but also imposes outlandish compute requirements for their training. In order to improve training and data efficiency, we here push the limits of pruning large-scale multimodal datasets for training CLIP-style models. Today's most effective pruning method on ImageNet clusters data samples into separate concepts according to their embedding and prunes away the most prototypical samples. We scale this approach to LAION and improve it by noting that the pruning rate should be concept-specific and adapted to the complexity of the concept. Using a simple and intuitive complexity measure, we are able to reduce the training cost to a quarter of regular training. By filtering from the LAION dataset, we find that training on a smaller set of high-quality data can lead to higher performance with significantly lower training costs. More specifically, we are able to outperform the LAION-trained OpenCLIP-ViT-B32 model on ImageNet zero-shot accuracy by 1.1p.p. while only using 27.7% of the data and training compute. Despite a strong reduction in training cost, we also see improvements on ImageNet dist. shifts, retrieval tasks and VTAB. On the DataComp Medium benchmark, we achieve a new state-of-the-art Imagehttps://info.arxiv.org/help/prep#commentsNet zero-shot accuracy and a competitive average zero-shot accuracy on 38 evaluation tasks. | 翻訳日:2024-03-14 01:07:49 公開日:2024-03-12 |
# RudolfV:病理学者のための基礎モデル RudolfV: A Foundation Model by Pathologists for Pathologists ( http://arxiv.org/abs/2401.04079v3 ) ライセンス: Link先を確認 | Jonas Dippel, Barbara Feulner, Tobias Winterhoff, Simon Schallenberg, Gabriel Dernbach, Andreas Kunft, Stephan Tietz, Timo Milbich, Simon Heinke, Marie-Lisa Eich, Julika Ribbat-Idel, Rosemarie Krupar, Philipp Jurmeister, David Horst, Lukas Ruff, Klaus-Robert M\"uller, Frederick Klauschen, Maximilian Alber | (参考訳) 病理は臨床医学や生医学研究において中心的な役割を果たす。
人工知能は多くの病理学的タスクで有望な結果を示しているが、トレーニングデータが不足しているまれな疾患の一般化と対処は依然として課題である。
ラベルのないデータからの知識を基礎モデルに蒸留し、潜在的に限定されたラベル付きデータから学ぶことは、これらの課題に対処するための有効な道を提供する。
本稿では,準自動データキュレーションと病理学領域知識の統合により,デジタル病理学の基礎モデルの現状を,スライド画像全体に適用する。
具体的には、計算と病理医のドメイン知識を組み合わせ、異なる固定、染色、走査プロトコルからのデータをカバーした12億の画像パッチに対応する133万のスライドの多様なデータセットと、EUと米国内のさまざまな表示や実験室のデータ、意味論的に類似したスライドや組織パッチをグループ化するための(2)、トレーニング中に入力イメージを拡大する(3)。
その結果得られたモデルを,公開ベンチマークと内部ベンチマークで評価し,基礎モデルは1桁以下のスライドでトレーニングされているものの,競合するモデルと同等以上のパフォーマンスを示す。
より多くのデータとより大きなモデルにアプローチをスケールすることで、診断や生体医学研究においてますます複雑な現実世界のタスクに対処するためのパフォーマンスとキャパシティがさらに高まると期待しています。 Histopathology plays a central role in clinical medicine and biomedical research. While artificial intelligence shows promising results on many pathological tasks, generalization and dealing with rare diseases, where training data is scarce, remains a challenge. Distilling knowledge from unlabelled data into a foundation model before learning from, potentially limited, labelled data provides a viable path to address these challenges. In this work, we extend the state of the art of foundation models for digital pathology whole slide images by semi-automated data curation and incorporating pathologist domain knowledge. Specifically, we combine computational and pathologist domain knowledge (1) to curate a diverse dataset of 133k slides corresponding to 1.2 billion image patches covering data from different fixation, staining, and scanning protocols as well as data from different indications and labs across the EU and US, (2) for grouping semantically similar slides and tissue patches, and (3) to augment the input images during training. We evaluate the resulting model on a set of public and internal benchmarks and show that although our foundation model is trained with an order of magnitude less slides, it performs on par or better than competing models. We expect that scaling our approach to more data and larger models will further increase its performance and capacity to deal with increasingly complex real world tasks in diagnostics and biomedical research. | 翻訳日:2024-03-14 01:07:25 公開日:2024-03-12 |
# beyond regrets: ベイズ最適化のための幾何学的メトリクス Beyond Regrets: Geometric Metrics for Bayesian Optimization ( http://arxiv.org/abs/2401.01981v2 ) ライセンス: Link先を確認 | Jungtaek Kim | (参考訳) ベイズ最適化はブラックボックス目的関数の原理最適化戦略である。
科学的な発見や実験的な設計など、様々な現実世界の応用において有効性を示す。
一般に、ベイズ最適化のパフォーマンスは、瞬時、単純、累積後悔といった、後悔に基づくメトリクスによって報告される。
これらの指標は関数評価にのみ依存するため、クエリポイントとグローバルソリューション間の幾何学的関係やクエリポイント自体を考慮しない。
特に、複数のグローバルソリューションが正常に見つかると判別できない。
さらに、ベイズ最適化が与えられた探索空間を活用し探索する能力を評価していない。
これらの問題に対処するために,我々は,精度,リコール,平均次数,平均距離という4つの新しい幾何学的指標を提案する。
これらの測定により、クエリポイントとグローバルオプティマの両方の幾何を考慮したベイズ最適化アルゴリズムを比較することができる。
しかし、それらには余分なパラメータが伴うため、慎重に決定する必要がある。
そこで,パラメータを付加することにより,各指標のパラメータフリーな形式を考案する。
最後に,提案手法がベイズ最適化アルゴリズムをより繊細に解釈できることを実証的に検証した。 Bayesian optimization is a principled optimization strategy for a black-box objective function. It shows its effectiveness in a wide variety of real-world applications such as scientific discovery and experimental design. In general, the performance of Bayesian optimization is reported through regret-based metrics such as instantaneous, simple, and cumulative regrets. These metrics only rely on function evaluations, so that they do not consider geometric relationships between query points and global solutions, or query points themselves. Notably, they cannot discriminate if multiple global solutions are successfully found. Moreover, they do not evaluate Bayesian optimization's abilities to exploit and explore a search space given. To tackle these issues, we propose four new geometric metrics, i.e., precision, recall, average degree, and average distance. These metrics allow us to compare Bayesian optimization algorithms considering the geometry of both query points and global optima, or query points. However, they are accompanied by an extra parameter, which needs to be carefully determined. We therefore devise the parameter-free forms of the respective metrics by integrating out the additional parameter. Finally, we empirically validate that our proposed metrics can provide more delicate interpretation of Bayesian optimization algorithms, on top of assessment via the conventional metrics. | 翻訳日:2024-03-14 01:06:29 公開日:2024-03-12 |
# 自己充足型技術的負債の自動検出 : 体系的文献レビュー Automated Approaches to Detect Self-Admitted Technical Debt: A Systematic Literature Review ( http://arxiv.org/abs/2312.15020v2 ) ライセンス: Link先を確認 | Edi Sutoyo, Andrea Capiluppi | (参考訳) 技術的負債はソフトウェア開発における広範囲にわたる問題であり、しばしば開発中のトレードオフから生じ、ソフトウェアの保守性を阻害し、将来の開発作業を妨げる可能性がある。
SATD(Self-admitted Technical debt)とは、開発者がコードベースのコード品質や設計上の欠陥を明確に認識するインスタンスを指す。
SATDの自動検出は、開発者の技術的負債の特定と対処を支援することを目的として、研究の重要領域として浮上している。
しかし、NLPの多種多様な特徴抽出アプローチや文献で採用されているアルゴリズムは、研究者が性能向上を試みることを妨げていることが多い。
これを踏まえて,本体系的文献レビューでは,技術的負債検出に使用される特徴抽出手法とml/dlアルゴリズムの分類法を提案する。
システムレビューの品質評価に合格した53項目を選択した。
次に,各ソフトウェア開発活動における技術的負債を特定するために,どの特徴抽出とアルゴリズムを用いているかを深く検討した。
分析の結果,NLP,NLP+ML,NLP+DLに分類した。
これにより、パフォーマンスを3つの異なる方法で議論することができます。
全体として、nlp+dlグループは、すべてのプロジェクト、およびリコールメトリックのための1つのプロジェクトを除いて、一貫して精度とf1-scoreで優れています。
特徴抽出技術に関して、PTEは解析された各プロジェクトに対して高い精度、リコール、F1スコアを達成する。
さらに、TDタイプはソフトウェア開発活動にマッピングされており、各開発活動の最も優れた特徴抽出とアルゴリズムを決定するのに役立っている。
最後に,レビュー結果に基づいて,研究者や実践者にとって懸念すべき点を明らかにする。 Technical debt is a pervasive issue in software development, often arising from trade-offs made during development, which can impede software maintainability and hinder future development efforts. Self-admitted technical debt (SATD) refers to instances where developers explicitly acknowledge suboptimal code quality or design flaws in the codebase. Automated detection of SATD has emerged as a critical area of research, aiming to assist developers in identifying and addressing technical debt efficiently. However, the enormous variety of feature extraction approaches of NLP and algorithms employed in the literature often hinder researchers from trying to improve their performance. In light of this, this systematic literature review proposes a taxonomy of feature extraction techniques and ML/DL algorithms used in technical debt detection: its objective is to compare and benchmark their performance in the examined studies. We selected 53 articles that passed the quality evaluation of the systematic review. We then investigated in depth which feature extractions and algorithms were employed to identify technical debt in each software development activity. All approaches proposed in the analyzed studies were grouped into NLP, NLP+ML, and NLP+DL. This allows us to discuss the performance in three different ways. Overall, NLP+DL group consistently outperforms in precision and F1-score for all projects, and in all but one project for the recall metric. Regarding the feature extraction techniques, the PTE consistently achieves higher precision, recall, and F1-score for each project analyzed. Furthermore, TD types have been mappep to software development activities; this served to determine the best-performing feature extractions and algorithms for each development activity. Finally, based on the review results, we also identify implications that could be of concern to researchers and practitioners. | 翻訳日:2024-03-14 01:05:38 公開日:2024-03-12 |
# 行列投影のための固定点アルゴリズムと量子情報への応用 A fixed-point algorithm for matrix projections with applications in quantum information ( http://arxiv.org/abs/2312.14615v2 ) ライセンス: Link先を確認 | Shrigyan Brahmachari, Roberto Rubboli, and Marco Tomamichel | (参考訳) 我々は、ある対称性の下で不変な正定値行列の集合上のバーズ距離に関して行列射影を計算する単純な不動点反復アルゴリズムを開発した。
固定点反復アルゴリズムは反復数において最適解に指数関数的に早く収束することを示す。
さらに、既定半定プログラム解法と比較して高速収束を示す。
我々のアルゴリズムは,行列バリセンタの特定の場合において,元来 (\'Alvarez-Esteban et al., 2016) に導入された固定点反復アルゴリズムを復元する。
以前の研究と比較すると、我々の証明は単純な行列の不等式のみに基づいており、より一般的で直接的である。
最後に,量子資源理論と量子シャノン理論におけるアルゴリズムの応用について述べる。 We develop a simple fixed-point iterative algorithm that computes the matrix projection with respect to the Bures distance on the set of positive definite matrices that are invariant under some symmetry. We prove that the fixed-point iteration algorithm converges exponentially fast to the optimal solution in the number of iterations. Moreover, it numerically shows fast convergence compared to the off-the-shelf semidefinite program solvers. Our algorithm, for the specific case of matrix barycenters, recovers the fixed-point iterative algorithm originally introduced in (\'Alvarez-Esteban et al., 2016). Compared to previous works, our proof is more general and direct as it is based only on simple matrix inequalities. Finally, we discuss several applications of our algorithm in quantum resource theories and quantum Shannon theory. | 翻訳日:2024-03-14 01:05:14 公開日:2024-03-12 |
# Docker Smellsのイメージサイズへの影響に関する実証的研究 Empirical Study of the Docker Smells Impact on the Image Size ( http://arxiv.org/abs/2312.13888v2 ) ライセンス: Link先を確認 | Thomas Durieux | (参考訳) Dockerは広く採用されているアプリケーションのパッケージングとデプロイのためのツールだ。
しかし、最適なDockerfileを作成することは難しく、しばしば"Dockerの臭い"やベストプラクティスからの逸脱につながる。
本稿では,Dockerイメージのサイズに対する14のDockerの匂いの影響について検討する。
Dockerの臭いの大きさを評価するために、11313のオープンソースDockerfileから16145のDockerの匂いを特定し、修復しました。
臭気は1画像あたり平均48.06mb (4.6%) 増加することが観察された。
匂いの種類によっては、サイズが最大で10%になり、特定のケースでは、その匂いが画像サイズの89%を表現できる。
興味深いことに、最も影響のある臭いは、一般的に遭遇し、比較的簡単に修正できるパッケージマネージャに関連する。
Dockerの臭いの影響について開発者の視点を収集するため、臭いを修復する34のプルリクエストを提出し、Dockerイメージへの影響を開発者に報告しました。
26/34 (76.5%) のプルリクエストがマージされ、3.46 GB (16.4%) の節約に貢献した。
開発者によるコメントは、プルリクエストが拒否された場合でも、Dockerの臭いに対処することに肯定的な関心を示している。 Docker, a widely adopted tool for packaging and deploying applications leverages Dockerfiles to build images. However, creating an optimal Dockerfile can be challenging, often leading to "Docker smells" or deviations from best practices. This paper presents a study of the impact of 14 Docker smells on the size of Docker images. To assess the size impact of Docker smells, we identified and repaired 16 145 Docker smells from 11 313 open-source Dockerfiles. We observe that the smells result in an average increase of 48.06 MB (4.6%) per smelly image. Depending on the smell type, the size increase can be up to 10%, and for some specific cases, the smells can represent 89% of the image size. Interestingly, the most impactful smells are related to package managers which are commonly encountered and are relatively easy to fix. To collect the perspective of the developers regarding the size impact of the Docker smells, we submitted 34 pull requests that repair the smells and we reported their impact on the Docker image to the developers. 26/34 (76.5%) of the pull requests have been merged and they contribute to a saving of 3.46 GB (16.4%). The developer's comments demonstrate a positive interest in addressing those Docker smells even when the pull requests have been rejected | 翻訳日:2024-03-14 01:05:02 公開日:2024-03-12 |
# 交互時間時相論理、ハイパープロペラティ、戦略共有について On Alternating-Time Temporal Logic, Hyperproperties, and Strategy Sharing ( http://arxiv.org/abs/2312.12403v2 ) ライセンス: Link先を確認 | Raven Beutner, Bernd Finkbeiner | (参考訳) 交代時間時間論理(ATL$^*$)はマルチエージェントシステムに関する公式推論のための確立されたフレームワークである。
しかし、atl$^*$はエージェントの戦略的能力(例えば、いくつかの連立$a$は目標が最終的に達成されることを保証する)を判断できるが、複数の戦略的な相互作用を比較することはできないし、複数のエージェントが同じ戦略に従う必要もない。
例えば、coalition $a$は他のcoalition $a'$よりも早く(またはもっと頻繁に)目標に到達できると言うことはできない。
本稿では,ATL$^*$の拡張であるHyperATLS$^*_S$を提案し,(1)複数の戦略的相互作用の結果を比較することができる。
HyperATL$^*_S$は、既存のロジックに及ばない重要なAI関連プロパティをキャプチャするリッチな仕様言語であることを示す。
並列ゲーム構造上でのHyperATL$^*_S$のモデルチェックは決定可能であることを示す。
我々はHyMASMCと呼ぶツールにモデルチェックアルゴリズムを実装し、それを様々なベンチマークで評価する。 Alternating-time temporal logic (ATL$^*$) is a well-established framework for formal reasoning about multi-agent systems. However, while ATL$^*$ can reason about the strategic ability of agents (e.g., some coalition $A$ can ensure that a goal is reached eventually), we cannot compare multiple strategic interactions, nor can we require multiple agents to follow the same strategy. For example, we cannot state that coalition $A$ can reach a goal sooner (or more often) than some other coalition $A'$. In this paper, we propose HyperATLS$^*_S$, an extension of ATL$^*$ in which we can (1) compare the outcome of multiple strategic interactions w.r.t. a hyperproperty, i.e., a property that refers to multiple paths at the same time, and (2) enforce that some agents share the same strategy. We show that HyperATL$^*_S$ is a rich specification language that captures important AI-related properties that were out of reach of existing logics. We prove that model checking of HyperATL$^*_S$ on concurrent game structures is decidable. We implement our model-checking algorithm in a tool we call HyMASMC and evaluate it on a range of benchmarks. | 翻訳日:2024-03-14 01:04:42 公開日:2024-03-12 |
# 確率勾配法の最終Iterate Convergenceの再検討 Revisiting the Last-Iterate Convergence of Stochastic Gradient Methods ( http://arxiv.org/abs/2312.08531v2 ) ライセンス: Link先を確認 | Zijian Liu, Zhengyuan Zhou | (参考訳) 過去数年間、SGD(Stochastic Gradient Descent)アルゴリズムの最後の定点収束は、その実践上の優れたパフォーマンスと理論的理解の欠如から人々の関心を惹き付けてきた。
リプシッツ凸函数に対しては、最適な$O(\log(1/\delta)\log T/\sqrt{T})$または$O(\sqrt{\log(1/\delta)/T})$最終イテレートに対する高確率収束率を確立している。
しかし、これらの境界を証明するために、既存のすべての作品はコンパクト領域に限定されるか、ほぼ確実に有界ノイズを必要とする。
最後の反復 SGD が最適収束率を保証できるかどうかを問うことは自然であるが、これら2つの制限的な仮定が存在しない。
この重要な質問に加えて、答えが欠けている理論的な問題がまだたくさんある。
例えば、非滑らかな問題に対するSGDの最終定値収束と比較して、スムーズな最適化の結果はまだ少ない。
さらに、既存の結果は、すべて非合成目的と標準ユークリッドノルムに制限されている。
ラストイテレート収束がより広い合成最適化と非ユークリッドノルムに拡張できるかどうかはまだ不明である。
本稿では,上記の問題に対処するために,確率勾配法のラストイテレート収束を再検討し,一般領域,複合目的,非ユークリッドノルム,リプシッツ条件,滑らかさ,(強い)凸性に対応するための期待値と高い確率の両方において収束率を同時に証明する最初の統一的手法を提供する。
さらに,重み付き雑音下でのラストイテレート収束を得るために解析を拡張した。 In the past several years, the last-iterate convergence of the Stochastic Gradient Descent (SGD) algorithm has triggered people's interest due to its good performance in practice but lack of theoretical understanding. For Lipschitz convex functions, different works have established the optimal $O(\log(1/\delta)\log T/\sqrt{T})$ or $O(\sqrt{\log(1/\delta)/T})$ high-probability convergence rates for the final iterate, where $T$ is the time horizon and $\delta$ is the failure probability. However, to prove these bounds, all the existing works are either limited to compact domains or require almost surely bounded noises. It is natural to ask whether the last iterate of SGD can still guarantee the optimal convergence rate but without these two restrictive assumptions. Besides this important question, there are still lots of theoretical problems lacking an answer. For example, compared with the last-iterate convergence of SGD for non-smooth problems, only few results for smooth optimization have yet been developed. Additionally, the existing results are all limited to a non-composite objective and the standard Euclidean norm. It still remains unclear whether the last-iterate convergence can be provably extended to wider composite optimization and non-Euclidean norms. In this work, to address the issues mentioned above, we revisit the last-iterate convergence of stochastic gradient methods and provide the first unified way to prove the convergence rates both in expectation and in high probability to accommodate general domains, composite objectives, non-Euclidean norms, Lipschitz conditions, smoothness, and (strong) convexity simultaneously. Additionally, we extend our analysis to obtain the last-iterate convergence under heavy-tailed noises. | 翻訳日:2024-03-14 01:03:09 公開日:2024-03-12 |
# dreamcontrol: 3d自己優先による制御ベースのテキストから3d生成 DreamControl: Control-Based Text-to-3D Generation with 3D Self-Prior ( http://arxiv.org/abs/2312.06439v2 ) ライセンス: Link先を確認 | Tianyu Huang, Yihan Zeng, Zhilu Zhang, Wan Xu, Hang Xu, Songcen Xu, Rynson W. H. Lau, Wangmeng Zuo | (参考訳) 3D世代は近年大きな注目を集めている。
テキストと画像の拡散モデルの成功により、2Dリフト技術は制御可能な3D生成への有望な経路となる。
しかし、これらの手法は矛盾した幾何学を示しがちであり、これはジャヌス問題としても知られている。
この問題は主に2次元拡散モデルにおける視点バイアスと最適化目標の過度適合という2つの側面によって引き起こされる。
そこで本研究では, 粗いNeRFシーンを3Dセルフプライアとして最適化し, 制御によるスコア蒸留により細粒度オブジェクトを生成する2段階の2DリフトフレームワークDreamControlを提案する。
具体的には, 適応的視点サンプリングと境界完全度メトリクスを提案する。
前者は適切な測地を維持するための入力条件と見なされ、より詳細なテクスチャを最適化するために条件付きLoRAと重み付けスコアがさらに提案される。
DreamControlは、幾何学的一貫性とテクスチャ忠実度の両方の観点から高品質な3Dコンテンツを生成することができる。
さらに、制御に基づく最適化ガイダンスは、ユーザ誘導生成や3Dアニメーションを含むより下流のタスクに適用できる。
プロジェクトページはhttps://github.com/tyhuang0428/dreamcontrol.comで閲覧できる。 3D generation has raised great attention in recent years. With the success of text-to-image diffusion models, the 2D-lifting technique becomes a promising route to controllable 3D generation. However, these methods tend to present inconsistent geometry, which is also known as the Janus problem. We observe that the problem is caused mainly by two aspects, i.e., viewpoint bias in 2D diffusion models and overfitting of the optimization objective. To address it, we propose a two-stage 2D-lifting framework, namely DreamControl, which optimizes coarse NeRF scenes as 3D self-prior and then generates fine-grained objects with control-based score distillation. Specifically, adaptive viewpoint sampling and boundary integrity metric are proposed to ensure the consistency of generated priors. The priors are then regarded as input conditions to maintain reasonable geometries, in which conditional LoRA and weighted score are further proposed to optimize detailed textures. DreamControl can generate high-quality 3D content in terms of both geometry consistency and texture fidelity. Moreover, our control-based optimization guidance is applicable to more downstream tasks, including user-guided generation and 3D animation. The project page is available at https://github.com/tyhuang0428/DreamControl. | 翻訳日:2024-03-14 01:02:32 公開日:2024-03-12 |
# AutoGCN -- ニューラルアーキテクチャ検索によるジェネリックヒューマンアクティビティ認識を目指す AutoGCN -- Towards Generic Human Activity Recognition with Neural Architecture Search ( http://arxiv.org/abs/2402.01313v3 ) ライセンス: Link先を確認 | Felix Tempel, Inga Str\"umke and Espen Alexander F. Ihlen | (参考訳) 本稿では、グラフ畳み込みネットワーク(GCN)を用いた人間活動認識(HAR)のための汎用ニューラルアーキテクチャ探索(NAS)アルゴリズムであるAutoGCNを紹介する。
HARはディープラーニングの進歩、データ可用性の向上、計算能力の向上によって注目を集めている。
同時に、GCNは骨格グラフ内のボディキーポイント間の関係をモデル化する有望な結果を示している。
ドメインの専門家はデータセット固有のGCNベースのメソッドを作ることが多いが、この特定のコンテキストを超える適用性は非常に限られている。
AutoGCNは、探索過程中に知識貯水池で最適な探索と搾取の挙動をバランスさせながら、多目的探索空間内で理想的なハイパーパラメータとアーキテクチャの組み合わせを同時に探索することで、この制限に対処しようとしている。
提案アルゴリズムの性能を評価するために,骨格に基づく行動認識に着目した2つの大規模データセットについて広範な実験を行った。
実験結果は,従来のNAS法やGCN法,およびランダム探索法よりも優れたHARのための最適なGCNアーキテクチャを構築する上で,AutoGCNの有効性を裏付けるものである。
これらの結果は,ネットワーク性能と一般化性を高めるための多様な検索空間と表現表現の重要性を浮き彫りにしている。 This paper introduces AutoGCN, a generic Neural Architecture Search (NAS) algorithm for Human Activity Recognition (HAR) using Graph Convolution Networks (GCNs). HAR has gained attention due to advances in deep learning, increased data availability, and enhanced computational capabilities. At the same time, GCNs have shown promising results in modeling relationships between body key points in a skeletal graph. While domain experts often craft dataset-specific GCN-based methods, their applicability beyond this specific context is severely limited. AutoGCN seeks to address this limitation by simultaneously searching for the ideal hyperparameters and architecture combination within a versatile search space using a reinforcement controller while balancing optimal exploration and exploitation behavior with a knowledge reservoir during the search process. We conduct extensive experiments on two large-scale datasets focused on skeleton-based action recognition to assess the proposed algorithm's performance. Our experimental results underscore the effectiveness of AutoGCN in constructing optimal GCN architectures for HAR, outperforming conventional NAS and GCN methods, as well as random search. These findings highlight the significance of a diverse search space and an expressive input representation to enhance the network performance and generalizability. | 翻訳日:2024-03-14 00:58:41 公開日:2024-03-12 |
# health-llm:パーソナライズされた検索型疾病予測システム Health-LLM: Personalized Retrieval-Augmented Disease Prediction System ( http://arxiv.org/abs/2402.00746v5 ) ライセンス: Link先を確認 | Mingyu Jin, Qinkai Yu, Dong Shu, Chong Zhang, Suiyuan Zhu, Mengnan Du, Yanda Meng, Yongfeng Zhang | (参考訳) 医療における人工知能(AI)は、非常に高度なインテリジェント医療治療を持っている。
しかし、従来のインテリジェントヘルスケアは、静的データと統一された標準によって制限されており、個々の状況や他の課題との完全な統合を妨げている。
したがって、開発にはより専門的で詳細なインテリジェントヘルスケア手法が必要である。
そこで我々は,大規模特徴抽出と医療知識トレードオフスコアリングを組み合わせたHeath-LLMという革新的なフレームワークを提案する。
従来の健康管理手法と比較して,本システムには3つの利点がある。
まず,健康報告を大規模モデルに統合し,詳細なタスク情報を提供する。
第2に、専門的な医療専門知識は、健康特性の重み付けスコアを調整するために使用される。
第3に,半自動特徴抽出フレームワークを用いて言語モデルの分析能力を高め,専門家の洞察を取り入れ,疾患予測の精度を向上させる。
本研究は,Health-LLMの有効性を評価するために,多数の健康報告で疾患予測実験を行った。
実験の結果,提案システムは従来の方法を超え,疾患予測やパーソナライズされた健康管理に革命をもたらす可能性が示唆された。
コードはhttps://github.com/jmyissb/HealthLLMで入手できる。 Artificial intelligence (AI) in healthcare has significantly advanced intelligent medical treatment. However, traditional intelligent healthcare is limited by static data and unified standards, preventing full integration with individual situations and other challenges. Hence, a more professional and detailed intelligent healthcare method is needed for development. To this end, we propose an innovative framework named Heath-LLM, which combines large-scale feature extraction and medical knowledge trade-off scoring. Compared to traditional health management methods, our system has three main advantages. First, our system integrates health reports into a large model to provide detailed task information. Second, professional medical expertise is used to adjust the weighted scores of health characteristics. Third, we use a semi-automated feature extraction framework to enhance the analytical power of language models and incorporate expert insights to improve the accuracy of disease prediction. We have conducted disease prediction experiments on a large number of health reports to assess the effectiveness of Health-LLM. The results of the experiments indicate that the proposed system surpasses traditional methods and has the potential to revolutionize disease prediction and personalized health management. The code is available at https://github.com/jmyissb/HealthLLM. | 翻訳日:2024-03-14 00:58:18 公開日:2024-03-12 |
# 乳癌組織からの色素性染料rnaスコープのセグメンテーションのためのグレーレベルテクスチャの特徴 Grey Level Texture Features for Segmentation of Chromogenic Dye RNAscope From Breast Cancer Tissue ( http://arxiv.org/abs/2401.15886v2 ) ライセンス: Link先を確認 | Andrew Davidson (1), Arthur Morley-Bunker (2), George Wiggins (2), Logan Walker (2), Gavin Harris (3), Ramakrishnan Mukundan (1), kConFab Investigators (4 and 5) ((1) University of Canterbury, (2) University of Otago, (3) Canterbury Health Laboratories, (4) The University of Melbourne, (5) Peter MacCallum Cancer Center) | (参考訳) 癌組織のクロマトキシリン染色とヘマトキシリン染色は、がんの診断とその後の治療が容易であり、既存の病理学のワークフローによく適合する。
しかし、遺伝子発現を示すRNAscope transcripts(dots)の手での定量化は、極めて時間を要する。
さらに、定量化と分析のための検証された支援方法が欠如している。
本稿では,乳癌組織からrnaスコープ転写産物の位置の自動分割と分類を行うための,グレイレベルテクスチャ特徴の有用性について検討する。
特徴分析の結果,Grey Level Dependence Matrix や NeighbouringGrey Tone Different Matrix など,少数のグレーレベル特徴がタスクに適していることがわかった。
この自動化法は、RNAスコープ転写産物の位置を特定する専門家アノテータと同様に、F1スコアは0.571であり、専門家間F1スコアは0.596である。
これらの結果は、病理ワークフローにおけるRNAスコープの自動定量化のためのグレーレベルテクスチャ機能の可能性を示している。 Chromogenic RNAscope dye and haematoxylin staining of cancer tissue facilitates diagnosis of the cancer type and subsequent treatment, and fits well into existing pathology workflows. However, manual quantification of the RNAscope transcripts (dots), which signify gene expression, is prohibitively time consuming. In addition, there is a lack of verified supporting methods for quantification and analysis. This paper investigates the usefulness of grey level texture features for automatically segmenting and classifying the positions of RNAscope transcripts from breast cancer tissue. Feature analysis showed that a small set of grey level features, including Grey Level Dependence Matrix and Neighbouring Grey Tone Difference Matrix features, were well suited for the task. The automated method performed similarly to expert annotators at identifying the positions of RNAscope transcripts, with an F1-score of 0.571 compared to the expert inter-rater F1-score of 0.596. These results demonstrate the potential of grey level texture features for automated quantification of RNAscope in the pathology workflow. | 翻訳日:2024-03-14 00:57:59 公開日:2024-03-12 |
# lil'hdoc:小さな閾値ギャップ下で腕を識別するアルゴリズム lil'HDoC: An Algorithm for Good Arm Identification under Small Threshold Gap ( http://arxiv.org/abs/2401.15879v3 ) ライセンス: Link先を確認 | Tzu-Hsien Tsai, Yun-Da Tsai, Shou-De Lin | (参考訳) グッドアーム識別(GAI)は、単一の学習者が良い腕と特定されるとすぐに腕を出力する純粋探索バンディット問題である。
良い腕は、与えられたしきい値以上の期待報酬を持つアームとして定義される。
本稿では,腕の期待報酬と与えられたしきい値との間の距離を示す,小さなしきい値ギャップの下でのgai問題に焦点を当てる。
我々は,HDoCアルゴリズムの総サンプリング複雑性を大幅に改善するLil'HDoCと呼ばれる新しいアルゴリズムを提案する。
Lil'HDoCの最初の$\lambda$出力アームのサンプルの複雑さは、期待される報酬と閾値の間の距離が小さい場合を除いて、元のHDoCアルゴリズムによって境界づけられていることを示す。
広範な実験により,本アルゴリズムが合成データと実世界データの両方において最先端アルゴリズムよりも優れていることを確認した。 Good arm identification (GAI) is a pure-exploration bandit problem in which a single learner outputs an arm as soon as it is identified as a good arm. A good arm is defined as an arm with an expected reward greater than or equal to a given threshold. This paper focuses on the GAI problem under a small threshold gap, which refers to the distance between the expected rewards of arms and the given threshold. We propose a new algorithm called lil'HDoC to significantly improve the total sample complexity of the HDoC algorithm. We demonstrate that the sample complexity of the first $\lambda$ output arm in lil'HDoC is bounded by the original HDoC algorithm, except for one negligible term, when the distance between the expected reward and threshold is small. Extensive experiments confirm that our algorithm outperforms the state-of-the-art algorithms in both synthetic and real-world datasets. | 翻訳日:2024-03-14 00:57:41 公開日:2024-03-12 |
# マルチLLMコラボレーション+データ中心イノベーション=2倍の脆弱性修復 Multi-LLM Collaboration + Data-Centric Innovation = 2x Better Vulnerability Repair ( http://arxiv.org/abs/2401.15459v3 ) ライセンス: Link先を確認 | Xin Zhou, Kisub Kim, Bowen Xu, DongGyun Han, David Lo | (参考訳) ディープラーニング(dl)の進歩は、脆弱なコードから固定されたコードへのマッピングを効果的に学習する自動ソフトウェア脆弱性修復アプローチへの道を開いた。
それでも、既存のdlベースの脆弱性修復メソッドには、注目すべき制限がある。
1) 長い脆弱性のあるコードを扱うのに苦労する。
2)コードを自然言語テキストとして扱い、その固有の構造を無視し、
3) 専門家システムに存在する貴重な専門家の知識を活用しない。
この問題に対処するために,データ中心のイノベーションを通じて脆弱性修復を生成する,TransformerベースのニューラルネットワークモデルであるVulMasterを提案する。
具体的には、任意のサイズの完全な脆弱性のあるコード、脆弱性のあるコード構造、CWEシステムからのエキスパート知識など、さまざまなタイプの入力データの利用と組み合わせを紹介している。
さらにvulmasterは、codet5とchatgptという2つの大きな言語モデル(llm)のコラボレーションを活用している。 codet5はカスタマイズ可能なバックボーンllmとして動作し、トレーニングデータに微調整されている。
VulMasterを実世界のC/C++脆弱性修復データセットで評価した。
実験の結果,vulmasterは,学習に基づく脆弱性修復アプローチに比べて大幅に改善が見られた。
具体的には、em、bleu、codebleuのスコアを10.2\%から20.0\%、21.3\%から29.3\%、そして32.5\%から40.9\%に改善する。 The advances of deep learning (DL) have paved the way for automatic software vulnerability repair approaches, which effectively learn the mapping from the vulnerable code to the fixed code. Nevertheless, existing DL-based vulnerability repair methods face notable limitations: 1) they struggle to handle lengthy vulnerable code, 2) they treat code as natural language texts, neglecting its inherent structure, and 3) they do not tap into the valuable expert knowledge present in the expert system. To address this, we propose VulMaster, a Transformer-based neural network model that excels at generating vulnerability repairs through data-centric innovation. Specifically, VulMaster introduces the utilization and combination of various types of input data, including complete vulnerable code of any size, vulnerable code structures, and expert knowledge from the CWE system. Additionally, VulMaster leverages the collaboration between two Large Language Models (LLMs), CodeT5 and ChatGPT: CodeT5 acts as the customizable backbone LLM, fine-tuned with the training data, while ChatGPT supplements by providing missing relevant inputs to CodeT5. We evaluated VulMaster on a real-world C/C++ vulnerability repair dataset comprising 1,754 projects with 5,800 vulnerable functions. The experimental results demonstrated that VulMaster exhibits substantial improvements compared to the learning-based state-of-the-art vulnerability repair approach. Specifically, VulMaster improves the EM, BLEU, and CodeBLEU scores from 10.2\% to 20.0\%, 21.3\% to 29.3\%, and 32.5\% to 40.9\%, respectively. | 翻訳日:2024-03-14 00:57:06 公開日:2024-03-12 |
# vivim:医療用ビデオオブジェクトセグメンテーションのためのビデオビジョンmamba Vivim: a Video Vision Mamba for Medical Video Object Segmentation ( http://arxiv.org/abs/2401.14168v3 ) ライセンス: Link先を確認 | Yijun Yang, Zhaohu Xing, Chunwang Huang, Lei Zhu | (参考訳) 従来の畳み込みニューラルネットワークは受容場が限られているが、トランスフォーマーベースのネットワークは計算複雑性の観点から長期的な依存関係を構築するのに中途半端である。
このようなボトルネックは、ビデオ分析タスクで長いシーケンスを処理する場合に大きな課題となる。
最近では、mambaで有名な効率的なハードウェアアウェアデザインのステートスペースモデル(ssm)が長いシーケンスモデリングで素晴らしい成果を上げており、多くの視覚タスクでディープニューラルネットワークの開発が容易になっている。
ビデオフレームにおける利用可能な動的手がかりをよりよく捉えるために,本稿では,医療用ビデオオブジェクトセグメンテーションタスクのための汎用的なビデオビジョンmambaベースのフレームワークである \textbf{vivim} を提案する。
我々のビビムは、設計したテンポラルマンバブロックにより、長期時空間表現を様々なスケールのシーケンスに効果的に圧縮することができる。
また,医療画像中の曖昧な病変に対するvivimの識別能力を高めるために境界認識制約を導入する。
大腸内視鏡ビデオにおける甲状腺分画とポリープ分画に関する広範囲な実験は,既存の方法よりも優れたvivimの有効性と有効性を示している。
コードは、https://github.com/scott-yjyang/Vivim.comで入手できる。 Traditional convolutional neural networks have a limited receptive field while transformer-based networks are mediocre in constructing long-term dependency from the perspective of computational complexity. Such the bottleneck poses a significant challenge when processing long sequences in video analysis tasks. Very recently, the state space models (SSMs) with efficient hardware-aware designs, famous by Mamba, have exhibited impressive achievements in long sequence modeling, which facilitates the development of deep neural networks on many vision tasks. To better capture available dynamic cues in video frames, this paper presents a generic Video Vision Mamba-based framework, dubbed as \textbf{Vivim}, for medical video object segmentation tasks. Our Vivim can effectively compress the long-term spatiotemporal representation into sequences at varying scales by our designed Temporal Mamba Block. We also introduce a boundary-aware constraint to enhance the discriminative ability of Vivim on ambiguous lesions in medical images. Extensive experiments on thyroid segmentation in ultrasound videos and polyp segmentation in colonoscopy videos demonstrate the effectiveness and efficiency of our Vivim, superior to existing methods. The code is available at: https://github.com/scott-yjyang/Vivim. | 翻訳日:2024-03-14 00:56:39 公開日:2024-03-12 |
# 低リソース言語を用いた機械翻訳における誤訳と性別推定 Misgendering and Assuming Gender in Machine Translation when Working with Low-Resource Languages ( http://arxiv.org/abs/2401.13165v3 ) ライセンス: Link先を確認 | Sourojit Ghosh, Srishti Chatterjee | (参考訳) 本章では、低リソース言語の文脈における機械翻訳(MT)における性別関連エラーに焦点を当てる。
まず、低リソース言語とは何かを説明し、そのような言語階層を形成する不可分な社会的および計算的要因を調べます。
本稿は,母国語ベンガル語の事例研究を通じて,約3億人が話すグローバル言語であるベンガル語を事例として紹介する。
本稿では,このような誤りが言語的消去や表現的害に繋がるポストコロニアル的・社会的影響について論じるとともに,MT会話においてより多くのエージェンシーを提供することで,言語強化に向けた潜在的な解決策について議論する。 This chapter focuses on gender-related errors in machine translation (MT) in the context of low-resource languages. We begin by explaining what low-resource languages are, examining the inseparable social and computational factors that create such linguistic hierarchies. We demonstrate through a case study of our mother tongue Bengali, a global language spoken by almost 300 million people but still classified as low-resource, how gender is assumed and inferred in translations to and from the high(est)-resource English when no such information is provided in source texts. We discuss the postcolonial and societal impacts of such errors leading to linguistic erasure and representational harms, and conclude by discussing potential solutions towards uplifting languages by providing them more agency in MT conversations. | 翻訳日:2024-03-14 00:56:19 公開日:2024-03-12 |
# Speak it out:Symbol-to-Language Conversionによる記号関連問題の解法 Speak It Out: Solving Symbol-Related Problems with Symbol-to-Language Conversion for Language Models ( http://arxiv.org/abs/2401.11725v2 ) ライセンス: Link先を確認 | Yile Wang, Sijie Cheng, Zixin Sun, Peng Li, Yang Liu | (参考訳) 数値列、分子式、テーブルデミッタなどの記号(あるいはより広くは非自然言語のテキスト表現)が広く存在し、抽象的推論、化学特性予測、テーブル質問応答といった様々なタスクで重要な役割を果たしている。
大きな言語モデル(llm)の印象的な自然言語理解能力にもかかわらず、シンボルに対する推論能力は不適切であり、シンボル表現と一般的な自然言語の違いに起因する可能性がある。
本研究では,自然言語で表現された情報を用いて,大規模言語モデルによるシンボル関連問題の解き方を提案する。
具体的には、S2Lはまず、LLMのプロンプトや外部ツールの活用によって実装可能な言語ベースの表現に変換し、これらの言語ベースの表現は直接置換や連結を通じて元の問題に統合され、LLMの有用な入力情報として機能する。
APIベース(GPT-4, ChatGPT)とオープンソース(OpenChat)の両方のモデルを用いて,シンボルのみの抽象的推論からソーシャルメディアにおける感情分析まで,8つのシンボル関連タスクについてS2L法の評価を行った。
実験結果から,S2Lは一貫して優れた性能を示した。
例えば、GPT-4にS2Lを用いることで、それぞれ1D-ARC言語とDyck言語のサブタスクに+21.9%と+9.5%の大幅な改善がある。
コードとデータはhttps://github.com/thunlp-mt/symbol2languageで入手できる。 Symbols (or more broadly, non-natural language textual representations) such as numerical sequences, molecular formulas, and table delimiters widely exist, playing important roles in various tasks such as abstract reasoning, chemical property prediction, and table question answering. Despite the impressive natural language comprehension capabilities of large language models (LLMs), their reasoning abilities for symbols remain inadequate, which could attributed to the difference between symbol representations and general natural languages. We propose symbol-to-language (S2L), a tuning-free method that enables large language models to solve symbol-related problems with information expressed in natural language. Specifically, S2L first converts the symbols involved to language-based representations, which can be implemented by prompting LLMs or leveraging external tools, then these language-based representations are integrated into the original problem via direct substitution or concatenation, serving as useful input information for LLMs. We evaluate the S2L method using both API-based (GPT-4, ChatGPT) and open-source (OpenChat) models over eight symbol-related tasks, ranging from symbol-only abstract reasoning to sentiment analysis in social media. Experimental results show that S2L consistently leads to superior performance. For example, by employing S2L for GPT-4, there can be average significant improvements of +21.9% and +9.5% for subtasks in 1D-ARC and Dyck language, respectively. Codes and data are available at https://github.com/THUNLP-MT/symbol2language. | 翻訳日:2024-03-14 00:55:26 公開日:2024-03-12 |
# 言語モデルを用いたインコンテクスト学習 : 調査 In-context Learning with Retrieved Demonstrations for Language Models: A Survey ( http://arxiv.org/abs/2401.11624v4 ) ライセンス: Link先を確認 | Man Luo, Xin Xu, Yue Liu, Panupong Pasupat, Mehran Kazemi | (参考訳) 言語モデル、特に訓練済みの大規模言語モデルでは、入力コンテキストでいくつかのデモを行うだけで、新しいタスクに適応できる少数のインコンテキスト学習者(ICL)として顕著な能力を示した。
しかし、モデルがiclを実行する能力は、少数のデモの選択に敏感である。
最近の開発では、固定された一連のデモを使う代わりに、各入力クエリに合わせたデモを検索する。
実演検索の実装は比較的簡単で,既存のデータベースや検索システムを活用している。
これは学習プロセスの効率性とスケーラビリティを向上するだけでなく、手作業によるサンプル選択に固有のバイアスを低減することも示されている。
iclにおける研究成果の奨励と研究の進展を踏まえ,本研究の広範なレビューを行った。
本研究では,検索モデル,検索訓練手順,推論アルゴリズムの異なる設計選択について検討し,比較する。 Language models, especially pre-trained large language models, have showcased remarkable abilities as few-shot in-context learners (ICL), adept at adapting to new tasks with just a few demonstrations in the input context. However, the model's ability to perform ICL is sensitive to the choice of the few-shot demonstrations. Instead of using a fixed set of demonstrations, one recent development is to retrieve demonstrations tailored to each input query. The implementation of demonstration retrieval is relatively straightforward, leveraging existing databases and retrieval systems. This not only improves the efficiency and scalability of the learning process but also has been shown to reduce biases inherent in manual example selection. In light of the encouraging results and growing research in ICL with retrieved demonstrations, we conduct an extensive review of studies in this area. In this survey, we discuss and compare different design choices for retrieval models, retrieval training procedures, and inference algorithms. | 翻訳日:2024-03-14 00:55:00 公開日:2024-03-12 |
# TD学習と教師付き学習のギャップを埋める - 一般化の視点から Closing the Gap between TD Learning and Supervised Learning -- A Generalisation Point of View ( http://arxiv.org/abs/2401.11237v2 ) ライセンス: Link先を確認 | Raj Ghugare, Matthieu Geist, Glen Berseth, Benjamin Eysenbach | (参考訳) いくつかの強化学習(RL)アルゴリズムは、トレーニング中に見たことのないタスクを解決するために経験の一部を縫うことができる。
この特性は、動的プログラミングに基づくRL法と教師あり学習(SL)に基づくRL法とを区別する数少ない方法の1つである。
しかし, 市販slアルゴリズムに基づくrl法では縫い付け機構を明示せずに優れた結果が得られるが, この重要な縫い付け特性が得られていないかは定かではない。
本稿では,目標目標状態の達成と目標回帰値の達成という課題に対して,この問題を考察する。
私たちの主な結果は、ステッチ特性が組合せ一般化の形式に対応していることを示すことである:(状態、目標)ペアの分布を訓練した後、トレーニングデータで見ない(状態、目標)ペアを評価したい。
我々の分析によると、この種の一般化はi.i.d.一般化とは異なる。
縫合と一般化のこの関係は、大規模なデータセットやモデルに限らず、SLベースのRL法が縫合を行おうとしない理由を明らかにしている。
この分析に基づいて,この性質を明示的にテストするための新しいデータセットを構築し,slベースの手法ではステッチ特性が欠如しており,したがって組合せ一般化が行えないことを明らかにした。
それでも、縫合と組合せ一般化の関連性は、SLの一般化を改善するための単純な方法である。
本稿では、時間的データ拡張を提案し、SLベースの手法に付加することで、トレーニング中に一緒に見えないタスクを完了できることを実証する。
高いレベルでは、この接続は、音声、ビデオ、テキストといったrl以外のタスクにおける時系列データにおけるデータ効率に対する組合せ一般化の重要性を示している。 Some reinforcement learning (RL) algorithms can stitch pieces of experience to solve a task never seen before during training. This oft-sought property is one of the few ways in which RL methods based on dynamic-programming differ from RL methods based on supervised-learning (SL). Yet, certain RL methods based on off-the-shelf SL algorithms achieve excellent results without an explicit mechanism for stitching; it remains unclear whether those methods forgo this important stitching property. This paper studies this question for the problems of achieving a target goal state and achieving a target return value. Our main result is to show that the stitching property corresponds to a form of combinatorial generalization: after training on a distribution of (state, goal) pairs, one would like to evaluate on (state, goal) pairs not seen together in the training data. Our analysis shows that this sort of generalization is different from i.i.d. generalization. This connection between stitching and generalisation reveals why we should not expect SL-based RL methods to perform stitching, even in the limit of large datasets and models. Based on this analysis, we construct new datasets to explicitly test for this property, revealing that SL-based methods lack this stitching property and hence fail to perform combinatorial generalization. Nonetheless, the connection between stitching and combinatorial generalisation also suggests a simple remedy for improving generalisation in SL: data augmentation. We propose a temporal data augmentation and demonstrate that adding it to SL-based methods enables them to successfully complete tasks not seen together during training. On a high level, this connection illustrates the importance of combinatorial generalization for data efficiency in time-series data beyond tasks beyond RL, like audio, video, or text. | 翻訳日:2024-03-14 00:54:45 公開日:2024-03-12 |
# CivRealm: 意思決定エージェントの文明化における学習と推論 CivRealm: A Learning and Reasoning Odyssey in Civilization for Decision-Making Agents ( http://arxiv.org/abs/2401.10568v2 ) ライセンス: Link先を確認 | Siyuan Qi, Shuo Chen, Yexin Li, Xiangyu Kong, Junqi Wang, Bangcheng Yang, Pring Wong, Yifan Zhong, Xiaoyuan Zhang, Zhaowei Zhang, Nian Liu, Wei Wang, Yaodong Yang, Song-Chun Zhu | (参考訳) 意思決定エージェントの一般化は、過去の経験から学ぶことと、新しい文脈における推論という2つの基本的な要素を含んでいる。
しかし、ほとんどのインタラクティブな環境では、しばしば推論の複雑さを犠牲にして、学習に重点を置いている。
本稿では,文明ゲームに触発された環境であるCivRealmを紹介する。
文明と人類の歴史と社会との深い連携は高度な学習を必要とし、その変化を続ける状況は、一般化を強く要求する。
特に、CivRealmはプレイヤー数の変化する不完全情報汎用ゲームを設置し、外交と交渉のスキルを必要とするオープンエンドの確率的環境に対処するようエージェントに挑戦する複雑な特徴を多数提示する。
CivRealm内では、学習に焦点を当てたテンソルベースのエージェントと推論を重視した言語ベースのエージェントの2つの典型的なエージェントタイプのインターフェースを提供する。
さらなる研究を促進するために,両パラダイムの初期結果を示す。
標準的RLベースのエージェントはミニゲームにおいて合理的なパフォーマンスを示すが、RLベースのエージェントとLLMベースのエージェントはゲーム全体においてかなりの進歩を遂げることができない。
全体として、CivRealmは意思決定エージェントにとってユニークな学習と推論の課題である。
コードはhttps://github.com/bigai-ai/civrealmで入手できる。 The generalization of decision-making agents encompasses two fundamental elements: learning from past experiences and reasoning in novel contexts. However, the predominant emphasis in most interactive environments is on learning, often at the expense of complexity in reasoning. In this paper, we introduce CivRealm, an environment inspired by the Civilization game. Civilization's profound alignment with human history and society necessitates sophisticated learning, while its ever-changing situations demand strong reasoning to generalize. Particularly, CivRealm sets up an imperfect-information general-sum game with a changing number of players; it presents a plethora of complex features, challenging the agent to deal with open-ended stochastic environments that require diplomacy and negotiation skills. Within CivRealm, we provide interfaces for two typical agent types: tensor-based agents that focus on learning, and language-based agents that emphasize reasoning. To catalyze further research, we present initial results for both paradigms. The canonical RL-based agents exhibit reasonable performance in mini-games, whereas both RL- and LLM-based agents struggle to make substantial progress in the full game. Overall, CivRealm stands as a unique learning and reasoning challenge for decision-making agents. The code is available at https://github.com/bigai-ai/civrealm. | 翻訳日:2024-03-14 00:54:18 公開日:2024-03-12 |
# カスケード強化学習 Cascading Reinforcement Learning ( http://arxiv.org/abs/2401.08961v3 ) ライセンス: Link先を確認 | Yihan Du, R. Srikant, Wei Chen | (参考訳) cascading banditsは、レコメンデーションシステムやオンライン広告に適用できるため、近年人気を集めている。
カスケーディング・バンディット・モデルでは、各段階においてエージェントはアイテムのプールからアイテムの順序付きサブセット(アイテムリストと呼ばれる)を推奨し、それぞれが未知のアトラクション確率に関連付けられている。
そして、ユーザがリストを調べて、最初の魅力的なアイテム(もしあれば)をクリックし、その後、エージェントは報酬を受け取る。
エージェントの目標は、期待される累積報酬を最大化することです。
しかし、カスケードの盗賊に関する以前の文献は、セッションが進むにつれて、レコメンデーションや状態の変化に対するユーザー状態(例えば歴史的な行動)の影響を無視している。
この事実を動機として,ユーザ状態と状態遷移が意思決定に与える影響を考慮し,一般化されたカスケードRLフレームワークを提案する。
カスケードRLでは、大きなアトラクション確率を持つだけでなく、優れた後継状態につながる項目を選択する必要がある。
これは組合せ作用空間のために大きな計算上の困難を課す。
この課題に対処するため、我々は値関数の特性を調べ、最適な項目リストを効率的に見つけるためにBestPermを設計します。
BestPermを組み込んだCascadingVIとCascadingBPIの2つのアルゴリズムを開発した。
さらに,既存のrlアルゴリズムの直接適応と比較して,アルゴリズムの計算効率およびサンプル効率が向上することを示す実験を行った。 Cascading bandits have gained popularity in recent years due to their applicability to recommendation systems and online advertising. In the cascading bandit model, at each timestep, an agent recommends an ordered subset of items (called an item list) from a pool of items, each associated with an unknown attraction probability. Then, the user examines the list, and clicks the first attractive item (if any), and after that, the agent receives a reward. The goal of the agent is to maximize the expected cumulative reward. However, the prior literature on cascading bandits ignores the influences of user states (e.g., historical behaviors) on recommendations and the change of states as the session proceeds. Motivated by this fact, we propose a generalized cascading RL framework, which considers the impact of user states and state transition into decisions. In cascading RL, we need to select items not only with large attraction probabilities but also leading to good successor states. This imposes a huge computational challenge due to the combinatorial action space. To tackle this challenge, we delve into the properties of value functions, and design an oracle BestPerm to efficiently find the optimal item list. Equipped with BestPerm, we develop two algorithms CascadingVI and CascadingBPI, which are both computationally-efficient and sample-efficient, and provide near-optimal regret and sample complexity guarantees. Furthermore, we present experiments to show the improved computational and sample efficiencies of our algorithms compared to straightforward adaptations of existing RL algorithms in practice. | 翻訳日:2024-03-14 00:53:56 公開日:2024-03-12 |
# ファウショット物体検出のための微粒化原型蒸留法 Fine-Grained Prototypes Distillation for Few-Shot Object Detection ( http://arxiv.org/abs/2401.07629v2 ) ライセンス: Link先を確認 | Zichen Wang, Bo Yang, Haonan Yue, Zhenghao Ma | (参考訳) Few-shot Object Detection (FSOD) は、新しい物体検出のためのジェネリック検出器を拡張することを目的としている。
近年は実践的な意味から大きな関心を集めている。
この課題にはメタラーニングが効果的なパラダイムであることが示されている。
一般に、メタラーニングに基づくメソッドは、新しい例(例えばサポートイメージ)をクラスプロトタイプにエンコードするために追加のサポートブランチを使用し、クエリブランチと融合してモデル予測を容易にする。
しかし, クラスレベルのプロトタイプは正確な生成が困難であり, 詳細な情報も欠如しており, 性能の不安定さを招き, より堅牢な新しいオブジェクト検出のためには, 特徴のある局所的コンテキストを捉える必要がある。
そこで本研究では,最も代表的な支持機能を微細なプロトタイプに蒸留することを提案する。
これらのプロトタイプは、マッチング結果に基づいてクエリ特徴マップに割り当てられ、2つのブランチ間の詳細な特徴関係をモデル化する。
このプロセスは、きめ細かいフィーチャーアグリゲーション(ffa)モジュールによって実現されます。
さらに,高レベル特徴融合の観点からは,b-cas戦略とnlfモジュールの差異を考慮したバランスドクラス非依存サンプリングを提案する。
それらは互いに補完的であり、高レベルな特徴関係をより効果的に描写する。
PASCAL VOC および MS COCO ベンチマークの大規模な実験により,本手法は,ほとんどの設定において新しい最先端性能を実現する。
私たちのコードはhttps://github.com/wangchen1801/fpdで利用可能です。 Few-shot object detection (FSOD) aims at extending a generic detector for novel object detection with only a few training examples. It attracts great concerns recently due to the practical meanings. Meta-learning has been demonstrated to be an effective paradigm for this task. In general, methods based on meta-learning employ an additional support branch to encode novel examples (a.k.a. support images) into class prototypes, which are then fused with query branch to facilitate the model prediction. However, the class-level prototypes are difficult to precisely generate, and they also lack detailed information, leading to instability in performance.New methods are required to capture the distinctive local context for more robust novel object detection. To this end, we propose to distill the most representative support features into fine-grained prototypes. These prototypes are then assigned into query feature maps based on the matching results, modeling the detailed feature relations between two branches. This process is realized by our Fine-Grained Feature Aggregation (FFA) module. Moreover, in terms of high-level feature fusion, we propose Balanced Class-Agnostic Sampling (B-CAS) strategy and Non-Linear Fusion (NLF) module from differenct perspectives. They are complementary to each other and depict the high-level feature relations more effectively. Extensive experiments on PASCAL VOC and MS COCO benchmarks show that our method sets a new state-of-the-art performance in most settings. Our code is available at https://github.com/wangchen1801/FPD. | 翻訳日:2024-03-14 00:53:29 公開日:2024-03-12 |
# クリフォード群同変単純メッセージパッシングネットワーク Clifford Group Equivariant Simplicial Message Passing Networks ( http://arxiv.org/abs/2402.10011v3 ) ライセンス: Link先を確認 | Cong Liu, David Ruhe, Floor Eijkelboom, Patrick Forr\'e | (参考訳) 本稿では,Simplicial Complex上でのE(n)-equivariantメッセージパッシング法であるClifford Group Equivariant Simplicial Message Passing Networksを紹介する。
提案手法は, クリフォード群同変層の表現率と単純メッセージパッシングを統合し, 通常のグラフメッセージパッシングよりもトポロジ的に複雑である。
クリフォード代数には、ベクトルから派生した幾何学的特徴(例えば、領域、体積)を表現する bivectors や trivectors のような高次対象が含まれる。
この知識を用いて, 頂点の幾何学的積を通して, 単純な特徴を表現する。
効率的な簡易なメッセージパッシングを実現するため、異なる次元にわたるメッセージネットワークのパラメータを共有する。
さらに、最終メッセージを異なる次元から受信したメッセージの集約に制限し、共有単純メッセージパッシングと呼ばれるものを生み出します。
実験結果から,本手法は様々な幾何学的タスクにおいて,同変および単純グラフニューラルネットよりも優れることが示された。 We introduce Clifford Group Equivariant Simplicial Message Passing Networks, a method for steerable E(n)-equivariant message passing on simplicial complexes. Our method integrates the expressivity of Clifford group-equivariant layers with simplicial message passing, which is topologically more intricate than regular graph message passing. Clifford algebras include higher-order objects such as bivectors and trivectors, which express geometric features (e.g., areas, volumes) derived from vectors. Using this knowledge, we represent simplex features through geometric products of their vertices. To achieve efficient simplicial message passing, we share the parameters of the message network across different dimensions. Additionally, we restrict the final message to an aggregation of the incoming messages from different dimensions, leading to what we term shared simplicial message passing. Experimental results show that our method is able to outperform both equivariant and simplicial graph neural networks on a variety of geometric tasks. | 翻訳日:2024-03-14 00:46:42 公開日:2024-03-12 |
# 生成型adversarial network discriminatorにおける病的バイアスの検討:stylegan3モデルを用いたケーススタディ Examining Pathological Bias in a Generative Adversarial Network Discriminator: A Case Study on a StyleGAN3 Model ( http://arxiv.org/abs/2402.09786v3 ) ライセンス: Link先を確認 | Alvin Grissom II, Ryan F. Lei, Matt Gusdorff, Jeova Farias Sales Rocha Neto, Bailey Lin, Ryan Trotter | (参考訳) generative adversarial network (gans) は、人間と実際の顔では区別できないフォトリアリスティックな顔を生成する。
機械学習モデルの偏りはトレーニングデータの偏りによるものと仮定されることが多いが、トレーニングデータでは説明できない事前訓練されたstylegan3-rモデルの判別器では、病的内部色と輝度バイアスがみられる。
また、判別器は、画像レベルと顔レベルの両方の品質でスコアを体系的に階層化し、不均等に性別、人種、その他のカテゴリーのイメージに影響を及ぼす。
社会心理学におけるステレオタイプ研究に共通する軸について検討する。 Generative adversarial networks (GANs) generate photorealistic faces that are often indistinguishable by humans from real faces. While biases in machine learning models are often assumed to be due to biases in training data, we find pathological internal color and luminance biases in the discriminator of a pre-trained StyleGAN3-r model that are not explicable by the training data. We also find that the discriminator systematically stratifies scores by both image- and face-level qualities and that this disproportionately affects images across gender, race, and other categories. We examine axes common in research on stereotyping in social psychology. | 翻訳日:2024-03-14 00:46:25 公開日:2024-03-12 |
# 自己駆動型センサとディープラーニングを組み合わせた人工知能応用の進歩 Progress in artificial intelligence applications based on the combination of self-driven sensors and deep learning ( http://arxiv.org/abs/2402.09442v3 ) ライセンス: Link先を確認 | Weixiang Wan, Wenjian Sun, Qiang Zeng, Linying Pan, Jingyu Xu, Bo Liu | (参考訳) モノのインターネット時代において、持続可能な電源、展開が容易で柔軟な使用が可能なスマートセンサーシステムの開発は、解決が難しい問題となっている。
従来の電源には、頻繁に交換や充電といった問題があり、ウェアラブルデバイスの開発を制限している。
接触分離摩擦ナノ発電機 (teng) を多孔性チレン (ptfe) とアルミニウム (ai) ホイルを用いて作製した。
人間の運動エネルギーは人体アレンジメントによって収集され、出力電気信号の変化に応じて人間の運動姿勢が監視された。
2012年、Academician Wang Zhong lin と彼のチームは、マックスウェルの変位電流を駆動力として、機械的刺激を直接電気信号に変換することで、自己駆動型センサーとして使用できるトリボ誘電体ナノジェネレータ (TENG) を発明した。
テングベースのセンサは、単純な構造と高瞬時電力密度の利点があり、インテリジェントセンサーシステムを構築する上で重要な手段となる。
同時に、低コストで開発サイクルが短く、強力なデータ処理能力と予測能力を持つ機械学習は、TENGが生成する多数の電気信号の処理に重大な影響を及ぼし、TENGセンサーと組み合わせることで、将来的にはインテリジェントセンサーネットワークの急速な開発が促進される。
そこで本稿は, 音声認識能力に優れ, ユビキタスセンサネットワークにおける音認識モジュールアーキテクチャの実現可能性を評価することを目的とした, TENG のインテリジェントな音響監視・認識システムに基づく。 In the era of Internet of Things, how to develop a smart sensor system with sustainable power supply, easy deployment and flexible use has become a difficult problem to be solved. The traditional power supply has problems such as frequent replacement or charging when in use, which limits the development of wearable devices. The contact-to-separate friction nanogenerator (TENG) was prepared by using polychotomy thy lene (PTFE) and aluminum (AI) foils. Human motion energy was collected by human body arrangement, and human motion posture was monitored according to the changes of output electrical signals. In 2012, Academician Wang Zhong lin and his team invented the triboelectric nanogenerator (TENG), which uses Maxwell displacement current as a driving force to directly convert mechanical stimuli into electrical signals, so it can be used as a self-driven sensor. Teng-based sensors have the advantages of simple structure and high instantaneous power density, which provides an important means for building intelligent sensor systems. At the same time, machine learning, as a technology with low cost, short development cycle, strong data processing ability and prediction ability, has a significant effect on the processing of a large number of electrical signals generated by TENG, and the combination with TENG sensors will promote the rapid development of intelligent sensor networks in the future. Therefore, this paper is based on the intelligent sound monitoring and recognition system of TENG, which has good sound recognition capability, and aims to evaluate the feasibility of the sound perception module architecture in ubiquitous sensor networks. | 翻訳日:2024-03-14 00:46:13 公開日:2024-03-12 |
# WiMANS:WiFiベースのマルチユーザアクティビティセンシングのためのベンチマークデータセット WiMANS: A Benchmark Dataset for WiFi-based Multi-user Activity Sensing ( http://arxiv.org/abs/2402.09430v2 ) ライセンス: Link先を確認 | Shuokang Huang, Kaihan Li, Di You, Yichong Chen, Arvin Lin, Siying Liu, Xiaohui Li, Julie A. McCann | (参考訳) wifiベースの人間センシングは、非意図的でデバイスフリーな方法でユーザーの行動を解析する顕著な可能性を示しており、スマートホームやヘルスケアのような多様なアプリケーションにも恩恵をもたらしている。
しかしながら、以前のほとんどの作業は、複数のユーザを含むシナリオで実用性に制限のあるシングルユーザセンシングに重点を置いている。
近年、WiFiベースのマルチユーザセンシングの研究が始まっているが、再現性と同等の研究を促進するためのベンチマークデータセットが不足している。
このギャップを埋めるために、WiMANSを私たちの知る限り、WiFiに基づくマルチユーザセンシングのための最初のデータセットとして提示します。
WiMANSには9.4時間以上のデュアルバンドWiFiチャンネル状態情報(CSI)と、同期されたビデオ、複数のユーザの同時活動の監視が含まれている。
私たちはwimansを利用して、最先端のwifiベースの人間センシングモデルとビデオベースのモデルのパフォーマンスをベンチマークし、新しい課題と将来の仕事の機会を与えます。
我々はWiMANSが現在の研究の境界を押し進め、WiFiベースのマルチユーザーセンシングの研究を促進することができると信じている。 WiFi-based human sensing has exhibited remarkable potential to analyze user behaviors in a non-intrusive and device-free manner, benefiting applications as diverse as smart homes and healthcare. However, most previous works focus on single-user sensing, which has limited practicability in scenarios involving multiple users. Although recent studies have begun to investigate WiFi-based multi-user sensing, there remains a lack of benchmark datasets to facilitate reproducible and comparable research. To bridge this gap, we present WiMANS, to our knowledge, the first dataset for multi-user sensing based on WiFi. WiMANS contains over 9.4 hours of dual-band WiFi Channel State Information (CSI), as well as synchronized videos, monitoring simultaneous activities of multiple users. We exploit WiMANS to benchmark the performance of state-of-the-art WiFi-based human sensing models and video-based models, posing new challenges and opportunities for future work. We believe WiMANS can push the boundaries of current studies and catalyze the research on WiFi-based multi-user sensing. | 翻訳日:2024-03-14 00:45:43 公開日:2024-03-12 |
# プライバシアウェアエージェントの集団意思決定 Group Decision-Making among Privacy-Aware Agents ( http://arxiv.org/abs/2402.08156v3 ) ライセンス: Link先を確認 | Marios Papachristou, M. Amin Rahimian | (参考訳) プライバシーやセキュリティの懸念にもかかわらず、個人はどのように情報を交換して相互に学び合うのか?
例えば、議論の多いトピックを熟考し、個人的な経験を開示することに関心を持つ個人を考える。
個人のプライバシーを維持し、効果的な社会的学習を可能にすることはどちらも重要なデシダータであるが、基本的には互いに相反し、和解が困難である。
我々は、差分プライバシー(dp)に基づく厳密な統計保証を用いて情報漏洩を制御する。
我々のエージェントは、隣人と通信した後、彼らの信念を更新するためにログリニアルールを使用します。
信条にDPランダム化ノイズを加えることで、コミュニケーションエージェントは、彼らのプライベート情報とそのネットワーク近隣について、もっともらしい識別性が得られる。
2つの学習環境を,有限個のプライベート信号が与えられた分散最大様相推定用と,無限の断続的な信号ストリームからオンライン学習用と考えて検討した。
有限ケースにおけるノイズ情報集約は、低品質状態の拒絶と、アルゴリズム出力にすべての高品質状態が受け入れられることの間の興味深いトレードオフをもたらす。
その結果,グループ意思決定の結果の質,学習精度,通信コスト,エージェントが備えているプライバシー保護の水準の両面でのトレードオフの性質が明らかになった。 How can individuals exchange information to learn from each other despite their privacy needs and security concerns? For example, consider individuals deliberating a contentious topic and being concerned about divulging their private experiences. Preserving individual privacy and enabling efficient social learning are both important desiderata but seem fundamentally at odds with each other and very hard to reconcile. We do so by controlling information leakage using rigorous statistical guarantees that are based on differential privacy (DP). Our agents use log-linear rules to update their beliefs after communicating with their neighbors. Adding DP randomization noise to beliefs provides communicating agents with plausible deniability with regard to their private information and their network neighborhoods. We consider two learning environments one for distributed maximum-likelihood estimation given a finite number of private signals and another for online learning from an infinite, intermittent signal stream. Noisy information aggregation in the finite case leads to interesting tradeoffs between rejecting low-quality states and making sure all high-quality states are accepted in the algorithm output. Our results flesh out the nature of the trade-offs in both cases between the quality of the group decision outcomes, learning accuracy, communication cost, and the level of privacy protections that the agents are afforded. | 翻訳日:2024-03-14 00:45:03 公開日:2024-03-12 |
# 擬似ラベルを用いたドメイン適応 Domain Adaptation Using Pseudo Labels ( http://arxiv.org/abs/2402.06809v3 ) ライセンス: Link先を確認 | Sachin Chhabra, Hemanth Venkateswara and Baoxin Li | (参考訳) ラベル付きターゲットデータがない場合、教師なしのドメイン適応アプローチは、ターゲットの分類器を訓練するために、ソースとターゲットドメインの限界分布を調整することを求める。
教師なしドメインアライメント手順はカテゴリに依存しず、最終的にカテゴリを誤認する。
我々は,複数段階の擬似ラベル修正手法を用いて,対象ドメインの正確なラベルを決定するために事前学習ネットワークを配置することでこの問題に対処する。
フィルタは疑似ラベルの信頼性、距離(整合性)、一貫性に基づいている。
複数のデータセットに対する結果から, 複雑な最先端技術と比較して, 簡単な手順の有効性が示された。 In the absence of labeled target data, unsupervised domain adaptation approaches seek to align the marginal distributions of the source and target domains in order to train a classifier for the target. Unsupervised domain alignment procedures are category-agnostic and end up misaligning the categories. We address this problem by deploying a pretrained network to determine accurate labels for the target domain using a multi-stage pseudo-label refinement procedure. The filters are based on the confidence, distance (conformity), and consistency of the pseudo labels. Our results on multiple datasets demonstrate the effectiveness of our simple procedure in comparison with complex state-of-the-art techniques. | 翻訳日:2024-03-14 00:43:57 公開日:2024-03-12 |
# 表面筋電図信号に対する非侵入的神経質評価モデル A Non-Intrusive Neural Quality Assessment Model for Surface Electromyography Signals ( http://arxiv.org/abs/2402.05482v2 ) ライセンス: Link先を確認 | Cho-Yuan Lee, Kuan-Chen Wang, Kai-Chun Liu, Xugang Lu, Ping-Cheng Yeh, and Yu Tsao | (参考訳) 筋、特に心臓近くの領域における表面筋電図(sEMG)の測定を含む現実的なシナリオにおいて、汚染の主な原因の1つは心電図(ECG)信号の存在である。
本研究では,実世界のSEMGデータの品質をより効果的に評価するために,SEMG信号のSNRを予測する新しい非侵入モデルQASE-netを提案する。
QASE-netはCNN-BLSTMとアテンションメカニズムを組み合わせて、エンドツーエンドのトレーニング戦略に従う。
実験フレームワークは,2つのオープンアクセスデータベースであるNon-Invasive Adaptive Prosthetics DatabaseとMIT-BIH Normal Sinus Rhythm Databaseから,実世界のsEMGとECGデータを利用する。
実験の結果, 従来の評価モデルよりもQASE-netの方が優れており, 予測誤差が著しく減少し, 地中真実との線形相関が顕著であった。
これらの結果から,QASE-netがSEMG品質評価の信頼性と精度を大幅に向上させる可能性が示唆された。 In practical scenarios involving the measurement of surface electromyography (sEMG) in muscles, particularly those areas near the heart, one of the primary sources of contamination is the presence of electrocardiogram (ECG) signals. To assess the quality of real-world sEMG data more effectively, this study proposes QASE-net, a new non-intrusive model that predicts the SNR of sEMG signals. QASE-net combines CNN-BLSTM with attention mechanisms and follows an end-to-end training strategy. Our experimental framework utilizes real-world sEMG and ECG data from two open-access databases, the Non-Invasive Adaptive Prosthetics Database and the MIT-BIH Normal Sinus Rhythm Database, respectively. The experimental results demonstrate the superiority of QASE-net over the previous assessment model, exhibiting significantly reduced prediction errors and notably higher linear correlations with the ground truth. These findings show the potential of QASE-net to substantially enhance the reliability and precision of sEMG quality assessment in practical applications. | 翻訳日:2024-03-14 00:43:48 公開日:2024-03-12 |
# ray denoising: 多視点3次元物体検出のための奥行き認識ハードネガティブサンプリング Ray Denoising: Depth-aware Hard Negative Sampling for Multi-view 3D Object Detection ( http://arxiv.org/abs/2402.03634v2 ) ライセンス: Link先を確認 | Feng Liu, Tengteng Huang, Qianjing Zhang, Haotian Yao, Chi Zhang, Fang Wan, Qixiang Ye, Yanzhao Zhou | (参考訳) 多視点の3dオブジェクト検出システムは、画像から深さを推定することの難しさから正確な予測を生成するのに苦労することが多い。
本稿では,カメラ線を戦略的にサンプリングすることで検出精度を高める手法であるRay Denoisingを提案する。
これらの例は、真の正と区別することが困難であり、モデルに深度を認識した特徴を学習させ、真と偽の正を区別する能力を向上させる。
Ray Denoisingはプラグイン・アンド・プレイモジュールとして設計されており、DETRスタイルのマルチビュー3D検出器と互換性がある。
詳細なアブレーション研究を含む包括的な実験は、Ray Denoisingが複数のデータセットで強いベースラインを上回っていることを一貫して示しています。
NuScenesデータセットの最先端StreamPETR法よりも平均平均精度(mAP)が 1.9 % 向上している。
Argoverse 2データセットの大幅なパフォーマンス向上を示し、その一般化能力を強調している。
コードはhttps://github.com/LiewFeng/RayDN.comで入手できる。 Multi-view 3D object detection systems often struggle with generating precise predictions due to the challenges in estimating depth from images, increasing redundant and incorrect detections. Our paper presents Ray Denoising, an innovative method that enhances detection accuracy by strategically sampling along camera rays to construct hard negative examples. These examples, visually challenging to differentiate from true positives, compel the model to learn depth-aware features, thereby improving its capacity to distinguish between true and false positives. Ray Denoising is designed as a plug-and-play module, compatible with any DETR-style multi-view 3D detectors, and it only minimally increases training computational costs without affecting inference speed. Our comprehensive experiments, including detailed ablation studies, consistently demonstrate that Ray Denoising outperforms strong baselines across multiple datasets. It achieves a 1.9\% improvement in mean Average Precision (mAP) over the state-of-the-art StreamPETR method on the NuScenes dataset. It shows significant performance gains on the Argoverse 2 dataset, highlighting its generalization capability. The code will be available at https://github.com/LiewFeng/RayDN. | 翻訳日:2024-03-14 00:43:06 公開日:2024-03-12 |
# IGUANe:脳MR画像のマルチセンター調和のための3次元一般化可能なサイクロンGAN IGUANe: a 3D generalizable CycleGAN for multicenter harmonization of brain MR images ( http://arxiv.org/abs/2402.03227v3 ) ライセンス: Link先を確認 | Vincent Roca, Gr\'egory Kuchcinski, Jean-Pierre Pruvo, Dorian Manouvriez, Renaud Lopes | (参考訳) mri研究において、複数の取得サイトからの画像データの集約はサンプルサイズを増加させるが、その後の分析における一貫性を妨げるサイト関連変異をもたらす可能性がある。
画像翻訳のための深層学習手法が, MR画像との調和のためのソリューションとして登場した。
本研究では,ドメイン翻訳の強みを活かしたオリジナル3次元モデルであるiguane(unified adversarial networksを用いた画像生成)と,多施設脳mr画像調和のためのスタイル伝達手法の簡易適用について紹介する。
IGUANeは、任意の数のドメインを統合することで、CycleGANアーキテクチャを拡張している。
推論中、モデルは未知の取得サイトからでも任意の画像に適用でき、調和のための普遍的な生成装置となる。
IGUANeは11種類のスキャナーからのT1強調画像からなるデータセットでトレーニングされ、見えないサイトのデータに基づいて評価された。
評価対象は、旅行者によるMR画像の変換、ドメイン内のMR画像間の相互距離の保存、年齢とアルツハイマードル^\prime$s病(AD)に関連する容積パターンの進化、年齢回帰と患者分類タスクのパフォーマンスなどであった。
他の調和化法や正規化法と比較すると、IGUANeはMR画像の個々の情報をより保存し、年齢やADに関連する変動の維持と強化に適していると考えられる。
将来の研究は、IGUANeを他のマルチセンターのコンテキストでさらに評価し、同じモデルを使ったり、異なる画像モダリティに応用するために再訓練したりすることができる。 In MRI studies, the aggregation of imaging data from multiple acquisition sites enhances sample size but may introduce site-related variabilities that hinder consistency in subsequent analyses. Deep learning methods for image translation have emerged as a solution for harmonizing MR images across sites. In this study, we introduce IGUANe (Image Generation with Unified Adversarial Networks), an original 3D model that leverages the strengths of domain translation and straightforward application of style transfer methods for multicenter brain MR image harmonization. IGUANe extends CycleGAN architecture by integrating an arbitrary number of domains for training through a many-to-one strategy. During inference, the model can be applied to any image, even from an unknown acquisition site, making it a universal generator for harmonization. Trained on a dataset comprising T1-weighted images from 11 different scanners, IGUANe was evaluated on data from unseen sites. The assessments included the transformation of MR images with traveling subjects, the preservation of pairwise distances between MR images within domains, the evolution of volumetric patterns related to age and Alzheimer$^\prime$s disease (AD), and the performance in age regression and patient classification tasks. Comparisons with other harmonization and normalization methods suggest that IGUANe better preserves individual information in MR images and is more suitable for maintaining and reinforcing variabilities related to age and AD. Future studies may further assess IGUANe in other multicenter contexts, either using the same model or retraining it for applications to different image modalities. | 翻訳日:2024-03-14 00:42:49 公開日:2024-03-12 |
# スナップショット強化学習 - 事前トラジェクトリを有効活用する Snapshot Reinforcement Learning: Leveraging Prior Trajectories for Efficiency ( http://arxiv.org/abs/2403.00673v2 ) ライセンス: Link先を確認 | Yanxiao Zhao, Yangge Qian, Tianyi Wang, Jingyang Shan, Xiaolin Qin | (参考訳) 深層強化学習(DRL)アルゴリズムは、高い性能を達成するために、かなりのサンプルと計算資源を必要とするため、実用的応用を制限し、さらなる開発に挑戦する。
限られた資源の制約を考えると、サンプル効率を高め、DRLアルゴリズムの計算資源消費を減らすために既存の計算作業(例えば、学習済みのポリシーやサンプル)を活用することが不可欠である。
既存の計算処理を活用するためには、柔軟性と普遍性に欠ける特定のアルゴリズムのために設計された既存のアルゴリズムとモデルに侵入的な修正が必要である。
本稿では,スナップショット強化学習(snapshotrl)フレームワークを提案する。このフレームワークは,単に環境を変更するだけで,アルゴリズムやモデルを変更することなくサンプル効率を向上させる。
スナップショットRLは、教師の軌跡の状態を初期状態として選択することで、教師の軌跡を効果的に活用し、訓練中の生徒のエージェントを支援することにより、学生のエージェントは早期訓練段階でより大きな状態空間を探索することができる。
本稿では,既存のDRLアルゴリズムとよく統合された,シンプルで効果的なSnapshotRLベースラインアルゴリズムS3RLを提案する。
実験により,S3RLとTD3,SAC,PPOのアルゴリズムをMuJoCoベンチマークに組み込むことで,余分なサンプルや計算資源を必要とせず,サンプル効率と平均戻り率を大幅に向上することが示された。 Deep reinforcement learning (DRL) algorithms require substantial samples and computational resources to achieve higher performance, which restricts their practical application and poses challenges for further development. Given the constraint of limited resources, it is essential to leverage existing computational work (e.g., learned policies, samples) to enhance sample efficiency and reduce the computational resource consumption of DRL algorithms. Previous works to leverage existing computational work require intrusive modifications to existing algorithms and models, designed specifically for specific algorithms, lacking flexibility and universality. In this paper, we present the Snapshot Reinforcement Learning (SnapshotRL) framework, which enhances sample efficiency by simply altering environments, without making any modifications to algorithms and models. By allowing student agents to choose states in teacher trajectories as the initial state to sample, SnapshotRL can effectively utilize teacher trajectories to assist student agents in training, allowing student agents to explore a larger state space at the early training phase. We propose a simple and effective SnapshotRL baseline algorithm, S3RL, which integrates well with existing DRL algorithms. Our experiments demonstrate that integrating S3RL with TD3, SAC, and PPO algorithms on the MuJoCo benchmark significantly improves sample efficiency and average return, without extra samples and additional computational resources. | 翻訳日:2024-03-14 00:36:50 公開日:2024-03-12 |
# 順序保存分割によるタイミング予測のためのpreroutgnn:グローバル回路事前学習、局所遅延学習、注意セルモデリング PreRoutGNN for Timing Prediction with Order Preserving Partition: Global Circuit Pre-training, Local Delay Learning and Attentional Cell Modeling ( http://arxiv.org/abs/2403.00012v2 ) ライセンス: Link先を確認 | Ruizhe Zhong, Junjie Ye, Zhentao Tang, Shixiong Kai, Mingxuan Yuan, Jianye Hao, Junchi Yan | (参考訳) チップ設計における候補セル配置の品質評価のために, プレルーティングタイミング予測が研究されている。
ピンレベル(スラック、スルー)とエッジレベル(ネット遅延、セル遅延)の両方のタイミングメトリクスを、時間を要するルーティングなしで直接推定する。
しかし、大規模産業回路における長いタイミングパスのため、信号の減衰やエラーの蓄積に苦しむことが多い。
これらの課題に対処するために,我々は二段階アプローチを提案する。
まず、回路網リストからグローバルグラフ埋め込みを学習するグラフオートエンコーダを事前学習するためのグローバル回路トレーニングを提案する。
次に,学習グラフ埋め込みと回路グラフのトポロジカルソートシーケンスに従って,gcn上のメッセージパッシングのためのノード更新方式を提案する。
このスキームは、更新シーケンス内の隣接する2つのピン間の局所時間遅延を残留的にモデル化し、新しい注意機構を介して各セル内のルックアップテーブル情報を抽出する。
大規模回路を効率的に処理するために,トポロジ依存を維持しながらメモリ消費を削減する順序保存分割方式を導入する。
21個の実世界の回路の実験では、スラック予測のための新しいSOTA R2が0.93となる。
コードはhttps://github.com/thinklab-sjtu/eda-ai。 Pre-routing timing prediction has been recently studied for evaluating the quality of a candidate cell placement in chip design. It involves directly estimating the timing metrics for both pin-level (slack, slew) and edge-level (net delay, cell delay), without time-consuming routing. However, it often suffers from signal decay and error accumulation due to the long timing paths in large-scale industrial circuits. To address these challenges, we propose a two-stage approach. First, we propose global circuit training to pre-train a graph auto-encoder that learns the global graph embedding from circuit netlist. Second, we use a novel node updating scheme for message passing on GCN, following the topological sorting sequence of the learned graph embedding and circuit graph. This scheme residually models the local time delay between two adjacent pins in the updating sequence, and extracts the lookup table information inside each cell via a new attention mechanism. To handle large-scale circuits efficiently, we introduce an order preserving partition scheme that reduces memory consumption while maintaining the topological dependencies. Experiments on 21 real world circuits achieve a new SOTA R2 of 0.93 for slack prediction, which is significantly surpasses 0.59 by previous SOTA method. Code will be available at: https://github.com/Thinklab-SJTU/EDA-AI. | 翻訳日:2024-03-14 00:36:24 公開日:2024-03-12 |
# WanJuan-CC: 安全で高品質なWebテキストデータセット WanJuan-CC: A Safe and High-Quality Open-sourced English Webtext Dataset ( http://arxiv.org/abs/2402.19282v5 ) ライセンス: Link先を確認 | Jiantao Qiu, Haijun Lv, Zhenjiang Jin, Rui Wang, Wenchang Ning, Jia Yu, ChaoBin Zhang, Zhenxiang Li, Pei Chu, Yuan Qu, Jin Shi, Lindong Lu, Runyu Peng, Zhiyuan Zeng, Huanze Tang, Zhikai Lei, Jiawei Hong, Keyu Chen, Zhaoye Fei, Ruiliang Xu, Wei Li, Zhongying Tu, Hang Yan and Conghui He | (参考訳) 本稿では,Common Crawlデータから得られた安全で高品質なウェブテキストデータセットであるWanJuan-CCを提案する。
この研究は、大量の高品質なデータを必要とする言語モデルのための大規模な事前学習データセットを構築する際の課題に対処する。
包括的なプロセスは、抽出、ヒューリスティックルールフィルタリング、ファジィ重複、コンテンツ安全性フィルタリング、データ品質フィルタリングを含むCommon Crawlデータを扱うように設計された。
約68億の英文文書から、安全データの222Tトークンを取得し、WanJuan-CCの一部として高品質データの1.0Tトークンを選定した。
このデータセットから100bトークンをオープンソースにしました。
この論文はデータ品質に関する統計情報も提供しており、ユーザーは必要に応じて適切なデータを選択することができる。
データセットの品質と有用性を評価するため,WanJuan-CCとRefinedWebを用いた1Bパラメータと3Bパラメータモデルをトレーニングした。
その結果、wanjuan-ccは検証データセットとダウンストリームタスクでパフォーマンスが向上した。 This paper presents WanJuan-CC, a safe and high-quality open-sourced English webtext dataset derived from Common Crawl data. The study addresses the challenges of constructing large-scale pre-training datasets for language models, which require vast amounts of high-quality data. A comprehensive process was designed to handle Common Crawl data, including extraction, heuristic rule filtering, fuzzy deduplication, content safety filtering, and data quality filtering. From approximately 68 billion original English documents, we obtained 2.22T Tokens of safe data and selected 1.0T Tokens of high-quality data as part of WanJuan-CC. We have open-sourced 100B Tokens from this dataset. The paper also provides statistical information related to data quality, enabling users to select appropriate data according to their needs. To evaluate the quality and utility of the dataset, we trained 1B-parameter and 3B-parameter models using WanJuan-CC and another dataset, RefinedWeb. Results show that WanJuan-CC performs better on validation datasets and downstream tasks. | 翻訳日:2024-03-14 00:35:57 公開日:2024-03-12 |
# 対面アンチスプーフィングのためのグラディエントアライメント Gradient Alignment for Cross-Domain Face Anti-Spoofing ( http://arxiv.org/abs/2402.18817v2 ) ライセンス: Link先を確認 | Binh M. Le, Simon S. Woo | (参考訳) フェース・アンチ・スプーフィング(FAS)に対する領域一般化(DG)の進歩は注目されている。
従来の手法では、学習目標の設計や、ドメイン固有の特徴を分離するためのモジュールの追加に重点を置いてきた。
しかし、そのようなアプローチはドメイン不変機能の一貫性のあるメンテナンスやドメイン固有機能の完全削除の保証を欠いていることが多い。
さらに、FAS に対する DG の以前のほとんどの研究は、DG に有利であることが示されている局所平坦極小への収束を保証していない。
本稿では,新たな学習目的であるGAC-FASを紹介する。
従来のシャープネス対応最小化器とは異なり、GAC-FASは各領域の上昇点を特定し、これらの点における一般化勾配の更新を規制し、経験的リスク最小化(ERM)勾配の更新と整合する。
このユニークなアプローチは、特にドメインシフトに対して堅牢であるようにモデルを導く。
本稿では,NASデータセットに対する厳密なテストを通じてGAC-FASの有効性を示す。
コードはhttps://github.com/leminhbinh0209/CVPR24-FASで公開されている。 Recent advancements in domain generalization (DG) for face anti-spoofing (FAS) have garnered considerable attention. Traditional methods have focused on designing learning objectives and additional modules to isolate domain-specific features while retaining domain-invariant characteristics in their representations. However, such approaches often lack guarantees of consistent maintenance of domain-invariant features or the complete removal of domain-specific features. Furthermore, most prior works of DG for FAS do not ensure convergence to a local flat minimum, which has been shown to be advantageous for DG. In this paper, we introduce GAC-FAS, a novel learning objective that encourages the model to converge towards an optimal flat minimum without necessitating additional learning modules. Unlike conventional sharpness-aware minimizers, GAC-FAS identifies ascending points for each domain and regulates the generalization gradient updates at these points to align coherently with empirical risk minimization (ERM) gradient updates. This unique approach specifically guides the model to be robust against domain shifts. We demonstrate the efficacy of GAC-FAS through rigorous testing on challenging cross-domain FAS datasets, where it establishes state-of-the-art performance. The code is available at https://github.com/leminhbinh0209/CVPR24-FAS. | 翻訳日:2024-03-14 00:35:39 公開日:2024-03-12 |
# Data Interpreter: データサイエンスのためのLLMエージェント Data Interpreter: An LLM Agent For Data Science ( http://arxiv.org/abs/2402.18679v3 ) ライセンス: Link先を確認 | Sirui Hong, Yizhang Lin, Bang Liu, Bangbang Liu, Binhao Wu, Danyang Li, Jiaqi Chen, Jiayi Zhang, Jinlin Wang, Li Zhang, Lingyao Zhang, Min Yang, Mingchen Zhuge, Taicheng Guo, Tuo Zhou, Wei Tao, Wenyi Wang, Xiangru Tang, Xiangtao Lu, Xiawu Zheng, Xinbing Liang, Yaying Fei, Yuheng Cheng, Zongze Xu, Chenglin Wu | (参考訳) 大規模言語モデル(LLM)に基づくエージェントは顕著な効果を示した。
しかし、それらのパフォーマンスは、リアルタイムなデータ調整、様々なタスク間の複雑な依存関係による最適化の専門知識、正確な推論のための論理的エラーを特定する能力を必要とするデータサイエンスのシナリオで損なわれる可能性がある。
本研究では、データサイエンスにおける問題解決を強化するために、3つの重要なテクニックを強調したコードで解決するためのソリューションであるData Interpreterを紹介する。
1)リアルタイムデータ適応性のための階層的グラフ構造による動的計画、2)実行中のコード習熟度を高めるためのツールの統合、必要な専門知識の充実、3)フィードバックにおける論理的不一貫性の識別、そして体験記録による効率向上。
データインタプリタを様々なデータサイエンスや実世界のタスクで評価する。
オープンソースのベースラインと比較すると、優れたパフォーマンスを示し、機械学習タスクが大幅に改善され、0.86から0.95に増加した。
さらに、数学データセットの26%の増加と112%のオープンエンドタスクの改善が見られた。
ソリューションはhttps://github.com/geekan/MetaGPTでリリースされる。 Large Language Model (LLM)-based agents have demonstrated remarkable effectiveness. However, their performance can be compromised in data science scenarios that require real-time data adjustment, expertise in optimization due to complex dependencies among various tasks, and the ability to identify logical errors for precise reasoning. In this study, we introduce the Data Interpreter, a solution designed to solve with code that emphasizes three pivotal techniques to augment problem-solving in data science: 1) dynamic planning with hierarchical graph structures for real-time data adaptability;2) tool integration dynamically to enhance code proficiency during execution, enriching the requisite expertise;3) logical inconsistency identification in feedback, and efficiency enhancement through experience recording. We evaluate the Data Interpreter on various data science and real-world tasks. Compared to open-source baselines, it demonstrated superior performance, exhibiting significant improvements in machine learning tasks, increasing from 0.86 to 0.95. Additionally, it showed a 26% increase in the MATH dataset and a remarkable 112% improvement in open-ended tasks. The solution will be released at https://github.com/geekan/MetaGPT. | 翻訳日:2024-03-14 00:35:18 公開日:2024-03-12 |
# RIME:雑音を考慮したロバスト推論に基づく強化学習 RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences ( http://arxiv.org/abs/2402.17257v2 ) ライセンス: Link先を確認 | Jie Cheng, Gang Xiong, Xingyuan Dai, Qinghai Miao, Yisheng Lv, Fei-Yue Wang | (参考訳) 嗜好に基づく強化学習(PbRL)は、報酬信号として人間の嗜好を活用することにより、報酬工学の必要性を回避する。
しかし、現在のPbRLアルゴリズムは、ドメインエキスパートからの高品質なフィードバックを過度に頼っているため、堅牢性が欠如している。
本稿では,雑音の選好から効果的な報酬学習のための頑健なPbRLアルゴリズムであるRIMEを提案する。
提案手法は,ロバストトレーニングのための選別選好を動的にフィルタするために,サンプル選択に基づく判別器を組み込んだ。
誤選択による累積誤差を軽減するため,pbrlにおける事前トレーニングからオンライントレーニングへの移行時のパフォーマンスギャップを橋渡しし,報酬モデルのウォームスタートを提案する。
ロボット操作とロコモーションタスクに関する実験により,現在のpbrl法のロバスト性が大幅に向上することを示した。
アブレーション研究は、限られたフィードバックの場合の堅牢性とフィードバック効率の両方に温かいスタートが不可欠であることを示した。 Preference-based Reinforcement Learning (PbRL) avoids the need for reward engineering by harnessing human preferences as the reward signal. However, current PbRL algorithms over-reliance on high-quality feedback from domain experts, which results in a lack of robustness. In this paper, we present RIME, a robust PbRL algorithm for effective reward learning from noisy preferences. Our method incorporates a sample selection-based discriminator to dynamically filter denoised preferences for robust training. To mitigate the accumulated error caused by incorrect selection, we propose to warm start the reward model, which additionally bridges the performance gap during transition from pre-training to online training in PbRL. Our experiments on robotic manipulation and locomotion tasks demonstrate that RIME significantly enhances the robustness of the current state-of-the-art PbRL method. Ablation studies further demonstrate that the warm start is crucial for both robustness and feedback-efficiency in limited-feedback cases. | 翻訳日:2024-03-14 00:34:57 公開日:2024-03-12 |
# 情報に基づくトランスダクティブアクティブラーニング Information-based Transductive Active Learning ( http://arxiv.org/abs/2402.15898v2 ) ライセンス: Link先を確認 | Jonas H\"ubotter, Bhavya Sukhija, Lenart Treven, Yarden As, Andreas Krause | (参考訳) 我々は,ドメインのアクセス可能な領域にサンプリングが制限される現実世界の設定に対処するために,アクティブラーニングを一般化する。
そこで本研究では,情報に基づくトランスダクティブ学習を短縮したIDLを提案する。
一般の正則性仮定では、IPLはアクセス可能なデータから得られる最小の不確実性に一様に収束する。
我々は,大規模ニューラルネットワークの短時間微調整と安全なベイズ最適化という2つの応用例でitlを実演する。 We generalize active learning to address real-world settings where sampling is restricted to an accessible region of the domain, while prediction targets may lie outside this region. To this end, we propose ITL, short for information-based transductive learning, an approach which samples adaptively to maximize the information gained about specified prediction targets. We show, under general regularity assumptions, that ITL converges uniformly to the smallest possible uncertainty obtainable from the accessible data. We demonstrate ITL in two key applications: Few-shot fine-tuning of large neural networks and safe Bayesian optimization, and in both cases, ITL significantly outperforms the state-of-the-art. | 翻訳日:2024-03-14 00:34:11 公開日:2024-03-12 |
# アクティブショットファインチューニング Active Few-Shot Fine-Tuning ( http://arxiv.org/abs/2402.15441v2 ) ライセンス: Link先を確認 | Jonas H\"ubotter and Bhavya Sukhija and Lenart Treven and Yarden As and Andreas Krause | (参考訳) 我々は、下流タスクに対する大規模ニューラルネットワークのアクティブな数ショットの微調整について研究する。
本稿では,古典的アクティブラーニング,トランスダクティブ・アクティブラーニングの一般化の一例として,情報に基づくトランスダクティブ・ラーニング(Transductive Learning)の略であるIDLを提案する。
一般の正則性仮定では、IPLはアクセス可能なデータから得られる最小の不確実性に一様に収束する。
我々の知る限りでは、我々はこの種の一般化境界を導出した最初の人物であり、彼らは活発な学習に対して独立した関心を持つかもしれない。
ITLを大規模ニューラルネットワークの微調整に応用することにより、ITLは最先端技術において大幅に改善されることを示す。 We study the active few-shot fine-tuning of large neural networks to downstream tasks. We show that few-shot fine-tuning is an instance of a generalization of classical active learning, transductive active learning, and we propose ITL, short for information-based transductive learning, an approach which samples adaptively to maximize the information gained about specified downstream tasks. Under general regularity assumptions, we prove that ITL converges uniformly to the smallest possible uncertainty obtainable from the accessible data. To the best of our knowledge, we are the first to derive generalization bounds of this kind, and they may be of independent interest for active learning. We apply ITL to the few-shot fine-tuning of large neural networks and show that ITL substantially improves upon the state-of-the-art. | 翻訳日:2024-03-14 00:33:58 公開日:2024-03-12 |
# 署名を用いた電波天文学データの新規検出 Novelty Detection on Radio Astronomy Data using Signatures ( http://arxiv.org/abs/2402.14892v2 ) ライセンス: Link先を確認 | Paola Arrubarrena, Maud Lemercier, Bojan Nikolic, Terry Lyons, Thomas Cass | (参考訳) ストリームデータ中の異常を検出するための,新たな半教師付きフレームワークであるsignovaを紹介する。
我々の初期の例では、電波天文学の分野におけるデジタル信号における電波干渉(RFI)の検出に焦点が当てられているが、SigNovaの適用性はどんな種類のストリームデータにも及んでいることに注意する必要がある。
フレームワークは3つの主要コンポーネントから構成される。
まず,シグネチャ変換を用いて観測列から要約統計の正準集合を抽出する。
これにより、可変長の可視性サンプルを有限次元特徴ベクトルとして表現できる。
第2に、各特徴ベクトルは、RFIフリートレーニングセットにおいて、マハラノビスから隣人への距離として計算された新規度スコアを割り当てる。
これらのスコアをしきい値にすることで、rfiフリーな可視性サンプルの期待行動から逸脱する観測範囲を、厳密な分布仮定に頼らずに特定する。
第3に、この異常検出器をセグメント化アルゴリズムであるPysegmentsと統合し、もしあればRFIで汚染された連続的な観測を局所化する。
このアプローチは、RFI検出に一般的に使用される古典的なウィンドウ技術に代わる魅力的な代替手段を提供する。
重要なことに、我々のアルゴリズムの複雑さは観測窓のサイズよりもRFIパターンに依存している。
我々は、SigNovaが時間周波数可視データにおいて、様々な種類のRFI(例えばブロードバンドと狭帯域)の検出をいかに改善するかを示す。
我々はMurchison Widefield Array (MWA) 望遠鏡とシミュレーションデータとHydrogen Epoch of Reionization Array (HERA) の枠組みを検証する。 We introduce SigNova, a new semi-supervised framework for detecting anomalies in streamed data. While our initial examples focus on detecting radio-frequency interference (RFI) in digitized signals within the field of radio astronomy, it is important to note that SigNova's applicability extends to any type of streamed data. The framework comprises three primary components. Firstly, we use the signature transform to extract a canonical collection of summary statistics from observational sequences. This allows us to represent variable-length visibility samples as finite-dimensional feature vectors. Secondly, each feature vector is assigned a novelty score, calculated as the Mahalanobis distance to its nearest neighbor in an RFI-free training set. By thresholding these scores we identify observation ranges that deviate from the expected behavior of RFI-free visibility samples without relying on stringent distributional assumptions. Thirdly, we integrate this anomaly detector with Pysegments, a segmentation algorithm, to localize consecutive observations contaminated with RFI, if any. This approach provides a compelling alternative to classical windowing techniques commonly used for RFI detection. Importantly, the complexity of our algorithm depends on the RFI pattern rather than on the size of the observation window. We demonstrate how SigNova improves the detection of various types of RFI (e.g., broadband and narrowband) in time-frequency visibility data. We validate our framework on the Murchison Widefield Array (MWA) telescope and simulated data and the Hydrogen Epoch of Reionization Array (HERA). | 翻訳日:2024-03-14 00:33:42 公開日:2024-03-12 |
# Transformerのトリック: 最初のレイヤのプリ計算 Transformer tricks: Precomputing the first layer ( http://arxiv.org/abs/2402.13388v3 ) ライセンス: Link先を確認 | Nils Graef | (参考訳) このマイクロペーパーは、RoPE(LLaMA、Mistral、PaLM、Gemmaなど)でトランスフォーマーの推論を高速化するトリックを記述している。
これらのモデルでは、第1変圧器層の大部分をプリ計算できるため、レイテンシがわずかに低く、コスト対トーケンが低くなる。
このトリックは1つのレイヤのみを最適化するので、相対的な節約はレイヤの総数に依存する。
例えば、4層しか持たないモデル(例えばWhisper Small)の最大節約率は25%に制限され、32層モデルは3%に制限されている。
コードにはhttps://github.com/OpenMachine-ai/transformer-tricksを参照してください。 This micro-paper describes a trick to speed up inference of transformers with RoPE (such as LLaMA, Mistral, PaLM, and Gemma). For these models, a large portion of the first transformer layer can be precomputed, which results in slightly lower latency and lower cost-per-token. Because this trick optimizes only one layer, the relative savings depend on the total number of layers. For example, the maximum savings for a model with only 4 layers (such as Whisper tiny) is limited to 25%, while a 32-layer model is limited to 3% savings. See https://github.com/OpenMachine-ai/transformer-tricks for code and more transformer tricks. | 翻訳日:2024-03-14 00:33:18 公開日:2024-03-12 |
# countercurate: 実例による物理的および意味的ビシオ言語的構成推論の強化 CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples ( http://arxiv.org/abs/2402.13254v2 ) ライセンス: Link先を確認 | Jianrui Zhang, Mu Cai, Tengyang Xie, Yong Jae Lee | (参考訳) 比較的および生成的マルチモーダルモデルの両方に対して、視覚言語合成推論能力を包括的に改善するフレームワークであるCounterCurateを提案する。
特に, 物理的根拠に基づく推論(計数と位置理解)の無視と, セマンティック・カウンティファクチュアル・ファインタニングに高機能なテキストと画像生成モデルを用いる可能性という2つの重要な未探索問題を特定する。
私たちの仕事はこれらのギャップに対処するアプローチの先駆者です。
私たちはまず,CLIPやLLaVAといったマルチモーダルモデルの物理基底合成推論における近距離性能に注目した。
次に、グラウンドド画像生成モデルGLIGENを用いて、微調整データを生成する単純なデータ拡張を行い、新たにキュレーションしたFlickr30k-Positionsベンチマークにおいて、CLIPとLLaVAの+33%と+37%の大幅なパフォーマンス改善を実現した。
さらに,高パフォーマンステキスト生成と画像生成モデル,特にgpt-4vとdalle-3の機能を活用して,難解な意味的反事実のキュレーションを行い,sugarcrepeなどのベンチマークにおける構成的推論能力をさらに高めている。 We propose CounterCurate, a framework to comprehensively improve the visio-linguistic compositional reasoning capability for both contrastive and generative multimodal models. In particular, we identify two critical under-explored problems: the neglect of the physically grounded reasoning (counting and position understanding) and the potential of using highly capable text and image generation models for semantic counterfactual fine-tuning. Our work pioneers an approach that addresses these gaps. We first spotlight the near-chance performance of multimodal models like CLIP and LLaVA in physically grounded compositional reasoning. We then apply simple data augmentation using grounded image generation model GLIGEN to generate fine-tuning data, resulting in significant performance improvements: +33% and +37% for CLIP and LLaVA, respectively, on our newly curated Flickr30k-Positions benchmark. Moreover, we exploit the capabilities of high-performing text generation and image generation models, specifically GPT-4V and DALLE-3, to curate challenging semantic counterfactuals, thereby further enhancing compositional reasoning capabilities on benchmarks such as SugarCrepe, where CounterCurate outperforms GPT-4V. | 翻訳日:2024-03-14 00:33:07 公開日:2024-03-12 |
# テキストからSQLへのノイズの影響を理解する:BIRD-Benchベンチマークの検討 Understanding the Effects of Noise in Text-to-SQL: An Examination of the BIRD-Bench Benchmark ( http://arxiv.org/abs/2402.12243v3 ) ライセンス: Link先を確認 | Niklas Wretblad, Fredrik Gordh Riseby, Rahul Biswas, Amin Ahmadi, Oskar Holmstr\"om | (参考訳) 自然言語を構造化クエリ言語(sql)に翻訳することを含むtext-to-sqlは、専門知識なしで構造化データベースへの広範なアクセスを可能にするために重要である。
しかし、あいまいな質問や構文上の誤りなどの「ノイズ」が存在するなど、多くの要因により、そのようなタスクのモデルの設計は困難である。
本研究では,広範に使用されているBIRD-Benchベンチマークにおけるノイズの分布とタイプ,およびモデルに対するノイズの影響を詳細に分析する。
BIRD-Benchは汚くてノイズの多いデータベースの値をモデル化するために作られたが、質問やゴールドクエリにノイズやエラーを含むように作られたものではない。
問合せやゴールドクエリのノイズはデータセットに多く存在し、ドメイン毎に様々な量があり、ノイズタイプ間で不均一な分布があることがわかった。
誤ったゴールドSQLクエリの存在は、誤ったゴールド回答を発生させ、ベンチマークの信頼性に大きな影響を及ぼす。
驚いたことに、修正SQLクエリのモデルを評価するとき、ゼロショットベースラインは最先端のプロンプトメソッドのパフォーマンスを上回った。
様々な種類のノイズを処理できる新しいテキスト-SQL手法を開発するためには,情報付ノイズラベルと信頼性ベンチマークが不可欠である。 Text-to-SQL, which involves translating natural language into Structured Query Language (SQL), is crucial for enabling broad access to structured databases without expert knowledge. However, designing models for such tasks is challenging due to numerous factors, including the presence of 'noise,' such as ambiguous questions and syntactical errors. This study provides an in-depth analysis of the distribution and types of noise in the widely used BIRD-Bench benchmark and the impact of noise on models. While BIRD-Bench was created to model dirty and noisy database values, it was not created to contain noise and errors in the questions and gold queries. We found that noise in questions and gold queries are prevalent in the dataset, with varying amounts across domains, and with an uneven distribution between noise types. The presence of incorrect gold SQL queries, which then generate incorrect gold answers, has a significant impact on the benchmark's reliability. Surprisingly, when evaluating models on corrected SQL queries, zero-shot baselines surpassed the performance of state-of-the-art prompting methods. We conclude that informative noise labels and reliable benchmarks are crucial to developing new Text-to-SQL methods that can handle varying types of noise. | 翻訳日:2024-03-14 00:32:43 公開日:2024-03-12 |
# mafin:model augmented fine-tuningによるブラックボックス埋め込みの拡張 Mafin: Enhancing Black-Box Embeddings with Model Augmented Fine-Tuning ( http://arxiv.org/abs/2402.12177v4 ) ライセンス: Link先を確認 | Mingtian Zhang, Shawn Lan, Peter Hayes, David Barber | (参考訳) Retrieval Augmented Generation (RAG) は、Large Language Models (LLMs) における幻覚を緩和する有効なソリューションとして登場した。
RAGの検索段階は通常、クエリとパスをベクトルに変換してセマンティクスをキャプチャする事前訓練された埋め込みモデルを含む。
しかし、標準的な事前学習型埋め込みモデルは、特定のドメイン知識に適用した場合に準最適性能を示し、微調整を必要とする。
本稿では,組込みがブラックボックスモデルからのみ利用できるシナリオについて述べる。
mafin (model augmented fine-tuning) - 学習可能な埋め込みモデルで拡張することでブラックボックス埋め込みモデルを微調整するための新しいアプローチである。
その結果,mafinは小さな拡張モデルのトレーニングだけで,ブラックボックス埋め込みの性能を大幅に向上できることがわかった。
ラベル付きデータセットとラベル付きデータセットの両方において,提案手法の有効性を検証する。 Retrieval Augmented Generation (RAG) has emerged as an effective solution for mitigating hallucinations in Large Language Models (LLMs). The retrieval stage in RAG typically involves a pre-trained embedding model, which converts queries and passages into vectors to capture their semantics. However, a standard pre-trained embedding model may exhibit sub-optimal performance when applied to specific domain knowledge, necessitating fine-tuning. This paper addresses scenarios where the embeddings are only available from a black-box model. We introduce Model augmented fine-tuning (Mafin) -- a novel approach for fine-tuning a black-box embedding model by augmenting it with a trainable embedding model. Our results demonstrate that Mafin significantly enhances the performance of the black-box embeddings by only requiring the training of a small augmented model. We validate the effectiveness of our method on both labeled and unlabeled datasets, illustrating its broad applicability and efficiency. | 翻訳日:2024-03-14 00:32:19 公開日:2024-03-12 |
# ボリウッド映画とハリウッド映画における社会規範のクロスカルチャー分析 A Cross-Cultural Analysis of Social Norms in Bollywood and Hollywood Movies ( http://arxiv.org/abs/2402.11333v2 ) ライセンス: Link先を確認 | Sunny Rai, Khushang Jilesh Zaveri, Shreya Havaldar, Soumna Nema, Lyle Ungar, Sharath Chandra Guntuku | (参考訳) 社会的規範が文化によってどのように異なるかを理解することは、文化的に整合したNLPシステムを構築するのに役立つ。
モラル感情,恥,誇りを用いて,規範的期待の具体例を識別し,対応する社会的規範を抽出し,規範的発見に対する文化非依存的アプローチを提案する。
我々は,5.4Kボリウッド映画とハリウッド映画から得られた,初めての文化的自己意識感情データセットと10K以上の社会的規範を提示する。
例えば、ボリウッド映画は、社会的役割の逸脱による恥を強調し、家族の名誉を誇示する一方で、ハリウッドは貧困と無能を恥じ、倫理的行為を誇りにしている。
特に、女性は両方の文化でより恥じられ、両方の文化は、同様の規範的期待に反する女性を恥じている。 Understanding how social norms vary across cultures can help us build culturally aligned NLP systems. We propose a culture agnostic approach to norm discovery, using moral emotions, shame and pride, to identify examples of normative expectations and extract corresponding social norms. We present the first cross cultural self-conscious emotions dataset, obtained from 5.4K Bollywood and Hollywood movies, along with over 10K extracted social norms. We validate our dataset using native speakers and demonstrate how our dataset reveals variations in social norms that align with the cultural dichotomy observed in these nations e.g., Bollywood movies emphasize shame due to deviation from social roles, and express pride in family honor, while Hollywood shames poverty and incompetence, and takes pride in ethical behavior. Notably, females are shamed more across both cultures and both cultures shame women for violating similar normative expectations. | 翻訳日:2024-03-14 00:32:02 公開日:2024-03-12 |
# 導入プログラミングコースにおけるコード例の説明: llm vs human Explaining Code Examples in Introductory Programming Courses: LLM vs Humans ( http://arxiv.org/abs/2403.05538v2 ) ライセンス: Link先を確認 | Arun-Balajiee Lekshmi-Narayanan, Priti Oli, Jeevan Chapagain, Mohammad Hassany, Rabin Banjade, Peter Brusilovsky, Vasile Rus | (参考訳) 典型的なプログラミング問題を解くための説明コードを示す実例は、プログラミングクラスで最も人気のある学習内容の1つである。
これらの例を学生に提示するためのアプローチやツールのほとんどは、サンプルコードの行ごとの説明に基づいている。
しかし、インストラクターがプログラミングの授業でよく使われる多くの例を説明する時間はほとんどない。
本稿では, LLMを用いた受動的かつアクティブなサンプル探索システムのためのコード説明生成の可能性を評価する。
この目的を達成するために、chatgptが生成するコード説明と、専門家と学生の両方が生成する説明を比較した。 Worked examples, which present an explained code for solving typical programming problems are among the most popular types of learning content in programming classes. Most approaches and tools for presenting these examples to students are based on line-by-line explanations of the example code. However, instructors rarely have time to provide explanations for many examples typically used in a programming class. In this paper, we assess the feasibility of using LLMs to generate code explanations for passive and active example exploration systems. To achieve this goal, we compare the code explanations generated by chatGPT with the explanations generated by both experts and students. | 翻訳日:2024-03-14 00:26:07 公開日:2024-03-12 |
# プライバシーファネルのための効率的な凸解法 An Efficient Difference-of-Convex Solver for Privacy Funnel ( http://arxiv.org/abs/2403.04778v2 ) ライセンス: Link先を確認 | Teng-Hui Huang and Hesham El Gamal | (参考訳) 本稿では,その差分凸(DC)構造を利用したプライバシ・ファンネル(PF)手法の効率的な解法を提案する。
提案するdc分離は、既知の分布設定と未知の分布設定の両方に簡単に適用できるクローズドフォーム更新方程式を導出する。
既知分布の場合,提案手法の収束(局所定常点)を証明し,プライバシ・ユーティリティ・トレードオフの特徴付けにおける最先端のアプローチよりも優れていることを示す。
我々のDCアプローチの洞察は、ラベル付き実験サンプルが利用できる未知の分布設定に適用できる。
これらの知見を活用することで、我々の交互最小化解法は、以前の変分推論に基づく解法とは対照的に、PFのマルコフ関係を満足する。
提案手法をMNISTおよびFashion-MNISTデータセットを用いて実証的に評価した。
その結果,コンストラクション品質に匹敵する条件下では,圧縮符号のクラスタリングによる予測誤差が比較手法よりも高いことがわかった。
最も重要なことは、我々のソルバはベースラインとは対照的に推論フェーズでプライベート情報に依存しています。 We propose an efficient solver for the privacy funnel (PF) method, leveraging its difference-of-convex (DC) structure. The proposed DC separation results in a closed-form update equation, which allows straightforward application to both known and unknown distribution settings. For known distribution case, we prove the convergence (local stationary points) of the proposed non-greedy solver, and empirically show that it outperforms the state-of-the-art approaches in characterizing the privacy-utility trade-off. The insights of our DC approach apply to unknown distribution settings where labeled empirical samples are available instead. Leveraging the insights, our alternating minimization solver satisfies the fundamental Markov relation of PF in contrast to previous variational inference-based solvers. Empirically, we evaluate the proposed solver with MNIST and Fashion-MNIST datasets. Our results show that under a comparable reconstruction quality, an adversary suffers from higher prediction error from clustering our compressed codes than that with the compared methods. Most importantly, our solver is independent to private information in inference phase contrary to the baselines. | 翻訳日:2024-03-14 00:25:56 公開日:2024-03-12 |
# グリーン関数からの交換相関エネルギー Exchange-correlation energy from Green's functions ( http://arxiv.org/abs/2403.03364v2 ) ライセンス: Link先を確認 | Steven Crisostomo, E.K.U. Gross, and Kieron Burke | (参考訳) DFT計算は有用な基底状態エネルギーと密度をもたらすが、グリーンの関数技術(例えば$GW$)は主にスペクトル関数を生成するために用いられる。
ガリツキー-ミグダル公式から、dftの交換相関をグリーン関数から直接抽出する。
このスペクトル表現は、DFTの揺動散逸定理の代替となり、個々の単一粒子と多粒子の寄与を識別する。
結果は均一な電子ガスと2サイトハバードモデルで示される。 DFT calculations yield useful ground-state energies and densities, while Green's function techniques (such as $GW$) are mostly used to produce spectral functions. From the Galitskii-Migdal formula, we extract the exchange-correlation of DFT directly from a Green's function. This spectral representation provides an alternative to the fluctuation-dissipation theorem of DFT, identifying distinct single-particle and many-particle contributions. Results are illustrated on the uniform electron gas and the two-site Hubbard model. | 翻訳日:2024-03-14 00:25:37 公開日:2024-03-12 |
# 不確かさの許容性:2次元心エコー図による右室容積予測のためのアンサンブルモデリングのための教師付きツリーカーネルのハーネス Embracing Uncertainty Flexibility: Harnessing a Supervised Tree Kernel to Empower Ensemble Modelling for 2D Echocardiography-Based Prediction of Right Ventricular Volume ( http://arxiv.org/abs/2403.03229v2 ) ライセンス: Link先を確認 | Tuan A. Bohoran, Polydoros N. Kampaktsis, Laura McLaughlin, Jay Leb, Gerry P. McCann, Archontis Giannakidis | (参考訳) 右室機能低下は,多くの状況において臨床効果を強く予測する。
広範に利用可能な2次元心エコー図(2de)からの表データを用いてrv容積を定量化するアンサンブル回帰法の臨床展開を促進するため,不確かさスコアによる容積予測を補完する手法を提案する。
そこで本研究では,学習木構造を用いて対象インスタンスに最も近いトレーニングサンプルを識別し,その出力を柔軟にモデル化するために,複数の分散型を用いるインスタンスベース手法を提案する。
提案フレームワークの確率的およびポイント予測的性能は,100のエンドダイアストリックとエンドシストリックrvからなる比較的小さなデータセット上で評価される。
mriから点性能の基準値を得た。
その結果、我々のフレキシブルアプローチは、他の最先端手法よりも確率的および点性能が向上することを示した。
提案フレームワークの適切性は,例示ケースを提供することによって示される。
推定された不確実性は、動脈硬化型とてんかん型の両方を具現化する。
この研究は、意思決定プロセスの強化とリスクの低減に使用できるため、信頼できる人工知能と一致している。
提案するパイプラインの臨床応用を向上するために必要な2DEビューの数を減らすために,本フレームワークの特徴的重要性スコアを活用できる。 The right ventricular (RV) function deterioration strongly predicts clinical outcomes in numerous circumstances. To boost the clinical deployment of ensemble regression methods that quantify RV volumes using tabular data from the widely available two-dimensional echocardiography (2DE), we propose to complement the volume predictions with uncertainty scores. To this end, we employ an instance-based method which uses the learned tree structure to identify the nearest training samples to a target instance and then uses a number of distribution types to more flexibly model the output. The probabilistic and point-prediction performances of the proposed framework are evaluated on a relatively small-scale dataset, comprising 100 end-diastolic and end-systolic RV volumes. The reference values for point performance were obtained from MRI. The results demonstrate that our flexible approach yields improved probabilistic and point performances over other state-of-the-art methods. The appropriateness of the proposed framework is showcased by providing exemplar cases. The estimated uncertainty embodies both aleatoric and epistemic types. This work aligns with trustworthy artificial intelligence since it can be used to enhance the decision-making process and reduce risks. The feature importance scores of our framework can be exploited to reduce the number of required 2DE views which could enhance the proposed pipeline's clinical application. | 翻訳日:2024-03-14 00:25:30 公開日:2024-03-12 |
# eコマースレコメンデーションにおける大規模言語モデルと機械学習の連携 Emerging Synergies Between Large Language Models and Machine Learning in Ecommerce Recommendations ( http://arxiv.org/abs/2403.02760v2 ) ライセンス: Link先を確認 | Xiaonan Xu, Yichao Wu, Penghao Liang, Yuhang He, Han Wang | (参考訳) 電子商取引やWebアプリケーションの普及に伴い、レコメンダシステムは私たちの日常生活の重要な部分となり、ユーザの好みに基づいたパーソナライズされたレコメンデーションを提供しています。
ディープニューラルネットワーク(DNN)は、ユーザとアイテム間のインタラクションをシミュレートし、テキスト情報を組み込むことによってレコメンデーションシステムの改善に大きな進歩を遂げているが、これらのDNNベースのアプローチには、ユーザの興味を効果的に理解することの難しさや、テキスト情報の取得など、いくつかの制限がある。
様々な参照/未確認のレコメンデーションシナリオや予測の理由を一般化することは不可能である。
同時に、ChatGPTとGPT-4に代表される大規模言語モデル(LLM)の出現は、言語理解と生成の基本的なタスクにおける優れた能力と、その印象的な一般化と推論能力によって、自然言語処理(NLP)と人工知能(AI)の分野に革命をもたらした。
その結果、最近の研究はレコメンデーションシステムを改善するためにLLMの力を活用しようとしている。
推薦システム分野におけるこの研究方向の急速な発展を考えると、研究者や関係分野の実践者が洞察を得るためには、既存のLLM主導のレコメンデーションシステムを体系的にレビューする必要がある。
より具体的には、LLMを特徴エンコーダとして使用したユーザとアイテムの表現を学習するための代表的アプローチを最初に導入した。
次に, 事前学習, 微調整, プロンプトの3つのパラダイムから, 協調フィルタリングにおけるLLM手法の最近の進歩を概観した。
最後に、この新興分野の今後の方向性について包括的に議論した。 With the boom of e-commerce and web applications, recommender systems have become an important part of our daily lives, providing personalized recommendations based on the user's preferences. Although deep neural networks (DNNs) have made significant progress in improving recommendation systems by simulating the interaction between users and items and incorporating their textual information, these DNN-based approaches still have some limitations, such as the difficulty of effectively understanding users' interests and capturing textual information. It is not possible to generalize to different seen/unseen recommendation scenarios and reason about their predictions. At the same time, the emergence of large language models (LLMs), represented by ChatGPT and GPT-4, has revolutionized the fields of natural language processing (NLP) and artificial intelligence (AI) due to their superior capabilities in the basic tasks of language understanding and generation, and their impressive generalization and reasoning capabilities. As a result, recent research has sought to harness the power of LLM to improve recommendation systems. Given the rapid development of this research direction in the field of recommendation systems, there is an urgent need for a systematic review of existing LLM-driven recommendation systems for researchers and practitioners in related fields to gain insight into. More specifically, we first introduced a representative approach to learning user and item representations using LLM as a feature encoder. We then reviewed the latest advances in LLMs techniques for collaborative filtering enhanced recommendation systems from the three paradigms of pre-training, fine-tuning, and prompting. Finally, we had a comprehensive discussion on the future direction of this emerging field. | 翻訳日:2024-03-14 00:25:06 公開日:2024-03-12 |
# 短期的および長期的治療効果のパレート最適推定と政策学習 Pareto-Optimal Estimation and Policy Learning on Short-term and Long-term Treatment Effects ( http://arxiv.org/abs/2403.02624v2 ) ライセンス: Link先を確認 | Yingrong Wang, Anpeng Wu, Haoxuan Li, Weiming Liu, Qiaowei Miao, Ruoxuan Xiong, Fei Wu, Kun Kuang | (参考訳) 本稿では,短期効果と長期効果の両方から得られる報酬を最大化する最も効果的な治療法を見極めるために,パレート最適推定法と政策学習法の開発に焦点をあてる。
例えば、薬の高用量では患者の回復速度(短期)が上昇するが、重度の長期的副作用を引き起こすこともある。
近年の研究では短期的あるいは長期的効果に関する問題やその両方について検討されているが、最適な治療を達成するためのトレードオフの方法がいまだに未解決の課題である。
さらに、従来の因果表現学習を用いて複数の目的を直接推定する場合、様々なタスク間の最適化方向も矛盾する可能性がある。
本稿では,これらの課題を体系的に検討し,パレートオプティカル推定(poe)とパレートオプティカルポリシー学習(popl)を組み合わせたパレート効率の高いアルゴリズムを提案する。
POEは、表現バランシングと複数のタスクにおける推定効率の向上を備えた連続的なParetoモジュールを組み込んでいる。
POPLについては、様々な治療レベルに関連する短期および長期の成果を導き出し、これらの結果から生じるパレートフロンティアの探索を促進する。
合成データと実世界のデータの両方の結果から,本手法の優越性が示された。 This paper focuses on developing Pareto-optimal estimation and policy learning to identify the most effective treatment that maximizes the total reward from both short-term and long-term effects, which might conflict with each other. For example, a higher dosage of medication might increase the speed of a patient's recovery (short-term) but could also result in severe long-term side effects. Although recent works have investigated the problems about short-term or long-term effects or the both, how to trade-off between them to achieve optimal treatment remains an open challenge. Moreover, when multiple objectives are directly estimated using conventional causal representation learning, the optimization directions among various tasks can conflict as well. In this paper, we systematically investigate these issues and introduce a Pareto-Efficient algorithm, comprising Pareto-Optimal Estimation (POE) and Pareto-Optimal Policy Learning (POPL), to tackle them. POE incorporates a continuous Pareto module with representation balancing, enhancing estimation efficiency across multiple tasks. As for POPL, it involves deriving short-term and long-term outcomes linked with various treatment levels, facilitating an exploration of the Pareto frontier emanating from these outcomes. Results on both the synthetic and real-world datasets demonstrate the superiority of our method. | 翻訳日:2024-03-14 00:24:33 公開日:2024-03-12 |
# 画像付き3次元点雲による木計数 Tree Counting by Bridging 3D Point Clouds with Imagery ( http://arxiv.org/abs/2403.01932v3 ) ライセンス: Link先を確認 | Lei Li, Tianfang Zhang, Zhongyu Jiang, Cheng-Yen Yang, Jenq-Neng Hwang, Stefan Oehmcke, Dimitri Pierre Johannes Gominski, Fabian Gieseke, Christian Igel | (参考訳) 森林管理の持続的支援,気候変動緩和戦略の評価,木炭クレジットの信頼構築には,リモートセンシングデータに基づく木数計測の正確かつ一貫した手法が必要である。
2次元リモートセンシング画像は、主に高層キャノピーを示すが、高層キャノピーを持つ地域では個々の木の分化が容易ではなく、高層キャノピーが密集している場合に容易に木を分離できない。
我々は,3次元LiDAR測定と2次元画像の融合を利用して,正確な木数計測を行う。
我々は,3次元空中LiDARデータと2次元画像を用いて,森林内の木を数える深層学習手法の比較を行った。
このアプローチは,3Dポイントクラウドや2Dイメージの操作など,最先端のアルゴリズムと比較される。
我々は、木カウントベンチマークを定義するために使用するneontreecountデータセットの異なるメソッドを実証的に評価する。
実験の結果、fusecountnetはより正確な木数を産出することが示された。 Accurate and consistent methods for counting trees based on remote sensing data are needed to support sustainable forest management, assess climate change mitigation strategies, and build trust in tree carbon credits. Two-dimensional remote sensing imagery primarily shows overstory canopy, and it does not facilitate easy differentiation of individual trees in areas with a dense canopy and does not allow for easy separation of trees when the canopy is dense. We leverage the fusion of three-dimensional LiDAR measurements and 2D imagery to facilitate the accurate counting of trees. We compare a deep learning approach to counting trees in forests using 3D airborne LiDAR data and 2D imagery. The approach is compared with state-of-the-art algorithms, like operating on 3D point cloud and 2D imagery. We empirically evaluate the different methods on the NeonTreeCount data set, which we use to define a tree-counting benchmark. The experiments show that FuseCountNet yields more accurate tree counts. | 翻訳日:2024-03-14 00:24:09 公開日:2024-03-12 |
# 単語予測による事前学習言語モデルの作成 Making Pre-trained Language Models Great on Tabular Prediction ( http://arxiv.org/abs/2403.01841v2 ) ライセンス: Link先を確認 | Jiahuan Yan, Bo Zheng, Hongxia Xu, Yiheng Zhu, Danny Z. Chen, Jimeng Sun, Jian Wu, Jintai Chen | (参考訳) ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
しかし、テーブル間の不均一性のため、そのようなDNNボーナスは表データの予測(回帰や分類タスクなど)によく利用されるには程遠い。
多様なドメインからの知識を凝縮し、言語モデル(lms)は様々なテーブルから特徴名を理解する能力を持ち、異なるテーブルと様々な予測タスク間で知識を伝達する多用途学習者となる可能性があるが、それらの離散的なテキスト表現空間は本質的にテーブル内の数値的特徴量と相容れない。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
具体的には、新しい相対等級トークン化により、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
包括的実験により、我々の事前学習したTP-BERTaは、表状DNNのパフォーマンスを誘導し、典型的な表状データ構造における勾配ブースト決定木モデルと競合することを示した。 The transferability of deep neural networks (DNNs) has made significant progress in image and language processing. However, due to the heterogeneity among tables, such DNN bonus is still far from being well exploited on tabular data prediction (e.g., regression or classification tasks). Condensing knowledge from diverse domains, language models (LMs) possess the capability to comprehend feature names from various tables, potentially serving as versatile learners in transferring knowledge across distinct tables and diverse prediction tasks, but their discrete text representation space is inherently incompatible with numerical feature values in tables. In this paper, we present TP-BERTa, a specifically pre-trained LM for tabular data prediction. Concretely, a novel relative magnitude tokenization converts scalar numerical feature values to finely discrete, high-dimensional tokens, and an intra-feature attention approach integrates feature values with the corresponding feature names. Comprehensive experiments demonstrate that our pre-trained TP-BERTa leads the performance among tabular DNNs and is competitive with Gradient Boosted Decision Tree models in typical tabular data regime. | 翻訳日:2024-03-14 00:23:52 公開日:2024-03-12 |
# アラートとしての文脈内シャープネス:幻覚軽減のための内的表現的視点 In-Context Sharpness as Alerts: An Inner Representation Perspective for Hallucination Mitigation ( http://arxiv.org/abs/2403.01548v3 ) ライセンス: Link先を確認 | Shiqi Chen, Miao Xiong, Junteng Liu, Zhengxuan Wu, Teng Xiao, Siyang Gao, Junxian He | (参考訳) 大規模言語モデル(llm)は、しばしば事実エラーを幻覚し、生み出すが、これらのエラーの原因を理解することは、まだ限られている。
本研究では,内的表現の観点から LLM の幻覚のメカニズムを探求し,幻覚に関連する有能なパターンを見出す: 正しい世代は,不正確なトークンよりも,暗黙のトークンの隠蔽状態において,よりシャープな文脈アクティベーションを持つ傾向がある。
この知見を活かしたエントロピーに基づく計量法を提案し、文脈内隠れ状態の「シャープネス」を定量化し、復号過程に組み込んで制約付き復号法を定式化する。
様々な知識探索および幻覚ベンチマークの実験は、例えば、TrathfulQAで最大8.6ポイントの改善を達成するなど、我々のアプローチの一貫性のある有効性を示している。
この研究は幻覚の理解を深め、幻覚緩和の現実的な解決策となると信じている。 Large language models (LLMs) frequently hallucinate and produce factual errors, yet our understanding of why they make these errors remains limited. In this study, we delve into the underlying mechanisms of LLM hallucinations from the perspective of inner representations, and discover a salient pattern associated with hallucinations: correct generations tend to have sharper context activations in the hidden states of the in-context tokens, compared to the incorrect ones. Leveraging this insight, we propose an entropy-based metric to quantify the ``sharpness'' among the in-context hidden states and incorporate it into the decoding process to formulate a constrained decoding approach. Experiments on various knowledge-seeking and hallucination benchmarks demonstrate our approach's consistent effectiveness, for example, achieving up to an 8.6 point improvement on TruthfulQA. We believe this study can improve our understanding of hallucinations and serve as a practical solution for hallucination mitigation. | 翻訳日:2024-03-14 00:23:32 公開日:2024-03-12 |
# スマートグリッド負荷予測のためのプライバシー保護協調型分散学習フレームワーク Privacy-Preserving Collaborative Split Learning Framework for Smart Grid Load Forecasting ( http://arxiv.org/abs/2403.01438v2 ) ライセンス: Link先を確認 | Asif Iqbal, Prosanta Gope, Biplab Sikdar | (参考訳) 正確な負荷予測は、エネルギー管理、インフラ計画、需要供給バランスに不可欠である。
スマートメータのデータ可用性は、センサベースの負荷予測の需要につながった。
従来のMLでは、中央サーバにデータ転送を必要とする複数のスマートメーターのデータを使用して、単一のグローバルモデルをトレーニングすることが可能で、ネットワーク要件やプライバシ、セキュリティに対する懸念が高まる。
本稿では,負荷予測のための分割学習に基づくフレームワークを提案する。
ディープニューラルネットワークモデルを,各グリッドステーション(gs)に対して,近隣のスマートメータ全体に対して,サービスプロバイダ(sp)に対してそれぞれ2つに分割した。
データを共有する代わりに、クライアントスマートメーターは各GSのモデルを分割してフォワードパスを生成し、GSとのみアクティベーションを共有する。
この枠組みの下では、各gsは各地域向けにパーソナライズされたモデル分割を訓練する責任を負うが、spは各gsのために単一のグローバルまたはパーソナライズされたモデルを訓練することができる。
実験により,提案モデルが中心的に訓練されたモデルの性能と一致しているか,あるいは超えた結果が得られた。
GSモデルの分割したデータと共有アクティベーション間の情報漏洩を評価することにより、プライバシを分析する。
さらに、差分プライバシーは、パフォーマンスへの影響を調べながら、ローカルデータのプライバシを高める。
ベース学習者はトランスフォーマーモデルを用いる。 Accurate load forecasting is crucial for energy management, infrastructure planning, and demand-supply balancing. Smart meter data availability has led to the demand for sensor-based load forecasting. Conventional ML allows training a single global model using data from multiple smart meters requiring data transfer to a central server, raising concerns for network requirements, privacy, and security. We propose a split learning-based framework for load forecasting to alleviate this issue. We split a deep neural network model into two parts, one for each Grid Station (GS) responsible for an entire neighbourhood's smart meters and the other for the Service Provider (SP). Instead of sharing their data, client smart meters use their respective GSs' model split for forward pass and only share their activations with the GS. Under this framework, each GS is responsible for training a personalized model split for their respective neighbourhoods, whereas the SP can train a single global or personalized model for each GS. Experiments show that the proposed models match or exceed a centrally trained model's performance and generalize well. Privacy is analyzed by assessing information leakage between data and shared activations of the GS model split. Additionally, differential privacy enhances local data privacy while examining its impact on performance. A transformer model is used as our base learner. | 翻訳日:2024-03-14 00:23:13 公開日:2024-03-12 |
# PowerFlowMultiNet:不均衡三相分散システムのためのマルチグラフニューラルネットワーク PowerFlowMultiNet: Multigraph Neural Networks for Unbalanced Three-Phase Distribution Systems ( http://arxiv.org/abs/2403.00892v2 ) ライセンス: Link先を確認 | Salah Ghamizi, Jun Cao, Aoxiang Ma, Pedro Rodriguez | (参考訳) 配電系統における非平衡三相流の効率的な解法は, グリッド解析とシミュレーションにおいて重要である。
高精度で高速なソリューションを提供する大規模なアンバランスな電力グリッドを処理できるスケーラブルなアルゴリズムが求められている。
これを解決するために、ディープラーニング技術、特にグラフニューラルネットワーク(GNN)が登場した。
しかし、既存の文献は主にバランスのとれたネットワークに焦点を当てており、バランスのとれない三相電力網を支える上で重要なギャップを残している。
このレターでは、非平衡三相電力グリッド用に明示的に設計された新しいマルチグラフGNNフレームワークであるPowerFlowMultiNetを紹介する。
提案手法は,各位相をマルチグラフ表現で個別にモデル化し,不平衡格子の固有非対称性を効果的に捉える。
メッセージパッシングを利用したグラフ埋め込み機構を導入し、電力系統網内の空間依存性を捕捉する。
PowerFlowMultiNetは、精度と計算速度の点で従来の手法や他のディープラーニングアプローチよりも優れています。
厳密なテストは、モデルベースの手法と比較して、大きな電力ネットワークにおけるエラー率と計算速度の顕著な増加を示す。 Efficiently solving unbalanced three-phase power flow in distribution grids is pivotal for grid analysis and simulation. There is a pressing need for scalable algorithms capable of handling large-scale unbalanced power grids that can provide accurate and fast solutions. To address this, deep learning techniques, especially Graph Neural Networks (GNNs), have emerged. However, existing literature primarily focuses on balanced networks, leaving a critical gap in supporting unbalanced three-phase power grids. This letter introduces PowerFlowMultiNet, a novel multigraph GNN framework explicitly designed for unbalanced three-phase power grids. The proposed approach models each phase separately in a multigraph representation, effectively capturing the inherent asymmetry in unbalanced grids. A graph embedding mechanism utilizing message passing is introduced to capture spatial dependencies within the power system network. PowerFlowMultiNet outperforms traditional methods and other deep learning approaches in terms of accuracy and computational speed. Rigorous testing reveals significantly lower error rates and a notable hundredfold increase in computational speed for large power networks compared to model-based methods. | 翻訳日:2024-03-14 00:22:51 公開日:2024-03-12 |
# 美麗な画像検索ができる「Sketch and Text Duet」(動画あり) You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval ( http://arxiv.org/abs/2403.07222v1 ) ライセンス: Link先を確認 | Subhadeep Koley, Ayan Kumar Bhunia, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song | (参考訳) 画像検索における2つの主要な入力モード:スケッチとテキスト。
テキストはカテゴリ間検索タスクで広く使われているが、複雑な視覚詳細をキャプチャできるため、精細画像検索の唯一の望ましいモダリティとしてスケッチが確立されている。
本稿では、スケッチとテキストの両方の微細な表現能力を同時に探索し、両者のデュエットを編成することで、スケッチのみの微細な画像検索への依存を疑問視する。
その結果、これまで達成できなかった正確な検索が可能になり、ユーザーが常に精巧なクェリをポーズしたり、テキストから色やコンテキストの手がかりなどの属性を取り入れることができる。
そこで本研究では,事前学習したクリップモデルを用いてスケッチとテキストを効果的に組み合わせ,詳細なテキスト記述を不要にした新しい構成性フレームワークを提案する。
最後に, このシステムは, 複合画像検索, ドメイン属性転送, 微粒化生成における新しい応用に拡張され, 様々な実世界のシナリオに対するソリューションを提供する。 Two primary input modalities prevail in image retrieval: sketch and text. While text is widely used for inter-category retrieval tasks, sketches have been established as the sole preferred modality for fine-grained image retrieval due to their ability to capture intricate visual details. In this paper, we question the reliance on sketches alone for fine-grained image retrieval by simultaneously exploring the fine-grained representation capabilities of both sketch and text, orchestrating a duet between the two. The end result enables precise retrievals previously unattainable, allowing users to pose ever-finer queries and incorporate attributes like colour and contextual cues from text. For this purpose, we introduce a novel compositionality framework, effectively combining sketches and text using pre-trained CLIP models, while eliminating the need for extensive fine-grained textual descriptions. Last but not least, our system extends to novel applications in composite image retrieval, domain attribute transfer, and fine-grained generation, providing solutions for various real-world scenarios. | 翻訳日:2024-03-13 23:25:54 公開日:2024-03-12 |
# LookupFFN: CPU推論のためのトランスフォーマーのCompute-liteを作る LookupFFN: Making Transformers Compute-lite for CPU inference ( http://arxiv.org/abs/2403.07221v1 ) ライセンス: Link先を確認 | Zhanpeng Zeng, Michael Davies, Pranav Pulijala, Karthikeyan Sankaralingam, Vikas Singh | (参考訳) 現在、GPUクラスタは大規模なディープニューラルネットワーク(DNN)モデルをトレーニングするための事実上の選択肢であるが、ワークフローの容易性、セキュリティ、コストなど、いくつかの理由により、CPUが業界の多くのセクターで日常的な使用における推論に有効かどうかを調査している。
しかし、GPUとCPUの計算能力の不均衡は大きい。
これらの考察により、GEMMベースのFeed Forward Networks (FFNs) という、現代のDNNアーキテクチャにおけるワークホースであるモジュールについて検討し、計算(FLOP-)の合理化の程度を評価する。
具体的には、局所感性ハッシュ(LSH)を用いてFFNを近似する最近の研究から着想を得たGEMMベースのFFNに対する別の定式化(LookupFFNと呼ぶ)を提案する。
私たちの定式化では、最も重要な操作をメモリのルックアップとして再キャストし、計算とメモリの2つのリソース間のトレードオフを活用しています。
RoBERTa言語モデルの事前学習では、GEMMベースのFFNと同じような性能を実現し、必要なFLOPを大幅に削減する。
私たちの開発は、現在のハードウェアだけでなく、近い将来に提供される製品上で、効率を最大化する戦略の詳細なハードウェアプロファイリングで補完されています。
コードは \url{https://github.com/mlpen/LookupFFN} で利用できる。 While GPU clusters are the de facto choice for training large deep neural network (DNN) models today, several reasons including ease of workflow, security and cost have led to efforts investigating whether CPUs may be viable for inference in routine use in many sectors of the industry. But the imbalance between the compute capabilities of GPUs and CPUs is huge. Motivated by these considerations, we study a module which is a workhorse within modern DNN architectures, GEMM based Feed Forward Networks (FFNs), and assess the extent to which it can be made compute- (or FLOP-) lite. Specifically, we propose an alternative formulation (we call it LookupFFN) to GEMM based FFNs inspired by the recent studies of using Locality Sensitive Hashing (LSH) to approximate FFNs. Our formulation recasts most essential operations as a memory look-up, leveraging the trade-off between the two resources on any platform: compute and memory (since CPUs offer it in abundance). For RoBERTa language model pretraining, our formulation achieves similar performance compared to GEMM based FFNs, while dramatically reducing the required FLOP. Our development is complemented with a detailed hardware profiling of strategies that will maximize efficiency -- not just on contemporary hardware but on products that will be offered in the near/medium term future. Code is avaiable at \url{https://github.com/mlpen/LookupFFN}. | 翻訳日:2024-03-13 23:25:36 公開日:2024-03-12 |
# 拡張現実人工内耳手術用インカスのポーズ推定を用いた単眼顕微鏡によるct画像診断 Monocular Microscope to CT Registration using Pose Estimation of the Incus for Augmented Reality Cochlear Implant Surgery ( http://arxiv.org/abs/2403.07219v1 ) ライセンス: Link先を確認 | Yike Zhang, Eduardo Davalos, Dingjie Su, Ange Lou, Jack H. Noble | (参考訳) 重度から重度の感音難聴の患者に対しては、人工内耳(CI)が好ましい。
Augmented Reality (AR) は、CIの処置や聴覚効果を改善する可能性がある。
一般的に、画像誘導手術のARソリューションは、手術現場の視界に隠れた解剖などの重要な情報をオーバーレイし、共同登録できるように、手術前の計画情報をディスプレイに登録する光学的トラッキングシステムに依存している。
本稿では,顕微鏡画像の2次元から3次元への直接的登録を,外部追跡装置を必要とせずにCTスキャンに行う手法を開発することを目的とする。
提案手法は, 外科的記録におけるインカスの一部の表面マッピングを用いて, 遠近法(PnP)アルゴリズムを用いてポーズ推定を行うことにより, 手術顕微鏡に対して, この構造のポーズを決定することを含む。
この登録は、他の解剖学の術前のセグメンテーションや、この情報をARディスプレイに登録するための計画された電極挿入軌跡に適用することができる。
その結果, x, y, z軸の平均回転誤差は25度未満, 翻訳誤差は2mm, 3mm, 0.55%であった。
本手法は術中単分子顕微鏡を必要とせず,他の外科手術に応用および一般化できる可能性を有する。 For those experiencing severe-to-profound sensorineural hearing loss, the cochlear implant (CI) is the preferred treatment. Augmented reality (AR) aided surgery can potentially improve CI procedures and hearing outcomes. Typically, AR solutions for image-guided surgery rely on optical tracking systems to register pre-operative planning information to the display so that hidden anatomy or other important information can be overlayed and co-registered with the view of the surgical scene. In this paper, our goal is to develop a method that permits direct 2D-to-3D registration of the microscope video to the pre-operative Computed Tomography (CT) scan without the need for external tracking equipment. Our proposed solution involves using surface mapping of a portion of the incus in surgical recordings and determining the pose of this structure relative to the surgical microscope by performing pose estimation via the perspective-n-point (PnP) algorithm. This registration can then be applied to pre-operative segmentations of other anatomy-of-interest, as well as the planned electrode insertion trajectory to co-register this information for the AR display. Our results demonstrate the accuracy with an average rotation error of less than 25 degrees and a translation error of less than 2 mm, 3 mm, and 0.55% for the x, y, and z axes, respectively. Our proposed method has the potential to be applicable and generalized to other surgical procedures while only needing a monocular microscope during intra-operation. | 翻訳日:2024-03-13 23:25:09 公開日:2024-03-12 |
# SoK: トラジェクトリ生成はプライバシとユーティリティを組み合わせられるか? SoK: Can Trajectory Generation Combine Privacy and Utility? ( http://arxiv.org/abs/2403.07218v1 ) ライセンス: Link先を確認 | Erik Buchholz and Alsharif Abuadbba and Shuo Wang and Surya Nepal and Salil S. Kanhere | (参考訳) 位置トラジェクタは分析や位置情報ベースのサービスにとって貴重なデータソースであるが、政治的・宗教的好みなどの機密情報を明らかにすることができる。
厳密なプライバシー保証の下での分析を可能にするために、異なる私的な出版メカニズムが提案されている。
しかし、従来の保護策はプライバシーとユーティリティのトレードオフの制限に悩まされており、相関や再構築攻撃に弱い。
合成軌道データ生成とリリースは、保護アルゴリズムの有望な代替手段である。
最初の提案は目覚ましい実用性を達成するが、厳格なプライバシー保証の提供には失敗した。
本稿では,5つの設計目標を定義し,特に適切なプライバシ単位を選択することの重要性を強調し,プライバシ保護トラジェクトリパブリッシングアプローチを設計するための枠組みを提案する。
この枠組みに基づき、既存の軌道保護アプローチを簡潔に議論し、その欠点を強調した。
本研究は,提案フレームワークの文脈におけるトラジェクトリの最先端生成モデルの体系化に焦点をあてる。
既存のソリューションがすべての要件を満たすものはありません。
そこで,6つの連続生成モデルの軌道領域への適用性を評価する実験を行った。
最後に, セマンティクス保証を提供する生成軌道モデルは, オープン研究課題であり, 今後の研究に向けて具体的な次のステップを提案する。 While location trajectories represent a valuable data source for analyses and location-based services, they can reveal sensitive information, such as political and religious preferences. Differentially private publication mechanisms have been proposed to allow for analyses under rigorous privacy guarantees. However, the traditional protection schemes suffer from a limiting privacy-utility trade-off and are vulnerable to correlation and reconstruction attacks. Synthetic trajectory data generation and release represent a promising alternative to protection algorithms. While initial proposals achieve remarkable utility, they fail to provide rigorous privacy guarantees. This paper proposes a framework for designing a privacy-preserving trajectory publication approach by defining five design goals, particularly stressing the importance of choosing an appropriate Unit of Privacy. Based on this framework, we briefly discuss the existing trajectory protection approaches, emphasising their shortcomings. This work focuses on the systematisation of the state-of-the-art generative models for trajectories in the context of the proposed framework. We find that no existing solution satisfies all requirements. Thus, we perform an experimental study evaluating the applicability of six sequential generative models to the trajectory domain. Finally, we conclude that a generative trajectory model providing semantic guarantees remains an open research question and propose concrete next steps for future research. | 翻訳日:2024-03-13 23:24:43 公開日:2024-03-12 |
# クワッドコプター制御のための強化学習を用いた適応ゲインスケジューリング Adaptive Gain Scheduling using Reinforcement Learning for Quadcopter Control ( http://arxiv.org/abs/2403.07216v1 ) ライセンス: Link先を確認 | Mike Timmerman, Aryan Patel, Tim Reinhart | (参考訳) 本稿では、強化学習(RL)を用いて、クワッドコプタコントローラの制御ゲインを適応させる手法を提案する。
具体的には,PPO(Proximal Policy Optimization)を用いて,ケースドフィードバックコントローラの利益を飛行中に適応させる政策を訓練した。
このコントローラの主な目標は、指定された軌道に従って追跡エラーを最小限に抑えることである。
この論文の重要な目的は、適応ゲインポリシーの有効性を分析し、積分二乗誤差と積分時間二乗誤差を指標として用いる静的ゲイン制御アルゴリズムの性能と比較することである。
その結果,適応利得方式は静的利得制御器と比較して40$\%以上の追従誤差を減少させることがわかった。 The paper presents a technique using reinforcement learning (RL) to adapt the control gains of a quadcopter controller. Specifically, we employed Proximal Policy Optimization (PPO) to train a policy which adapts the gains of a cascaded feedback controller in-flight. The primary goal of this controller is to minimize tracking error while following a specified trajectory. The paper's key objective is to analyze the effectiveness of the adaptive gain policy and compare it to the performance of a static gain control algorithm, where the Integral Squared Error and Integral Time Squared Error are used as metrics. The results show that the adaptive gain scheme achieves over 40$\%$ decrease in tracking error as compared to the static gain controller. | 翻訳日:2024-03-13 23:24:24 公開日:2024-03-12 |
# 三重超伝導トランスモン量子ビットにおける接合ねじれ角による異常磁束 Anomalous magnetic flux via junction twist-angle in a triplet-superconducting transmon qubit ( http://arxiv.org/abs/2403.07215v1 ) ライセンス: Link先を確認 | Sebasti\'an Dom\'inguez-Calder\'on and Harley D. Scammell | (参考訳) 強いアンハーモニック性とオフセット電荷に対する感度の低い超伝導トランスモン量子ビットは、低エラー実装において非常に望ましい。
本研究では,三重項超伝導体からなるc軸接合を提案し,相対ねじれ角度に設定する。
材料プラットフォームにおいて生じるスピン軌道結合とスピン偏極を誘発し, 結果として生じるトランスモンハミルトニアンについて検討する。
このジャンクションは、単対トンネル強度と二重対トンネル強度を直接制御することができ、最も顕著なことに、異常な磁束、すなわち磁気束と同等の位相オフセットをゼロ磁場で制御することができる。これら3つのパラメータ(単対トンネルと二重対磁束)の制御は、トランモン量子ビットの最適設計を可能にする。
興味深いことに、このアーキテクチャでは、異常フラックスは接合のねじれ角によって決定され、新しいゼロフィールド機能を提供する。
我々は, グラフェン系c軸接合のモデルを用いて, 対称性の議論を具体化することにより, 概念の実装を実証する。 Superconducting transmon qubits with strong anharmonicity and insensitivity to offset charge are highly desirable for low-error implementation. In this work we propose a c-axis junction, comprising triplet superconductors, and set at a relative twist angle. Invoking spin-orbit coupling and spin polarization, which are known to occur in the material platform of choice, we examine the resulting transmon Hamiltonian. This junction allows for direct control of the single and double Cooper pair tunneling strength, and most remarkably, an anomalous magnetic flux -- i.e. a phase offset equivalent to magnetic flux, yet in zero magnetic field. Having control over these three parameters -- single and double pair tunneling and anomalous flux -- allows for optimal design of the transmon qubit. Interestingly, in this architecture, the anomalous flux is determined by the twist angle of the junction, thereby offering a novel zero-field functionality. Our key results rely on symmetry arguments, for concreteness we demonstrate the implementation of our concept using a model of moir\'e graphene-based c-axis junctions. | 翻訳日:2024-03-13 23:24:09 公開日:2024-03-12 |
# テキストから画像への拡散モデル Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers ( http://arxiv.org/abs/2403.07214v1 ) ライセンス: Link先を確認 | Subhadeep Koley, Ayan Kumar Bhunia, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song | (参考訳) 本稿では,ZES-SBIR(Zero-Shot Sketch-based Image Retrieval)のテキスト・画像拡散モデルについて検討する。
テキストから画像への拡散モデルによって、スケッチと写真のギャップをシームレスに橋渡しできる能力です。
この熟練度は、その堅牢なクロスモーダル能力と、我々のパイロット研究によって実証された形状バイアスに支えられている。
事前学習された拡散モデルを効果的に活用するために、我々は2つの重要な側面に焦点を当てた単純かつ強力な戦略を導入する。
前者の場合、どの層が情報に富み、特定の検索要件(カテゴリレベルまたは細かな粒度)に最も適しているかを特定する。
次に、視覚的およびテキスト的プロンプトを用いて、モデルの特徴抽出プロセスをガイドし、より識別的かつ文脈的に関連するクロスモーダル表現を生成する。
いくつかのベンチマークデータセットに対する大規模な実験は、大幅なパフォーマンス改善を実証する。 This paper, for the first time, explores text-to-image diffusion models for Zero-Shot Sketch-based Image Retrieval (ZS-SBIR). We highlight a pivotal discovery: the capacity of text-to-image diffusion models to seamlessly bridge the gap between sketches and photos. This proficiency is underpinned by their robust cross-modal capabilities and shape bias, findings that are substantiated through our pilot studies. In order to harness pre-trained diffusion models effectively, we introduce a straightforward yet powerful strategy focused on two key aspects: selecting optimal feature layers and utilising visual and textual prompts. For the former, we identify which layers are most enriched with information and are best suited for the specific retrieval requirements (category-level or fine-grained). Then we employ visual and textual prompts to guide the model's feature extraction process, enabling it to generate more discriminative and contextually relevant cross-modal representations. Extensive experiments on several benchmark datasets validate significant performance improvements. | 翻訳日:2024-03-13 23:23:48 公開日:2024-03-12 |
# CKERC : 会話における感情認識のための共通知識付き大言語モデル CKERC : Joint Large Language Models with Commonsense Knowledge for Emotion Recognition in Conversation ( http://arxiv.org/abs/2403.07260v1 ) ライセンス: Link先を確認 | Yumeng Fu | (参考訳) 会話における感情認識(英: Emotion Recognition in conversation、ERC)とは、会話の文脈における発話の感情を予測するタスクである。
それは、対話の文脈、話者のアイデンティティ情報、多人数の対話のシナリオなどに大きく依存する。
しかし、現状技術(インストラクタC)は話者のみを識別し、会話中の話者の背後にある常識知識(リスナーの反応や話者の意図など)を無視し、話者情報を深く掘り下げることができる。
そこで本研究では,会話における感情認識のためのコモンセンス知識フレームワークであるckercを用いた新しいジョイント大規模言語モデルを提案する。
また,LLMプレトレーニングにインターロカクタのコモンセンス識別タスクを用いて,話者の暗黙的な手がかりを抽出し,課題を解決するため,提案手法は最先端の3つのデータセット(IEMOCAP,MELD,EmoryNLP)に対して広範な実験を行った。
また,大規模言語モデルにおけるERCタスクにおけるコモンセンス知識の有効性を詳細に分析し,さらに実証する。 Emotion recognition in conversation (ERC) is a task which predicts the emotion of an utterance in the context of a conversation. It tightly depends on dialogue context, speaker identity information, multiparty dialogue scenario and so on. However, the state-of-the-art method (instructERC) solely identifying speaker, and ignores commonsense knowledge(i.e., reaction of the listeners and intention of the speaker, etc.) behind speakers during a conversation, which can deeply mine speaker information. To this end, we propose a novel joint large language models with commonsense knowledge framework for emotion recognition in conversation, namely CKERC.We design prompts to generate interlocutors' commonsense based on historical utterances with large language model. And we use the interlocutor commonsense identification task for LLM pre-training to fine-tune speaker implicit clues information.By solving above challenge, our method achieve state-of-the-art.We extensive experiment on three widely-used datasets, i.e., IEMOCAP, MELD, EmoryNLP, demonstrate our method superiority. Also, we conduct in-depth analysis and further demonstrate the effectiveness of commonsense knowledge in ERC task in large language model. | 翻訳日:2024-03-13 23:15:51 公開日:2024-03-12 |
# 機械型通信における自由なNOMAのための深層学習支援並列干渉キャンセラ Deep Learning-Assisted Parallel Interference Cancellation for Grant-Free NOMA in Machine-Type Communication ( http://arxiv.org/abs/2403.07255v1 ) ライセンス: Link先を確認 | Yongjeong Oh, Jaehong Jo, Byonghyo Shim, and Yo-Seb Jeon | (参考訳) 本稿では、アップリンク許可のない非直交多重アクセス(NOMA)システムにおける、共同アクティビティ検出(AD)、チャネル推定(CE)、データ検出(DD)の新たなアプローチを提案する。
提案手法では,並列干渉キャンセル(PIC)にインスパイアされた反復的かつ並列的干渉除去戦略を採用し,AD,CE,DD問題に協調的に対処する深層学習により強化された。
このアプローチに基づいて3つのPICフレームワークを開発し、それぞれがコヒーレンスまたは非コヒーレンススキーム用に設計されている。
第1のフレームワークは、コヒーレントスキームで受信したパイロット信号を使用して、共同ADとCEを実行する。
このフレームワークに基づいて、第2のフレームワークは、受信したパイロット信号とデータ信号の両方をCEに利用し、コヒーレントスキームにおけるAD、CE、DDの性能をさらに向上させる。
第3のフレームワークは、ADとDDを同時に実行する少数のデータビットを含む非コヒーレントなスキームに対応するように設計されている。
提案手法は, 連立損失関数と干渉キャンセルモジュールを用いてエンドツーエンドトレーニングをサポートし, 整合性および非整合性の両方においてAD, CE, DDの性能向上に寄与する。
シミュレーションの結果,従来の手法よりも,AD,CE,DDの性能が向上し,計算複雑性の低減が図られた。 In this paper, we present a novel approach for joint activity detection (AD), channel estimation (CE), and data detection (DD) in uplink grant-free non-orthogonal multiple access (NOMA) systems. Our approach employs an iterative and parallel interference removal strategy inspired by parallel interference cancellation (PIC), enhanced with deep learning to jointly tackle the AD, CE, and DD problems. Based on this approach, we develop three PIC frameworks, each of which is designed for either coherent or non-coherence schemes. The first framework performs joint AD and CE using received pilot signals in the coherent scheme. Building upon this framework, the second framework utilizes both the received pilot and data signals for CE, further enhancing the performances of AD, CE, and DD in the coherent scheme. The third framework is designed to accommodate the non-coherent scheme involving a small number of data bits, which simultaneously performs AD and DD. Through joint loss functions and interference cancellation modules, our approach supports end-to-end training, contributing to enhanced performances of AD, CE, and DD for both coherent and non-coherent schemes. Simulation results demonstrate the superiority of our approach over traditional techniques, exhibiting enhanced performances of AD, CE, and DD while maintaining lower computational complexity. | 翻訳日:2024-03-13 23:15:27 公開日:2024-03-12 |
# GuideGen: 関節CTボリュームと解剖構造生成のためのテキストガイドフレームワーク GuideGen: A Text-guided Framework for Joint CT Volume and Anatomical structure Generation ( http://arxiv.org/abs/2403.07247v1 ) ライセンス: Link先を確認 | Linrui Dai, Rongzhao Zhang, Zhongzhen Huang, Xiaofan Zhang | (参考訳) 画像やラベルを含む大規模な医療データセットを集めるためのアノテーションの負担と広範な労力は、費用対効果が高く、非常に威圧的であることはまれである。
これにより、下流のタスクを損なう豊富なトレーニングデータが欠如し、医療分野での課題の画像解析に部分的に寄与する。
回避策として、生成的ニューラルモデルの成功を考えると、外部制約によって導かれる高い忠実度で画像データセットを合成できるようになった。
本稿では, 腹部臓器と大腸癌のCT画像と組織マスクを共同生成するパイプラインであるtextbf{GuideGen}について検討し, その可能性について述べる。
まず,マスクラベルの離散分布に適合するボリュームマスクサンプラーを導入し,低分解能3d組織マスクを生成する。
第2に,条件付き画像生成装置は,対応するマスクスライスを条件としたctスライスを自動生成し,スタイル情報と解剖指導の両方を組み込む。
このパイプラインは、高忠実度と可変性、および生成されたCTボリュームと組織マスクの正確なアライメントを保証する。
3次元腹部CTにおける定性的および定量的な実験は,提案したパイプラインの性能を実証し,本手法がデータセット生成器として機能し,下流タスクに潜在的に有益であることを示す。
本研究はCTと解剖学的マスクの多モード生成における有望な解決策として期待されている。
ソースコードはhttps://github.com/OvO1111/JointImageGeneration.comで公開されています。 The annotation burden and extensive labor for gathering a large medical dataset with images and corresponding labels are rarely cost-effective and highly intimidating. This results in a lack of abundant training data that undermines downstream tasks and partially contributes to the challenge image analysis faces in the medical field. As a workaround, given the recent success of generative neural models, it is now possible to synthesize image datasets at a high fidelity guided by external constraints. This paper explores this possibility and presents \textbf{GuideGen}: a pipeline that jointly generates CT images and tissue masks for abdominal organs and colorectal cancer conditioned on a text prompt. Firstly, we introduce Volumetric Mask Sampler to fit the discrete distribution of mask labels and generate low-resolution 3D tissue masks. Secondly, our Conditional Image Generator autoregressively generates CT slices conditioned on a corresponding mask slice to incorporate both style information and anatomical guidance. This pipeline guarantees high fidelity and variability as well as exact alignment between generated CT volumes and tissue masks. Both qualitative and quantitative experiments on 3D abdominal CTs demonstrate a high performance of our proposed pipeline, thereby proving our method can serve as a dataset generator and provide potential benefits to downstream tasks. It is hoped that our work will offer a promising solution on the multimodality generation of CT and its anatomical mask. Our source code is publicly available at https://github.com/OvO1111/JointImageGeneration. | 翻訳日:2024-03-13 23:14:58 公開日:2024-03-12 |
# 視覚言語統合によるゼロショットヒューマンオブジェクトインタラクション検出に向けて Towards Zero-shot Human-Object Interaction Detection via Vision-Language Integration ( http://arxiv.org/abs/2403.07246v1 ) ライセンス: Link先を確認 | Weiying Xue, Qi Liu, Qiwei Xiong, Yuxiao Wang, Zhenao Wei, Xiaofen Xing, Xiangmin Xu | (参考訳) human-object interaction (hoi) 検出は、人間とオブジェクトのペアを見つけ、その相互作用のカテゴリを画像で識別することを目的としている。
既存のほとんどのメソッドは、広範囲な手作業によるHOIアノテーションに依存する教師あり学習に重点を置いている。
本稿では,ゼロショットHOI検出を改善するために,視覚言語モデルの知識を効果的に統合する新しいフレームワーク,KI2HOI(Knowledge Integration to HOI)を提案する。
具体的には、動詞抽出デコーダを用いて、動詞特徴学習モジュールを視覚意味論に基づいて設計し、対応する動詞クエリを対話固有のカテゴリ表現に変換する。
より包括的な視覚表現を生成するための効果的な自己認識機構を開発する。
さらに、革新的相互作用表現復号器は、空間的特徴情報と視覚的特徴情報を相互注意機構を介して統合することにより、情報領域を効果的に抽出する。
低データのゼロショット学習に対処するために、CLIPテキストエンコーダからの事前知識を活用し、線形分類器を初期化して対話理解を強化する。
HICO-DET と V-COCO のデータセットを用いた大規模な実験により,本モデルがゼロショットおよびフル教師付き設定で過去の手法より優れていることが示された。 Human-object interaction (HOI) detection aims to locate human-object pairs and identify their interaction categories in images. Most existing methods primarily focus on supervised learning, which relies on extensive manual HOI annotations. In this paper, we propose a novel framework, termed Knowledge Integration to HOI (KI2HOI), that effectively integrates the knowledge of visual-language model to improve zero-shot HOI detection. Specifically, the verb feature learning module is designed based on visual semantics, by employing the verb extraction decoder to convert corresponding verb queries into interaction-specific category representations. We develop an effective additive self-attention mechanism to generate more comprehensive visual representations. Moreover, the innovative interaction representation decoder effectively extracts informative regions by integrating spatial and visual feature information through a cross-attention mechanism. To deal with zero-shot learning in low-data, we leverage a priori knowledge from the CLIP text encoder to initialize the linear classifier for enhanced interaction understanding. Extensive experiments conducted on the mainstream HICO-DET and V-COCO datasets demonstrate that our model outperforms the previous methods in various zero-shot and full-supervised settings. | 翻訳日:2024-03-13 23:14:32 公開日:2024-03-12 |
# 双対領域マッチングによる時系列分類のためのデータセット凝縮 Dataset Condensation for Time Series Classification via Dual Domain Matching ( http://arxiv.org/abs/2403.07245v1 ) ライセンス: Link先を確認 | Zhanyu Liu, Ke Hao, Guanjie Zheng, Yanwei Yu | (参考訳) 時系列データは様々な研究分野で重要であることが示されている。
大量の時系列データの管理は、特にディープニューラルネットワークのトレーニングにおいて、ディープラーニングタスクの観点からの課題を提示する。
近年,この問題に対する解決策として,textit{Dataset Condensation} というテクニックが登場している。
この技術は、分類などの下流タスクにおいて、完全な実データセットに匹敵するパフォーマンスを持つより小さな合成データセットを生成する。
しかし、従来の手法は主に画像とグラフのデータセット用に設計されており、特に周波数領域において時系列データに固有のリッチな情報を効果的に活用できないため、時系列データセットに直接適応することで、最適なパフォーマンスをもたらす。
本稿では,時系列分類に焦点をあてた2つの領域マッチング (\textbf{condtsc}) を用いた,新しいフレームワークであるdataset \textit{\textbf{cond}}ensation for \textit{\textbf{t}}ime \textit{\textbf{s}}eries \textit{\textbf{c}}lassificationを提案する。
提案手法は,従来の手法と異なり,時間領域と周波数領域の両方で代理対象と一致する縮合データセットを生成することを目的としている。
具体的には、マルチビューデータ拡張、二重ドメイントレーニング、二重代理目的を取り入れて、時間と周波数領域におけるデータセット凝縮プロセスを強化する。
より広範な実験を通じて,提案フレームワークの有効性を実証し,他のベースラインよりも優れ,元のデータの分布に適合するなど,望ましい特徴を示す凝縮合成データセットを学習する。 Time series data has been demonstrated to be crucial in various research fields. The management of large quantities of time series data presents challenges in terms of deep learning tasks, particularly for training a deep neural network. Recently, a technique named \textit{Dataset Condensation} has emerged as a solution to this problem. This technique generates a smaller synthetic dataset that has comparable performance to the full real dataset in downstream tasks such as classification. However, previous methods are primarily designed for image and graph datasets, and directly adapting them to the time series dataset leads to suboptimal performance due to their inability to effectively leverage the rich information inherent in time series data, particularly in the frequency domain. In this paper, we propose a novel framework named Dataset \textit{\textbf{Cond}}ensation for \textit{\textbf{T}}ime \textit{\textbf{S}}eries \textit{\textbf{C}}lassification via Dual Domain Matching (\textbf{CondTSC}) which focuses on the time series classification dataset condensation task. Different from previous methods, our proposed framework aims to generate a condensed dataset that matches the surrogate objectives in both the time and frequency domains. Specifically, CondTSC incorporates multi-view data augmentation, dual domain training, and dual surrogate objectives to enhance the dataset condensation process in the time and frequency domains. Through extensive experiments, we demonstrate the effectiveness of our proposed framework, which outperforms other baselines and learns a condensed synthetic dataset that exhibits desirable characteristics such as conforming to the distribution of the original data. | 翻訳日:2024-03-13 23:14:11 公開日:2024-03-12 |
# 符号化開口とイベントを用いた時間効率光フィールド獲得 Time-Efficient Light-Field Acquisition Using Coded Aperture and Events ( http://arxiv.org/abs/2403.07244v1 ) ライセンス: Link先を確認 | Shuji Habuchi, Keita Takahashi, Chihiro Tsutake, Toshiaki Fujii, Hajime Nagahara | (参考訳) 符号化開口とイベントベースカメラを組み合わせた時間効率光場取得のための計算画像化手法を提案する。
従来の coded-aperture imaging 法と異なり,画像フレームの単一露光時の符号化パターンのシーケンスを適用する。
符号化パターンの違いに関連するパララックス情報は、イベントとして記録される。
画像フレームとイベントはいずれも単一の露光で測定され、光場を計算的に再構成するために併用される。
我々はまた、ディープ光学に基づいてエンドツーエンドのトレーニングが可能で、実際のカメラハードウェアと互換性のあるアルゴリズムパイプラインを設計した。
本手法は,他の複数の撮像法よりも高精度に1回の露光で再現できることを実験的に示した。
また,22m秒以内でカメラの計測を完了できるハードウェアプロトタイプを開発し,実写3Dシーンからの光場を説得力のある視覚的品質で得られることを示した。
私たちのソフトウェアと補足ビデオはプロジェクトのWebサイトから入手できます。 We propose a computational imaging method for time-efficient light-field acquisition that combines a coded aperture with an event-based camera. Different from the conventional coded-aperture imaging method, our method applies a sequence of coding patterns during a single exposure for an image frame. The parallax information, which is related to the differences in coding patterns, is recorded as events. The image frame and events, all of which are measured in a single exposure, are jointly used to computationally reconstruct a light field. We also designed an algorithm pipeline for our method that is end-to-end trainable on the basis of deep optics and compatible with real camera hardware. We experimentally showed that our method can achieve more accurate reconstruction than several other imaging methods with a single exposure. We also developed a hardware prototype with the potential to complete the measurement on the camera within 22 msec and demonstrated that light fields from real 3-D scenes can be obtained with convincing visual quality. Our software and supplementary video are available from our project website. | 翻訳日:2024-03-13 23:13:39 公開日:2024-03-12 |
# フラクソニウム量子ビット間の高忠実二量子ゲートの設計 Designing high-fidelity two-qubit gates between fluxonium qubits ( http://arxiv.org/abs/2403.07242v1 ) ライセンス: Link先を確認 | Emma L. Rosenfeld, Connor T. Hann, David I. Schuster, Matthew H. Matheny, and Aashish A. Clerk | (参考訳) 我々は、ファックスニウム量子ビット間の2量子ビットゲートを最小の誤差、速度、制御の単純さのために設計するためにボトムアップで第一原理のアプローチを取る。
提案アーキテクチャは、線形共振器を介して結合された2つのフラクソニウムからなる。
線形カプラは、損失を抑制するための材料最適化の可能性を導入し、大きな電荷ゼロ点変動による状態選択遷移の効率的な駆動を可能にし、接合時効に対する感度を低下させ、2レベル系へのコヒーレント結合を部分的に緩和する。
重要なことに、共振器・アズ・カプラのアプローチは、カプラのインピーダンスが高いときに容量負荷を減らすことにより、フラクソニウム量子ビット間の接続性を高めるための明確な経路を示唆している。
回路ハミルトニアンおよびゲートダイナミクスの解析および数値解析を行った後、回路パラメータを調整してコヒーレントエラーの発生源を破壊的に妨害し、ゲート長によるコヒーレントエラーの効率的な4次スケーリングを明らかにする。
文献からの成分特性について、開系平均CZゲート不忠実度は70nsで1.86 \times 10^{-4}$と予測する。 We take a bottom-up, first-principles approach to design a two-qubit gate between fluxonium qubits for minimal error, speed, and control simplicity. Our proposed architecture consists of two fluxoniums coupled via a linear resonator. Using a linear coupler introduces the possibility of material optimization for suppressing its loss, enables efficient driving of state-selective transitions through its large charge zero point fluctuation, reduces sensitivity to junction aging, and partially mitigates coherent coupling to two-level systems. Crucially, a resonator-as-coupler approach also suggests a clear path to increased connectivity between fluxonium qubits, by reducing capacitive loading when the coupler has a high impedance. After performing analytic and numeric analyses of the circuit Hamiltonian and gate dynamics, we tune circuit parameters to destructively interfere sources of coherent error, revealing an efficient, fourth-order scaling of coherent error with gate duration. For component properties from the literature, we predict an open-system average CZ gate infidelity of $1.86 \times 10^{-4}$ in 70ns. | 翻訳日:2024-03-13 23:13:19 公開日:2024-03-12 |
# マルチモーダル表現のキャリブレーション:アノテーションなしのグループロバストネスの追求 Calibrating Multi-modal Representations: A Pursuit of Group Robustness without Annotations ( http://arxiv.org/abs/2403.07241v1 ) ライセンス: Link先を確認 | Chenyu You, Yifei Min, Weicheng Dai, Jasjeet S. Sekhon, Lawrence Staib, James S. Duncan | (参考訳) CLIPのような微調整済みの視覚言語モデルは、さまざまな下流タスクで成功している。
しかし、このパラダイムにはいくつかの痛点が残る。
i) 事前学習されたモデルを直接チューニングすることは、時間集約的かつ計算コストがかかる。
さらに、これらの調整されたモデルは高度に専門化され、実際の展開の実用性が制限される傾向がある。
(ii)最近の研究では、事前訓練された視覚言語分類器は、トレーニングデータのターゲットと相関するが真のラベリング機能とは関係のない、スプリアスな特徴に過度に依存している可能性がある。)
(iii)スプリアスの特徴への依存の緩和に関する既存の研究は、主にそのような特徴を識別できるという仮定に基づいており、現実世界のアプリケーションに対する確固たる保証を提供していない。
パイロット研究として本研究は,グループアノテーションを使わずに,クリップのスプリアス機能に依存することの軽減に重点を置いている。
そこで本研究では,CLIPとCILP+ERMの相互関係を系統的に検討した。
Deep Feature Reweighting (DFR) に関する最近の研究に続いて、最終層再トレーニングが事前訓練されたCLIPにおけるグループロバスト性を大幅に改善できることを確認した。
これらの観点から,まず,事前学習したCLIPを用いてキャリブレーションセットを生成し,その後,コントラスト学習を通じて,グループラベルを必要とせずに,このセット内のサンプルのキャリブレーションをキャリブレーションする。
複数のベンチマークで大規模な実験と詳細な可視化を行い,提案手法の有効性を検証した。 Fine-tuning pre-trained vision-language models, like CLIP, has yielded success on diverse downstream tasks. However, several pain points persist for this paradigm: (i) directly tuning entire pre-trained models becomes both time-intensive and computationally costly. Additionally, these tuned models tend to become highly specialized, limiting their practicality for real-world deployment; (ii) recent studies indicate that pre-trained vision-language classifiers may overly depend on spurious features -- patterns that correlate with the target in training data, but are not related to the true labeling function; and (iii) existing studies on mitigating the reliance on spurious features, largely based on the assumption that we can identify such features, does not provide definitive assurance for real-world applications. As a piloting study, this work focuses on exploring mitigating the reliance on spurious features for CLIP without using any group annotation. To this end, we systematically study the existence of spurious correlation on CLIP and CILP+ERM. We first, following recent work on Deep Feature Reweighting (DFR), verify that last-layer retraining can greatly improve group robustness on pretrained CLIP. In view of them, we advocate a lightweight representation calibration method for fine-tuning CLIP, by first generating a calibration set using the pretrained CLIP, and then calibrating representations of samples within this set through contrastive learning, all without the need for group labels. Extensive experiments and in-depth visualizations on several benchmarks validate the effectiveness of our proposals, largely reducing reliance and significantly boosting the model generalization. | 翻訳日:2024-03-13 23:12:57 公開日:2024-03-12 |
# 周波数認識深度検出:周波数空間学習による一般化性の向上 Frequency-Aware Deepfake Detection: Improving Generalizability through Frequency Space Learning ( http://arxiv.org/abs/2403.07240v1 ) ライセンス: Link先を確認 | Chuangchuang Tan, Yao Zhao, Shikui Wei, Guanghua Gu, Ping Liu, Yunchao Wei | (参考訳) 本研究は,未発見のディープフェイク画像を,限られたトレーニングデータに留まらず効果的に識別できる汎用ディープフェイク検出器の開発を課題とする。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
しかし、合成技術の急速な進歩により、各世代モデルに固有のアーティファクトが生まれている。
その結果、これらの検出器は周波数領域を学習する能力の欠如を示しており、トレーニングデータに存在するアーティファクトに過度に適合する傾向にあり、見当たらないソースに対する準最適性能をもたらす。
この問題に対処するため,周波数領域学習を中心としたFreqNetという新しい周波数認識手法を導入し,ディープフェイク検出器の一般化性を高めることを目的とした。
本手法では,空間的およびチャネル的次元にまたがる特徴の高周波表現を活用し,連続的に高周波情報に焦点を当てる。
さらに、ソースに依存しない特徴を学習するために、簡単な周波数領域学習モジュールを組み込んだ。
これは、位相スペクトルと高速フーリエ変換(fft)と逆高速フーリエ変換(ifft)の間の振幅スペクトルの両方に適用される畳み込み層を含む。
提案手法の有効性を実証し, より少ないパラメータを必要としながら, 最先端性能(+9.8\%)を示す。
コードは {\cred \url{https://github.com/chuangchuangtan/freqnet-deepfakedetection}} で入手できる。 This research addresses the challenge of developing a universal deepfake detector that can effectively identify unseen deepfake images despite limited training data. Existing frequency-based paradigms have relied on frequency-level artifacts introduced during the up-sampling in GAN pipelines to detect forgeries. However, the rapid advancements in synthesis technology have led to specific artifacts for each generation model. Consequently, these detectors have exhibited a lack of proficiency in learning the frequency domain and tend to overfit to the artifacts present in the training data, leading to suboptimal performance on unseen sources. To address this issue, we introduce a novel frequency-aware approach called FreqNet, centered around frequency domain learning, specifically designed to enhance the generalizability of deepfake detectors. Our method forces the detector to continuously focus on high-frequency information, exploiting high-frequency representation of features across spatial and channel dimensions. Additionally, we incorporate a straightforward frequency domain learning module to learn source-agnostic features. It involves convolutional layers applied to both the phase spectrum and amplitude spectrum between the Fast Fourier Transform (FFT) and Inverse Fast Fourier Transform (iFFT). Extensive experimentation involving 17 GANs demonstrates the effectiveness of our proposed method, showcasing state-of-the-art performance (+9.8\%) while requiring fewer parameters. The code is available at {\cred \url{https://github.com/chuangchuangtan/FreqNet-DeepfakeDetection}}. | 翻訳日:2024-03-13 23:12:27 公開日:2024-03-12 |
# 拡散モデルにおけるスケッチ制御の民主化 It's All About Your Sketch: Democratising Sketch Control in Diffusion Models ( http://arxiv.org/abs/2403.07234v1 ) ライセンス: Link先を確認 | Subhadeep Koley, Ayan Kumar Bhunia, Deeptanshu Sekhri, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song | (参考訳) 本稿では,生成型aiにおける直接スケッチ制御のデセプティブに対処し,拡散モデルのスケッチの可能性を明らかにする。
私たちは、このプロセスを民主化し、アマチュアのスケッチが正確なイメージを生成できるようにし、"スケッチとは何か"というコミットメントを満たします。
パイロット研究は、既存のモデルの変形が空間条件に起因することを明らかにする。
そこで,本稿では,スケッチ・アダプタ,適応時間ステップサンプリング,および事前学習されたスケッチに基づく画像検索モデルからの判別ガイダンスを利用した,抽象認識フレームワークを提案する。
私たちのアプローチは、テキストによるプロンプトを必要とせずに、推論中にシームレスに動作します。
論文とその補助書に提示された結果を調べるよう皆に歓迎します。
コントリビューションには、スケッチコントロールの民主化、抽象化対応フレームワークの導入、広範な実験を通じて検証された差別的ガイダンスの活用などが含まれる。 This paper unravels the potential of sketches for diffusion models, addressing the deceptive promise of direct sketch control in generative AI. We importantly democratise the process, enabling amateur sketches to generate precise images, living up to the commitment of "what you sketch is what you get". A pilot study underscores the necessity, revealing that deformities in existing models stem from spatial-conditioning. To rectify this, we propose an abstraction-aware framework, utilising a sketch adapter, adaptive time-step sampling, and discriminative guidance from a pre-trained fine-grained sketch-based image retrieval model, working synergistically to reinforce fine-grained sketch-photo association. Our approach operates seamlessly during inference without the need for textual prompts; a simple, rough sketch akin to what you and I can create suffices! We welcome everyone to examine results presented in the paper and its supplementary. Contributions include democratising sketch control, introducing an abstraction-aware framework, and leveraging discriminative guidance, validated through extensive experiments. | 翻訳日:2024-03-13 23:11:59 公開日:2024-03-12 |
# マルチスケール量子メディアの探求:分数schr\"odinger方程式の高精度数値解、物理ポテンシャル付き固有関数、分数エンハンス量子トンネル法 Exploring Multiscale Quantum Media: High-Precision Efficient Numerical Solution of the Fractional Schr\"odinger equation, Eigenfunctions with Physical Potentials, and Fractionally-Enhanced Quantum Tunneling ( http://arxiv.org/abs/2403.07233v1 ) ライセンス: Link先を確認 | Joshua M. Lewis and Lincoln D. Carr | (参考訳) 分数進化方程式は、異常拡散を除いて一般にアクセス可能でよく収束した符号を欠いている。
応用数学と量子情報科学と技術の交わりの増大に対する強い関心の方程式は、マルチスケールメディアによって引き起こされる量子波動関数のサブおよび超分散挙動を記述する分数的シュリンガー方程式である。
FSEの固有関数を任意の分数次微分の任意の数値精度に収束させる計算効率のよい6階分割ステップ数値法を導出する。
本稿では,有限井戸や高調波発振器などの古典量子問題に対して,分数微分の非局所的性質により驚くべきねじれを生じさせる機械精度への応用を実証する。
例えば、有限井戸のエバネッセント波尾は、整数階微分波動理論からよく知られた指数関数よりもはるかに遅く崩壊し、障壁への侵入を高め、したがって量子トンネル速度を増大させるミッタ・レファー型である。
この効果を 'emph{fractionally enhanced quantum tunneling} と呼ぶ。
この研究には、量子実験家から応用数学者へのコミュニティのためのオープンソースコードが含まれており、量子トンネル拡張やその他の量子応用におけるポテンシャル実現のための様々な実用的なポテンシャルにおいて、分数的シュリンガー方程式の解を簡単かつ効率的に探索することができる。 Fractional evolution equations lack generally accessible and well-converged codes excepting anomalous diffusion. A particular equation of strong interest to the growing intersection of applied mathematics and quantum information science and technology is the fractional Schr\"odinger equation, which describes sub-and super-dispersive behavior of quantum wavefunctions induced by multiscale media. We derive a computationally efficient sixth-order split-step numerical method to converge the eigenfunctions of the FSE to arbitrary numerical precision for arbitrary fractional order derivative. We demonstrate applications of this code to machine precision for classic quantum problems such as the finite well and harmonic oscillator, which take surprising twists due to the non-local nature of the fractional derivative. For example, the evanescent wave tails in the finite well take a Mittag-Leffer-like form which decay much slower than the well-known exponential from integer-order derivative wave theories, enhancing penetration into the barrier and therefore quantum tunneling rates. We call this effect \emph{fractionally enhanced quantum tunneling}. This work includes an open source code for communities from quantum experimentalists to applied mathematicians to easily and efficiently explore the solutions of the fractional Schr\"odinger equation in a wide variety of practical potentials for potential realization in quantum tunneling enhancement and other quantum applications. | 翻訳日:2024-03-13 23:11:40 公開日:2024-03-12 |
# 都市運転における離散行動モードのトラクタブル共同予測と計画 Tractable Joint Prediction and Planning over Discrete Behavior Modes for Urban Driving ( http://arxiv.org/abs/2403.07232v1 ) ライセンス: Link先を確認 | Adam Villaflor, Brian Yang, Huangyuan Su, Katerina Fragkiadaki, John Dolan, Jeff Schneider | (参考訳) 自動運転のためのマルチモーダル軌道予測モデルの訓練において、大きな進歩があった。
しかし、これらのモデルを下流のプランナーやモデルベースの制御アプローチと効果的に統合することは、まだ未解決の問題である。
これらのモデルは従来,開ループ予測のために評価されてきたが,再トレーニングせずに自己回帰閉ループモデルをパラメータ化することができる。
本研究では,学習アンカー組込みを利用して複数の軌跡を予測する最近の軌道予測手法について検討し,これらのアンカー組込みが高レベル運転行動を表す離散モードと離散モードをパラメータ化できることを見いだした。
我々は,これらの離散的潜在モード上で完全にリアクティブな閉ループ計画を行うことを提案し,各ステップにおけるエージェント間の因果相互作用を気軽にモデル化する。
提案手法は,従来のプランナで広く普及している$\textit{frozen Robot problem}$を回避するため,よりダイナミックな統合シナリオのスイート上で検証を行う。
また,本手法は,現実的な速度で評価した場合の高密度交通シナリオにおいて,従来のCARLAの最先端技術よりも優れていた。 Significant progress has been made in training multimodal trajectory forecasting models for autonomous driving. However, effectively integrating these models with downstream planners and model-based control approaches is still an open problem. Although these models have conventionally been evaluated for open-loop prediction, we show that they can be used to parameterize autoregressive closed-loop models without retraining. We consider recent trajectory prediction approaches which leverage learned anchor embeddings to predict multiple trajectories, finding that these anchor embeddings can parameterize discrete and distinct modes representing high-level driving behaviors. We propose to perform fully reactive closed-loop planning over these discrete latent modes, allowing us to tractably model the causal interactions between agents at each step. We validate our approach on a suite of more dynamic merging scenarios, finding that our approach avoids the $\textit{frozen robot problem}$ which is pervasive in conventional planners. Our approach also outperforms the previous state-of-the-art in CARLA on challenging dense traffic scenarios when evaluated at realistic speeds. | 翻訳日:2024-03-13 23:11:14 公開日:2024-03-12 |
# 学習と探索:コントラスト学習を用いたオブジェクト検索のためのエレガントな手法 Learn and Search: An Elegant Technique for Object Lookup using Contrastive Learning ( http://arxiv.org/abs/2403.07231v1 ) ライセンス: Link先を確認 | Chandan Kumar, Jansel Herrera-Gerena, John Just, Matthew Darr, Ali Jannesari | (参考訳) デジタルコンテンツの急速な普及と、精度の高いオブジェクト認識とセグメンテーションの必要性は、オブジェクトの分類とセグメンテーションの分野における最先端技術の発展を促している。
本稿では,検索システムの効率と有効性を高めるために,コントラスト学習の力を活用したオブジェクト検索の新しい手法である「Learn and Search」を紹介する。
本研究では,物体探索の課題に取り組むために,深層学習の原則とコントラスト学習を統合したエレガントで革新的な方法論を提案する。
実験の結果から,「学習と探索」が優れた類似度グリッド精度を達成し,画像内の最も類似度の高い領域をクロッピング画像に対して識別する効果が示された。
ディープラーニングとコントラスト学習のシームレスな融合は、オブジェクト識別の複雑さに対処し、画像認識、レコメンデーションシステム、コンテンツのタグ付けに革新的な応用をもたらすだけでなく、コンテンツベースの検索と検索にも革命をもたらす。
これらの手法の融合は、"learn and search"で例示されるように、オブジェクトの分類とセグメンテーションのダイナミックな領域における方法論の現在進行中の進化において重要な進歩を示している。 The rapid proliferation of digital content and the ever-growing need for precise object recognition and segmentation have driven the advancement of cutting-edge techniques in the field of object classification and segmentation. This paper introduces "Learn and Search", a novel approach for object lookup that leverages the power of contrastive learning to enhance the efficiency and effectiveness of retrieval systems. In this study, we present an elegant and innovative methodology that integrates deep learning principles and contrastive learning to tackle the challenges of object search. Our extensive experimentation reveals compelling results, with "Learn and Search" achieving superior Similarity Grid Accuracy, showcasing its efficacy in discerning regions of utmost similarity within an image relative to a cropped image. The seamless fusion of deep learning and contrastive learning to address the intricacies of object identification not only promises transformative applications in image recognition, recommendation systems, and content tagging but also revolutionizes content-based search and retrieval. The amalgamation of these techniques, as exemplified by "Learn and Search," represents a significant stride in the ongoing evolution of methodologies in the dynamic realm of object classification and segmentation. | 翻訳日:2024-03-13 23:10:57 公開日:2024-03-12 |
# Curry-DPO:カリキュラム学習とランク付けによるアライメント向上 Curry-DPO: Enhancing Alignment using Curriculum Learning & Ranked Preferences ( http://arxiv.org/abs/2403.07230v1 ) ライセンス: Link先を確認 | Pulkit Pattnaik and Rishabh Maheshwary and Kelechi Ogueji and Vikas Yadav and Sathwik Tejaswi Madhusudhan | (参考訳) 直接選好最適化(direct preference optimization, dpo)は、対向選好データ(通常、ユーザのプロンプト毎に選択され拒否された応答ペア)を活用して、llmを人の選好に合わせる効果的な手法である。
実際には、互いに異なる品質の与えられたプロンプトに対して複数の応答が存在する。
複数の応答に対する品質評価が利用可能であるので、これらの応答を利用して、与えられたプロンプトに対して複数の選好ペアを作成する。
本研究は,カリキュラム学習手法を用いたDPO学習において,構築された複数選好ペアを体系的に活用することに焦点を当てる。
特に,これらの複数対の選好データを,様々な基準に従って容易から難しい(教育訓練を模倣する)選好データを順序付けする。
提案手法と標準シングルペアdpo設定の詳細な比較を行った。
本手法は,mtbench,vicuna,wizardlm,ultrafeedbackテストセットの性能向上を示し,その効果を強調する。
より具体的には、Curry-DPOはMT-benchで7.43のスコアを達成し、Zephy-7Bモデルは同様のパラメータサイズを持つ既存のLLMの大部分を上回ります。
また、Curry-DPOはVicuna、WizardLM、UltraFeedbackテストデータセット(それぞれ90.7%、87.1%、87.9%)において、通常のDPO技術と比較して最大7.5%の上昇率を達成した。 Direct Preference Optimization (DPO) is an effective technique that leverages pairwise preference data (usually one chosen and rejected response pair per user prompt) to align LLMs to human preferences. In practice, multiple responses can exist for a given prompt with varying quality relative to each other. With availability of such quality ratings for multiple responses, we propose utilizing these responses to create multiple preference pairs for a given prompt. Our work focuses on systematically using the constructed multiple preference pair in DPO training via curriculum learning methodology. In particular, we order these multiple pairs of preference data from easy to hard (emulating curriculum training) according to various criteria. We show detailed comparisons of our proposed approach to the standard single-pair DPO setting. Our method, which we call Curry-DPO consistently shows increased performance gains on MTbench, Vicuna, WizardLM, and the UltraFeedback test set, highlighting its effectiveness. More specifically, Curry-DPO achieves a score of 7.43 on MT-bench with Zephy-7B model outperforming majority of existing LLMs with similar parameter size. Curry-DPO also achieves the highest adjusted win rates on Vicuna, WizardLM, and UltraFeedback test datasets (90.7%, 87.1%, and 87.9% respectively) in our experiments, with notable gains of upto 7.5% when compared to standard DPO technique. | 翻訳日:2024-03-13 23:10:37 公開日:2024-03-12 |
# 単元完全正写像間の準同型の解析 Characterizations of homomorphisms among unital completely positive maps ( http://arxiv.org/abs/2403.07229v1 ) ライセンス: Link先を確認 | Andre Kornell | (参考訳) 有限次元 c*-代数の間の単位的完全正写像が準同型であることとそれが完全にエントロピー非開であることは同値であり、エントロピーの関連する概念はフォン・ノイマンエントロピーの変種である。
中間ステップとして、有限次元 C*-代数の間の単位正の正の写像が準同型であることと、その調整されたチェイ作用素が射影であることを証明する。
どちらの同値も有限集合間の確率写像に関するよく知られた事実を一般化する。 We prove that a unital completely positive map between finite-dimensional C*-algebras is a homomorphism if and only if it is completely entropy-nonincreasing, where the relevant notion of entropy is a variant of von Neumann entropy. As an intermediate step, we prove that a unital completely positive map between finite-dimensional C*-algebras is a homomorphism if and only if its adjusted Choi operator is a projection. Both equivalences generalize familiar facts about stochastic maps between finite sets. | 翻訳日:2024-03-13 23:10:10 公開日:2024-03-12 |
# 自己表現型グラフ構造再構成によるグラフデータ凝縮 Graph Data Condensation via Self-expressive Graph Structure Reconstruction ( http://arxiv.org/abs/2403.07294v1 ) ライセンス: Link先を確認 | Zhanyu Liu, Chaolv Zeng, Guanjie Zheng | (参考訳) 大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニング要求の増加に伴い、グラフデータの凝縮は、トレーニングフェーズの保存と時間コストを軽減するための重要なテクニックとして現れている。
これは、ダウンストリームgnnの効率的なトレーニングに必要な必須情報を保存しつつ、元の大規模グラフをはるかに小さな合成グラフに集約することを目的としている。
しかし,既存の手法はノード機能のみを最適化することに集中するか,ノード機能とグラフ構造生成を独立に学習するために努力する。
彼らは元のグラフ構造の情報を明示的に活用できず、合成データセットの解釈可能なグラフ構造の構築に失敗した。
これらの問題に対処するため,新しいフレームワークである \textbf{G}raph Data \textbf{C}ondensation via \textbf{S}elf- expressive Graph Structure \textbf{R}econstruction (\textbf{GCSR})を紹介した。
本手法は,(1) 凝縮プロセスに元のグラフ構造を明示的に組み込む,(2) 解釈可能な自己表現型グラフ構造を再構築することにより,凝縮ノード間のニュアンス相互依存性をキャプチャする手法である。
広範囲にわたる実験と包括的分析により,様々なGNNモデルとデータセットにまたがる提案手法の有効性が検証された。
私たちのコードはhttps://www.dropbox.com/scl/fi/2aonyp5ln5gisdqtjimu8/GCSR.zip?
rlkey=11cuwfpsf54wxiiktu0klud0x&dl=0 With the increasing demands of training graph neural networks (GNNs) on large-scale graphs, graph data condensation has emerged as a critical technique to relieve the storage and time costs during the training phase. It aims to condense the original large-scale graph to a much smaller synthetic graph while preserving the essential information necessary for efficiently training a downstream GNN. However, existing methods concentrate either on optimizing node features exclusively or endeavor to independently learn node features and the graph structure generator. They could not explicitly leverage the information of the original graph structure and failed to construct an interpretable graph structure for the synthetic dataset. To address these issues, we introduce a novel framework named \textbf{G}raph Data \textbf{C}ondensation via \textbf{S}elf-expressive Graph Structure \textbf{R}econstruction (\textbf{GCSR}). Our method stands out by (1) explicitly incorporating the original graph structure into the condensing process and (2) capturing the nuanced interdependencies between the condensed nodes by reconstructing an interpretable self-expressive graph structure. Extensive experiments and comprehensive analysis validate the efficacy of the proposed method across diverse GNN models and datasets. Our code is available at https://www.dropbox.com/scl/fi/2aonyp5ln5gisdqtjimu8/GCSR.zip?rlkey=11cuwfpsf54wxiiktu0klud0x&dl=0 | 翻訳日:2024-03-13 23:06:30 公開日:2024-03-12 |
# 統一ネットワーク構造上の知識再生による一対一逆気象の連続的除去 Continual All-in-One Adverse Weather Removal with Knowledge Replay on a Unified Network Structure ( http://arxiv.org/abs/2403.07292v1 ) ライセンス: Link先を確認 | De Cheng, Yanling Ji, Dong Gong, Yan Li, Nannan Wang, Junwei Han, Dingwen Zhang | (参考訳) 実世界のアプリケーションでは、悪天候による画像変性は常に複雑であり、日や季節によって異なる気象条件で変化する。
実世界の環境のシステムは、これまで観測されなかった悪天候に常に遭遇する。
そのため,様々な変性型を反映した漸進的に収集されたデータから継続的に学習するには,悪天候除去モデルが必要である。
既存の悪天候除去アプローチは、単一の悪天候と複数の悪天候の両方に対して、主に静的な学習パラダイムのために設計されており、単一のフェーズ学習プロセスの前に、すべての種類のデジェネレーションのデータを細かく収集できると仮定している。
したがって、インクリメンタルな学習要件を直接扱うことはできません。
この問題に対処するため,我々は,実世界のアプリケーションに近い環境で,悪天候除去タスクを継続的に調査する最初期の取り組みを行った。
具体的には,ネットワーク構造を統一した,効果的な知識リプレイ(kr)を用いた新しい連続学習フレームワークを開発した。
主成分投射と効果的な知識蒸留機構を備え, 提案手法はオールインワン気象除去作業に適合する。
連続学習における複数の退化を伴う画像復元作業の特徴を考察し,ネットワーク構造に異なる退化に関する知識を共有・蓄積することが可能である。
この課題に対処するために提案手法の有効性を実証し,既存の専用または共同の訓練画像復元法と競合する実験を行った。
私たちのコードはhttps://github.com/xiaojihh/cl_all-in-oneで利用可能です。 In real-world applications, image degeneration caused by adverse weather is always complex and changes with different weather conditions from days and seasons. Systems in real-world environments constantly encounter adverse weather conditions that are not previously observed. Therefore, it practically requires adverse weather removal models to continually learn from incrementally collected data reflecting various degeneration types. Existing adverse weather removal approaches, for either single or multiple adverse weathers, are mainly designed for a static learning paradigm, which assumes that the data of all types of degenerations to handle can be finely collected at one time before a single-phase learning process. They thus cannot directly handle the incremental learning requirements. To address this issue, we made the earliest effort to investigate the continual all-in-one adverse weather removal task, in a setting closer to real-world applications. Specifically, we develop a novel continual learning framework with effective knowledge replay (KR) on a unified network structure. Equipped with a principal component projection and an effective knowledge distillation mechanism, the proposed KR techniques are tailored for the all-in-one weather removal task. It considers the characteristics of the image restoration task with multiple degenerations in continual learning, and the knowledge for different degenerations can be shared and accumulated in the unified network structure. Extensive experimental results demonstrate the effectiveness of the proposed method to deal with this challenging task, which performs competitively to existing dedicated or joint training image restoration methods. Our code is available at https://github.com/xiaojihh/CL_all-in-one. | 翻訳日:2024-03-13 23:06:01 公開日:2024-03-12 |
# 深度マップ超解像のための階層色指導の学習 Learning Hierarchical Color Guidance for Depth Map Super-Resolution ( http://arxiv.org/abs/2403.07290v1 ) ライセンス: Link先を確認 | Runmin Cong, Ronghui Sheng, Hao Wu, Yulan Guo, Yunchao Wei, Wangmeng Zuo, Yao Zhao, and Sam Kwong | (参考訳) 色情報は深度マップ・スーパーレゾリューション(DSR)において最も一般的に用いられる知識であり、詳細復元のための高周波境界ガイダンスを提供する。
しかし、DSRにおけるその役割と機能は完全には開発されていない。
本稿では,色情報の利用を再考し,DSRを実現するための階層色誘導ネットワークを提案する。
一方、低レベル細部埋め込みモジュールは、低レベル段階において、深さ特徴の高周波色情報を残留マスク方式で補完するように設計されている。
一方,グローバル誘導情報をエンコードするセマンティックマスクを用いて,再構成過程における意味的一貫性を維持するために,高レベル抽象誘導モジュールを提案する。
これら2つの次元の色情報は、より包括的な形で注目ベースの特徴投影(AFP)モジュールの前と後ろの端で役割を果たす。
同時に、AFPモジュールは、マルチスケールコンテンツ拡張ブロックとアダプティブアテンションプロジェクションブロックを統合して、マルチスケール情報を完全に活用し、DSRに対してアダプティブアテンション方法で重要な復元情報を適応的に投影する。
4つのベンチマークデータセットの最先端手法と比較して,本手法は質的かつ定量的に,より競争力のある性能を実現する。 Color information is the most commonly used prior knowledge for depth map super-resolution (DSR), which can provide high-frequency boundary guidance for detail restoration. However, its role and functionality in DSR have not been fully developed. In this paper, we rethink the utilization of color information and propose a hierarchical color guidance network to achieve DSR. On the one hand, the low-level detail embedding module is designed to supplement high-frequency color information of depth features in a residual mask manner at the low-level stages. On the other hand, the high-level abstract guidance module is proposed to maintain semantic consistency in the reconstruction process by using a semantic mask that encodes the global guidance information. The color information of these two dimensions plays a role in the front and back ends of the attention-based feature projection (AFP) module in a more comprehensive form. Simultaneously, the AFP module integrates the multi-scale content enhancement block and adaptive attention projection block to make full use of multi-scale information and adaptively project critical restoration information in an attention manner for DSR. Compared with the state-of-the-art methods on four benchmark datasets, our method achieves more competitive performance both qualitatively and quantitatively. | 翻訳日:2024-03-13 23:05:38 公開日:2024-03-12 |
# 一様分類のためのBCE損失の再発見 Rediscovering BCE Loss for Uniform Classification ( http://arxiv.org/abs/2403.07289v1 ) ライセンス: Link先を確認 | Qiufu Li, Xi Jia, Jiancan Zhou, Linlin Shen, Jinming Duan | (参考訳) 本稿では,一様分類の概念を導入し,各サンプルを適応的に分類するのではなく,各サンプルを統一的に分類する。
また,一様分類におけるモデルの性能を測定する指標として,一様分類精度を提案する。
さらに,自然損失から始めて,統一バイアスと一体化したbce関数である一様分類に適した損失関数を数学的に導出する。
我々は,統一しきい値がバイアスを通じて学習できることを実証する。
6つの分類データセットと3つの特徴抽出モデルに関する広範な実験は、ソフトマックス損失と比較して、bce損失で訓練されたモデルは、より均一な分類精度を示すだけでなく、サンプル単位の分類精度も高いことを示している。
加えて、BCE損失からの学習バイアスは、均一分類で使用される統一しきい値に非常に近い。
BCEの損失を訓練したモデルによって抽出された特徴は、均一性だけでなく、クラス内コンパクト性やクラス間特異性も向上し、顔認識などのオープンセットタスクに優れた性能をもたらす。 This paper introduces the concept of uniform classification, which employs a unified threshold to classify all samples rather than adaptive threshold classifying each individual sample. We also propose the uniform classification accuracy as a metric to measure the model's performance in uniform classification. Furthermore, begin with a naive loss, we mathematically derive a loss function suitable for the uniform classification, which is the BCE function integrated with a unified bias. We demonstrate the unified threshold could be learned via the bias. The extensive experiments on six classification datasets and three feature extraction models show that, compared to the SoftMax loss, the models trained with the BCE loss not only exhibit higher uniform classification accuracy but also higher sample-wise classification accuracy. In addition, the learned bias from BCE loss is very close to the unified threshold used in the uniform classification. The features extracted by the models trained with BCE loss not only possess uniformity but also demonstrate better intra-class compactness and inter-class distinctiveness, yielding superior performance on open-set tasks such as face recognition. | 翻訳日:2024-03-13 23:05:16 公開日:2024-03-12 |
# MENTOR:類似による多言語tExt検出Toward leaRning MENTOR: Multilingual tExt detectioN TOward leaRning by analogy ( http://arxiv.org/abs/2403.07286v1 ) ライセンス: Link先を確認 | Hsin-Ju Lin, Tsu-Chun Chung, Ching-Chun Hsiao, Pin-Yu Chen, Wei-Chen Chiu, and Ching-Chun Huang | (参考訳) テキスト検出は、特定のタスクを実行するために周囲のテキストを解釈する必要があるときに、視覚ベースの移動ロボットで頻繁に使用される。
例えば、多言語都市における配送ロボットは、交通標識や道路標識を読めるように、多言語テキスト検出を可能にする必要がある。
さらに、対象言語は地域によって変化し、新しい/新しい言語を認識するためにモデルを再訓練する必要が生じる。
しかし、新しい言語のためのトレーニングデータの収集とラベル付けは困難であり、既存のテキスト検出器を再訓練する努力は相当に多い。
さらに悪いことに、新しい言語が現れるたびに、そのようなルーチンが繰り返される。
これは、前述の課題をより効率的な方法で解決するための、新たな問題設定を提案する動機となっている。我々は、未熟言語の教師付きトレーニングデータ収集とモデルの再トレーニングを必要とせず、シーン画像内の見掛けられた言語領域と見当たらない言語領域の両方を検出し識別するための、汎用可能な多言語テキスト検出フレームワークを要求"する。
そこで本研究では,多言語シーンのテキスト検出のためのゼロショット学習と少数ショット学習の学習戦略を実現する最初の研究である「メンター」を提案する。 Text detection is frequently used in vision-based mobile robots when they need to interpret texts in their surroundings to perform a given task. For instance, delivery robots in multilingual cities need to be capable of doing multilingual text detection so that the robots can read traffic signs and road markings. Moreover, the target languages change from region to region, implying the need of efficiently re-training the models to recognize the novel/new languages. However, collecting and labeling training data for novel languages are cumbersome, and the efforts to re-train an existing/trained text detector are considerable. Even worse, such a routine would repeat whenever a novel language appears. This motivates us to propose a new problem setting for tackling the aforementioned challenges in a more efficient way: "We ask for a generalizable multilingual text detection framework to detect and identify both seen and unseen language regions inside scene images without the requirement of collecting supervised training data for unseen languages as well as model re-training". To this end, we propose "MENTOR", the first work to realize a learning strategy between zero-shot learning and few-shot learning for multilingual scene text detection. | 翻訳日:2024-03-13 23:04:57 公開日:2024-03-12 |
# sparselif: 3次元物体検出のための高性能スパースlidarカメラ融合 SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object Detection ( http://arxiv.org/abs/2403.07284v1 ) ライセンス: Link先を確認 | Hongcheng Zhang, Liu Liang, Pengxin Zeng, Xiao Song, Zhe Wang | (参考訳) クエリベースのパラダイムは、明示的な高密度なBEV機能構築を伴わずに低レイテンシを採用するため、スパース3D検出器は大きな注目を集めている。
しかし、これらの検出器は密度の高い検出器よりも性能が劣る。
本稿では,性能ギャップを橋渡しするための鍵は,リッチ表現の認識を2つの様相で高めることである。
本稿では,エンドツーエンドのマルチモーダル3Dオブジェクト検出のための高性能フルスパース検出器を提案する。
SparseLIFと呼ばれる検出器には、3つの重要な設計が含まれており、(1)パースペクティブ・アウェア・クエリー生成(PAQG)、(2)パースペクティブ・アウェア・サンプリング(RIAS)、(2)各モータリティからRoI特徴をサンプリングして事前クエリを洗練させるRoI-Aware Sampling(RIAS)、(3)不確実性・アウェア・フュージョン(UAF)、各センサのモダリティの不確かさを正確に定量化し、最終的なマルチモータリティ・フュージョンを適応的に行うことで、センサノイズに対して大きな堅牢性を実現する。
提出時(2024/03/08)までに、SparseLIFはnuScenesデータセットの最先端のパフォーマンスを達成し、検証セットとテストベンチマークの両方で1位を獲得し、最先端の3Dオブジェクト検出器を顕著なマージンで上回る。
ソースコードは受理後に公開される。 Sparse 3D detectors have received significant attention since the query-based paradigm embraces low latency without explicit dense BEV feature construction. However, these detectors achieve worse performance than their dense counterparts. In this paper, we find the key to bridging the performance gap is to enhance the awareness of rich representations in two modalities. Here, we present a high-performance fully sparse detector for end-to-end multi-modality 3D object detection. The detector, termed SparseLIF, contains three key designs, which are (1) Perspective-Aware Query Generation (PAQG) to generate high-quality 3D queries with perspective priors, (2) RoI-Aware Sampling (RIAS) to further refine prior queries by sampling RoI features from each modality, (3) Uncertainty-Aware Fusion (UAF) to precisely quantify the uncertainty of each sensor modality and adaptively conduct final multi-modality fusion, thus achieving great robustness against sensor noises. By the time of submission (2024/03/08), SparseLIF achieves state-of-the-art performance on the nuScenes dataset, ranking 1st on both validation set and test benchmark, outperforming all state-of-the-art 3D object detectors by a notable margin. The source code will be released upon acceptance. | 翻訳日:2024-03-13 23:04:35 公開日:2024-03-12 |
# コスト効率と自己適応型llm揺動・リカバリ機構の枠組み A Framework for Cost-Effective and Self-Adaptive LLM Shaking and Recovery Mechanism ( http://arxiv.org/abs/2403.07283v1 ) ライセンス: Link先を確認 | Zhiyu Chen, Yu Li, Suochao Zhang, Jingbo Zhou, Jiwen Zhou, Chenfu Bao, Dianhai Yu | (参考訳) 大きな言語モデル(LLM)が現実世界のアプリケーションで大きな成功を収めるにつれて、クラウドサービスを通じてカスタマイズされたLLMを開発し、デプロイするユーザが増えています。
それでも、特定のドメインでは、プライバシの問題と正確性の間のコストとトレードオフに関する懸念がある。
本研究では,CypherTalk という,費用対効果の高い自己適応型LDM揺らぎ調整機構を提案する。
水平および垂直の揺動演算子を慎重に設計することにより,SOTAのプライバシ保存型LLMスキームと同等の精度が得られる。
また、CypherTalkフレームワークでは、最適化された揺動演算子設定を使用すると、信頼性の高い精度が得られる。
私たちの知る限りでは、LLMシナリオにおけるモデルユーティリティとプライバシの間のコストとトレードオフを考慮に入れた最初の作業です。 As Large Language Models (LLMs) gain great success in real-world applications, an increasing number of users are seeking to develop and deploy their customized LLMs through cloud services. Nonetheless, in some specific domains, there are still concerns regarding cost and trade-offs between privacy issues and accuracy. In this study, we introduce a cost-effective and self-adaptive LLM shaking tuning and recovery mechanism, named CypherTalk. With carefully designed horizontal and vertical shaking operators, we can achieve comparable accuracy results with SOTA privacy-preserving LLM schemes using Cryptography-based or Differential Privacy-based methods. Experiments also show that with the CypherTalk framework, users can achieve reliable accuracy when using optimized shaking operator settings. To our best knowledge, this is the first work that considers cost, and trade-off between model utility and privacy in LLM scenarios. | 翻訳日:2024-03-13 23:04:04 公開日:2024-03-12 |
# 柔軟非パラメトリック後方サンプリングによる伝達学習の促進 Enhancing Transfer Learning with Flexible Nonparametric Posterior Sampling ( http://arxiv.org/abs/2403.07282v1 ) ライセンス: Link先を確認 | Hyungi Lee, Giung Nam, Edwin Fong, Juho Lee | (参考訳) トランスファーラーニングは、ディープニューラルネットワークを含む様々なタスクで大きなパフォーマンスを示している。
これらの移行学習シナリオでは、下流データの事前分布はベイズモデル平均化(BMA)において重要である。
事前学習したソリューションを中心としたニューラルネットワークパラメータ上での事前提案はあったが、上流データと下流データ間の分散シフトを扱う場合には、このような戦略には限界がある。
本稿では,非パラメトリック学習の文脈における分布シフト問題に対処するための柔軟な後進サンプリング手法であるnonparametric transfer learning (nptl)を提案する。
非パラメトリック学習法(nonparametric learning, npl)は,上流と下流のタスク間の分散シフトを伴うトランスファー学習シナリオに適した,モデル不特定化シナリオを効率的に考慮し,非パラメトリックプリアーを用いた最近のアプローチである。
実験的な検証を通じて、我々のアプローチがBMA性能の他のベースラインを超えることを示す。 Transfer learning has recently shown significant performance across various tasks involving deep neural networks. In these transfer learning scenarios, the prior distribution for downstream data becomes crucial in Bayesian model averaging (BMA). While previous works proposed the prior over the neural network parameters centered around the pre-trained solution, such strategies have limitations when dealing with distribution shifts between upstream and downstream data. This paper introduces nonparametric transfer learning (NPTL), a flexible posterior sampling method to address the distribution shift issue within the context of nonparametric learning. The nonparametric learning (NPL) method is a recent approach that employs a nonparametric prior for posterior sampling, efficiently accounting for model misspecification scenarios, which is suitable for transfer learning scenarios that may involve the distribution shift between upstream and downstream tasks. Through extensive empirical validations, we demonstrate that our approach surpasses other baselines in BMA performance. | 翻訳日:2024-03-13 23:03:47 公開日:2024-03-12 |
# 説明可能な知識の追跡に関する調査 A Survey of Explainable Knowledge Tracing ( http://arxiv.org/abs/2403.07279v1 ) ライセンス: Link先を確認 | Yanhong Bai, Jiabao Zhao, Tingjiang Wei, Qing Cai, Liang He | (参考訳) 高品質な教育データの長期蓄積により、人工知能は知識追跡において優れた性能を示した。
しかし、いくつかのアルゴリズムの解釈可能性や透明性の欠如により、このアプローチは株主信頼の低下と知的決定の受け入れの低下をもたらす。
したがって、アルゴリズムは高い精度を達成する必要があり、ユーザーは内部動作機構を理解し、決定に信頼できる説明を提供する必要がある。
本稿では,KTアルゴリズムの解釈可能性について詳細に解析する。
まず、説明可能な人工知能と知識追跡の概念と一般的な方法を紹介する。
次に、説明可能な知識追跡モデルは、透明モデルとブラックボックスモデルという2つのカテゴリに分類される。
次に, アンテホック解釈法, ポストホック解釈法, その他の次元の3段階から解析方法について検討する。
説明可能な知識トレースのための現在の評価方法が不足していることに注意が必要だ。
そこで, 3つのXAI手法を用いて, ASSISTment 2009における深部知識追跡モデルの予測結果を説明するために, コントラストと削除実験を行った。
さらに,本論文では,教育関係者の視点から評価手法について考察する。
本稿では,知識トレースの解釈可能性に関心を持つ研究者に基礎とインスピレーションを提供することを目的とした,説明可能な知識トレース研究の詳細な総括的レビューを行う。 With the long term accumulation of high quality educational data, artificial intelligence has shown excellent performance in knowledge tracing. However, due to the lack of interpretability and transparency of some algorithms, this approach will result in reduced stakeholder trust and a decreased acceptance of intelligent decisions. Therefore, algorithms need to achieve high accuracy, and users need to understand the internal operating mechanism and provide reliable explanations for decisions. This paper thoroughly analyzes the interpretability of KT algorithms. First, the concepts and common methods of explainable artificial intelligence and knowledge tracing are introduced. Next, explainable knowledge tracing models are classified into two categories: transparent models and black box models. Then, the interpretable methods used are reviewed from three stages: ante hoc interpretable methods, post hoc interpretable methods, and other dimensions. It is worth noting that current evaluation methods for explainable knowledge tracing are lacking. Hence, contrast and deletion experiments are conducted to explain the prediction results of the deep knowledge tracing model on the ASSISTment2009 by using three XAI methods. Moreover, this paper offers some insights into evaluation methods from the perspective of educational stakeholders. This paper provides a detailed and comprehensive review of the research on explainable knowledge tracing, aiming to offer some basis and inspiration for researchers interested in the interpretability of knowledge tracing. | 翻訳日:2024-03-13 23:03:31 公開日:2024-03-12 |
# 画像分類におけるOODロバストネスに対するベイズ的アプローチ A Bayesian Approach to OOD Robustness in Image Classification ( http://arxiv.org/abs/2403.07277v1 ) ライセンス: Link先を確認 | Prakhar Kaushik and Adam Kortylewski and Alan Yuille | (参考訳) コンピュータビジョンにおける重要かつ未解決の問題は、アルゴリズムが画像領域の変化に対して堅牢であることを保証することである。
この問題に対処するシナリオでは、ターゲットドメインからの画像にアクセスできますが、アノテーションはありません。
実世界におけるOOD-CVベンチマーク(OOD-CVベンチマーク)の課題に触発され,OOD分類に対する新しいベイズ的アプローチを導入する。
我々の研究は、OODデータでテストすると、排他的に頑健だが劣化がひどくなるコンポジションニューラルネットワーク(Compineal Neural Networks, CompNets)を拡張している。
我々は,von mises-fisher (vmf) カーネルで表現される特徴ベクトル上で定義された生成型ヘッドを含むコンプネットを活用し,対象部分と大雑把に対応し,監視なしで学習できる。
いくつかのvMFカーネルは異なるドメイン間で似ているが、他のカーネルはそうではない。
これにより、ソースドメインとターゲットドメインの間にあるvmfカーネルの遷移辞書を学習し、ソースドメインのアノテーションを使用してこの辞書で生成モデルをトレーニングし、さらに反復的なリファインメントを行うことができます。
このアプローチはUnsupervised Generative Transition (UGT)と呼ばれ、OODシナリオでは閉塞が存在する場合でも非常にうまく機能する。
UGTは、OOD-CVデータセット、いくつかの一般的なデータセット(例えば、ImageNet-C [9])、人工画像の破損(Occluderの追加を含む)、合成から現実へのドメイン転送などを含む様々なOODベンチマークで評価されており、すべてのシナリオにおいてSOTA代替品(例えば、Occluded OOD-CVデータセットの10%のトップ-1精度)より優れている。 An important and unsolved problem in computer vision is to ensure that the algorithms are robust to changes in image domains. We address this problem in the scenario where we have access to images from the target domains but no annotations. Motivated by the challenges of the OOD-CV benchmark where we encounter real world Out-of-Domain (OOD) nuisances and occlusion, we introduce a novel Bayesian approach to OOD robustness for object classification. Our work extends Compositional Neural Networks (CompNets), which have been shown to be robust to occlusion but degrade badly when tested on OOD data. We exploit the fact that CompNets contain a generative head defined over feature vectors represented by von Mises-Fisher (vMF) kernels, which correspond roughly to object parts, and can be learned without supervision. We obverse that some vMF kernels are similar between different domains, while others are not. This enables us to learn a transitional dictionary of vMF kernels that are intermediate between the source and target domains and train the generative model on this dictionary using the annotations on the source domain, followed by iterative refinement. This approach, termed Unsupervised Generative Transition (UGT), performs very well in OOD scenarios even when occlusion is present. UGT is evaluated on different OOD benchmarks including the OOD-CV dataset, several popular datasets (e.g., ImageNet-C [9]), artificial image corruptions (including adding occluders), and synthetic-to-real domain transfer, and does well in all scenarios outperforming SOTA alternatives (e.g. up to 10% top-1 accuracy on Occluded OOD-CV dataset). | 翻訳日:2024-03-13 23:03:12 公開日:2024-03-12 |
# 反復再重み付き$\ell_1$アルゴリズムに対するアンダーソン加速度 Anderson acceleration for iteratively reweighted $\ell_1$ algorithm ( http://arxiv.org/abs/2403.07271v1 ) ライセンス: Link先を確認 | Kexin Li | (参考訳) 反復再重み付きL1アルゴリズム(IRL1)は、非凸および非滑らかな正規化を伴うスパース最適化問題の解法である。
ネステロフ加速度を利用した加速アルゴリズムの開発は、大きな関心を呼んでいる。
それにもかかわらず、これらの加速度アルゴリズムの収束と複雑性解析は一貫して重大な課題をもたらす。
近年、アンダーソン加速度は、不動点反復の高速化に優れた性能を備え、近年では勾配に基づくアルゴリズムに応用されている。
アンダーソン加速度の強い影響に動機づけられ,アンダーソン加速irl1アルゴリズムを提案し,その局所線形収束速度を確立する。
我々はこの収束結果(典型的には滑らかな設定で観察される)を非滑らかなシナリオに拡張する。
重要な点は、既存のネステロフ加速度に基づくアルゴリズムにおいて必要条件であるクルディカ・ロジャシェヴィチ条件に依存しないことである。
さらに,グローバル収束を保証するため,古典的非単調線探索条件を取り入れたアンダーソン加速IRL1アルゴリズムを導入する。
実験の結果,提案アルゴリズムは既存のNesterov加速度に基づくアルゴリズムよりも優れていた。 Iteratively reweighted L1 (IRL1) algorithm is a common algorithm for solving sparse optimization problems with nonconvex and nonsmooth regularization. The development of its acceleration algorithm, often employing Nesterov acceleration, has sparked significant interest. Nevertheless, the convergence and complexity analysis of these acceleration algorithms consistently poses substantial challenges. Recently, Anderson acceleration has gained prominence owing to its exceptional performance for speeding up fixed-point iteration, with numerous recent studies applying it to gradient-based algorithms. Motivated by the powerful impact of Anderson acceleration, we propose an Anderson-accelerated IRL1 algorithm and establish its local linear convergence rate. We extend this convergence result, typically observed in smooth settings, to a nonsmooth scenario. Importantly, our theoretical results do not depend on the Kurdyka-Lojasiewicz condition, a necessary condition in existing Nesterov acceleration-based algorithms. Furthermore, to ensure global convergence, we introduce a globally convergent Anderson accelerated IRL1 algorithm by incorporating a classical nonmonotone line search condition. Experimental results indicate that our algorithm outperforms existing Nesterov acceleration-based algorithms. | 翻訳日:2024-03-13 23:02:39 公開日:2024-03-12 |
# 近補間:急速な規範成長と補間と一般化のトレードオフ Near-Interpolators: Rapid Norm Growth and the Trade-Off between Interpolation and Generalization ( http://arxiv.org/abs/2403.07264v1 ) ライセンス: Link先を確認 | Yutong Wang, Rishi Sonthalia, Wei Hu | (参考訳) ほぼ補間された線形回帰器の一般化能力について検討する: $\boldsymbol{\beta}$'s that training error $\tau$ is positive but small, i., under the noise floor。
データ分布に関するランダム行列の理論的な仮定とデータ共分散行列 $\boldsymbol{\sigma}$ 上の固有デカイ仮定の下で、任意の近似補間器は急速に成長することを示した: $\tau$ に対して、$\boldsymbol{\beta}$ は$\ell_2$-norm$\mathbb{e}[\|{\boldsymbol{\beta}}\|_{2}^{2}] = \omega(n^{\alpha})$ ここで$n$ はサンプルの数、$\alpha >1$ はeigendecayの指数、すなわち $\lambda_i(\boldsymbol{\sigma}) \sim i^{-\alpha}$である。
これは、既存のデータ非依存のノルムベース境界が必ずしも緩いことを意味する。
一方、同じ体制では、補間と一般化の間の漸近的トレードオフを正確に特徴づける。
我々の特徴は、より大きいノルムスケーリング指数$\alpha$は補間と一般化の間のより悪いトレードオフに対応することを示している。
同様の現象がほぼ補間された浅層ニューラルネットワークにも有効であることを実証的に検証する。 We study the generalization capability of nearly-interpolating linear regressors: $\boldsymbol{\beta}$'s whose training error $\tau$ is positive but small, i.e., below the noise floor. Under a random matrix theoretic assumption on the data distribution and an eigendecay assumption on the data covariance matrix $\boldsymbol{\Sigma}$, we demonstrate that any near-interpolator exhibits rapid norm growth: for $\tau$ fixed, $\boldsymbol{\beta}$ has squared $\ell_2$-norm $\mathbb{E}[\|{\boldsymbol{\beta}}\|_{2}^{2}] = \Omega(n^{\alpha})$ where $n$ is the number of samples and $\alpha >1$ is the exponent of the eigendecay, i.e., $\lambda_i(\boldsymbol{\Sigma}) \sim i^{-\alpha}$. This implies that existing data-independent norm-based bounds are necessarily loose. On the other hand, in the same regime we precisely characterize the asymptotic trade-off between interpolation and generalization. Our characterization reveals that larger norm scaling exponents $\alpha$ correspond to worse trade-offs between interpolation and generalization. We verify empirically that a similar phenomenon holds for nearly-interpolating shallow neural networks. | 翻訳日:2024-03-13 23:02:20 公開日:2024-03-12 |
# 2段階共形予測による適応境界ボックスの不確かさ Adaptive Bounding Box Uncertainties via Two-Step Conformal Prediction ( http://arxiv.org/abs/2403.07263v1 ) ライセンス: Link先を確認 | Alexander Timans, Christoph-Nikolas Straehle, Kaspar Sakmann, Eric Nalisnick | (参考訳) モデル予測の不確実性の定量化は、自律運転のような安全クリティカルなアプリケーションに不可欠である。
マルチオブジェクト検出のための不確実性を定量化する。
特に、コンフォメーション予測を利用して、オブジェクト境界ボックスのカバレッジが保証された不確実区間を求める。
そのための課題のひとつは、バウンディングボックスの予測がオブジェクトのクラスラベルで条件付けされることだ。
そこで我々は,予測されたクラスラベルの不確かさを境界ボックスの不確かさ区間に伝達する新しい2段階共形アプローチを開発した。
これにより、コンホメーションカバレッジが不正に分類されたオブジェクトを含むことを保証し、最大限の安全保証が必要な場合にその有用性を確保することができる。
さらに,境界ボックス間隔がオブジェクトサイズに適応していることを保証するために,新しいアンサンブルおよび分位回帰式を検討した結果,サイズ間でよりバランスの取れたカバレッジが得られた。
2次元境界ボックスローカライゼーションのための実世界のデータセットに対する2段階のアプローチを検証することで、望ましいカバレッジレベルが、非常に厳密な予測不確実性間隔で満足していることが分かる。 Quantifying a model's predictive uncertainty is essential for safety-critical applications such as autonomous driving. We consider quantifying such uncertainty for multi-object detection. In particular, we leverage conformal prediction to obtain uncertainty intervals with guaranteed coverage for object bounding boxes. One challenge in doing so is that bounding box predictions are conditioned on the object's class label. Thus, we develop a novel two-step conformal approach that propagates uncertainty in predicted class labels into the uncertainty intervals for the bounding boxes. This broadens the validity of our conformal coverage guarantees to include incorrectly classified objects, ensuring their usefulness when maximal safety assurances are required. Moreover, we investigate novel ensemble and quantile regression formulations to ensure the bounding box intervals are adaptive to object size, leading to a more balanced coverage across sizes. Validating our two-step approach on real-world datasets for 2D bounding box localization, we find that desired coverage levels are satisfied with actionably tight predictive uncertainty intervals. | 翻訳日:2024-03-13 23:01:44 公開日:2024-03-12 |
# オフライン強化学習のためのアドバンテージ・アウェアポリシー最適化 Advantage-Aware Policy Optimization for Offline Reinforcement Learning ( http://arxiv.org/abs/2403.07262v1 ) ライセンス: Link先を確認 | Yunpeng Qing, Shunyu liu, Jingyuan Cong, Kaixuan Chen, Yihe Zhou, Mingli Song | (参考訳) オフライン強化学習(RL)は、オフラインデータセットを活用して、オンラインインタラクションなしで効果的なエージェントポリシーを構築するための取り組みであり、アウトオブオフ・ディストリビューション(OOD)問題に取り組むための行動ポリシーのサポートに適切な保守的な制約を課している。
しかしながら、既存の作業は、オフラインデータセットが複数の行動ポリシーから収集される場合、すなわち、異なる行動ポリシーが状態空間をまたいだ異なるリターンを持つ一貫性のない行動を示す場合、制約競合問題に悩まされることが多い。
この問題を解決するために、最近のAdvantage-Weighted (AW) 手法は、エージェントトレーニングに高い優位性を持つサンプルを優先するが、必然的にこれらのサンプルに過剰な適合をもたらす。
本稿では,混合品質データセット下でのオフライン学習におけるアドバンテージ・アウェア政策最適化(A2PO)手法を提案する。
具体的には、A2POは条件変数として全てのトレーニングデータの利点値をモデル化することにより、相互に絡み合った行動ポリシーの動作分布を乱すために、条件変分オートエンコーダ(CVAE)を用いる。
そして、エージェントはそのような非絡み合いの行動分布制約に従えば、有利な値に対する有利なポリシーを最適化することができる。
d4rlベンチマークの単一品質と混合品質のデータセットで行った広範囲な実験は、a2poが最先端のデータセットよりも優れた結果をもたらすことを示している。
私たちのコードは公開されます。 Offline Reinforcement Learning (RL) endeavors to leverage offline datasets to craft effective agent policy without online interaction, which imposes proper conservative constraints with the support of behavior policies to tackle the Out-Of-Distribution (OOD) problem. However, existing works often suffer from the constraint conflict issue when offline datasets are collected from multiple behavior policies, i.e., different behavior policies may exhibit inconsistent actions with distinct returns across the state space. To remedy this issue, recent Advantage-Weighted (AW) methods prioritize samples with high advantage values for agent training while inevitably leading to overfitting on these samples. In this paper, we introduce a novel Advantage-Aware Policy Optimization (A2PO) method to explicitly construct advantage-aware policy constraints for offline learning under mixed-quality datasets. Specifically, A2PO employs a Conditional Variational Auto-Encoder (CVAE) to disentangle the action distributions of intertwined behavior policies by modeling the advantage values of all training data as conditional variables. Then the agent can follow such disentangled action distribution constraints to optimize the advantage-aware policy towards high advantage values. Extensive experiments conducted on both the single-quality and mixed-quality datasets of the D4RL benchmark demonstrate that A2PO yields results superior to state-of-the-art counterparts. Our code will be made publicly available. | 翻訳日:2024-03-13 23:01:26 公開日:2024-03-12 |
# 逆データ拡張によるオフラインタスク表現学習からの遠ざかる政策 Disentangling Policy from Offline Task Representation Learning via Adversarial Data Augmentation ( http://arxiv.org/abs/2403.07261v1 ) ライセンス: Link先を確認 | Chengxing Jia, Fuxiang Zhang, Yi-Chen Li, Chen-Xiao Gao, Xu-Hui Liu, Lei Yuan, Zongzhang Zhang, Yang Yu | (参考訳) オフラインメタ強化学習(OMRL)は、エージェントが静的データセットにのみ依存しながら、新しいタスクに取り組むことができる。
正確かつ効率的なタスク識別のために、既存のomrl研究は、ポリシー入力に組み込まれた別々のタスク表現を学習し、コンテキストベースのメタポリシーを形成することを提案している。
タスク表現をトレーニングするための主要なアプローチは、マルチタスクオフラインデータを使ったコントラスト学習を採用することである。
データセットは通常、さまざまなポリシー(例えば行動ポリシー)からのインタラクションを含み、異なるタスクに関する多くのコンテキスト情報を提供する。
それでも、かなりの数のポリシーからデータを集めることは、実用的でないだけでなく、現実的な設定では達成できないことが多い。
代わりに、マルチタスクのデータ収集が限られたポリシーで発生する、より制約のある、実用的なシナリオを採用しています。
従来のomrl手法から学習したタスク表現は,タスクの本質的特徴を反映するのではなく,行動ポリシーと疎結合に相関する傾向にあり,その結果,分散的一般化は好ましくないことがわかった。
この問題を軽減するために,タスク表現学習から,対向データ拡張と呼ばれるプロセスを通じて行動ポリシーの影響を解消する新しいアルゴリズムを提案する。
具体的には、逆データ拡張の目的は、単にオフラインデータ配信に類似したデータを生成することではなく、学習したタスク表現を抽出し、誤ったタスク識別につながるように設計された逆データ例を作成することである。
実験では,これらのサンプルから学習することで,タスク識別プロセスのロバスト性と有効性が著しく向上し,分散的一般化が実現できることを示す。 Offline meta-reinforcement learning (OMRL) proficiently allows an agent to tackle novel tasks while solely relying on a static dataset. For precise and efficient task identification, existing OMRL research suggests learning separate task representations that be incorporated with policy input, thus forming a context-based meta-policy. A major approach to train task representations is to adopt contrastive learning using multi-task offline data. The dataset typically encompasses interactions from various policies (i.e., the behavior policies), thus providing a plethora of contextual information regarding different tasks. Nonetheless, amassing data from a substantial number of policies is not only impractical but also often unattainable in realistic settings. Instead, we resort to a more constrained yet practical scenario, where multi-task data collection occurs with a limited number of policies. We observed that learned task representations from previous OMRL methods tend to correlate spuriously with the behavior policy instead of reflecting the essential characteristics of the task, resulting in unfavorable out-of-distribution generalization. To alleviate this issue, we introduce a novel algorithm to disentangle the impact of behavior policy from task representation learning through a process called adversarial data augmentation. Specifically, the objective of adversarial data augmentation is not merely to generate data analogous to offline data distribution; instead, it aims to create adversarial examples designed to confound learned task representations and lead to incorrect task identification. Our experiments show that learning from such adversarial samples significantly enhances the robustness and effectiveness of the task identification process and realizes satisfactory out-of-distribution generalization. | 翻訳日:2024-03-13 23:00:58 公開日:2024-03-12 |
# SGE:イベントカメラを用いたグレーコードに基づく構造化光システム SGE: Structured Light System Based on Gray Code with an Event Camera ( http://arxiv.org/abs/2403.07326v1 ) ライセンス: Link先を確認 | Xingyu Lu, Lei Sun, Diyang Gu, Zhijie Xu, Kaiwei Wang | (参考訳) 高速で正確な深度検知は、長い間重要な研究課題であった。
イベントカメラは、強度変化に素早く反応するデバイスとして、構造化光(SL)システムのための新しいソリューションを提供する。
本稿では,イベントベースのSLシステムにGrayコードを初めて導入する。
我々のセットアップには、イベントカメラとDigital Light Processing (DLP)プロジェクタが含まれており、高速投影とグレーコードパターンの復号による深度推定を可能にする。
ポイントマッチングに時空間符号化を用いることで,タイムスタンプノイズに免疫を付与し,精度を損なわずに高精度な深さ推定を実現する。
イベントとグレイコードのバイナリ性はデータの冗長性を最小化し、センサ帯域幅を100%完全に活用することができます。
提案手法は, 精度を犠牲にすることなく, データ取得速度(最大41倍の精度)を超越しながら, 最先端の走査法に匹敵する精度を実現する。
提案手法は, 超高速, リアルタイム, 高精度深度推定のための, 極めて有望な解を提供する。
コードとデータセットが公開される。 Fast and accurate depth sensing has long been a significant research challenge. Event camera, as a device that quickly responds to intensity changes, provides a new solution for structured light (SL) systems. In this paper, we introduce Gray code into event-based SL systems for the first time. Our setup includes an event camera and Digital Light Processing (DLP) projector, enabling depth estimation through high-speed projection and decoding of Gray code patterns. By employing spatio-temporal encoding for point matching, our method is immune to timestamp noise, realizing high-speed depth estimation without loss of accuracy. The binary nature of events and Gray code minimizes data redundancy, enabling us to fully utilize sensor bandwidth at 100%. Experimental results show that our approach achieves accuracy comparable to state-of-the-art scanning methods while surpassing them in data acquisition speed (up to 41 times improvement) without sacrificing accuracy. Our proposed approach offers a highly promising solution for ultra-fast, real-time, and high-precision dense depth estimation. Code and dataset will be publicly available. | 翻訳日:2024-03-13 22:55:58 公開日:2024-03-12 |
# ディープシークエンシャル知識追跡モデルの精度と解釈性向上のための質問中心型マルチエキスパートコントラスト学習フレームワーク A Question-centric Multi-experts Contrastive Learning Framework for Improving the Accuracy and Interpretability of Deep Sequential Knowledge Tracing Models ( http://arxiv.org/abs/2403.07322v1 ) ライセンス: Link先を確認 | Hengyuan Zhang, Zitao Liu, Chenming Shang, Dawei Li, Yong Jiang | (参考訳) 知識追跡(KT)は,過去の学習過程を分析することによって,学生の今後のパフォーマンスを予測する上で重要な役割を担っている。
ディープニューラルネットワーク(DNN)は、KT問題を解決する大きな可能性を示している。
しかし、KTプロセスのモデル化にディープラーニング技術を適用する際には、いくつかの重要な課題がある。
最初の課題は、質問の個々の情報をモデリングに取り入れることである。
これは、同じ知識要素(kc)を共有する質問にもかかわらず、同質な質問に対する生徒の知識獲得は著しく異なるため重要である。
2つ目の課題は、既存のディープラーニングベースのKTモデルによる予測結果の解釈である。
実世界のアプリケーションでは、モデルパラメータの完全な透過性と解釈性を持つ必要はないかもしれないが、教師が解釈可能な方法でモデルの予測結果を提示することが重要である。
これにより、教師は予測結果の背後にある理論的根拠を受け入れ、教育活動の設計や学生の学習戦略の調整に活用できる。
しかし、深層学習技術の本質的なブラックボックスの性質は、教師がモデルの予測結果を完全に受け入れるハードルとなることが多い。
これらの課題に対処するために、Q-MCKTと呼ばれるKTのための質問中心マルチエキスパートコントラスト学習フレームワークを提案する。 Knowledge tracing (KT) plays a crucial role in predicting students' future performance by analyzing their historical learning processes. Deep neural networks (DNNs) have shown great potential in solving the KT problem. However, there still exist some important challenges when applying deep learning techniques to model the KT process. The first challenge lies in taking the individual information of the question into modeling. This is crucial because, despite questions sharing the same knowledge component (KC), students' knowledge acquisition on homogeneous questions can vary significantly. The second challenge lies in interpreting the prediction results from existing deep learning-based KT models. In real-world applications, while it may not be necessary to have complete transparency and interpretability of the model parameters, it is crucial to present the model's prediction results in a manner that teachers find interpretable. This makes teachers accept the rationale behind the prediction results and utilize them to design teaching activities and tailored learning strategies for students. However, the inherent black-box nature of deep learning techniques often poses a hurdle for teachers to fully embrace the model's prediction results. To address these challenges, we propose a Question-centric Multi-experts Contrastive Learning framework for KT called Q-MCKT. | 翻訳日:2024-03-13 22:55:39 公開日:2024-03-12 |
# GPT生成テキスト検出:ベンチマークデータセットとテンソルベース検出方法 GPT-generated Text Detection: Benchmark Dataset and Tensor-based Detection Method ( http://arxiv.org/abs/2403.07321v1 ) ライセンス: Link先を確認 | Zubair Qazi, William Shiao, and Evangelos E. Papalexakis | (参考訳) chatgptのような自然言語モデルがアプリケーションやサービスで普及するにつれ、出力を検出するための堅牢で正確な方法の必要性が極めて重要である。
本稿では,GPT Reddit Dataset (GRiD) を提案する。GPT(Generative Pretrained Transformer)によって生成されたテキスト検出データセットで,ChatGPTから生成された応答を識別する際の検出モデルの性能を評価する。
データセットは、Redditに基づくさまざまなコンテキストプロンプトペアのコレクションと、人間生成とChatGPT生成のレスポンスで構成されている。
本稿では,言語多様性,文脈複雑性,応答品質など,データセットの特徴の分析を行う。
データセットの有用性を示すために、いくつかの検出手法をベンチマークし、人間とチャットgptが生成した応答を区別する効果を示す。
このデータセットは、chatgptのコンテキストにおける検出技術の評価と進歩のためのリソースであり、インターネット上でのai駆動通信の責任と信頼性を確保するための継続的な取り組みに貢献する。
最後に,人間の生成したテキストにのみアクセスでき,完全な教師付きベースラインと同等の性能を持つため,自然に教師付きである,新しいテンソルベースのgptテキスト検出手法gptenを提案する。 As natural language models like ChatGPT become increasingly prevalent in applications and services, the need for robust and accurate methods to detect their output is of paramount importance. In this paper, we present GPT Reddit Dataset (GRiD), a novel Generative Pretrained Transformer (GPT)-generated text detection dataset designed to assess the performance of detection models in identifying generated responses from ChatGPT. The dataset consists of a diverse collection of context-prompt pairs based on Reddit, with human-generated and ChatGPT-generated responses. We provide an analysis of the dataset's characteristics, including linguistic diversity, context complexity, and response quality. To showcase the dataset's utility, we benchmark several detection methods on it, demonstrating their efficacy in distinguishing between human and ChatGPT-generated responses. This dataset serves as a resource for evaluating and advancing detection techniques in the context of ChatGPT and contributes to the ongoing efforts to ensure responsible and trustworthy AI-driven communication on the internet. Finally, we propose GpTen, a novel tensor-based GPT text detection method that is semi-supervised in nature since it only has access to human-generated text and performs on par with fully-supervised baselines. | 翻訳日:2024-03-13 22:55:17 公開日:2024-03-12 |
# 格子変換符号化を用いたニューラル圧縮における速度歪み限界へのアプローチ Approaching Rate-Distortion Limits in Neural Compression with Lattice Transform Coding ( http://arxiv.org/abs/2403.07320v1 ) ライセンス: Link先を確認 | Eric Lei, Hamed Hassani, Shirin Saeedi Bidokhti | (参考訳) ニューラル圧縮は、低複雑さでRD性能が良い損失圧縮機を設計する際の大きな進歩をもたらした。
これまでのところ、ニューラルネットワークの圧縮設計はソースを潜在ベクトルに変換し、それを整数に丸めてエントロピー符号化する。
このアプローチは特定のソースに対して一発的感覚で最適であることが示されているが、i.d.配列に対して非常に準最適であることが示され、実際は元のソースシーケンスのスカラー量子化を常に回復する。
準最適性は、変換設計ではなく、潜在空間における量子化スキームの選択によるものであることを示す。
遅延空間におけるスカラー量子化の代わりに格子量子化を用いることにより、格子変換符号化(LTC)が様々な次元で最適ベクトル量子化を回復し、漸近的に達成可能な速度歪み関数に合理的にアプローチできることを実証する。
一般的なベクトル源では、ltcは標準のニューラルコンプレッサーをワンショット符号化性能で改善する。
LTCはまた、ブロック符号化を行うニューラル圧縮機をベクトル源で可能とし、最適なワンショット符号化よりも符号化の利得が得られる。 Neural compression has brought tremendous progress in designing lossy compressors with good rate-distortion (RD) performance at low complexity. Thus far, neural compression design involves transforming the source to a latent vector, which is then rounded to integers and entropy coded. While this approach has been shown to be optimal in a one-shot sense on certain sources, we show that it is highly sub-optimal on i.i.d. sequences, and in fact always recovers scalar quantization of the original source sequence. We demonstrate that the sub-optimality is due to the choice of quantization scheme in the latent space, and not the transform design. By employing lattice quantization instead of scalar quantization in the latent space, we demonstrate that Lattice Transform Coding (LTC) is able to recover optimal vector quantization at various dimensions and approach the asymptotically-achievable rate-distortion function at reasonable complexity. On general vector sources, LTC improves upon standard neural compressors in one-shot coding performance. LTC also enables neural compressors that perform block coding on i.i.d. vector sources, which yields coding gain over optimal one-shot coding. | 翻訳日:2024-03-13 22:54:54 公開日:2024-03-12 |
# 残留シフトによる画像復元のための効率的な拡散モデル Efficient Diffusion Model for Image Restoration by Residual Shifting ( http://arxiv.org/abs/2403.07319v1 ) ライセンス: Link先を確認 | Zongsheng Yue, Jianyi Wang, and Chen Change Loy | (参考訳) diffusion-based image restoration (ir) 法は大きな成功を収めているが、数百または数千のサンプリングステップを実行する必要性から、低い推論速度で制限されている。
既存の加速サンプリング技術は、プロセスの迅速化を図りながら、パフォーマンスをある程度犠牲にし、結果として過度に回復する結果となった。
この問題に対処するため,本研究では,必要な拡散ステップ数を大幅に削減する,新しい,効率的なIR拡散モデルを提案する。
提案手法は,推論中の後加速度を回避し,関連する性能劣化を回避する。
具体的には,残差をシフトさせることにより高品質画像と低品質画像の遷移を容易にし,遷移効率を大幅に向上するマルコフ連鎖を確立する。
拡散過程におけるシフト速度とノイズ強度を柔軟に制御するために、慎重に定式化されたノイズスケジュールを考案する。
広汎な実験的評価により,提案手法は従来の3つのIRタスク,すなわち画像の超解像,画像のインペインティング,ブラインドフェイスの復元,および4つのサンプリングステップのみで,現在の最先端手法よりも優れた性能を達成できることが示された。
私たちのコードとモデルは、 \url{https://github.com/zsyOAOA/ResShift}で公開されています。 While diffusion-based image restoration (IR) methods have achieved remarkable success, they are still limited by the low inference speed attributed to the necessity of executing hundreds or even thousands of sampling steps. Existing acceleration sampling techniques, though seeking to expedite the process, inevitably sacrifice performance to some extent, resulting in over-blurry restored outcomes. To address this issue, this study proposes a novel and efficient diffusion model for IR that significantly reduces the required number of diffusion steps. Our method avoids the need for post-acceleration during inference, thereby avoiding the associated performance deterioration. Specifically, our proposed method establishes a Markov chain that facilitates the transitions between the high-quality and low-quality images by shifting their residuals, substantially improving the transition efficiency. A carefully formulated noise schedule is devised to flexibly control the shifting speed and the noise strength during the diffusion process. Extensive experimental evaluations demonstrate that the proposed method achieves superior or comparable performance to current state-of-the-art methods on three classical IR tasks, namely image super-resolution, image inpainting, and blind face restoration, \textit{\textbf{even only with four sampling steps}}. Our code and model are publicly available at \url{https://github.com/zsyOAOA/ResShift}. | 翻訳日:2024-03-13 22:54:32 公開日:2024-03-12 |
# ユーザエンゲージメント向上のための動的顔動作コード表現(cadyface)によるカスタマイズ可能なアバター Customizable Avatars with Dynamic Facial Action Coded Expressions (CADyFACE) for Improved User Engagement ( http://arxiv.org/abs/2403.07314v1 ) ライセンス: Link先を確認 | Megan A. Witherow, Crystal Butler, Winston J. Shields, Furkan Ilgin, Norou Diawara, Janice Keener, John W. Harrington, and Khan M. Iftekharuddin | (参考訳) カスタマイズ可能な3Dアバターベースの表情刺激は、行動バイオマーカー発見および自閉症、アルツハイマー病、顔面麻痺などの治療介入におけるユーザエンゲージメントを改善する可能性がある。
しかし、FACS(Facial Action Coding System)アクションユニット(AU)ラベルによるカスタマイズ可能なアバターベースの刺激が欠如している。
そこで本研究では,(1)被験者のエンゲージメントを維持するためのFACS-labeled,Customizable Avatar-based expression stimuli,(2)被験者の顔の反応を定量化する学習ベース測定,(3)刺激測定ペアで表される構成物の検証に焦点を当てた。
FACSの専門家によるAUをラベル付けした動的顔行動符号化表現(CADyFACE)を用いたカスタマイズ可能なアバターを提案する。
CADyFACEに応答して被験者のAUを測定するために,マルチラベルAU検出のための新しいBeta-guided correlation and Multi-task Expression Learning Neural Network (BeCoME-Net)を提案する。
β誘導相関損失はausと特徴的相関を助長する一方で、一般化を改善するために被写体同一性との相関を損なう。
我々は一方的および両側的AU検出のためにBeCoME-Netを訓練し、最先端のアプローチと比較する。
ウェブカムベースのアイトラッキングと映像を収集しながら、オンライン実現可能性スタディにおいて20人の健常成人ボランティアが表情認識と模倣タスクを完了させる。
我々は、認識中の顔の好みや模倣時のAUを含む複数の構成の妥当性を検証した。 Customizable 3D avatar-based facial expression stimuli may improve user engagement in behavioral biomarker discovery and therapeutic intervention for autism, Alzheimer's disease, facial palsy, and more. However, there is a lack of customizable avatar-based stimuli with Facial Action Coding System (FACS) action unit (AU) labels. Therefore, this study focuses on (1) FACS-labeled, customizable avatar-based expression stimuli for maintaining subjects' engagement, (2) learning-based measurements that quantify subjects' facial responses to such stimuli, and (3) validation of constructs represented by stimulus-measurement pairs. We propose Customizable Avatars with Dynamic Facial Action Coded Expressions (CADyFACE) labeled with AUs by a certified FACS expert. To measure subjects' AUs in response to CADyFACE, we propose a novel Beta-guided Correlation and Multi-task Expression learning neural network (BeCoME-Net) for multi-label AU detection. The beta-guided correlation loss encourages feature correlation with AUs while discouraging correlation with subject identities for improved generalization. We train BeCoME-Net for unilateral and bilateral AU detection and compare with state-of-the-art approaches. To assess construct validity of CADyFACE and BeCoME-Net, twenty healthy adult volunteers complete expression recognition and mimicry tasks in an online feasibility study while webcam-based eye-tracking and video are collected. We test validity of multiple constructs, including face preference during recognition and AUs during mimicry. | 翻訳日:2024-03-13 22:54:00 公開日:2024-03-12 |
# リンク予測のための知識グラフ大言語モデル(KG-LLM) Knowledge Graph Large Language Model (KG-LLM) for Link Prediction ( http://arxiv.org/abs/2403.07311v1 ) ライセンス: Link先を確認 | Dong Shu, Tianle Chen, Mingyu Jin, Yiting Zhang, Mengnan Du, Yongfeng Zhang | (参考訳) 知識グラフ(KG)内の複数のリンクを予測するタスクは、知識グラフ解析の分野における課題であり、自然言語処理(NLP)やKG埋め込み技術の進歩により、ますます解決しやすくなっている。
本稿では,知識グラフ大言語モデルフレームワーク(KG-LLM)を提案する。このフレームワークは,KGにおけるマルチホップリンク予測を強化するために,チェーン・オブ・シンクレット(CoT)とインコンテキスト学習(ICL)を含む重要なNLPパラダイムを活用する。
KGをCoTプロンプトに変換することで、我々のフレームワークはエンティティの潜在表現とその相互関係を識別し、学習するように設計されている。
KG-LLM フレームワークの有効性を示すため,本フレームワークでは,ICL と ICL の2つのタスクを総合的な評価に用い,主要な3つのLarge Language Model (LLM) を微調整する。
さらに、これまで見つからなかったプロンプトを扱うため、ゼロショット機能を備えたLLMを提供するフレームワークの可能性についても検討する。
実験の結果,ICLとCoTの統合はアプローチの性能を高めるだけでなく,モデルの一般化能力を大幅に向上させ,不慣れなシナリオにおけるより正確な予測を可能にすることがわかった。 The task of predicting multiple links within knowledge graphs (KGs) stands as a challenge in the field of knowledge graph analysis, a challenge increasingly resolvable due to advancements in natural language processing (NLP) and KG embedding techniques. This paper introduces a novel methodology, the Knowledge Graph Large Language Model Framework (KG-LLM), which leverages pivotal NLP paradigms, including chain-of-thought (CoT) prompting and in-context learning (ICL), to enhance multi-hop link prediction in KGs. By converting the KG to a CoT prompt, our framework is designed to discern and learn the latent representations of entities and their interrelations. To show the efficacy of the KG-LLM Framework, we fine-tune three leading Large Language Models (LLMs) within this framework, employing both non-ICL and ICL tasks for a comprehensive evaluation. Further, we explore the framework's potential to provide LLMs with zero-shot capabilities for handling previously unseen prompts. Our experimental findings discover that integrating ICL and CoT not only augments the performance of our approach but also significantly boosts the models' generalization capacity, thereby ensuring more precise predictions in unfamiliar scenarios. | 翻訳日:2024-03-13 22:53:31 公開日:2024-03-12 |
# マイノリティ分数の促進は一般化にどのように影響するか?
群不均衡における一層ニューラルネットワークの理論的研究 How does promoting the minority fraction affect generalization? A theoretical study of the one-hidden-layer neural network on group imbalance ( http://arxiv.org/abs/2403.07310v1 ) ライセンス: Link先を確認 | Hongkang Li, Shuai Zhang, Yihua Zhang, Meng Wang, Sijia Liu, Pin-Yu Chen | (参考訳) グループ不均衡は経験的リスク最小化(ERM)において既知の問題であり、達成された平均精度は少数集団において低い精度で伴っている。
マイノリティ群精度を改善するアルゴリズム的な努力にもかかわらず、個々の群に対するERMの理論的一般化分析はいまだ解明されていない。
ガウス混合モデルを用いて群不均衡問題を定式化することにより,各群がサンプルの複雑性,収束率,平均および群レベルのテスト性能に及ぼす影響を定量化する。
理論的枠組みは,一層ニューラルネットワークを用いた二項分類に重点を置いているが,一般に研究されている平均一般化性能に加えて,ERMの群レベル一般化に関する最初の理論的解析を行った。
我々の理論結果のサンプルは、全てのグループレベルの共分散が中程度にあり、全ての平均が0に近い場合、学習性能は、小さなサンプルの複雑さ、速いトレーニング率、そして高い平均およびグループレベルのテスト精度の点で最も望ましいものである。
さらに,訓練データ中の少数群の割合を増加させることで,少数群の一般化性能が必ずしも向上するとは限らないことを示した。
画像分類ではcelebaやcifar-10などの合成データと実験データの両方で理論的に検証した。 Group imbalance has been a known problem in empirical risk minimization (ERM), where the achieved high average accuracy is accompanied by low accuracy in a minority group. Despite algorithmic efforts to improve the minority group accuracy, a theoretical generalization analysis of ERM on individual groups remains elusive. By formulating the group imbalance problem with the Gaussian Mixture Model, this paper quantifies the impact of individual groups on the sample complexity, the convergence rate, and the average and group-level testing performance. Although our theoretical framework is centered on binary classification using a one-hidden-layer neural network, to the best of our knowledge, we provide the first theoretical analysis of the group-level generalization of ERM in addition to the commonly studied average generalization performance. Sample insights of our theoretical results include that when all group-level co-variance is in the medium regime and all mean are close to zero, the learning performance is most desirable in the sense of a small sample complexity, a fast training rate, and a high average and group-level testing accuracy. Moreover, we show that increasing the fraction of the minority group in the training data does not necessarily improve the generalization performance of the minority group. Our theoretical results are validated on both synthetic and empirical datasets, such as CelebA and CIFAR-10 in image classification. | 翻訳日:2024-03-13 22:53:07 公開日:2024-03-12 |
# シープシス治療のための強化シーケンス決定--モータリティ分類器とトランスフォーマーを用いたPOSNEGDMフレームワーク Reinforced Sequential Decision-Making for Sepsis Treatment: The POSNEGDM Framework with Mortality Classifier and Transformer ( http://arxiv.org/abs/2403.07309v1 ) ライセンス: Link先を確認 | Dipesh Tamboli and Jiayu Chen and Kiran Pranesh Jotheeswaran and Denny Yu and Vaneet Aggarwal | (参考訳) 敗血症は、身体の感染に対する過大な反応によって引き起こされる生命を脅かす症状であり、重篤な合併症を予防するために緊急の介入を要求する。
セプシを管理する既存の機械学習手法は、オフラインシナリオで苦労し、生存率が50%未満の最適化性能を示す。
本稿では,革新的トランスフォーマーモデルとフィードバック強化器を併用したposnegdm -- ‘reinforcement learning with positive and negative demonstrations for sequential decision-making’フレームワークについて紹介する。
96.7\%の死亡判定器は、治療決定を陽性の結果に導く。
POSNEGDMフレームワークは患者の生存率を大幅に改善し、97.39%の患者を救い、それぞれ33.4%と43.5%の確率で確立された機械学習アルゴリズム(決定変換器と行動クローン)を上回っている。
さらに、アブレーション研究はトランスフォーマーベースの意思決定者の役割と、全体の生存率を高めるための死亡率分類器の統合を強調している。
以上より, 患者医療の改善と医療費の削減に寄与し, 敗血症治療効果の向上に期待できる方法が提案されている。 Sepsis, a life-threatening condition triggered by the body's exaggerated response to infection, demands urgent intervention to prevent severe complications. Existing machine learning methods for managing sepsis struggle in offline scenarios, exhibiting suboptimal performance with survival rates below 50%. This paper introduces the POSNEGDM -- ``Reinforcement Learning with Positive and Negative Demonstrations for Sequential Decision-Making" framework utilizing an innovative transformer-based model and a feedback reinforcer to replicate expert actions while considering individual patient characteristics. A mortality classifier with 96.7\% accuracy guides treatment decisions towards positive outcomes. The POSNEGDM framework significantly improves patient survival, saving 97.39% of patients, outperforming established machine learning algorithms (Decision Transformer and Behavioral Cloning) with survival rates of 33.4% and 43.5%, respectively. Additionally, ablation studies underscore the critical role of the transformer-based decision maker and the integration of a mortality classifier in enhancing overall survival rates. In summary, our proposed approach presents a promising avenue for enhancing sepsis treatment outcomes, contributing to improved patient care and reduced healthcare costs. | 翻訳日:2024-03-13 22:52:45 公開日:2024-03-12 |
# 終了保証付きニューラルネットワーク障壁関数の検証支援学習 Verification-Aided Learning of Neural Network Barrier Functions with Termination Guarantees ( http://arxiv.org/abs/2403.07308v1 ) ライセンス: Link先を確認 | Shaoru Chen, Lekan Molu, Mahyar Fazlyab | (参考訳) バリア機能は、システムの安全性を保証するための一般的なフレームワークである。
しかし、これらの関数を見つける一般的な方法は存在しない。
この欠点に対処するために、近年のアプローチでは、検証手順によって定期的に生成されるトレーニングデータを用いて、自己教師付き学習技術を用いてこれらの機能を学ぶ。
バリア関数を自動生成する大きな可能性にもかかわらず、検証支援学習フレームワークは終端保証を持っておらず、実際に有効なバリア関数を見つけるための成功率が低い。
本稿では,これらの欠点に対処する包括的アプローチを提案する。
バリア関数合成の凸定式化により、まず経験的によく定義されたNN基底関数を学習し、検証失敗から凸性と反例を利用する微調整アルゴリズムを適用し、有限ステップ終端保証付き有効なバリア関数を見つける: 有効なバリア関数が存在する場合、その微細調整アルゴリズムは有限イテレーションでその関数を見つけることが保証される。
本手法は,検証支援学習フレームワークの性能を,異なる尺度の例や様々なニューラルネットワーク検証器を用いて大幅に向上させることができることを示す。 Barrier functions are a general framework for establishing a safety guarantee for a system. However, there is no general method for finding these functions. To address this shortcoming, recent approaches use self-supervised learning techniques to learn these functions using training data that are periodically generated by a verification procedure, leading to a verification-aided learning framework. Despite its immense potential in automating barrier function synthesis, the verification-aided learning framework does not have termination guarantees and may suffer from a low success rate of finding a valid barrier function in practice. In this paper, we propose a holistic approach to address these drawbacks. With a convex formulation of the barrier function synthesis, we propose to first learn an empirically well-behaved NN basis function and then apply a fine-tuning algorithm that exploits the convexity and counterexamples from the verification failure to find a valid barrier function with finite-step termination guarantees: if there exist valid barrier functions, the fine-tuning algorithm is guaranteed to find one in a finite number of iterations. We demonstrate that our fine-tuning method can significantly boost the performance of the verification-aided learning framework on examples of different scales and using various neural network verifiers. | 翻訳日:2024-03-13 22:52:19 公開日:2024-03-12 |
# Lumen: 大規模マルチモーダルモデルの視力中心能力の解放 Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models ( http://arxiv.org/abs/2403.07304v1 ) ライセンス: Link先を確認 | Yang Jiao, Shaoxiang Chen, Zequn Jie, Jingjing Chen, Lin Ma, Yu-Gang Jiang | (参考訳) 大規模マルチモーダルモデル(LMM)はコンピュータビジョン領域におけるホットな研究課題であり、また複数の分野にまたがる顕著な可能性を示した。
最近のトレンドは、LMMの知覚能力をさらに拡張し、強化することである。
現在の手法は、LMMの主要なコンポーネントである言語モデルの形式に視覚的タスク出力を適用するパラダイムに従っている。
この適応は、最小限の修正を施したLMMの便利な開発につながるが、多様な視覚タスクの本質的な特徴を見落とし、知覚能力の学習を妨げる。
この問題に対処するために,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
我々はLMMの知覚能力の学習をタスク非依存およびタスク特化段階に分離する。
ルーメンはまず、様々な視覚タスクの基本的な能力である、きめ細かい視覚言語概念のアライメントを促進する。
したがって、タスク非依存段階の出力は、本稿で扱う全てのタスクの共有表現である。
そして、共有表現を無視可能な訓練努力を伴う軽量タスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
このような分離された設計に相応しい私たちのLumenは、COCO検出ベンチマークにおける既存のLMMベースのアプローチを明確なマージンで超越し、追加のビジュアルタスクに対してシームレスなスケーラビリティを示します。
さらに,より深い知見を得るために,包括的アブレーション研究と一般化評価を行う。
コードはhttps://github.com/SxJyJay/Lumen.comでリリースされる。 Large Multimodal Model (LMM) is a hot research topic in the computer vision area and has also demonstrated remarkable potential across multiple disciplinary fields. A recent trend is to further extend and enhance the perception capabilities of LMMs. The current methods follow the paradigm of adapting the visual task outputs to the format of the language model, which is the main component of a LMM. This adaptation leads to convenient development of such LMMs with minimal modifications, however, it overlooks the intrinsic characteristics of diverse visual tasks and hinders the learning of perception capabilities. To address this issue, we propose a novel LMM architecture named Lumen, a Large multimodal model with versatile vision-centric capability enhancement. We decouple the LMM's learning of perception capabilities into task-agnostic and task-specific stages. Lumen first promotes fine-grained vision-language concept alignment, which is the fundamental capability for various visual tasks. Thus the output of the task-agnostic stage is a shared representation for all the tasks we address in this paper. Then the task-specific decoding is carried out by flexibly routing the shared representation to lightweight task decoders with negligible training efforts. Benefiting from such a decoupled design, our Lumen surpasses existing LMM-based approaches on the COCO detection benchmark with a clear margin and exhibits seamless scalability to additional visual tasks. Furthermore, we also conduct comprehensive ablation studies and generalization evaluations for deeper insights. The code will be released at https://github.com/SxJyJay/Lumen. | 翻訳日:2024-03-13 22:52:01 公開日:2024-03-12 |
# dynamic u-net: 腹部マルチオルガンセグメンテーションのための適応的キャリブレーション機能 Dynamic U-Net: Adaptively Calibrate Features for Abdominal Multi-organ Segmentation ( http://arxiv.org/abs/2403.07303v1 ) ライセンス: Link先を確認 | Jin Yang, Daniel S. Marcus, and Aristeidis Sotiras | (参考訳) u-netは腹部臓器のセグメンテーションに広く使われ、有望な性能を実現している。
しかし、マルチ組織セグメンテーションに使用される場合、第一に、標準畳み込みの実装により、グローバルな長距離コンテキスト情報を利用する場合に制限される可能性がある。
第2に、符号化経路における空間的なダウンサンプリング(例えば、マックスプーリングやストレート畳み込み)の使用は、変形可能または判別可能な詳細を失う可能性がある。
第3に、上位レベルからアップサンプリングされた機能は、スキップ接続を介して持続する機能と結合する。
しかし、繰り返しのダウンサンプリングとアップサンプリング操作は、それらの間の不一致を引き起こし、結合はセグメンテーション性能を低下させる。
これらの制約に対処するために、動的キャリブレーション・コンボリューション(DCC)、動的キャリブレーション・ダウンサンプリング(DCD)、動的キャリブレーション・アップサンプリング(DCU)モジュールを提案する。
DCCモジュールは、空間的特徴とチャネル的特徴の間のグローバルな相互依存性を利用して、これらの特徴を適応的に校正することができる。
dcdモジュールは、ネットワークがダウンサンプリング中に変形可能または識別可能な特徴を適応的に保存することを可能にする。
DCUモジュールは、アンサンプされた特徴を動的に調整して調整し、結合前に不一致を取り除くことができる。
提案したモジュールを標準のU-Netに統合し,動的U-Netと呼ばれる新しいアーキテクチャを実現する。
このアーキテクチャ設計により、U-Netは異なる臓器の機能を動的に調整できる。
2つの腹部マルチオルガンセグメンテーションベンチマークにおいて動的u-netを評価した。
動的U-Netは標準的なU-Netに比べて統計的に精度が向上した。
私たちのコードはhttps://github.com/sotiraslab/dynamicunetで利用可能です。 U-Net has been widely used for segmenting abdominal organs, achieving promising performance. However, when it is used for multi-organ segmentation, first, it may be limited in exploiting global long-range contextual information due to the implementation of standard convolutions. Second, the use of spatial-wise downsampling (e.g., max pooling or strided convolutions) in the encoding path may lead to the loss of deformable or discriminative details. Third, features upsampled from the higher level are concatenated with those that persevered via skip connections. However, repeated downsampling and upsampling operations lead to misalignments between them and their concatenation degrades segmentation performance. To address these limitations, we propose Dynamically Calibrated Convolution (DCC), Dynamically Calibrated Downsampling (DCD), and Dynamically Calibrated Upsampling (DCU) modules, respectively. The DCC module can utilize global inter-dependencies between spatial and channel features to calibrate these features adaptively. The DCD module enables networks to adaptively preserve deformable or discriminative features during downsampling. The DCU module can dynamically align and calibrate upsampled features to eliminate misalignments before concatenations. We integrated the proposed modules into a standard U-Net, resulting in a new architecture, termed Dynamic U-Net. This architectural design enables U-Net to dynamically adjust features for different organs. We evaluated Dynamic U-Net in two abdominal multi-organ segmentation benchmarks. Dynamic U-Net achieved statistically improved segmentation accuracy compared with standard U-Net. Our code is available at https://github.com/sotiraslab/DynamicUNet. | 翻訳日:2024-03-13 22:51:35 公開日:2024-03-12 |
# ストーリーテリングがバイビッドストーリーを語る: 表現力とフルエントなマルチモーダルストーリーテラー Let Storytelling Tell Vivid Stories: An Expressive and Fluent Multimodal Storyteller ( http://arxiv.org/abs/2403.07301v1 ) ライセンス: Link先を確認 | Chuanqi Zang, Jiji Tang, Rongsheng Zhang, Zeng Zhao, Tangjie Lv, Mingtao Pei, Wei Liang | (参考訳) ストーリーテリングは、順序付けられた画像ストリームに基づいて合理的で鮮明な物語を生成することを目的としている。
イメージストーリーのテーマへの忠実さとストーリープロットの多様化は読者を惹きつけ、読み続ける。
以前の作品では、複数のモダリティのアライメントを反復的に改善していたが、最終的には画像ストリームのためのシンプルなストーリーラインの生成につながった。
本研究では,表現性と一貫性を具現化したマルチモーダルな人間レベルの物語を生成するパイプラインLLaMSを提案する。
具体的には, LLM内のコモンセンス知識を十分に活用することにより, まず, 実写コンテンツ表現の強化と, 表現力のあるストーリー生成と予測にテキスト推論アーキテクチャを利用する。
次に,シーケンス一貫性を維持するストーリーイラストレーション生成のためのsq-adatpterモジュールを提案する。
提案するLLaMSの優位性を検証するため,人間の評価を通じて数値計算を行った。
評価の結果,従来のSOTA法と比較して,LLaMSは現状のストーリーテリング性能と86%の相関,100%の一貫性の獲得率を実現していることがわかった。
さらに,提案するシーケンスデータエンハンスメントとsq-adapterの有効性を検証するため,アブレーション実験を行った。 Storytelling aims to generate reasonable and vivid narratives based on an ordered image stream. The fidelity to the image story theme and the divergence of story plots attract readers to keep reading. Previous works iteratively improved the alignment of multiple modalities but ultimately resulted in the generation of simplistic storylines for image streams. In this work, we propose a new pipeline, termed LLaMS, to generate multimodal human-level stories that are embodied in expressiveness and consistency. Specifically, by fully exploiting the commonsense knowledge within the LLM, we first employ a sequence data auto-enhancement strategy to enhance factual content expression and leverage a textual reasoning architecture for expressive story generation and prediction. Secondly, we propose SQ-Adatpter module for story illustration generation which can maintain sequence consistency. Numerical results are conducted through human evaluation to verify the superiority of proposed LLaMS. Evaluations show that LLaMS achieves state-of-the-art storytelling performance and 86% correlation and 100% consistency win rate as compared with previous SOTA methods. Furthermore, ablation experiments are conducted to verify the effectiveness of proposed sequence data enhancement and SQ-Adapter. | 翻訳日:2024-03-13 22:51:08 公開日:2024-03-12 |
# クロスモーダル知識蒸留による一般化時系列予測のための事前学習LDMのモデリング Taming Pre-trained LLMs for Generalised Time Series Forecasting via Cross-modal Knowledge Distillation ( http://arxiv.org/abs/2403.07300v1 ) ライセンス: Link先を確認 | Peiyuan Liu, Hang Guo, Tao Dai, Naiqi Li, Jigang Bao, Xudong Ren, Yong Jiang, Shu-Tao Xia | (参考訳) 多変量時系列予測は近年,ディープラーニングモデルの急速な成長によって大きな成功を収めている。
しかし、既存のアプローチは通常、限られた時間データを使ってモデルをスクラッチからトレーニングし、一般化を妨げている。
近年,Large Language Models (LLM) の急激な普及に伴い,LLMを時系列予測に導入する試みがいくつかある。
有望な結果にもかかわらず、これらの手法は時系列を直接 LLM への入力とし、時間データとテキストデータの間に固有のモダリティギャップを無視する。
本研究では,LLaTA と呼ばれる新しい大規模言語モデルと時系列アライメントフレームワークを提案し,時系列予測問題における LLM の可能性を完全に解き放つ。
提案手法は,事前学習されたllmにおいて,入力非依存な静的知識と入力依存動的知識の両方を利用する。
このようにして、予測モデルに優れた性能と強力な一般化能力を与える。
広範な実験により,提案手法が長期予測と短期予測の両方のための新しい状態を確立することを実証した。
コードは \url{https://github.com/Hank0626/LLaTA} で入手できる。 Multivariate time series forecasting has recently gained great success with the rapid growth of deep learning models. However, existing approaches usually train models from scratch using limited temporal data, preventing their generalization. Recently, with the surge of the Large Language Models (LLMs), several works have attempted to introduce LLMs into time series forecasting. Despite promising results, these methods directly take time series as the input to LLMs, ignoring the inherent modality gap between temporal and text data. In this work, we propose a novel Large Language Models and time series alignment framework, dubbed LLaTA, to fully unleash the potentials of LLMs in the time series forecasting challenge. Based on cross-modal knowledge distillation, the proposed method exploits both input-agnostic static knowledge and input-dependent dynamic knowledge in pre-trained LLMs. In this way, it empowers the forecasting model with favorable performance as well as strong generalization abilities. Extensive experiments demonstrate the proposed method establishes a new state of the art for both long- and short-term forecasting. Code is available at \url{https://github.com/Hank0626/LLaTA}. | 翻訳日:2024-03-13 22:50:46 公開日:2024-03-12 |
# 連続グルコースモニタリングの進歩:深層学習と心電図信号の統合 Advancements in Continuous Glucose Monitoring: Integrating Deep Learning and ECG Signal ( http://arxiv.org/abs/2403.07296v1 ) ライセンス: Link先を確認 | MohammadReza Hosseinzadehketilateh, Banafsheh Adami, Nima Karimian | (参考訳) 本稿では,1119名からなる広範なデータベースから心電図(ecg)を用いた非侵襲的高血糖モニタリングへの新しいアプローチを提案する。
ECGを用いた高血糖, グルコース検出に関する研究は, 全被験者の心電図を効果的に一般化する手法を開発する上で重要な要因として考慮することなく, 訓練に利用することによる, 一般化と拡張性に関する課題に制約されている。
我々は,様々な空間上の特徴を識別し,各畳み込み層内の特徴間の相互依存性を検証可能な深層ニューラルネットワークモデルを設計した。
処理速度を高速化するため,各ユーザの心電図を分割し,心電図の1つの心拍または1つの周期を分離する。
このモデルは727名の被験者のデータを用いて訓練され、168名が検証に使用された。
テストフェーズでは、224名の未確認被験者が参加し、データセットは9000のセグメントで構成された。
その結果,曲線(AUC)下で91.60%,感度81.05%,特異性85.54%で高血糖を効果的に検出できることがわかった。 This paper presents a novel approach to noninvasive hyperglycemia monitoring utilizing electrocardiograms (ECG) from an extensive database comprising 1119 subjects. Previous research on hyperglycemia or glucose detection using ECG has been constrained by challenges related to generalization and scalability, primarily due to using all subjects' ECG in training without considering unseen subjects as a critical factor for developing methods with effective generalization. We designed a deep neural network model capable of identifying significant features across various spatial locations and examining the interdependencies among different features within each convolutional layer. To expedite processing speed, we segment the ECG of each user to isolate one heartbeat or one cycle of the ECG. Our model was trained using data from 727 subjects, while 168 were used for validation. The testing phase involved 224 unseen subjects, with a dataset consisting of 9,000 segments. The result indicates that the proposed algorithm effectively detects hyperglycemia with a 91.60% area under the curve (AUC), 81.05% sensitivity, and 85.54% specificity. | 翻訳日:2024-03-13 22:50:27 公開日:2024-03-12 |
# Challenging Forgets: マシンアンラーニングにおける最悪のツールセットの展開 Challenging Forgets: Unveiling the Worst-Case Forget Sets in Machine Unlearning ( http://arxiv.org/abs/2403.07362v1 ) ライセンス: Link先を確認 | Chongyu Fan, Jiancheng Liu, Alfred Hero, Sijia Liu | (参考訳) 信頼できる機械学習(ML)コミュニティは、トレーニング後のデータポイントを選択的に'アンラーニング'できるモデルの必要性をますます認識している。
これにより、選択したデータポイントがモデルのパフォーマンスに与える影響を排除し、モデルの実用性を維持しながら、機械学習後の問題(MU)が発生する。
様々なデータインフルエンス消去のためのmメソッドにもかかわらず、評価は主にランダムなデータ忘れることに焦点を当てており、学習しないパフォーマンスの真正性を真に評価するためにどのサブセットを選択するべきかを無視している。
この問題に対処するために,対立的な視点からMUの新たな評価アングルを導入する。
我々は,影響消去の最も大きな課題を示すデータサブセット,すなわち最悪のケースの忘れ集合の特定を提案する。
両レベル最適化の原則を用いることで、最悪ケースシナリオをエミュレートする上で、上位最適化レベルの未学習課題を増幅すると同時に、標準トレーニングとアンラーニングを低レベルのレベルで同時に実施し、データ影響の消去とモデルユーティリティのバランスを達成する。
本提案は,muのレジリエンスと有効性を最悪の場合に評価する。
さまざまなデータセット(cifar-10, 100, celeba, tiny imagenet, imagenetなど)とモデル(イメージ分類器と生成モデルの両方を含む)をまたいだ広範な実験を通じて、既存の(ほぼ)未学習戦略における重要な長所と短所を公開する。
その結果,MUの複雑な課題を解明し,より正確で堅牢な未学習アルゴリズムの開発を導くことができた。
コードはhttps://github.com/OPTML-Group/Unlearn-WorstCaseで入手できる。 The trustworthy machine learning (ML) community is increasingly recognizing the crucial need for models capable of selectively 'unlearning' data points after training. This leads to the problem of machine unlearning (MU), aiming to eliminate the influence of chosen data points on model performance, while still maintaining the model's utility post-unlearning. Despite various MU methods for data influence erasure, evaluations have largely focused on random data forgetting, ignoring the vital inquiry into which subset should be chosen to truly gauge the authenticity of unlearning performance. To tackle this issue, we introduce a new evaluative angle for MU from an adversarial viewpoint. We propose identifying the data subset that presents the most significant challenge for influence erasure, i.e., pinpointing the worst-case forget set. Utilizing a bi-level optimization principle, we amplify unlearning challenges at the upper optimization level to emulate worst-case scenarios, while simultaneously engaging in standard training and unlearning at the lower level, achieving a balance between data influence erasure and model utility. Our proposal offers a worst-case evaluation of MU's resilience and effectiveness. Through extensive experiments across different datasets (including CIFAR-10, 100, CelebA, Tiny ImageNet, and ImageNet) and models (including both image classifiers and generative models), we expose critical pros and cons in existing (approximate) unlearning strategies. Our results illuminate the complex challenges of MU in practice, guiding the future development of more accurate and robust unlearning algorithms. The code is available at https://github.com/OPTML-Group/Unlearn-WorstCase. | 翻訳日:2024-03-13 22:45:39 公開日:2024-03-12 |
# FSC:Few-point Shape Completion FSC: Few-point Shape Completion ( http://arxiv.org/abs/2403.07359v1 ) ライセンス: Link先を確認 | Xianzu Wu, Xianfeng Wu, Tianyu Luan, Yajing Bai, Zhongyuan Lai, Junsong Yuan | (参考訳) 以前の研究では、十分な数の点で3次元オブジェクトの形状を完遂することに成功したが、数点の点が観測された場合、しばしば失敗する。
驚くべきことに、エントロピー解析により、64点のような数点でさえ、物体の3次元形状を復元するのに十分な情報を保持できることがわかった。
超疎点雲による形状完了の課題に対処するため,我々は,非常にスパースな入力を処理するための新しいデュアルブランチ機能抽出器と,動的重要度割り当てのためのサリエンシー分岐を用いた最大点利用のための拡張ブランチを含む,fscモデルを提案する。
このモデルは、抽出された特徴とデコーダ出力の両方を洗練し、完了した点雲の詳細と信頼性を高める2段階のリビジョンネットワークによってさらに強化されている。
実験により,数点から3次元形状の復元が可能となった。
提案したFSC(FSC)モデルは,少数点入力と多点入力の両方において従来の手法よりも優れ,異なる対象カテゴリに対して優れた一般化性を示す。 While previous studies have demonstrated successful 3D object shape completion with a sufficient number of points, they often fail in scenarios when a few points, e.g. tens of points, are observed. Surprisingly, via entropy analysis, we find that even a few points, e.g. 64 points, could retain substantial information to help recover the 3D shape of the object. To address the challenge of shape completion with very sparse point clouds, we then propose Few-point Shape Completion (FSC) model, which contains a novel dual-branch feature extractor for handling extremely sparse inputs, coupled with an extensive branch for maximal point utilization with a saliency branch for dynamic importance assignment. This model is further bolstered by a two-stage revision network that refines both the extracted features and the decoder output, enhancing the detail and authenticity of the completed point cloud. Our experiments demonstrate the feasibility of recovering 3D shapes from a few points. The proposed FSC (FSC) model outperforms previous methods on both few-point inputs and many-point inputs, and shows good generalizability to different object categories. | 翻訳日:2024-03-13 22:45:09 公開日:2024-03-12 |
# 超高速量子情報処理に向けたピコ秒スケール光量子絡み合いのリアルタイム観測 Real-time observation of picosecond-timescale optical quantum entanglement toward ultrafast quantum information processing ( http://arxiv.org/abs/2403.07357v1 ) ライセンス: Link先を確認 | Akito Kawasaki, Hector Brunel, Ryuhoh Ide, Takumi Suzuki, Takahiro Kashiwazaki, Asuka Inoue, Takeshi Umeki, Taichi Yamashima, Atsushi Sakaguchi, Kan Takase, Mamoru Endo, Warit Asavanant, and Akira Furusawa | (参考訳) 絡み合いは様々な光量子情報処理(QIP)アプリケーションの基本資源である。
高速QIPシステムに向けて、絡み合いは短波パケットでエンコードされるべきである。
連続波(CW)系のピコ秒時間スケールにおける超高速光アインシュタイン-ポドルスキー-ローゼン相関のリアルタイム観測を報告する。
6-THz帯導波管-光パラメトリック増幅器を用いた光位相感度増幅は、主に第5世代電気通信で使用される70GHz帯ホモダインの有効効率を高める。
光スペクトル分析器(光スペクトル分析器)を用いた電力測定はリアルタイムには行われないが,実時間振幅計測により実測を行い,qipアプリケーションで直接利用することができる。
観測されたepr状態は、40-ps周期のウェーブパックで符号化されたショットネーズレベル以下の4.5dbの量子相関を示しており、これは25ghz繰り返しに相当する。
4.5dBの量子相関はすでにいくつかのQIPアプリケーションで十分であり、我々のシステムは大規模絡み合いに容易に拡張できる。
さらに,波長分割多重化などの光通信技術との互換性も高く,フェムト秒時間観測も実現可能である。
我々の実証は、ナノ秒からピコ秒までの全ての量子応用の基礎的資源であるアクセス可能な量子相関を加速し、超高速光qipを実現するためのパラダイムシフトである。 Entanglement is a fundamental resource of various optical quantum-information-processing (QIP) applications. Towards high-speed QIP system, entanglement should be encoded in short wavepackets. We report real-time observation of ultrafast optical Einstein-Podolsky-Rosen (EPR) correlation at a picosecond timescale in a continuous-wave (CW) system. Optical phase-sensitive amplification using 6-THz-bandwidth waveguide-optical-parametric amplifier enhances the effective efficiency of 70-GHz-bandwidth homodyne detectors, mainly used in 5th-generation telecommunication, enabling its use in real-time quantum-state measurement. While power measurement using frequency scanning, i.e., optical spectrum analyzer, is not performed in real-time, our observation is demonstrated through real-time amplitude measurement and can be directly employed in QIP applications. Observed EPR states show quantum correlation of 4.5 dB below shotnoise level encoded in wavepackets with 40-ps period, equivalent to 25-GHz repetition -- ${10^3}$ times faster than previous entanglement observation in CW system. The quantum correlation of 4.5 dB is already sufficient for several QIP applications, and our system can be readily extended to large-scale entanglement. Moreover, our scheme has high compatibility with optical communication technology such as wavelength-division multiplexing, and femtosecond-timescale observation is also feasible. Our demonstration is paradigm shift in accelerating accessible quantum correlation, the foundational resource of all quantum applications, from the nanosecond to picosecond timescale, enabling ultra-fast optical QIP. | 翻訳日:2024-03-13 22:44:47 公開日:2024-03-12 |
# 予見:連続学習における生成モデルを用いた将来のデータ変化の回避 Premonition: Using Generative Models to Preempt Future Data Changes in Continual Learning ( http://arxiv.org/abs/2403.07356v1 ) ライセンス: Link先を確認 | Mark D. McDonnell, Dong Gong, Ehsan Abbasnejad and Anton van den Hengel | (参考訳) 継続的な学習には、データ分散の継続的な変化や、実行すべきタスクセットに適応するモデルが必要である。
しかし、データとタスクの変更が完全に予測不可能であることはまれです。
私たちが「領域」と呼ぶ包括的な目標やデータテーマの説明を考えると、人間はしばしばそれに関連する概念を推測することができる。
ここでは,大規模言語モデルと画像生成モデルの組み合わせが,連続的な学習課題が時間とともにどのように発展していくかに関して,有用であることを示す。
我々は,大規模言語モデルを用いて,将来データストリームに現れる可能性のあるセマンティック関連クラスのテキスト記述を生成する。
これらの記述は、新しいラベル付き画像サンプルを生成するために、安定した拡散を使ってレンダリングされる。
得られた合成データセットは、教師付き事前学習に使用されるが、事前学習分類ヘッドと共に連続学習を開始する前に廃棄される。
事前学習したネットワークのバックボーンは、下流の連続学習問題に有用な表現を学習することができ、既存の連続学習手法に対する貴重な入力となる。
実画像と合成画像の領域間ギャップから生じる複雑度は存在するが,この方法での事前学習モデルは,細粒度画像分類ベンチマークにおいて,複数クラスインクリメンショナル・ラーニング(cil)法を改善していることを示す。
サポートコードはhttps://github.com/cl-premonition/premonitionにある。 Continual learning requires a model to adapt to ongoing changes in the data distribution, and often to the set of tasks to be performed. It is rare, however, that the data and task changes are completely unpredictable. Given a description of an overarching goal or data theme, which we call a realm, humans can often guess what concepts are associated with it. We show here that the combination of a large language model and an image generation model can similarly provide useful premonitions as to how a continual learning challenge might develop over time. We use the large language model to generate text descriptions of semantically related classes that might potentially appear in the data stream in future. These descriptions are then rendered using Stable Diffusion to generate new labelled image samples. The resulting synthetic dataset is employed for supervised pre-training, but is discarded prior to commencing continual learning, along with the pre-training classification head. We find that the backbone of our pre-trained networks can learn representations useful for the downstream continual learning problem, thus becoming a valuable input to any existing continual learning method. Although there are complexities arising from the domain gap between real and synthetic images, we show that pre-training models in this manner improves multiple Class Incremenal Learning (CIL) methods on fine-grained image classification benchmarks. Supporting code can be found at https://github.com/cl-premonition/premonition. | 翻訳日:2024-03-13 22:44:20 公開日:2024-03-12 |
# 大規模MIMOシステムにおける深層学習に基づくCSIフィードバックのためのベクトル量子化 Vector Quantization for Deep-Learning-Based CSI Feedback in Massive MIMO Systems ( http://arxiv.org/abs/2403.07355v1 ) ライセンス: Link先を確認 | Junyong Shin, Yujin Kang, Yo-Seb Jeon | (参考訳) 本稿では,大規模マルチインプットマルチアウトプット(MIMO)システムのための,有限レート深層学習(DL)に基づくチャネル状態情報(CSI)フィードバック手法を提案する。
本手法は,vq-vae(vector-quantized variational autoencoder)フレームワークに基づく潜在ベクトルの有限ビット表現を提供し,形状ゲインベクトル量子化に基づく計算複雑性を低減した。
この方法では、潜伏ベクトルの大きさを適切な変換関数を持つ非一様スカラー符号ブックを用いて量子化し、訓練可能なグラスマン符号ブックを用いて潜伏ベクトルの方向を量子化する。
また、ネストされたコードブックのコードワード選択ルールと損失関数の設計を導入することで、マルチレートのコードブック設計戦略を開発する。
シミュレーションの結果,提案手法は,与えられたフィードバックオーバヘッド下でのCSI再構成性能を改善しつつ,VQ-VAEに関連する計算複雑性を低減する。 This paper presents a finite-rate deep-learning (DL)-based channel state information (CSI) feedback method for massive multiple-input multiple-output (MIMO) systems. The presented method provides a finite-bit representation of the latent vector based on a vector-quantized variational autoencoder (VQ-VAE) framework while reducing its computational complexity based on shape-gain vector quantization. In this method, the magnitude of the latent vector is quantized using a non-uniform scalar codebook with a proper transformation function, while the direction of the latent vector is quantized using a trainable Grassmannian codebook. A multi-rate codebook design strategy is also developed by introducing a codeword selection rule for a nested codebook along with the design of a loss function. Simulation results demonstrate that the proposed method reduces the computational complexity associated with VQ-VAE while improving CSI reconstruction performance under a given feedback overhead. | 翻訳日:2024-03-13 22:43:58 公開日:2024-03-12 |
# BID:unsupervised Temporal Action Localization Pre-Traininのための境界内デコード BID: Boundary-Interior Decoding for Unsupervised Temporal Action Localization Pre-Trainin ( http://arxiv.org/abs/2403.07354v1 ) ライセンス: Link先を確認 | Qihang Fang and Chengcheng Tang and Shugao Ma and Yanchao Yang | (参考訳) スケルトンベースの運動表現は、画像と比較して、視点、照明、咬合に対する不変性に対する行動局在と理解にロバストである。
しかし、人間の注釈家でさえ、文脈から外すと曖昧で不完全であることが多い。
幼児は言葉に関連付ける前に身振りを識別するので、行動はラベルを付ける前に概念化することができる。
そこで本研究では,スケルトンに基づく動作シーケンスを意味的に有意味な前動作セグメントに分割した最初の教師なし事前学習フレームワークであるバウンダリinterior decoding (bid)を提案する。
事前学習ネットワークを少量のアノテートデータで微調整することにより、SOTA法よりも大きなマージンで性能が向上することを示す。 Skeleton-based motion representations are robust for action localization and understanding for their invariance to perspective, lighting, and occlusion, compared with images. Yet, they are often ambiguous and incomplete when taken out of context, even for human annotators. As infants discern gestures before associating them with words, actions can be conceptualized before being grounded with labels. Therefore, we propose the first unsupervised pre-training framework, Boundary-Interior Decoding (BID), that partitions a skeleton-based motion sequence into discovered semantically meaningful pre-action segments. By fine-tuning our pre-training network with a small number of annotated data, we show results out-performing SOTA methods by a large margin. | 翻訳日:2024-03-13 22:43:43 公開日:2024-03-12 |
# 効率的な部分リトレーニングによるグラフアンラーニング Graph Unlearning with Efficient Partial Retraining ( http://arxiv.org/abs/2403.07353v1 ) ライセンス: Link先を確認 | Jiahao Zhang, Lin Wang, Shijie Wang, Wenqi Fan | (参考訳) グラフニューラルネットワーク(GNN)は、様々な現実世界のアプリケーションで大きな成功を収めている。
しかし、GNNは望ましくないグラフデータに基づいて訓練され、パフォーマンスと信頼性を低下させることができる。
トレーニングされたGNNが望ましくないデータを効率的に解けるようにするためには、トレーニンググラフをサブグラフに分割し、サブモデルをトレーニングする、トレーニングベースのグラフアンラーニングが望ましい。
しかし、グラフ分割プロセスはトレーニンググラフに情報損失をもたらし、結果としてサブGNNモデルの低モデルの有用性をもたらす。
本稿では,学習不能なGNNのモデルユーティリティをよりよく維持するグラフアンラーニングフレームワークであるGraphRevokerを提案する。
具体的には,グラフ特性を考慮したシャーディングによりグラフ特性を保存し,グラフコントラストサブモデルアグリゲーションを用いて予測のためのサブgnnモデルを効果的に集約する。
提案手法の優位性を実証するための広範な実験を行う。 Graph Neural Networks (GNNs) have achieved remarkable success in various real-world applications. However, GNNs may be trained on undesirable graph data, which can degrade their performance and reliability. To enable trained GNNs to efficiently unlearn unwanted data, a desirable solution is retraining-based graph unlearning, which partitions the training graph into subgraphs and trains sub-models on them, allowing fast unlearning through partial retraining. However, the graph partition process causes information loss in the training graph, resulting in the low model utility of sub-GNN models. In this paper, we propose GraphRevoker, a novel graph unlearning framework that better maintains the model utility of unlearnable GNNs. Specifically, we preserve the graph property with graph property-aware sharding and effectively aggregate the sub-GNN models for prediction with graph contrastive sub-model aggregation. We conduct extensive experiments to demonstrate the superiority of our proposed approach. | 翻訳日:2024-03-13 22:43:29 公開日:2024-03-12 |
# 量子状態の分離性を決定する効果的な方法 An Effective Way to Determine the Separability of Quantum State ( http://arxiv.org/abs/2403.07351v1 ) ライセンス: Link先を確認 | Ma-Cheng Yang and Cong-Feng Qiao | (参考訳) 本稿では, 一般可観測物の相関行列を用いて, 量子分離性という長期的難題を研究するための実践的アプローチを提案する。
測定誘起ブロッホ空間を構築することにより、いくつかの一般的な分離性条件を設定する。
本質的に、これらの条件は量子状態の空間における自己制約によって確立される。
この新しいアプローチは、一般的な絡み合い基準の多くを再現するだけでなく、より強い結果をもたらし、いくつかの有界絡み合い状態に対して優位性を示す。
さらに、積として、新しい基準は、エンタングルメント証人演算子に直接変換可能であることが分かる。 We propose in this work a practical approach, by virtue of correlation matrices of the generic observables, to study the long lasting tough issue of quantum separability. Some general separability conditions are set up through constructing a measurement-induced Bloch space. In essence, these conditions are established due to the self constraint in the space of quantum states. The new approach can not only reproduce many of the prevailing entanglement criteria, but also lead to even stronger results and manifest superiority for some bound entangled states. Moreover, as a by product, the new criteria are found directly transformable to the entanglement witness operators. | 翻訳日:2024-03-13 22:43:14 公開日:2024-03-12 |
# KEBench: 大規模視覚言語モデルのための知識編集ベンチマーク KEBench: A Benchmark on Knowledge Editing for Large Vision-Language Models ( http://arxiv.org/abs/2403.07350v1 ) ライセンス: Link先を確認 | Han Huang, Haitian Zhong, Qiang Liu, Shu Wu, Liang Wang, Tieniu Tan | (参考訳) 現在、LVLM(Large Vision-Language Models)の知識編集についてはほとんど研究されていない。
LVLMの編集は、多種多様なモダリティ(画像とテキスト)を効果的に統合し、コヒーレントで文脈的に関連する修正を保証するという課題に直面している。
既存のベンチマークには、LVLMの知識編集を測定するための3つのメトリクス(信頼性、局所性、一般性)がある。
しかし、このベンチマークは、評価に使用される生成画像の品質に欠けており、関連するコンテンツに関して、モデルが効果的に編集された知識を利用するかどうかを評価できない。
我々は、新しいベンチマークを構築するために異なるデータ収集メソッド、$\textbf{KEBench}$を採用し、包括的な評価のために新しいメトリック(ポータビリティ)を拡張する。
マルチモーダルな知識グラフを利用すると、画像データはエンティティに対する明確な方向性を示す。
この方向的側面は、さらにエンティティ関連の知識やフォーム編集データを抽出するために利用することができる。
5つのlvlm上で異なる編集方法の実験を行い,これらの方法がモデルに与える影響を徹底的に解析した。
その結果、これらの手法の長所と短所が明らかとなり、将来の研究への潜在的道の洞察が得られればと願っている。 Currently, little research has been done on knowledge editing for Large Vision-Language Models (LVLMs). Editing LVLMs faces the challenge of effectively integrating diverse modalities (image and text) while ensuring coherent and contextually relevant modifications. An existing benchmark has three metrics (Reliability, Locality and Generality) to measure knowledge editing for LVLMs. However, the benchmark falls short in the quality of generated images used in evaluation and cannot assess whether models effectively utilize edited knowledge in relation to the associated content. We adopt different data collection methods to construct a new benchmark, $\textbf{KEBench}$, and extend new metric (Portability) for a comprehensive evaluation. Leveraging a multimodal knowledge graph, our image data exhibits clear directionality towards entities. This directional aspect can be further utilized to extract entity-related knowledge and form editing data. We conducted experiments of different editing methods on five LVLMs, and thoroughly analyze how these methods impact the models. The results reveal strengths and deficiencies of these methods and, hopefully, provide insights into potential avenues for future research. | 翻訳日:2024-03-13 22:43:05 公開日:2024-03-12 |
# 多層アイソモーフィックアーキテクチャによる動き拡大のための周波数デカップリング Frequency Decoupling for Motion Magnification via Multi-Level Isomorphic Architecture ( http://arxiv.org/abs/2403.07347v1 ) ライセンス: Link先を確認 | Fei Wang, Dan Guo, Kun Li, Zhun Zhong, Meng Wang | (参考訳) ビデオモーション・マグニフィケーション(VMM)は、マクロ世界の物体の微妙で知覚できない動き情報を明らかにすることを目的としている。
以前の手法では、形状やテクスチャ、あるいは多領域学習と位相ゆらぎを区別する表現学習によって、運動場をオイラーの視点から直接モデル化する。
周波数スペクトルにインスパイアされ、安定したエネルギーを持つ低周波成分は、常に空間構造を持ち、ノイズが少なく、微妙な運動場をモデル化するのに適している。
この目的のために、FD4MMは、動画空間における多レベル高周波数の詳細と安定した低周波構造(動き場)を捉えるために、多レベル等化アーキテクチャを用いた動き拡大のための周波数デカップリングの新しいパラダイムである。
ノイズに対する固有な微妙さと不可避な外部干渉による情報劣化の影響を受けやすい高周波細部と微妙な動きであるため,細部や運動構造の完全性を高めるためにスパース・ハイ・ローパスフィルタ,シームレスな再結合を促進するスパース・周波数・ミキサーを慎重に設計する。
さらに,非関係な特徴を識別する能力を強化し,望ましくない動きの倍率を抑えるために,このタスクに対する対照的な正規化を革新的に設計する。
実世界のデータセットと合成データセットの両方の広範な実験により、我々のfd4mmはsomaメソッドよりも優れています。
一方、fd4mm はフロップを 1.63$\times$ 減らし、推論速度を最新の方法より 1.68$\times$ 減らす。
私たちのコードはhttps://github.com/Jiafei127/FD4MMで利用可能です。 Video Motion Magnification (VMM) aims to reveal subtle and imperceptible motion information of objects in the macroscopic world. Prior methods directly model the motion field from the Eulerian perspective by Representation Learning that separates shape and texture or Multi-domain Learning from phase fluctuations. Inspired by the frequency spectrum, we observe that the low-frequency components with stable energy always possess spatial structure and less noise, making them suitable for modeling the subtle motion field. To this end, we present FD4MM, a new paradigm of Frequency Decoupling for Motion Magnification with a Multi-level Isomorphic Architecture to capture multi-level high-frequency details and a stable low-frequency structure (motion field) in video space. Since high-frequency details and subtle motions are susceptible to information degradation due to their inherent subtlety and unavoidable external interference from noise, we carefully design Sparse High/Low-pass Filters to enhance the integrity of details and motion structures, and a Sparse Frequency Mixer to promote seamless recoupling. Besides, we innovatively design a contrastive regularization for this task to strengthen the model's ability to discriminate irrelevant features, reducing undesired motion magnification. Extensive experiments on both Real-world and Synthetic Datasets show that our FD4MM outperforms SOTA methods. Meanwhile, FD4MM reduces FLOPs by 1.63$\times$ and boosts inference speed by 1.68$\times$ than the latest method. Our code is available at https://github.com/Jiafei127/FD4MM. | 翻訳日:2024-03-13 22:42:46 公開日:2024-03-12 |
# ハンドメッシュ再構築のためのイベントストリームとRGBフレームの補完 Complementing Event Streams and RGB Frames for Hand Mesh Reconstruction ( http://arxiv.org/abs/2403.07346v1 ) ライセンス: Link先を確認 | Jianping Jiang, Xinyu Zhou, Bingxuan Wang, Xiaoming Deng, Chao Xu, Boxin Shi | (参考訳) 一般的な色と深度センサーからの信頼性のある手メッシュ再構成(HMR)は、特に様々な照明と高速動作のシナリオにおいて困難である。
イベントカメラは、高ダイナミックレンジと高密度時間分解能の代替として非常に有望であるが、手メッシュ再構築のための重要なテクスチャの外観は欠如している。
本稿では,イベントカメラとRGBカメラによる3Dハンドメッシュ再構築のための最初のアプローチであるEvRGBHandを提案する。
EvRGBHandは、時間、空間、情報次元にまたがる2つのデータモダリティを融合することにより、RGBベースのHMRと前景の不足とイベントベースのHMRにおける背景のオーバーフローの問題に対処することができる。
我々はさらに,標準場面のみを訓練した場合でも,挑戦場面で効果的に一般化できるevrgbdegraderを提案し,データ取得コストを低減した。
EvRGBHandは、両方のメリットを保ちながら、どちらのタイプのカメラも使う場合の課題を効果的に解決できることを示し、屋外シーンやイベントカメラへの一般化の可能性を示している。 Reliable hand mesh reconstruction (HMR) from commonly-used color and depth sensors is challenging especially under scenarios with varied illuminations and fast motions. Event camera is a highly promising alternative for its high dynamic range and dense temporal resolution properties, but it lacks key texture appearance for hand mesh reconstruction. In this paper, we propose EvRGBHand -- the first approach for 3D hand mesh reconstruction with an event camera and an RGB camera compensating for each other. By fusing two modalities of data across time, space, and information dimensions,EvRGBHand can tackle overexposure and motion blur issues in RGB-based HMR and foreground scarcity and background overflow issues in event-based HMR. We further propose EvRGBDegrader, which allows our model to generalize effectively in challenging scenes, even when trained solely on standard scenes, thus reducing data acquisition costs. Experiments on real-world data demonstrate that EvRGBHand can effectively solve the challenging issues when using either type of camera alone via retaining the merits of both, and shows the potential of generalization to outdoor scenes and another type of event camera. | 翻訳日:2024-03-13 22:42:14 公開日:2024-03-12 |
# ASTEの再考: コントラスト学習と並行してミニマリストタッグ方式 Rethinking ASTE: A Minimalist Tagging Scheme Alongside Contrastive Learning ( http://arxiv.org/abs/2403.07342v1 ) ライセンス: Link先を確認 | Qiao Sun, Liujia Yang, Minghao Ma, Nanyang Ye, Qinying Gu | (参考訳) アスペクト感情三重項抽出(aste)は、非構造化テキストデータから構造化感情三重項を抽出することを目的とした、きめ細かな感情分析の急成長するサブタスクである。
ASTEへの既存のアプローチは、しばしばタスクを追加構造や外部データで複雑化する。
本研究では,新しいタグ付け手法を提案し,これらの課題を緩和するために対照的な学習手法を用いる。
提案手法は,よりコンパクトな設計と計算オーバーヘッドの低減を特徴とする一方で,最先端技術と比較して同等あるいは優れた性能を示す。
特に,Large Language Models (LLMs) の時代においても,GPT 3.5 や GPT 4 と比較して,数ショットの学習シナリオにおいて優れた効果を示した。
本研究は、大規模言語モデルのパラダイムにおけるASTE技術の進歩に関する貴重な知見を提供する。 Aspect Sentiment Triplet Extraction (ASTE) is a burgeoning subtask of fine-grained sentiment analysis, aiming to extract structured sentiment triplets from unstructured textual data. Existing approaches to ASTE often complicate the task with additional structures or external data. In this research, we propose a novel tagging scheme and employ a contrastive learning approach to mitigate these challenges. The proposed approach demonstrates comparable or superior performance in comparison to state-of-the-art techniques, while featuring a more compact design and reduced computational overhead. Notably, even in the era of Large Language Models (LLMs), our method exhibits superior efficacy compared to GPT 3.5 and GPT 4 in a few-shot learning scenarios. This study also provides valuable insights for the advancement of ASTE techniques within the paradigm of large language models. | 翻訳日:2024-03-13 22:41:51 公開日:2024-03-12 |
# IM-Unpack:任意の低精度整数を用いたトレーニングと推論 IM-Unpack: Training and Inference with Arbitrarily Low Precision Integers ( http://arxiv.org/abs/2403.07339v1 ) ライセンス: Link先を確認 | Zhanpeng Zeng, Karthikeyan Sankaralingam, Vikas Singh | (参考訳) GEMM(GEneral Matrix Multiply)は、ディープラーニングにおける中心的な演算であり、計算フットプリントの最大部分に相当する。
したがって、その効率性の向上は、現在進行中の研究の活発なトピックである。
一般的な戦略は、行列の元のエントリを近似するために低ビット幅整数を使うことである。
これにより効率が向上するが、しばしば丸め誤差を制御するための高度な技術を必要とする。
本研究では,様々なトランスフォーマーモデルにおいて,低ビット幅制限が取り除かれたとき,全てのGEMMに必要な整数が十分であるか否かを,トレーニングと推論の段階で検証・検証し,浮動小数点数とのパリティを実現する。
高度な技術は必要ない。
行列(そのようなモデルで説明される)の成分の大部分は、容易に {\em Low} ビット幅整数で表すことができるが、いくつかの重いヒッタ成分の存在は、低ビット幅GEMMのみを排他的に使用することで効率向上を達成するのを困難にしている。
この問題に対処するため、我々はInteger Matrix Unpacking (IM-Unpack) という単純なアルゴリズムを開発し、大きな整数成分を持つ行列を任意の低ビット幅整数の表現可能な範囲内にある大きな行列にアンパックする。
これにより、元の GEMM との等価性、すなわち、正確な結果は純粋に低ビット幅の整数 GEMM で得られる。
これは追加の操作のコストが伴います -- 多くの人気のあるモデルでは、このオーバーヘッドが非常に小さいことが分かります。 GEneral Matrix Multiply (GEMM) is a central operation in deep learning and corresponds to the largest chunk of the compute footprint. Therefore, improving its efficiency is an active topic of ongoing research. A popular strategy is the use of low bit-width integers to approximate the original entries in a matrix. This allows efficiency gains, but often requires sophisticated techniques to control the rounding error incurred. In this work, we first verify/check that when the low bit-width restriction is removed, for a variety of Transformer-based models, whether integers are sufficient for all GEMMs need -- for {\em both} training and inference stages, and can achieve parity with floating point counterparts. No sophisticated techniques are needed. We find that while a large majority of entries in matrices (encountered in such models) can be easily represented by {\em low} bit-width integers, the existence of a few heavy hitter entries make it difficult to achieve efficiency gains via the exclusive use of low bit-width GEMMs alone. To address this issue, we develop a simple algorithm, Integer Matrix Unpacking (IM-Unpack), to {\em unpack} a matrix with large integer entries into a larger matrix whose entries all lie within the representable range of arbitrarily low bit-width integers. This allows {\em equivalence} with the original GEMM, i.e., the exact result can be obtained using purely low bit-width integer GEMMs. This comes at the cost of additional operations -- we show that for many popular models, this overhead is quite small. | 翻訳日:2024-03-13 22:41:36 公開日:2024-03-12 |
# 医用画像セグメンテーションのための大きな窓ベースのmamba unet:畳み込みとセルフアテンションを超えて Large Window-based Mamba UNet for Medical Image Segmentation: Beyond Convolution and Self-attention ( http://arxiv.org/abs/2403.07332v1 ) ライセンス: Link先を確認 | Jinhong Wang, Jintai Chen, Danny Chen and Jian Wu | (参考訳) 臨床実践において、医用画像セグメンテーションは、対象臓器や組織の輪郭や寸法に関する有用な情報を提供し、診断、分析、治療の改善を促進する。
過去数年間、畳み込みニューラルネットワーク(CNN)とトランスフォーマーがこの領域を支配してきたが、それでも限られた受容野または高価な長距離モデリングに悩まされている。
状態空間シーケンスモデル(ssm)であるmambaは、線形複雑性を持つ長距離依存性モデリングの有望なパラダイムとして最近登場した。
本稿では,2次元および3次元の医用画像セグメンテーションのためのLMa-UNet(Large Window-based Mamba U}-shape Network)を提案する。
LMa-UNetの特長は、小さなカーネルベースのCNNや小さなウィンドウベースのトランスフォーマーに比べて、局所的な空間モデリングに優れ、また、二次的複雑性を伴う自己注意に比べて、グローバルなモデリングにおいて優れた効率を維持することである。
さらに,mambaのグローバルおよび近傍空間モデリング能力をさらに高めるために,新しい階層的かつ双方向のmambaブロックを設計した。
包括的実験により,本手法の有効性と有効性が実証され,大きな窓サイズを用いて大きな受容場を実現することが可能となった。
コードはhttps://github.com/wjh892521292/LMa-UNetで公開されている。 In clinical practice, medical image segmentation provides useful information on the contours and dimensions of target organs or tissues, facilitating improved diagnosis, analysis, and treatment. In the past few years, convolutional neural networks (CNNs) and Transformers have dominated this area, but they still suffer from either limited receptive fields or costly long-range modeling. Mamba, a State Space Sequence Model (SSM), recently emerged as a promising paradigm for long-range dependency modeling with linear complexity. In this paper, we introduce a Large Window-based Mamba U}-shape Network, or LMa-UNet, for 2D and 3D medical image segmentation. A distinguishing feature of our LMa-UNet is its utilization of large windows, excelling in locally spatial modeling compared to small kernel-based CNNs and small window-based Transformers, while maintaining superior efficiency in global modeling compared to self-attention with quadratic complexity. Additionally, we design a novel hierarchical and bidirectional Mamba block to further enhance the global and neighborhood spatial modeling capability of Mamba. Comprehensive experiments demonstrate the effectiveness and efficiency of our method and the feasibility of using large window size to achieve large receptive fields. Codes are available at https://github.com/wjh892521292/LMa-UNet. | 翻訳日:2024-03-13 22:41:08 公開日:2024-03-12 |
# ドメイン一般化のための未知のドメイン不整合最小化 Unknown Domain Inconsistency Minimization for Domain Generalization ( http://arxiv.org/abs/2403.07329v1 ) ライセンス: Link先を確認 | Seungjae Shin, HeeSun Bae, Byeonghu Na, Yoon-Yeong Kim and Il-Chul Moon | (参考訳) ドメイン一般化(DG)の目的は、ソースドメインから未観測領域へ学習したモデルの転送可能性を高めることである。
特定のドメインへのオーバーフィッティングを防止するため、Sharpness-Aware Minimization (SAM)はソースドメインのロスシャープネスを低減する。
SAMの亜種はDGを大幅に改善しましたが、データ空間の探索を通じて未知のドメインに一般化する可能性はまだあります。
本稿では,Unknown Domain Inconsistency Minimization(UDIM)というドメイン一般化のためのパラメータとデータ摂動領域の両方に根ざした目的を紹介する。
UDIMはソースドメインと未知のドメイン間の損失ランドスケープの不整合を低減する。
未知のドメインはアクセスできないため、これらのドメインはソースドメインデータセットからインスタンスを摂動させることで経験的に作成される。
特に、ソースドメインで取得したロスランドスケープを摂動ドメインのロスランドスケープに整合させることにより、未知ドメインに対するこれらの平坦なミニマに基づく一般化を実現することを期待する。
理論的には、SAMの最適化とUDIMの目的とを組み合わせることで、DGタスクの真の目的に対する上限が確立される。
経験的な側面では、UDIMは複数のDGベンチマークデータセットでSAMの亜種を一貫して上回っている。
特にUDIMは、より制限的なドメイン情報を持つシナリオにおいて統計的に有意な改善を示す。
我々のコードは \url{https://github.com/SJShin-AI/UDIM} で入手できる。 The objective of domain generalization (DG) is to enhance the transferability of the model learned from a source domain to unobserved domains. To prevent overfitting to a specific domain, Sharpness-Aware Minimization (SAM) reduces source domain's loss sharpness. Although SAM variants have delivered significant improvements in DG, we highlight that there's still potential for improvement in generalizing to unknown domains through the exploration on data space. This paper introduces an objective rooted in both parameter and data perturbed regions for domain generalization, coined Unknown Domain Inconsistency Minimization (UDIM). UDIM reduces the loss landscape inconsistency between source domain and unknown domains. As unknown domains are inaccessible, these domains are empirically crafted by perturbing instances from the source domain dataset. In particular, by aligning the loss landscape acquired in the source domain to the loss landscape of perturbed domains, we expect to achieve generalization grounded on these flat minima for the unknown domains. Theoretically, we validate that merging SAM optimization with the UDIM objective establishes an upper bound for the true objective of the DG task. In an empirical aspect, UDIM consistently outperforms SAM variants across multiple DG benchmark datasets. Notably, UDIM shows statistically significant improvements in scenarios with more restrictive domain information, underscoring UDIM's generalization capability in unseen domains. Our code is available at \url{https://github.com/SJShin-AI/UDIM}. | 翻訳日:2024-03-13 22:40:44 公開日:2024-03-12 |
# 缶詰から日常食へ:食品認識の一般化からより実践的なシナリオへ From Canteen Food to Daily Meals: Generalizing Food Recognition to More Practical Scenarios ( http://arxiv.org/abs/2403.07403v1 ) ライセンス: Link先を確認 | Guoshan Liu, Yang Jiao, Jingjing Chen, Bin Zhu, Yu-Gang Jiang | (参考訳) 食品カテゴリーの正確な認識は、知的健康管理において重要な役割を担い、近年は重要な研究の注目を集めている。
Food-101やVIREO Food-172のような著名なベンチマークは、この分野の研究の繁栄を触媒する豊富な食品画像資源を提供する。
しかしながら、これらのデータセットは缶詰のシナリオからよく計算されており、日常生活における食品の出現から逸脱している。
この相違は、これらのカンティーンデータセットで訓練された分類器を、人間が遭遇するより広い日々のシナリオに効果的に転送する上で大きな課題をもたらす。
そこで本研究では,毎日の食事のイメージをキュレートするための指標として,dailyfood-172とdailyfood-16を提案する。
これらの2つのデータセットは、精巧な食品画像ドメインから日常食品画像ドメインへのアプローチの転送可能性を評価するために使用される。
さらに,上述した領域ギャップに対処するため,MCRL(Multi-Cluster Reference Learning)というシンプルなベースライン手法を提案する。
MCRLは、日常のシナリオにおける食品画像は、よく計算されたベンチマークと比較すると、クラス内外見のばらつきが大きいという観察に動機付けられている。
特に、MCRLは既存のアプローチとシームレスに結合することができ、非自明なパフォーマンス向上をもたらす。
われわれの新しいベンチマークがコミュニティに刺激を与え、精度の高いデータセットで訓練された食品認識モデルの現実的な実生活アプリケーションへの転送可能性を探ることを期待している。 The precise recognition of food categories plays a pivotal role for intelligent health management, attracting significant research attention in recent years. Prominent benchmarks, such as Food-101 and VIREO Food-172, provide abundant food image resources that catalyze the prosperity of research in this field. Nevertheless, these datasets are well-curated from canteen scenarios and thus deviate from food appearances in daily life. This discrepancy poses great challenges in effectively transferring classifiers trained on these canteen datasets to broader daily-life scenarios encountered by humans. Toward this end, we present two new benchmarks, namely DailyFood-172 and DailyFood-16, specifically designed to curate food images from everyday meals. These two datasets are used to evaluate the transferability of approaches from the well-curated food image domain to the everyday-life food image domain. In addition, we also propose a simple yet effective baseline method named Multi-Cluster Reference Learning (MCRL) to tackle the aforementioned domain gap. MCRL is motivated by the observation that food images in daily-life scenarios exhibit greater intra-class appearance variance compared with those in well-curated benchmarks. Notably, MCRL can be seamlessly coupled with existing approaches, yielding non-trivial performance enhancements. We hope our new benchmarks can inspire the community to explore the transferability of food recognition models trained on well-curated datasets toward practical real-life applications. | 翻訳日:2024-03-13 22:35:50 公開日:2024-03-12 |
# Commonsenseナレッジグラフによる論理的クエリの複雑な推論 Complex Reasoning over Logical Queries on Commonsense Knowledge Graphs ( http://arxiv.org/abs/2403.07398v1 ) ライセンス: Link先を確認 | Tianqing Fang, Zeming Chen, Yangqiu Song, Antoine Bosselut | (参考訳) イベントコモンセンス推論には、イベント間の関係を推論する機能と、その関係の基礎となる暗黙のコンテキストを推論する必要がある。
しかし、データ不足は、言語モデルが複雑なイベント間の相互作用に関わるコンテキストや質問に対して共通意味推論を生成することを学ぶのを難しくする。
この要求に対処するために、COM2(Complex COMmonsense)という、既存のコモンセンス知識グラフ(CSKG)からマルチホップ論理クエリ(例えば、イベントAとBの結合効果や、イベントCの効果)をサンプリングし、手書きのルールと大きな言語モデルを用いて言語化して、複数選択とテキスト生成の質問を合成する新しいデータセットを提示する。
実験の結果,COM2で訓練した言語モデルでは複雑な推論能力が向上し,ドメイン内タスクとドメイン外タスクのゼロショット性能が向上することがわかった。 Event commonsense reasoning requires the ability to reason about the relationship between events, as well as infer implicit context underlying that relationship. However, data scarcity makes it challenging for language models to learn to generate commonsense inferences for contexts and questions involving interactions between complex events. To address this demand, we present COM2 (COMplex COMmonsense), a new dataset created by sampling multi-hop logical queries (e.g., the joint effect or cause of both event A and B, or the effect of the effect of event C) from an existing commonsense knowledge graph (CSKG), and verbalizing them using handcrafted rules and large language models into multiple-choice and text generation questions. Our experiments show that language models trained on COM2 exhibit significant improvements in complex reasoning ability, resulting in enhanced zero-shot performance in both in-domain and out-of-domain tasks for question answering and generative commonsense reasoning, without expensive human annotations. | 翻訳日:2024-03-13 22:35:30 公開日:2024-03-12 |
# ViT-CoMer:Dense予測のための畳み込みマルチスケール特徴相互作用を用いた視覚変換器 ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions ( http://arxiv.org/abs/2403.07392v1 ) ライセンス: Link先を確認 | Chunlong Xia, Xinliang Wang, Feng Lv, Xin Hao, Yifeng Shi | (参考訳) Vision Transformer (ViT) はコンピュータビジョンにおいて大きな成功を収めているが、内部パッチ情報相互作用の欠如や機能スケールの多様性の制限により、密集した予測タスクではうまく機能しない。
既存の研究の多くは、上記の問題を解決するために視覚特異的なトランスフォーマーを設計することに集中している。
そこで我々は,CNNとトランスフォーマーの双方向インタラクションを容易にする,畳み込み型マルチスケール機能インタラクションを備えた,平らで事前学習のない,機能強化型VTバックボーンViT-CoMerを提案する。
現状と比較して、VT-CoMerには次のような利点がある: 1) 空間ピラミッドの多受容場畳み込み特性をViTアーキテクチャに注入することで、VTにおける限られた局所情報相互作用や単一機能表現の問題を効果的に軽減する。
2) 階層的特徴にまたがる複数スケールの融合を行う簡便で効率的なcnn-transformer bidirectional fusion interaction moduleを提案する。
(3)ViT-CoMerの性能は,多種多彩な予測タスク,異なるフレームワーク,先進的な事前学習で評価する。
特に、私たちのViT-CoMer-Lは、余分なトレーニングデータなしでCOCO val2017で64.3%AP、ADE20K valで62.1%mIoUを達成した。
ViT-CoMerは、より密集した予測タスクのための新しいバックボーンとして機能し、将来の研究を促進することを願っている。
コードはhttps://github.com/Traffic-X/ViT-CoMerで公開される。 Although Vision Transformer (ViT) has achieved significant success in computer vision, it does not perform well in dense prediction tasks due to the lack of inner-patch information interaction and the limited diversity of feature scale. Most existing studies are devoted to designing vision-specific transformers to solve the above problems, which introduce additional pre-training costs. Therefore, we present a plain, pre-training-free, and feature-enhanced ViT backbone with Convolutional Multi-scale feature interaction, named ViT-CoMer, which facilitates bidirectional interaction between CNN and transformer. Compared to the state-of-the-art, ViT-CoMer has the following advantages: (1) We inject spatial pyramid multi-receptive field convolutional features into the ViT architecture, which effectively alleviates the problems of limited local information interaction and single-feature representation in ViT. (2) We propose a simple and efficient CNN-Transformer bidirectional fusion interaction module that performs multi-scale fusion across hierarchical features, which is beneficial for handling dense prediction tasks. (3) We evaluate the performance of ViT-CoMer across various dense prediction tasks, different frameworks, and multiple advanced pre-training. Notably, our ViT-CoMer-L achieves 64.3% AP on COCO val2017 without extra training data, and 62.1% mIoU on ADE20K val, both of which are comparable to state-of-the-art methods. We hope ViT-CoMer can serve as a new backbone for dense prediction tasks to facilitate future research. The code will be released at https://github.com/Traffic-X/ViT-CoMer. | 翻訳日:2024-03-13 22:35:06 公開日:2024-03-12 |
# ブラインド画像超解像における周波数自己注意による学習補正誤差 Learning Correction Errors via Frequency-Self Attention for Blind Image Super-Resolution ( http://arxiv.org/abs/2403.07390v1 ) ライセンス: Link先を確認 | Haochen Sun, Yan Yuan, Lijuan Su and Haotian Shao | (参考訳) ブラインド画像超解像(SR)に対する従来のアプローチは、低分解能(LR)画像から高分解能(HR)画像を復元するために劣化推定に依存していた。
しかし,正確な劣化推定には大きな課題がある。
srモデルと劣化推定法、特に補正フィルタとの非互換性は、補正誤差の結果、性能を著しく損なう可能性がある。
本稿では,LCE(Learning Correction Errors)に着目した新しいブラインドSR手法を提案する。
本手法では,軽量な補正器を用いて補正された低解像度 (clr) 画像を得る。
その後、SRネットワーク内で、元のLR画像とCLR画像の周波数学習の両方を利用して、SR性能を協調的に最適化する。
さらに,Transformerのグローバルな情報活用能力を高めるために,FSAB(Fluquency-Self Attention Block)を提案する。
このブロックは自己アテンションと周波数空間注意機構の両方を統合する。
視覚的品質と精度の面では, 様々な場面で大規模なアブレーションと比較実験を行った。
本手法は,劣化推定と補正誤差に関連する課題を効果的に解決し,より正確なブラインド画像SRを実現する。 Previous approaches for blind image super-resolution (SR) have relied on degradation estimation to restore high-resolution (HR) images from their low-resolution (LR) counterparts. However, accurate degradation estimation poses significant challenges. The SR model's incompatibility with degradation estimation methods, particularly the Correction Filter, may significantly impair performance as a result of correction errors. In this paper, we introduce a novel blind SR approach that focuses on Learning Correction Errors (LCE). Our method employs a lightweight Corrector to obtain a corrected low-resolution (CLR) image. Subsequently, within an SR network, we jointly optimize SR performance by utilizing both the original LR image and the frequency learning of the CLR image. Additionally, we propose a new Frequency-Self Attention block (FSAB) that enhances the global information utilization ability of Transformer. This block integrates both self-attention and frequency spatial attention mechanisms. Extensive ablation and comparison experiments conducted across various settings demonstrate the superiority of our method in terms of visual quality and accuracy. Our approach effectively addresses the challenges associated with degradation estimation and correction errors, paving the way for more accurate blind image SR. | 翻訳日:2024-03-13 22:34:33 公開日:2024-03-12 |
# Duplex から Monoplex IHC 画像へのタスク認識ドメイン翻訳のための補助サイクルGANガイダンス Auxiliary CycleGAN-guidance for Task-Aware Domain Translation from Duplex to Monoplex IHC Images ( http://arxiv.org/abs/2403.07389v1 ) ライセンス: Link先を確認 | Nicolas Brieu, Nicolas Triltsch, Philipp Wortmann, Dominik Winter, Shashank Saran, Marlon Rebelatto, G\"unter Schmidt | (参考訳) 生成モデルは、トレーニング中の対象ドメインに容易に訓練されたモデルを適用可能なソースイメージドメインからの変換を可能にする。
Cycle Generative Adversarial Networks (GAN) は確立されているが、関連するサイクル一貫性の制約は、2つの領域の間に可逆写像が存在することに依存する。
しかし、発色モノプレックスと二重免疫組織化学(IHC)アッセイで染色された画像間の翻訳では、これは当てはまらない。
後者から第1への翻訳に焦点をあてて,新しいトレーニング設計の導入により,免疫蛍光(IF)画像の集合を補助的未ペア画像領域として活用する代替的制約を提案する。
下流セグメンテーションタスクにおける定量的および定性的な結果は,ベースラインアプローチと比較して提案手法の利点を示す。 Generative models enable the translation from a source image domain where readily trained models are available to a target domain unseen during training. While Cycle Generative Adversarial Networks (GANs) are well established, the associated cycle consistency constrain relies on that an invertible mapping exists between the two domains. This is, however, not the case for the translation between images stained with chromogenic monoplex and duplex immunohistochemistry (IHC) assays. Focusing on the translation from the latter to the first, we propose - through the introduction of a novel training design, an alternative constrain leveraging a set of immunofluorescence (IF) images as an auxiliary unpaired image domain. Quantitative and qualitative results on a downstream segmentation task show the benefit of the proposed method in comparison to baseline approaches. | 翻訳日:2024-03-13 22:34:17 公開日:2024-03-12 |
# SmallToLarge (S2L):小モデルの学習軌跡を要約した微調整大言語モデルのスケーラブルデータ選択 SmallToLarge (S2L): Scalable Data Selection for Fine-tuning Large Language Models by Summarizing Training Trajectories of Small Models ( http://arxiv.org/abs/2403.07384v1 ) ライセンス: Link先を確認 | Yu Yang, Siddhartha Mishra, Jeffrey N Chiang, Baharan Mirzasoleiman | (参考訳) 大規模言語モデル (LLM) における事前訓練と命令の微調整フェーズにおけるデータ選択の有効性にもかかわらず、専門領域のための教師付き微調整 (SFT) におけるデータ効率の改善は、微調整データの複雑さのために大きな課題となる。
このギャップを埋めるために,SmallToLarge (S2L) の有効かつスケーラブルなデータ選択手法を導入する。
s2lは数学的な問題解決のためのsstのデータ効率を大幅に向上させ、トレーニングデータを元のmathinstructデータセット(yue et al., 2023)のわずか11%に削減し、最先端データ選択アルゴリズムを6つのインドメイン評価データセットで平均4.7%上回り、完全なデータセットのパフォーマンスにマッチさせる。
SFTで50Kのデータのみを選択すると、S2Lは最も難しいMATH(Hendrycks et al., 2021)ベンチマークで32.7%の精度を達成し、Phi-2(Li et al., 2023b)を16.6%改善した。
MIMIC-IIIデータセット(Johnson et al., 2016)における臨床テキスト要約では、S2Lはデータの50%のみを使用して、完全なデータセットでのトレーニングを再び上回っている。
特に、s2lは、対象モデルより小さい参照モデル40xを用いてデータ選択を行い、データ選択のコストを比例的に低減することができる。 Despite the effectiveness of data selection for large language models (LLMs) during pretraining and instruction fine-tuning phases, improving data efficiency in supervised fine-tuning (SFT) for specialized domains poses significant challenges due to the complexity of fine-tuning data. To bridge this gap, we introduce an effective and scalable data selection method for SFT, SmallToLarge (S2L), which leverages training trajectories from small models to guide the data selection for larger models. We demonstrate through extensive experiments that S2L significantly improves data efficiency in SFT for mathematical problem-solving, reducing the training data to just 11% of the original MathInstruct dataset (Yue et al., 2023) to match full dataset performance while outperforming state-of-the-art data selection algorithms by an average of 4.7% across 6 in- and out-domain evaluation datasets. Remarkably, selecting only 50K data for SFT, S2L achieves a 32.7% accuracy on the most challenging MATH (Hendrycks et al., 2021) benchmark, improving Phi-2 (Li et al., 2023b) by 16.6%. In clinical text summarization on the MIMIC-III dataset (Johnson et al., 2016), S2L again outperforms training on the full dataset using only 50% of the data. Notably, S2L can perform data selection using a reference model 40x smaller than the target model, proportionally reducing the cost of data selection. | 翻訳日:2024-03-13 22:34:03 公開日:2024-03-12 |
# 単一画像消去用ガバー誘導変圧器 Gabor-guided transformer for single image deraining ( http://arxiv.org/abs/2403.07380v1 ) ライセンス: Link先を確認 | Sijin He, Guangfeng Lin | (参考訳) 過酷な気象条件が視覚タスクに与える影響によって生じる課題に対処するため、画像のデレーニングには多くの注意が払われている。
畳み込みニューラルネットワーク(CNN)は人気があるが、グローバル情報を取得する際の制限は雨の除去に効果がない可能性がある。
自己注意機構を持つトランスフォーマーベースの手法は改善されているが、画像の忠実性に不可欠な高周波の詳細を歪ませる傾向がある。
この問題を解決するため,単一画像デライニングのためのGabor-Guided tranformer(Gabformer)を提案する。
局所的なテクスチャ特徴に着目し,Gaborフィルタによって処理された情報をクエリベクトルに組み込むことで,フィルタの特性によるノイズに対するモデルの堅牢性を向上させる。
ベンチマーク実験により,本手法が最先端手法より優れていることが示された。 Image deraining have have gained a great deal of attention in order to address the challenges posed by the effects of harsh weather conditions on visual tasks. While convolutional neural networks (CNNs) are popular, their limitations in capturing global information may result in ineffective rain removal. Transformer-based methods with self-attention mechanisms have improved, but they tend to distort high-frequency details that are crucial for image fidelity. To solve this problem, we propose the Gabor-guided tranformer (Gabformer) for single image deraining. The focus on local texture features is enhanced by incorporating the information processed by the Gabor filter into the query vector, which also improves the robustness of the model to noise due to the properties of the filter. Extensive experiments on the benchmarks demonstrate that our method outperforms state-of-the-art approaches. | 翻訳日:2024-03-13 22:33:25 公開日:2024-03-12 |
# ニューラルネットワークとLLMにおける最適化軌道の目印:長さ,曲がり,デッドエンド Hallmarks of Optimization Trajectories in Neural Networks and LLMs: The Lengths, Bends, and Dead Ends ( http://arxiv.org/abs/2403.07379v1 ) ライセンス: Link先を確認 | Sidak Pal Singh, Bobby He, Thomas Hofmann, Bernhard Sch\"olkopf | (参考訳) 最適化軌道に含まれるパラメータの豊富な構造を解析することにより,ニューラルネットワークのメカニズムを理解することを提案する。
この目的に向けて,量的および定量的な最適化トラジェクタの複雑さに関する自然概念を導入し,運動量,重みの減衰,バッチサイズといった様々な最適化選択に固有のニュアンスと相互作用を明らかにする。
私たちは、ディープニューラルネットワークの最適化の性質に関する重要な論点を提供するためにそれらを使用します。
さらに、軌道の観点により、方向探索を促進する運動量と重量減少の相互に絡み合った挙動と、他のいくつかの方向正規化行動を明らかにする。
我々は,最大120億のパラメータを持つ大規模言語モデル(LLM)を含む,大規模ビジョンと言語設定に関する実験を行い,アプローチの価値を実証した。 We propose a fresh take on understanding the mechanisms of neural networks by analyzing the rich structure of parameters contained within their optimization trajectories. Towards this end, we introduce some natural notions of the complexity of optimization trajectories, both qualitative and quantitative, which reveal the inherent nuance and interplay involved between various optimization choices, such as momentum, weight decay, and batch size. We use them to provide key hallmarks about the nature of optimization in deep neural networks: when it goes right, and when it finds itself in a dead end. Further, thanks to our trajectory perspective, we uncover an intertwined behaviour of momentum and weight decay that promotes directional exploration, as well as a directional regularization behaviour of some others. We perform experiments over large-scale vision and language settings, including large language models (LLMs) with up to 12 billion parameters, to demonstrate the value of our approach. | 翻訳日:2024-03-13 22:33:13 公開日:2024-03-12 |
# SVD-LLM:大規模言語モデル圧縮のためのトランケーション対応特異値分解 SVD-LLM: Truncation-aware Singular Value Decomposition for Large Language Model Compression ( http://arxiv.org/abs/2403.07378v1 ) ライセンス: Link先を確認 | Xin Wang, Yu Zheng, Zhongwei Wan, Mi Zhang | (参考訳) 大規模言語モデル (LLMs) の進歩は, LLM 圧縮法を実用的展開に必要としていた, 相当なサイズによって妨げられている。
Singular Value Decomposition (SVD)はLLM圧縮のための有望なソリューションを提供する。
しかし、最先端のSVDベースのLLM圧縮法には、2つの重要な制限がある: より小さな特異値の切り抜きは、圧縮損失を増大させる可能性があり、SVDの切り抜き後の残りのモデルパラメータの更新が欠如している。
本研究では,既存の手法の制約に対処する新たなSVD-LLM圧縮手法であるSVD-LLMを提案する。
SVD-LLMは、特異値と圧縮損失の直接マッピングを保証するために、トラクション対応のデータホワイトニング戦略を組み込んでいる。
さらに,SVD-LLM では,SVD truncation による精度劣化を補うために,階層単位のクローズドフォームモデル更新戦略を採用している。
SVD-LLMを3つのLLMファミリーの合計11のデータセットと7つのモデルで4つのスケールで評価した。
以上の結果から, SVD-LLMは最先端技術, 特に高モデル圧縮比よりも優れていることが示された。
ソースコードはhttps://github.com/AIoT-MLSys-Lab/SVD-LLMで公開されている。 The advancements in Large Language Models (LLMs) have been hindered by their substantial sizes, which necessitate LLM compression methods for practical deployment. Singular Value Decomposition (SVD) offers a promising solution for LLM compression. However, state-of-the-art SVD-based LLM compression methods have two key limitations: truncating smaller singular values may lead to higher compression loss, and the lack of update on the remaining model parameters after SVD truncation. In this work, we propose SVD-LLM, a new SVD-based LLM compression method that addresses the limitations of existing methods. SVD-LLM incorporates a truncation-aware data whitening strategy to ensure a direct mapping between singular values and compression loss. Moreover, SVD-LLM adopts a layer-wise closed-form model parameter update strategy to compensate for accuracy degradation caused by SVD truncation. We evaluate SVD-LLM on a total of 11 datasets and seven models from three different LLM families at four different scales. Our results demonstrate the superiority of SVD-LLM over state-of-the-arts, especially at high model compression ratios. The source code is available at https://github.com/AIoT-MLSys-Lab/SVD-LLM. | 翻訳日:2024-03-13 22:32:56 公開日:2024-03-12 |
# NavCoT:分散推論学習によるLLMに基づく視覚・言語ナビゲーション NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning ( http://arxiv.org/abs/2403.07376v1 ) ライセンス: Link先を確認 | Bingqian Lin, Yunshuang Nie, Ziming Wei, Jiaqi Chen, Shikui Ma, Jianhua Han, Hang Xu, Xiaojun Chang, Xiaodan Liang | (参考訳) Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
しかしながら、オフラインでの利用は、通常、VLNタスクとLLMトレーニングコーパスの間のドメインギャップがかなり大きいことに悩まされる。
本稿では,NavCoT(Navigational Chain-of-Thought)と呼ばれる新しい手法を紹介し,パラメータ効率のよいドメイン内トレーニングを実現し,自己誘導型ナビゲーション決定を実現する。
具体的には、各タイムステップにおいて、llmは次の手順でナビゲーションチェーンを予測するように促される。
1) 指示に従って次の観察を想像するための世界モデルとして振る舞うこと
2)想像力に最も適した観察候補の選択、及び
3) 前段からの推論に基づいて行動を決定する。
トレーニングのために形式化されたラベルを構築することで、LLMはアクション決定を改善するために望ましい、合理的な連鎖出力を生成することができる。
様々なトレーニング設定と一般的なVLNベンチマーク(例:Room-to-Room(R2R)、Room-across-Room(RxR)、Room-for-Room(R4R)))による実験結果は、NavCoTが直接動作予測のバリエーションよりも大幅に優れていることを示している。
単純なパラメータ効率の微調整によって、我々のNavCoTは最近のGPT4ベースのアプローチより優れており、R2Rデータセットの相対的な改善はおよそ7%である。
NavCoTは、よりタスク適応的でスケーラブルなLLMベースのエンボディエージェントのアンロックに役立ち、現実世界のロボティクスアプリケーションの開発に役立ちます。
コードはhttps://github.com/expectorlin/navcotで入手できる。 Vision-and-Language Navigation (VLN), as a crucial research problem of Embodied AI, requires an embodied agent to navigate through complex 3D environments following natural language instructions. Recent research has highlighted the promising capacity of large language models (LLMs) in VLN by improving navigational reasoning accuracy and interpretability. However, their predominant use in an offline manner usually suffers from substantial domain gap between the VLN task and the LLM training corpus. This paper introduces a novel strategy called Navigational Chain-of-Thought (NavCoT), where we fulfill parameter-efficient in-domain training to enable self-guided navigational decision, leading to a significant mitigation of the domain gap in a cost-effective manner. Specifically, at each timestep, the LLM is prompted to forecast the navigational chain-of-thought by: 1) acting as a world model to imagine the next observation according to the instruction, 2) selecting the candidate observation that best aligns with the imagination, and 3) determining the action based on the reasoning from the prior steps. Through constructing formalized labels for training, the LLM can learn to generate desired and reasonable chain-of-thought outputs for improving the action decision. Experimental results across various training settings and popular VLN benchmarks (e.g., Room-to-Room (R2R), Room-across-Room (RxR), Room-for-Room (R4R)) show the significant superiority of NavCoT over the direct action prediction variants. Through simple parameter-efficient finetuning, our NavCoT outperforms a recent GPT4-based approach with ~7% relative improvement on the R2R dataset. We believe that NavCoT will help unlock more task-adaptive and scalable LLM-based embodied agents, which are helpful for developing real-world robotics applications. Code is available at https://github.com/expectorlin/NavCoT. | 翻訳日:2024-03-13 22:32:33 公開日:2024-03-12 |
# LiDARカメラ3Dオブジェクト検出のためのBEV空間におけるクロスモーダル衝突の除去 Eliminating Cross-modal Conflicts in BEV Space for LiDAR-Camera 3D Object Detection ( http://arxiv.org/abs/2403.07372v1 ) ライセンス: Link先を確認 | Jiahui Fu, Chen Gao, Zitian Wang, Lirong Yang, Xiaofei Wang, Beipeng Mu, Si Liu | (参考訳) 最近の3Dオブジェクト検出器は、一般的にマルチセンサーデータを使用し、共有鳥眼ビュー(BEV)表現空間におけるマルチモーダル特徴を統一する。
しかし, 実験結果から, 従来手法では, 相反のない融合型BEVの特徴を生じる限界があることが示唆された。
これらの衝突は、BEVの特徴的構成と、異種センサー信号から生じる固有の対立によって引き起こされる外在的な対立を含んでいる。
そこで本研究では,BEV空間における過渡矛盾を明示的に排除し,改良されたマルチモーダルBEV特性を実現するための新しいECFusion法を提案する。
具体的には、セマンティック誘導フローベースアライメント(SFA)モジュールを設計し、融合前のBEV空間における空間分布を統一することにより外乱を解決する。
さらに、融合BEV機能で失われるオブジェクト性手がかりを保存することにより、固有の競合を解消する解答クエリ検索(DQR)機構を設計する。
一般に,本手法は各モーダルの有効情報利用を最大化し,モーダル間の相補性を利用する。
本手法は,高度に競争力のあるnuScenes 3Dオブジェクト検出データセットにおける最先端性能を実現する。
コードはhttps://github.com/fjhzhixi/ecfusionでリリースされている。 Recent 3D object detectors typically utilize multi-sensor data and unify multi-modal features in the shared bird's-eye view (BEV) representation space. However, our empirical findings indicate that previous methods have limitations in generating fusion BEV features free from cross-modal conflicts. These conflicts encompass extrinsic conflicts caused by BEV feature construction and inherent conflicts stemming from heterogeneous sensor signals. Therefore, we propose a novel Eliminating Conflicts Fusion (ECFusion) method to explicitly eliminate the extrinsic/inherent conflicts in BEV space and produce improved multi-modal BEV features. Specifically, we devise a Semantic-guided Flow-based Alignment (SFA) module to resolve extrinsic conflicts via unifying spatial distribution in BEV space before fusion. Moreover, we design a Dissolved Query Recovering (DQR) mechanism to remedy inherent conflicts by preserving objectness clues that are lost in the fusion BEV feature. In general, our method maximizes the effective information utilization of each modality and leverages inter-modal complementarity. Our method achieves state-of-the-art performance in the highly competitive nuScenes 3D object detection dataset. The code is released at https://github.com/fjhzhixi/ECFusion. | 翻訳日:2024-03-13 22:31:59 公開日:2024-03-12 |
# 可変拡散モデルを用いた時間効率とアイデンティティ一貫性のある仮想試行 Time-Efficient and Identity-Consistent Virtual Try-On Using A Variant of Altered Diffusion Models ( http://arxiv.org/abs/2403.07371v1 ) ライセンス: Link先を確認 | Phuong Dam, Jihoon Jeong, Anh Tran, Daeyoung Kim | (参考訳) 本研究は,現代電子商取引における仮想試着の課題と今後のメタバースについて論じ,衣服のテクスチャやタトゥーやアクセサリーなどのアイデンティティ特性といった様々なシナリオにおいて,対象者と衣服の複雑なテクスチャの詳細と特徴を維持することの課題を強調する。
合成された画像の忠実さに加えて、合成プロセスの効率は重要なハードルとなる。
既存の様々なアプローチが検討され、例えばアイデンティティ情報の欠落、制御不能なアーティファクト、低合成速度など、制限と未解決の側面を強調している。
次に,仮想トライオン中に着衣のテクスチャ保持とユーザアイデンティティ保持を扱う新しい拡散ベースソリューションを提案する。
提案するネットワークは2つのプライマリモジュールから成り、衣服に個々の特徴を整列させるワーピングモジュールと、服装を洗練し、個々人のアイデンティティの完全性を保証するマスク認識後処理技術に統合された欠落部分を生成するトライオンモジュールである。
これは、予測中の最先端の速度を20倍近く上回り、質的な評価において優れた忠実さを示す。
定量的評価により、VITON-HDおよびDresscodeデータセットにおける最近のSOTA法と同等の性能が確認された。 This study discusses the critical issues of Virtual Try-On in contemporary e-commerce and the prospective metaverse, emphasizing the challenges of preserving intricate texture details and distinctive features of the target person and the clothes in various scenarios, such as clothing texture and identity characteristics like tattoos or accessories. In addition to the fidelity of the synthesized images, the efficiency of the synthesis process presents a significant hurdle. Various existing approaches are explored, highlighting the limitations and unresolved aspects, e.g., identity information omission, uncontrollable artifacts, and low synthesis speed. It then proposes a novel diffusion-based solution that addresses garment texture preservation and user identity retention during virtual try-on. The proposed network comprises two primary modules - a warping module aligning clothing with individual features and a try-on module refining the attire and generating missing parts integrated with a mask-aware post-processing technique ensuring the integrity of the individual's identity. It demonstrates impressive results, surpassing the state-of-the-art in speed by nearly 20 times during inference, with superior fidelity in qualitative assessments. Quantitative evaluations confirm comparable performance with the recent SOTA method on the VITON-HD and Dresscode datasets. | 翻訳日:2024-03-13 22:31:39 公開日:2024-03-12 |
# テキストの知識: 一般化されたビジュアルクラス発見のためのクロスモーダル・コトレーニング Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized Visual Class Discovery ( http://arxiv.org/abs/2403.07369v1 ) ライセンス: Link先を確認 | Haiyang Zheng, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong | (参考訳) 本稿では,既知のカテゴリのラベル付きデータの知識を用いて,未知のカテゴリと未知のカテゴリのラベル付きデータをクラスタ化することを目的とした一般化カテゴリディスカバリ(gcd)の問題について検討する。
現在のGCD法は視覚的手がかりのみに依存しているが、新しい視覚カテゴリーを発見する際に、人間の認知過程の多様性知覚性を無視している。
そこで本稿では,マルチモーダルなGCDを実現するための2段階のTextGCDフレームワークを提案する。
TextGCDは主に検索ベースのテキスト生成(RTG)フェーズと、CCTフェーズを含む。
まず、RTGは、多様なデータセットと大規模言語モデルからの属性のカテゴリタグを用いて視覚辞書を構築し、検索方法で画像の記述テキストを生成する。
第二に、CCTはテキストと視覚の相違を利用して相互学習を育み、視覚的GCDを向上させる。
さらに,モーダル間のカテゴリー認識の整合性を確保するための適応型クラス整合戦略を設計し,マルチモーダリティ・キューを統合するソフト投票機構を設計する。
8つのデータセットの実験は、最先端手法に対する我々のアプローチの大きな優位性を示している。
特に、私たちのアプローチは、ImageNet-1kとCUBの精度でそれぞれ7.7%と10.8%という、最高の競合より優れています。 In this paper, we study the problem of Generalized Category Discovery (GCD), which aims to cluster unlabeled data from both known and unknown categories using the knowledge of labeled data from known categories. Current GCD methods rely on only visual cues, which however neglect the multi-modality perceptive nature of human cognitive processes in discovering novel visual categories. To address this, we propose a two-phase TextGCD framework to accomplish multi-modality GCD by exploiting powerful Visual-Language Models. TextGCD mainly includes a retrieval-based text generation (RTG) phase and a cross-modality co-teaching (CCT) phase. First, RTG constructs a visual lexicon using category tags from diverse datasets and attributes from Large Language Models, generating descriptive texts for images in a retrieval manner. Second, CCT leverages disparities between textual and visual modalities to foster mutual learning, thereby enhancing visual GCD. In addition, we design an adaptive class aligning strategy to ensure the alignment of category perceptions between modalities as well as a soft-voting mechanism to integrate multi-modality cues. Experiments on eight datasets show the large superiority of our approach over state-of-the-art methods. Notably, our approach outperforms the best competitor, by 7.7% and 10.8% in All accuracy on ImageNet-1k and CUB, respectively. | 翻訳日:2024-03-13 22:31:14 公開日:2024-03-12 |
# エントロピーはテスト時間適応に十分ではない:不連続要因の観点から Entropy is not Enough for Test-Time Adaptation: From the Perspective of Disentangled Factors ( http://arxiv.org/abs/2403.07366v1 ) ライセンス: Link先を確認 | Jonghyun Lee, Dahuin Jung, Saehyung Lee, Junsung Park, Juhyeon Shin, Uiwon Hwang, Sungroh Yoon | (参考訳) テストタイム適応(TTA) 未確認のテストデータのための訓練済みのディープニューラルネットワーク。
ttaの主な課題は、オンライン更新中のテストデータセット全体へのアクセス制限であり、エラーの蓄積を引き起こす。
これを軽減するため、TTA法はモデル出力のエントロピーを、どのサンプルがエラーを引き起こす可能性が低いかを判断する信頼度指標として利用した。
しかし, 実験により, TTAの信頼度指標としてのエントロピーの信頼性の欠如を観測し, 遅延不整合因子の影響が予測に与える影響を無視することに起因することを理論的に明らかにした。
これらの知見に基づいて,新たに提案された信頼度尺度である Pseudo-Label Probability difference (PLPD) を利用した新しいTTA手法である Destroy Your Object (DeYO) を導入する。
plpdは、物体破壊変換を施す前後の予測の差を測定することにより、物体の形状が予測に及ぼす影響を定量化する。
DeYOはサンプル選択とサンプル重み付けで構成され、エントロピーとPLPDを同時に使用する。
堅牢な適応のために、DeYOは予測を行う際に、主に形状情報を含むサンプルを優先する。
我々の広範な実験は、バイアスドやワイルドを含む様々なシナリオにおけるベースラインメソッドに対するdeyoの一貫性の優位性を示しています。
プロジェクトページはhttps://whitesnowdrop.github.io/deyo/で公開されている。 Test-time adaptation (TTA) fine-tunes pre-trained deep neural networks for unseen test data. The primary challenge of TTA is limited access to the entire test dataset during online updates, causing error accumulation. To mitigate it, TTA methods have utilized the model output's entropy as a confidence metric that aims to determine which samples have a lower likelihood of causing error. Through experimental studies, however, we observed the unreliability of entropy as a confidence metric for TTA under biased scenarios and theoretically revealed that it stems from the neglect of the influence of latent disentangled factors of data on predictions. Building upon these findings, we introduce a novel TTA method named Destroy Your Object (DeYO), which leverages a newly proposed confidence metric named Pseudo-Label Probability Difference (PLPD). PLPD quantifies the influence of the shape of an object on prediction by measuring the difference between predictions before and after applying an object-destructive transformation. DeYO consists of sample selection and sample weighting, which employ entropy and PLPD concurrently. For robust adaptation, DeYO prioritizes samples that dominantly incorporate shape information when making predictions. Our extensive experiments demonstrate the consistent superiority of DeYO over baseline methods across various scenarios, including biased and wild. Project page is publicly available at https://whitesnowdrop.github.io/DeYO/. | 翻訳日:2024-03-13 22:30:52 公開日:2024-03-12 |
# 直観主義的ファジィ決定木の新しいランダムフォレストアンサンブル A New Random Forest Ensemble of Intuitionistic Fuzzy Decision Trees ( http://arxiv.org/abs/2403.07363v1 ) ライセンス: Link先を確認 | Yingtao Ren, Xiaomin Zhu, Kaiyuan Bai, Runtong Zhang | (参考訳) 分類は、データマイニング、人工知能、障害検出といった分野の応用に不可欠である。
正確で適切で効率的な分類法やアルゴリズムを幅広い適用性で開発するのに強いニーズがある。
ランダムフォレスト(Random forest)は、複雑な条件下での分類によく用いられる一般的なアルゴリズムである。
広く採用されているが、様々なファジィ理論と組み合わせて探究する価値がある。
本稿では,直観的ファジィ決定木(ifdt)を用いた新しいランダム林である直観的ファジィ決定木(ifrf)を提案する。
森林のこのような木は直観主義的なファジィ情報ゲインを使って特徴を選び、情報伝達における迷信を考える。
提案手法は,ブートストラップによるサンプリングと特徴選択,ファジィ論理とファジィ集合の柔軟性,複数分類器システムの堅牢性からランダム性のパワーを享受する。
IFRFは、他の最先端ファジィおよびアンサンブルアルゴリズムと比較して、競争的で優れた性能を示す。
IFDTは優れた分類精度のアンサンブル学習に適している。
本研究は,直観的ファジィ理論に基づくランダムな森林アンサンブルを提案する最初の試みである。 Classification is essential to the applications in the field of data mining, artificial intelligence, and fault detection. There exists a strong need in developing accurate, suitable, and efficient classification methods and algorithms with broad applicability. Random forest is a general algorithm that is often used for classification under complex conditions. Although it has been widely adopted, its combination with diverse fuzzy theory is still worth exploring. In this paper, we propose the intuitionistic fuzzy random forest (IFRF), a new random forest ensemble of intuitionistic fuzzy decision trees (IFDT). Such trees in forest use intuitionistic fuzzy information gain to select features and consider hesitation in information transmission. The proposed method enjoys the power of the randomness from bootstrapped sampling and feature selection, the flexibility of fuzzy logic and fuzzy sets, and the robustness of multiple classifier systems. Extensive experiments demonstrate that the IFRF has competitative and superior performance compared to other state-of-the-art fuzzy and ensemble algorithms. IFDT is more suitable for ensemble learning with outstanding classification accuracy. This study is the first to propose a random forest ensemble based on the intuitionistic fuzzy theory. | 翻訳日:2024-03-13 22:30:30 公開日:2024-03-12 |
# ドメイン適応のためのプロキシ手法 Proxy Methods for Domain Adaptation ( http://arxiv.org/abs/2403.07442v1 ) ライセンス: Link先を確認 | Katherine Tsai, Stephen R. Pfohl, Olawale Salaudeen, Nicole Chiou, Matt J. Kusner, Alexander D'Amour, Sanmi Koyejo, Arthur Gretton | (参考訳) 分布シフトの下での領域適応の問題は、共変量とラベルを共変する非観測変数の分布の変化による変化である。
この設定では、共変量シフトもラベルシフト仮定も適用されない。
適応へのアプローチは, 近位因果学習(proxies of unobserved confounders)の設定において因果効果を推定する手法)を採用する。
我々は,プロキシ変数によって,潜在変数を明示的に復元したりモデル化したりすることなく,分散シフトへの適応を可能にすることを実証する。
二つの設定を考えます
(i)概念ボトルネック:共変量とラベルの関係を仲介する追加の'概念'変数が観察される。
(ii)マルチドメイン:複数のソースドメインからのトレーニングデータがあり、各ソースドメインは潜在する共同設立者に対して異なる分布を示す。
両設定の複雑な分散シフトに適応する2段階のカーネル推定手法を開発した。
実験では,提案手法が他の手法,特に潜伏した共同創設者を明示的に回復する手法よりも優れていることを示す。 We study the problem of domain adaptation under distribution shift, where the shift is due to a change in the distribution of an unobserved, latent variable that confounds both the covariates and the labels. In this setting, neither the covariate shift nor the label shift assumptions apply. Our approach to adaptation employs proximal causal learning, a technique for estimating causal effects in settings where proxies of unobserved confounders are available. We demonstrate that proxy variables allow for adaptation to distribution shift without explicitly recovering or modeling latent variables. We consider two settings, (i) Concept Bottleneck: an additional ''concept'' variable is observed that mediates the relationship between the covariates and labels; (ii) Multi-domain: training data from multiple source domains is available, where each source domain exhibits a different distribution over the latent confounder. We develop a two-stage kernel estimation approach to adapt to complex distribution shifts in both settings. In our experiments, we show that our approach outperforms other methods, notably those which explicitly recover the latent confounder. | 翻訳日:2024-03-13 22:26:40 公開日:2024-03-12 |
# 行列変換に基づく低ランク適応(MTLoRA):パラメータ効率な微調整のための脳誘発手法 Matrix-Transformation Based Low-Rank Adaptation (MTLoRA): A Brain-Inspired Method for Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2403.07440v1 ) ライセンス: Link先を確認 | Yao Liang, Yuwei Wang, Yi Zeng | (参考訳) LPLM(Large Pretrained Language Models)に基づく微調整技術は、様々な下流タスクにおけるモデル性能を著しく向上し、LPLMの出力挙動を効果的に制御できることが証明されている。
近年、オープンソースのlplmに基づいて少数のパラメータを微調整する方法が提案され、計算資源やストレージリソースの需要が減少している。
このうち、LoRA(Low-Rank Adaptation)で表される再パラメータ化細調整法が人気を博している。
これらの手法は多くの点でうまく機能するが、複雑なタスク適応性、性能、安定性、アルゴリズムの複雑さといった点で改善の余地がある。
これに対し、脳の機能は幾何学的構造によって形成されるという考えに触発されて、このアイデアをLoRA技術に統合し、マトリックス変換に基づく効率的な微調整のための新しい行列変換に基づくパラメータ化手法であるMTLoRAを提案する。
MTLoRAは、変換行列Tを用いて、タスク固有のパラメータ行列上に回転、スケーリング、翻訳などの線形変換を行い、新しい行列特徴パターン(固有ベクトル)を生成し、脳内の複雑な幾何学的構造の特徴パターンが機能に与える影響を模倣し、下流タスクにおけるモデルの性能を向上させることを目的としている。
自然言語理解(NLU)タスクでは,GLUEベンチマークテストを用いて評価を行い,その結果から,MTLoRAは8タスクで約1.0%,自然言語生成(NLG)タスクでは平均0.95%,WebNLGタスクでは0.31%向上した。 Fine-tuning techniques based on Large Pretrained Language Models (LPLMs) have been proven to significantly enhance model performance on a variety of downstream tasks and effectively control the output behaviors of LPLMs. Recent studies have proposed numerous methods for fine-tuning a small number of parameters based on open-source LPLMs, reducing the demand for computational and storage resources. Among these, reparameterization fine-tuning methods represented by LoRA (Low-Rank Adaptation) have gained popularity. We find that although these methods perform well in many aspects, there is still considerable room for improvement in terms of complex task adaptability, performance, stability, and algorithm complexity. In response to this, inspired by the idea that the functions of the brain are shaped by its geometric structure, this paper integrates this idea into LoRA technology and proposes a new matrix transformation-based reparameterization method for efficient fine-tuning, named Matrix-Transformation based Low-Rank Adaptation (MTLoRA). MTLoRA aims to dynamically alter its spatial geometric structure by applying a transformation-matrix T to perform linear transformations, such as rotation, scaling, and translation, on the task-specific parameter matrix, generating new matrix feature patterns (eigenvectors) to mimic the fundamental influence of complex geometric structure feature patterns in the brain on functions, thereby enhancing the model's performance in downstream tasks. In Natural Language Understanding (NLU) tasks, it is evaluated using the GLUE benchmark test, and the results reveal that MTLoRA achieves an overall performance increase of about 1.0% across eight tasks; in Natural Language Generation (NLG) tasks, MTLoRA improves performance by an average of 0.95% and 0.31% in the DART and WebNLG tasks, respectively. | 翻訳日:2024-03-13 22:26:25 公開日:2024-03-12 |
# 点雲のカテゴリー非依存ポス推定 Category-Agnostic Pose Estimation for Point Clouds ( http://arxiv.org/abs/2403.07437v1 ) ライセンス: Link先を確認 | Bowen Liu, Wei Liu, Siang Chen, Pengwei Xie and Guijin Wang | (参考訳) オブジェクトポーズ推定の目標は、RGB-D入力における特定のオブジェクトのポーズを視覚的に決定することである。
残念ながら、新しいカテゴリに直面した場合、インスタンスベースとカテゴリベースの両方のメソッドは、目に見えないカテゴリのオブジェクトを扱うことができない。
この問題に対処するために,カテゴリ情報を必要としない点雲のポーズ推定のための幾何学的特徴を導入する手法を提案する。
この方法は、回転不変性を持つ幾何学的特徴である点雲のパッチ特徴のみに基づく。
カテゴリー情報のない学習では,他のカテゴリベース手法と同様に良い結果が得られる。
提案手法は,CAMERA25データセットとModelNet40データセットのカテゴリ情報インスタンスのポーズアノテーションを成功させた。 The goal of object pose estimation is to visually determine the pose of a specific object in the RGB-D input. Unfortunately, when faced with new categories, both instance-based and category-based methods are unable to deal with unseen objects of unseen categories, which is a challenge for pose estimation. To address this issue, this paper proposes a method to introduce geometric features for pose estimation of point clouds without requiring category information. The method is based only on the patch feature of the point cloud, a geometric feature with rotation invariance. After training without category information, our method achieves as good results as other category-based methods. Our method successfully achieved pose annotation of no category information instances on the CAMERA25 dataset and ModelNet40 dataset. | 翻訳日:2024-03-13 22:25:53 公開日:2024-03-12 |
# JSTR:イベントベース移動物体検出のための同時時空間推論 JSTR: Joint Spatio-Temporal Reasoning for Event-based Moving Object Detection ( http://arxiv.org/abs/2403.07436v1 ) ライセンス: Link先を確認 | Hanyu Zhou, Zhiwei Shi, Hao Dong, Shihan Peng, Yi Chang, Luxin Yan | (参考訳) イベントベースの移動オブジェクト検出は、静的なバックグラウンドと移動オブジェクトが混在する難しいタスクである。
一般的に、既存の手法では背景イベントを運動補償によって同じ空間座標系に合わせ、移動物体を識別する。
しかし, 過度な動きによる移動物体イベントの空間的尾行効果は無視され, 抽出した移動物体の構造的整合性に影響を与える可能性がある。
移動物体はタイムスタンプに沿った運動補償イベントからなる点雲に完全な円柱構造を持つことがわかった。
そこで我々は,イベントベース移動物体検出のための新しい時空間推定法を提案する。
具体的には,慣性測定ユニットを用いて背景イベントの動きを補償する。
空間的推論の段階では、補償されたイベントを同じ画像座標に投影し、イベントのタイムスタンプを識別し、動きの信頼性を反映できる時間画像を取得し、さらに時間画像上の適応しきい値を通して移動対象を分割する。
時間的推論の段階では,イベントをタイムスタンプに沿って点雲に構築し,RANSACアルゴリズムを用いて雲中の柱状形状を抽出し,背景を剥離する。
最後に、2つの推論段階から結果を融合して最終移動対象領域を抽出する。
この時空間推論フレームワークは、運動の自信と幾何学的構造から移動物体を効果的に検出することができる。
さらに,提案手法が移動物体検出精度を13%向上できることを示すため,様々なデータセットに対する広範な実験を行った。 Event-based moving object detection is a challenging task, where static background and moving object are mixed together. Typically, existing methods mainly align the background events to the same spatial coordinate system via motion compensation to distinguish the moving object. However, they neglect the potential spatial tailing effect of moving object events caused by excessive motion, which may affect the structure integrity of the extracted moving object. We discover that the moving object has a complete columnar structure in the point cloud composed of motion-compensated events along the timestamp. Motivated by this, we propose a novel joint spatio-temporal reasoning method for event-based moving object detection. Specifically, we first compensate the motion of background events using inertial measurement unit. In spatial reasoning stage, we project the compensated events into the same image coordinate, discretize the timestamp of events to obtain a time image that can reflect the motion confidence, and further segment the moving object through adaptive threshold on the time image. In temporal reasoning stage, we construct the events into a point cloud along timestamp, and use RANSAC algorithm to extract the columnar shape in the cloud for peeling off the background. Finally, we fuse the results from the two reasoning stages to extract the final moving object region. This joint spatio-temporal reasoning framework can effectively detect the moving object from motion confidence and geometric structure. Moreover, we conduct extensive experiments on various datasets to verify that the proposed method can improve the moving object detection accuracy by 13\%. | 翻訳日:2024-03-13 22:25:40 公開日:2024-03-12 |
# DALSA: 少ない注釈付きMR画像による教師付き学習のためのドメイン適応 DALSA: Domain Adaptation for Supervised Learning From Sparsely Annotated MR Images ( http://arxiv.org/abs/2403.07434v1 ) ライセンス: Link先を確認 | Michael G\"otz, Christian Weber, Franciszek Binczyk, Joanna Polanska, Rafal Tarnawski, Barbara Bobek-Billewicz, Ullrich K\"othe, Jens Kleesiek, Bram Stieltjes, Klaus H. Maier-Hein | (参考訳) 本稿では,自動腫瘍分割のための教師付き学習において,スパースアノテーションによる選択誤差のサンプリングを効果的に補正するトランスファーラーニング手法を提案する。
現在の学習に基づく自動組織分類手法の実用性は、アプリケーション、サイト、または取得の設定のシナリオごとに再作成する必要がある手動で分割されたトレーニングデータベースに依存することで著しく妨げられている。
参照データセットの包括的なアノテーションは、非常に労働集約的で、複雑で、エラーを起こしやすい。
提案手法は,スパースおよび曖昧なアノテーションから異なる組織クラスの高品質な分類器を抽出し,スパースサンプリングによって導入されたサンプリング選択誤差を効果的に補正するドメイン適応手法を用いる。
新しいアプローチは、悪性グリオーマ19例のラベル付きマルチモーダルmr画像とbrats 2013チャレンジデータセットの比較分析によって検証される。
完全なラベル付きデータのトレーニングと比較して,ラベル付けとトレーニングに要する時間は70倍,180倍に短縮され,精度は低下した。
これにより、様々なシナリオや画像のセットアップにおいて、大きなアノテートデータベースの確立と絶え間ない拡張が劇的に緩和され、組織分類における学習ベースのアプローチの実践的適用に向けた重要なステップとなる。 We propose a new method that employs transfer learning techniques to effectively correct sampling selection errors introduced by sparse annotations during supervised learning for automated tumor segmentation. The practicality of current learning-based automated tissue classification approaches is severely impeded by their dependency on manually segmented training databases that need to be recreated for each scenario of application, site, or acquisition setup. The comprehensive annotation of reference datasets can be highly labor-intensive, complex, and error-prone. The proposed method derives high-quality classifiers for the different tissue classes from sparse and unambiguous annotations and employs domain adaptation techniques for effectively correcting sampling selection errors introduced by the sparse sampling. The new approach is validated on labeled, multi-modal MR images of 19 patients with malignant gliomas and by comparative analysis on the BraTS 2013 challenge data sets. Compared to training on fully labeled data, we reduced the time for labeling and training by a factor greater than 70 and 180 respectively without sacrificing accuracy. This dramatically eases the establishment and constant extension of large annotated databases in various scenarios and imaging setups and thus represents an important step towards practical applicability of learning-based approaches in tissue classification. | 翻訳日:2024-03-13 22:25:17 公開日:2024-03-12 |
# RGBとLiDARにイベントをもたらす - シーンフローのための階層型視覚運動融合 Bring Event into RGB and LiDAR: Hierarchical Visual-Motion Fusion for Scene Flow ( http://arxiv.org/abs/2403.07432v1 ) ライセンス: Link先を確認 | Hanyu Zhou, Yi Chang, Zhiwei Shi, Luxin Yan | (参考訳) 単一のRGBまたはLiDARは、視覚的特徴に大きく依存する、困難なシーンフローのメインストリームセンサーである。
単一モダリティと比較して、既存の手法では、運動空間における相互の相補的知識を直接融合する融合戦略を採用している。
しかし、これらの直接融合法は、RGBとLiDARの視覚内在的不均一性に起因するモダリティギャップに悩まされ、運動特性が劣化する可能性がある。
視覚空間と運動空間の両方において,RGB と LiDAR が同種であることがわかった。
本研究では,このイベントをRGBとLiDARの橋渡しとして,シーンフローのための新しい階層型視覚運動融合フレームワークを提案する。
視覚融合において、事象は高ダイナミックイメージングのためにRGBで輝度空間に相補性(相対対絶対性)を持ち、構造整合性のためにLiDARでシーン構造空間に相補性(局所境界対大域形状)を持つことが分かる。
運動融合において, rgb, event, lidarは相関空間において相補的(空間的・時空間的・時空間的スパース)であり, 運動連続性に対する運動相関を融合させる動機となる。
提案する階層的融合はマルチモーダル知識を明示的に融合し,視覚空間から動き空間へのシーンフローを漸進的に改善する。
提案手法の優位性を検証するため, 大規模な実験を行った。 Single RGB or LiDAR is the mainstream sensor for the challenging scene flow, which relies heavily on visual features to match motion features. Compared with single modality, existing methods adopt a fusion strategy to directly fuse the cross-modal complementary knowledge in motion space. However, these direct fusion methods may suffer the modality gap due to the visual intrinsic heterogeneous nature between RGB and LiDAR, thus deteriorating motion features. We discover that event has the homogeneous nature with RGB and LiDAR in both visual and motion spaces. In this work, we bring the event as a bridge between RGB and LiDAR, and propose a novel hierarchical visual-motion fusion framework for scene flow, which explores a homogeneous space to fuse the cross-modal complementary knowledge for physical interpretation. In visual fusion, we discover that event has a complementarity (relative v.s. absolute) in luminance space with RGB for high dynamic imaging, and has a complementarity (local boundary v.s. global shape) in scene structure space with LiDAR for structure integrity. In motion fusion, we figure out that RGB, event and LiDAR are complementary (spatial-dense, temporal-dense v.s. spatiotemporal-sparse) to each other in correlation space, which motivates us to fuse their motion correlations for motion continuity. The proposed hierarchical fusion can explicitly fuse the multimodal knowledge to progressively improve scene flow from visual space to motion space. Extensive experiments have been performed to verify the superiority of the proposed method. | 翻訳日:2024-03-13 22:24:55 公開日:2024-03-12 |
# 複数の主成分分析研究にまたがる知識伝達 Knowledge Transfer across Multiple Principal Component Analysis Studies ( http://arxiv.org/abs/2403.07431v1 ) ライセンス: Link先を確認 | Zeyu Li and Kangxiang Qin and Yong He and Wang Zhou and Xinsheng Zhang | (参考訳) 移動学習は統計社会に大きな関心を喚起した。
本稿では,本論文の教師なし学習タスクとは対照的に教師なし学習タスクの知識伝達に着目した。
そこで本研究では,複数音源成分分析(PCA)研究から有用な情報を抽出し,対象PCA課題に対する推定精度を向上する2段階移動学習アルゴリズムを提案する。
最初のステップでは、プールされたデータセット上でPCAを直接実行する代わりに、Grassmannian barycenterと呼ばれる提案手法により、複数の研究にまたがる共有サブスペース情報を統合する。
提案手法はより一般的な場合においてロバスト性と計算上の利点を享受する。
そして、第1ステップから得られた共有部分空間の推定器を利用して、第2ステップで目的のプライベート部分空間を推定する。
本理論解析は,pca研究間の知識伝達の利得を,sparsityが中心的役割を果たす既存の教師付き転送学習タスクとは異なる,拡大した固有値ギャップに寄与している。
さらに,経験的スペクトルプロジェクタの双線型形式が,知識伝達後のより弱い固有値ギャップ条件下で漸近正規性を持つことを証明した。
情報ソースの集合が未知のとき、我々はグラスマン多様体上の修正された最適化問題を解くことで、有用なデータセット選択の能力をアルゴリズムに与え、計算に親しみやすい修正されたグラスマンK-ミーンズ手順をもたらす。
最後に,我々の理論的主張を支持するために,広範な数値シミュレーション結果と実データケースを報告し,提案手法の実証的有用性を示す。 Transfer learning has aroused great interest in the statistical community. In this article, we focus on knowledge transfer for unsupervised learning tasks in contrast to the supervised learning tasks in the literature. Given the transferable source populations, we propose a two-step transfer learning algorithm to extract useful information from multiple source principal component analysis (PCA) studies, thereby enhancing estimation accuracy for the target PCA task. In the first step, we integrate the shared subspace information across multiple studies by a proposed method named as Grassmannian barycenter, instead of directly performing PCA on the pooled dataset. The proposed Grassmannian barycenter method enjoys robustness and computational advantages in more general cases. Then the resulting estimator for the shared subspace from the first step is further utilized to estimate the target private subspace in the second step. Our theoretical analysis credits the gain of knowledge transfer between PCA studies to the enlarged eigenvalue gap, which is different from the existing supervised transfer learning tasks where sparsity plays the central role. In addition, we prove that the bilinear forms of the empirical spectral projectors have asymptotic normality under weaker eigenvalue gap conditions after knowledge transfer. When the set of informativesources is unknown, we endow our algorithm with the capability of useful dataset selection by solving a rectified optimization problem on the Grassmann manifold, which in turn leads to a computationally friendly rectified Grassmannian K-means procedure. In the end, extensive numerical simulation results and a real data case concerning activity recognition are reported to support our theoretical claims and to illustrate the empirical usefulness of the proposed transfer learning methods. | 翻訳日:2024-03-13 22:24:23 公開日:2024-03-12 |
# 亜急性期脳卒中病変分割のための入力データ適応学習(idal) Input Data Adaptive Learning (IDAL) for Sub-acute Ischemic Stroke Lesion Segmentation ( http://arxiv.org/abs/2403.07428v1 ) ライセンス: Link先を確認 | Michael G\"otz, Christian Weber, Christoph Kolb, Klaus Maier-Hein | (参考訳) 機械学習では、より大きなデータベースは通常、より一般的なため、より高い分類精度に関連付けられる。
この一般化は、病理の非常に可変な表現を持つ医学的応用において、非最適分類器につながる可能性がある。
本稿では,入力データに対して最適なトレーニングサンプルを適応的に選択することで,大規模なトレーニングベースから学習する方法を提案する。
このように、異種データベースは2つの形式をサポートする。
ひとつは、少量の注釈付きデータに対処できることで、入力依存の分類器をトレーニングすることで、新しいデータセットと第2のデータセットを素早く含めることができる。
提案手法はSISSチャレンジを用いて評価する。
提案アルゴリズムは,分類精度を大幅に向上させる。 In machine learning larger databases are usually associated with higher classification accuracy due to better generalization. This generalization may lead to non-optimal classifiers in some medical applications with highly variable expressions of pathologies. This paper presents a method for learning from a large training base by adaptively selecting optimal training samples for given input data. In this way heterogeneous databases are supported two-fold. First, by being able to deal with sparsely annotated data allows a quick inclusion of new data set and second, by training an input-dependent classifier. The proposed approach is evaluated using the SISS challenge. The proposed algorithm leads to a significant improvement of the classification accuracy. | 翻訳日:2024-03-13 22:23:55 公開日:2024-03-12 |
# draganything: エンティティ表現を用いた任意のモーションコントロール DragAnything: Motion Control for Anything using Entity Representation ( http://arxiv.org/abs/2403.07420v1 ) ライセンス: Link先を確認 | Wejia Wu, Zhuang Li, Yuchao Gu, Rui Zhao, Yefei He, David Junhao Zhang, Mike Zheng Shou, Yan Li, Tingting Gao, Di Zhang | (参考訳) DragAnythingを導入し、エンティティ表現を利用して、制御可能なビデオ生成における任意のオブジェクトに対するモーション制御を実現する。
既存のモーションコントロール方法と比較して、draganythingはいくつかの利点を提供している。
第一に、軌道ベースは、他の誘導信号(例えばマスクや深度マップ)を取得するとき、よりユーザーフレンドリーである。
ユーザーは対話中に線(軌跡)を描くだけでよい。
第二に、私たちのエンティティ表現は、あらゆるオブジェクトを表現できるオープンドメインの埋め込みとして機能し、バックグラウンドを含む多様なエンティティの動きの制御を可能にします。
最後に、エンティティ表現は複数のオブジェクトに対して同時かつ異なる動作制御を可能にする。
広範な実験により,fvd,fid,ユーザスタディにおいて,従来手法 (例えばdragonuwa) を26%の人的投票で超越した動作制御において,fvd,fid,ユーザスタディの最先端性能を実現することが実証された。 We introduce DragAnything, which utilizes a entity representation to achieve motion control for any object in controllable video generation. Comparison to existing motion control methods, DragAnything offers several advantages. Firstly, trajectory-based is more userfriendly for interaction, when acquiring other guidance signals (e.g., masks, depth maps) is labor-intensive. Users only need to draw a line (trajectory) during interaction. Secondly, our entity representation serves as an open-domain embedding capable of representing any object, enabling the control of motion for diverse entities, including background. Lastly, our entity representation allows simultaneous and distinct motion control for multiple objects. Extensive experiments demonstrate that our DragAnything achieves state-of-the-art performance for FVD, FID, and User Study, particularly in terms of object motion control, where our method surpasses the previous methods (e.g., DragNUWA) by 26% in human voting. | 翻訳日:2024-03-13 22:23:45 公開日:2024-03-12 |
# 多点多次元系に対するキャベロの非局所性論とその実験的検討 Cabello's nonlocality argument for multisetting high-dimensional systems and its experimental test ( http://arxiv.org/abs/2403.07417v1 ) ライセンス: Link先を確認 | M. Yang, D. Zhang, L. Chen | (参考訳) 近年の進歩により、ハーディの非局所性議論は量子相関性を高めるために多重集合系や多次元系へと拡張された。
ハーディの非局所的議論と比較すると、カベロの非局所的議論(CNA)は非局所的特徴を説明できる優れた選択肢として現れる。
オープンな質問は、任意の (k, d) シナリオへの CNA の潜在的な拡張に関して持続する。
ここでは理論と実験の両方でこの問いに答える。
理論的には、整合性グラフを利用することで、k と d の設定による最大成功確率の増加を示す、多重集合と多次元 CNA のための新しい論理的枠組みを構築する。
実験的に、制御可能なフォトニック軌道角運動量エンタングルメントを用いて、実験的に記録された (2, 4) シナリオで 20.29%、 (6, 2) シナリオで 28.72% の非局所性を示す。
我々の研究は、量子力学と古典理論のより鋭い矛盾を示し、オリジナル版では限界を上回っている。 Recent advancements have expanded Hardy's nonlocality arguments into multisetting and multidimensional systems to enhance quantum correlations. In comparison with Hardy's nonlocal argument, Cabello's nonlocal argument (CNA) emerges as a superior choice for illustrating nonlocal features. An open question persists regarding the potential extension of CNA to arbitrary (k, d) scenarios. Here, we answer this question both in theory and experiment. Theoretically, by utilizing compatibility graphs, we construct a new logical framework for multisetting and multidimensional CNA, demonstrating an increase in the maximum successful probability with setting k and dimension d. Experimentally, by employing controllable photonic orbital angular momentum entanglement, we exhibit nonlocality with an experimentally recorded probability of 20.29% in the (2, 4) scenario and 28.72% in the (6, 2) scenario. Our work showcases a sharper contradiction between quantum mechanics and classical theory, surpassing the bound limited by the original version. | 翻訳日:2024-03-13 22:23:26 公開日:2024-03-12 |
# 明示的予測器を用いた学習強化アルゴリズム Learning-Augmented Algorithms with Explicit Predictors ( http://arxiv.org/abs/2403.07413v1 ) ライセンス: Link先を確認 | Marek Elias and Haim Kaplan and Yishay Mansour and Shay Moran | (参考訳) アルゴリズム設計の最近の進歩は、過去のデータと現在のデータから得られた機械学習モデルによる予測の活用方法を示している。
これらのアプローチは、予測が正確である場合のパフォーマンスの向上を実証するとともに、予測が失敗する場合の最悪の保証を提供することによって堅牢性を確保する。
本稿では,オンライン問題に焦点をあてる。この文脈における先行研究は,過去のデータに基づいて予測器を事前訓練し,ブラックボックスとして(トレーニング対象の予測を得るために)使用するパラダイムに焦点をあてた。
対照的に、本研究では、予測器を解き放ち、アルゴリズムの課題の中でそれらが生み出す学習問題を統合する。
特に、予測者が入力のより大きな部分を受信して学習できるようにし、目前にあるアルゴリズムに特化されたオンライン学習アルゴリズムを設計するという究極の目標を掲げる。
この観点から、ブラックボックス設定でよく研究されているキャッシュやスケジューリングなど、いくつかの基本的な問題に焦点を当てる。
検討する各問題に対して,明示的な学習アルゴリズムを活用するアルゴリズムを導入し,全体的な性能の最適化に向けて慎重に設計する。
従来の作業で確立されたものよりも改善された性能境界を導出することで、我々のアプローチの可能性を示す。 Recent advances in algorithmic design show how to utilize predictions obtained by machine learning models from past and present data. These approaches have demonstrated an enhancement in performance when the predictions are accurate, while also ensuring robustness by providing worst-case guarantees when predictions fail. In this paper we focus on online problems; prior research in this context was focused on a paradigm where the predictor is pre-trained on past data and then used as a black box (to get the predictions it was trained for). In contrast, in this work, we unpack the predictor and integrate the learning problem it gives rise for within the algorithmic challenge. In particular we allow the predictor to learn as it receives larger parts of the input, with the ultimate goal of designing online learning algorithms specifically tailored for the algorithmic task at hand. Adopting this perspective, we focus on a number of fundamental problems, including caching and scheduling, which have been well-studied in the black-box setting. For each of the problems we consider, we introduce new algorithms that take advantage of explicit learning algorithms which we carefully design towards optimizing the overall performance. We demonstrate the potential of our approach by deriving performance bounds which improve over those established in previous work. | 翻訳日:2024-03-13 22:23:08 公開日:2024-03-12 |
# nighthaze: 自己優先学習による夜間画像のデハジング NightHaze: Nighttime Image Dehazing via Self-Prior Learning ( http://arxiv.org/abs/2403.07408v1 ) ライセンス: Link先を確認 | Beibei Lin, Yeying Jin, Wending Yan, Wei Ye, Yuan Yuan and Robby T. Tan | (参考訳) Masked Autoencoder (MAE) は、訓練中の高度増強が高レベルのタスクに対して堅牢な表現をもたらすことを示す。
本稿では,MAEのようなフレームワークを夜間画像強調に応用し,実世界の夜間ハゼ劣化に対する耐性の高いネットワーク先行処理の高度化を実証する。
自己優先学習を用いた新しい夜間画像デハジング手法を提案する。
私たちの主な目新しさは、モデルが堅牢な事前学習を可能にする、厳格な拡張の設計にあります。
マスクを使用するMAEとは異なり、夜間画像の2つの重要な難題は、光効果とノイズの増大である。
トレーニング中,光効果を混合し,ノイズを付加し,その後にクリアイメージを復元することで,故意にクリアイメージを劣化させる。
これにより、モデルは明確な背景を学習できます。
グロー効果と光効果をブレンドした画像の画素強度値に近づくノイズ値を増加させることで、増倍は重くなり、より前もってより強くなる。
私たちの自己優先学習は、輝きを抑え、背景シーンの詳細を明らかにするのにかなり効果的ですが、場合によっては、特に過剰抑圧の形で残る望ましくないアーティファクトもいくつかあります。
これらのアーティファクトに対処するために,半教師付き教師学習フレームワークに基づく自己定義モジュールを提案する。
私たちのNightHaze、特に私たちのMAEのような自己学習は、厳しい拡張で訓練されたモデルは、入力されたヘイズ画像の視認性を効果的に改善し、明確な夜間画像の明瞭さに近づいたことを示している。
大規模な実験により、我々のNightHazeは最先端のパフォーマンスを達成し、既存の夜間画像復調法をMUSIQで15.5%、ClipIQAで23.5%で上回った。 Masked autoencoder (MAE) shows that severe augmentation during training produces robust representations for high-level tasks. This paper brings the MAE-like framework to nighttime image enhancement, demonstrating that severe augmentation during training produces strong network priors that are resilient to real-world night haze degradations. We propose a novel nighttime image dehazing method with self-prior learning. Our main novelty lies in the design of severe augmentation, which allows our model to learn robust priors. Unlike MAE that uses masking, we leverage two key challenging factors of nighttime images as augmentation: light effects and noise. During training, we intentionally degrade clear images by blending them with light effects as well as by adding noise, and subsequently restore the clear images. This enables our model to learn clear background priors. By increasing the noise values to approach as high as the pixel intensity values of the glow and light effect blended images, our augmentation becomes severe, resulting in stronger priors. While our self-prior learning is considerably effective in suppressing glow and revealing details of background scenes, in some cases, there are still some undesired artifacts that remain, particularly in the forms of over-suppression. To address these artifacts, we propose a self-refinement module based on the semi-supervised teacher-student framework. Our NightHaze, especially our MAE-like self-prior learning, shows that models trained with severe augmentation effectively improve the visibility of input haze images, approaching the clarity of clear nighttime images. Extensive experiments demonstrate that our NightHaze achieves state-of-the-art performance, outperforming existing nighttime image dehazing methods by a substantial margin of 15.5% for MUSIQ and 23.5% for ClipIQA. | 翻訳日:2024-03-13 22:22:46 公開日:2024-03-12 |
# マルチモーダルな大言語モデルによる癌病理像の分類 In-context learning enables multimodal large language models to classify cancer pathology images ( http://arxiv.org/abs/2403.07407v1 ) ライセンス: Link先を確認 | Dyke Ferber, Georg W\"olflein, Isabella C. Wiest, Marta Ligero, Srividhya Sainath, Narmin Ghaffari Laleh, Omar S.M. El Nahhas, Gustav M\"uller-Franzes, Dirk J\"ager, Daniel Truhn, Jakob Nikolas Kather | (参考訳) 医療画像分類には、Deep Learning Network de novoのトレーニングや基礎モデルの微調整に使用されるラベル付きタスク固有のデータセットが必要である。
しかし、このプロセスは計算的かつ技術的に要求される。
言語処理では、インコンテキスト学習(in-context learning)は、モデルがプロンプト内で学習する代替手段を提供する。
しかし、医学的画像分析では、文脈内学習は未熟である。
本稿では,癌における組織サブタイプ分類,大腸ポリープサブタイピング,リンパ節切片における乳腺腫瘍検出の3つの課題について,癌画像処理における視覚能力(gpt-4v)を備えたモデル生成前訓練トランスフォーマー4を組織学的に評価した。
この結果から,テキスト内学習は,特定のタスクで訓練された特殊なニューラルネットワークの適合や性能に十分であり,最小限のサンプルしか必要としないことがわかった。
本研究は,非ドメイン特化データに基づく大規模視覚言語モデルを適用し,病理組織学における医用画像処理課題を解決することを実証する。
これにより、特に注釈付きデータが不足している領域において、専門知識のない一般のAIモデルの医療専門家へのアクセスが民主化される。 Medical image classification requires labeled, task-specific datasets which are used to train deep learning networks de novo, or to fine-tune foundation models. However, this process is computationally and technically demanding. In language processing, in-context learning provides an alternative, where models learn from within prompts, bypassing the need for parameter updates. Yet, in-context learning remains underexplored in medical image analysis. Here, we systematically evaluate the model Generative Pretrained Transformer 4 with Vision capabilities (GPT-4V) on cancer image processing with in-context learning on three cancer histopathology tasks of high importance: Classification of tissue subtypes in colorectal cancer, colon polyp subtyping and breast tumor detection in lymph node sections. Our results show that in-context learning is sufficient to match or even outperform specialized neural networks trained for particular tasks, while only requiring a minimal number of samples. In summary, this study demonstrates that large vision language models trained on non-domain specific data can be applied out-of-the box to solve medical image-processing tasks in histopathology. This democratizes access of generalist AI models to medical experts without technical background especially for areas where annotated data is scarce. | 翻訳日:2024-03-13 22:22:16 公開日:2024-03-12 |
# FeTrIL++:ヒルクライミングによる初歩的なクラスインクリメンタルラーニングのための機能翻訳 FeTrIL++: Feature Translation for Exemplar-Free Class-Incremental Learning with Hill-Climbing ( http://arxiv.org/abs/2403.07406v1 ) ライセンス: Link先を確認 | Eduard Hogea, Adrian Popescu, Darian Onchis, Gr\'egoire Petit | (参考訳) EFCIL(Exemplar-free class-incremental Learning)は、主に破滅的な忘れ込み、新しいクラスと以前のクラスの両方を正確に認識するために安定性と可塑性の微妙なバランスを必要とするため、重大な課題を提起する。
従来のEFCILのアプローチは、通常、連続的な微調整や安定性を通じて、初期漸進状態を超えて固定された特徴抽出器を使用することによって、塑性のモデルに傾いている。
基礎となるfetrilフレームワークに基づいて,様々なオーバーサンプリング手法と動的最適化手法の有効性を調べるために,新たな実験領域に拡張した。
具体的には、オーバーサンプリングが機能可用性に対する正確性に与える影響、動的リカバリや機能プールの多様化など、さまざまな最適化方法論がインクリメンタルな学習結果に与える影響について検討する。
CIFAR100, Tiny-ImageNet, ImageNet-Subset で実施したこれらの総合実験の結果は、新しいクラスと過去のクラスの精度と10の現代的なメソッドの精度のバランスにおいて、FeTrIL の優れた性能を示す。
特に,EFCILにおけるオーバーサンプリングと最適化の微妙な影響を明らかにし,クラスインクリメンタル学習における特徴空間操作のより洗練された理解に寄与した。
FeTrILとFeTrIL++の拡張解析は、より適応性が高く効率的なEFCIL方法論の道を開いた。 Exemplar-free class-incremental learning (EFCIL) poses significant challenges, primarily due to catastrophic forgetting, necessitating a delicate balance between stability and plasticity to accurately recognize both new and previous classes. Traditional EFCIL approaches typically skew towards either model plasticity through successive fine-tuning or stability by employing a fixed feature extractor beyond the initial incremental state. Building upon the foundational FeTrIL framework, our research extends into novel experimental domains to examine the efficacy of various oversampling techniques and dynamic optimization strategies across multiple challenging datasets and incremental settings. We specifically explore how oversampling impacts accuracy relative to feature availability and how different optimization methodologies, including dynamic recalibration and feature pool diversification, influence incremental learning outcomes. The results from these comprehensive experiments, conducted on CIFAR100, Tiny-ImageNet, and an ImageNet-Subset, under-score the superior performance of FeTrIL in balancing accuracy for both new and past classes against ten contemporary methods. Notably, our extensions reveal the nuanced impacts of oversampling and optimization on EFCIL, contributing to a more refined understanding of feature-space manipulation for class incremental learning. FeTrIL and its extended analysis in this paper FeTrIL++ pave the way for more adaptable and efficient EFCIL methodologies, promising significant improvements in handling catastrophic forgetting without the need for exemplars. | 翻訳日:2024-03-13 22:21:53 公開日:2024-03-12 |
# 推論の高速化と予測の削減--継続学習における早期学習ネットワークの2つのメリット Accelerated Inference and Reduced Forgetting: The Dual Benefits of Early-Exit Networks in Continual Learning ( http://arxiv.org/abs/2403.07404v1 ) ライセンス: Link先を確認 | Filip Szatkowski, Fei Yang, Bart{\l}omiej Twardowski, Tomasz Trzci\'nski, Joost van de Weijer | (参考訳) ディープニューラルネットワークのエネルギー効率の高い雇用の需要によって、アーリーエクイットの手法は研究の注目度が著しく高まっている。
これらの戦略により、ネットワークの早期に意思決定を行うことで、計算時間とリソースを迅速に予測できる。
しかし、今のところ初期のexitネットワークは、定常データ分散のためにのみ開発されており、継続的な非定常データで実世界のシナリオでアプリケーションを制限する。
本研究の目的は,早期のネットワークの継続的な学習を探求することである。
我々は,既存の連続学習手法を早期のアーキテクチャに適合させるとともに,連続的な環境下での学習行動を調べる。
初期のネットワーク層では,リソースが著しく少ない場合でも,忘れが減り,標準ネットワークよりも優れていた。
さらに,タスク・リカレンシ・バイアスが早期終了推定に与える影響を分析し,このバイアスを等しくするシンプルな手法であるタスク・ワイド・ログ・コレクション(TLC)を提案し,クラス増分設定における各計算予算に対するネットワーク性能を向上させる。
10分割CIFAR100 や ImageNetSubset などの標準クラスインクリメンタルラーニングベンチマークにおいて,早期出力と TLC で強化された各種連続学習手法の精度と計算コストを評価し,TLC が標準手法の精度を 70 % 未満で達成可能であることを示す。
さらに,全計算予算において,本手法は,標準値の精度を最大15ポイント向上させる。
本研究は,資源制約環境におけるネットワークと連続学習の相乗効果を強調し,その実用性を強調した。 Driven by the demand for energy-efficient employment of deep neural networks, early-exit methods have experienced a notable increase in research attention. These strategies allow for swift predictions by making decisions early in the network, thereby conserving computation time and resources. However, so far the early-exit networks have only been developed for stationary data distributions, which restricts their application in real-world scenarios with continuous non-stationary data. This study aims to explore the continual learning of the early-exit networks. We adapt existing continual learning methods to fit with early-exit architectures and investigate their behavior in the continual setting. We notice that early network layers exhibit reduced forgetting and can outperform standard networks even when using significantly fewer resources. Furthermore, we analyze the impact of task-recency bias on early-exit inference and propose Task-wise Logits Correction (TLC), a simple method that equalizes this bias and improves the network performance for every given compute budget in the class-incremental setting. We assess the accuracy and computational cost of various continual learning techniques enhanced with early-exits and TLC across standard class-incremental learning benchmarks such as 10 split CIFAR100 and ImageNetSubset and show that TLC can achieve the accuracy of the standard methods using less than 70\% of their computations. Moreover, at full computational budget, our method outperforms the accuracy of the standard counterparts by up to 15 percentage points. Our research underscores the inherent synergy between early-exit networks and continual learning, emphasizing their practical utility in resource-constrained environments. | 翻訳日:2024-03-13 22:21:21 公開日:2024-03-12 |
# 糖尿病診断のための深層学習アプローチ A Deep Learning Approach to Diabetes Diagnosis ( http://arxiv.org/abs/2403.07483v1 ) ライセンス: Link先を確認 | Zeyu Zhang, Khandaker Asif Ahmed, Md Rakibul Hasan, Tom Gedeon, Md Zakir Hossain | (参考訳) 糖尿病はインスリンの生産や利用が不十分なため、体に大きな損傷を与える。
既存の診断手法はしばしば侵襲的であり、コスト制約のような欠点がある。
Classwise k Nearest Neighbor(CkNN)やGeneral Regression Neural Network(GRNN)のような機械学習モデルもあるが、不均衡なデータに悩まされ、パフォーマンスが低くなる。
センサ技術と機械学習の進歩を生かして,バッチ正規化を備えたバックプロパゲーションニューラルネットワーク(BPNN)を用いた非侵襲的糖尿病診断を提案する。
本手法は,従来の機械学習に係わる性能の制限など,既存の課題に対処する。
3つのデータセットの実験結果は、従来の手法と比較して全体的な精度、感度、特異性に大きな改善が見られた。
特に、ピマ糖尿病データセットは89.81%、CDC BRFSS2015データセットは75.49%、Mesra Diabetesデータセットは95.28%である。
これにより、ロバストな糖尿病診断のためのディープラーニングモデルの可能性が高まる。
プロジェクト https://steve-zeyu-zhang.github.io/Diabetes Diagnosis/ Diabetes, resulting from inadequate insulin production or utilization, causes extensive harm to the body. Existing diagnostic methods are often invasive and come with drawbacks, such as cost constraints. Although there are machine learning models like Classwise k Nearest Neighbor (CkNN) and General Regression Neural Network (GRNN), they struggle with imbalanced data and result in under-performance. Leveraging advancements in sensor technology and machine learning, we propose a non-invasive diabetes diagnosis using a Back Propagation Neural Network (BPNN) with batch normalization, incorporating data re-sampling and normalization for class balancing. Our method addresses existing challenges such as limited performance associated with traditional machine learning. Experimental results on three datasets show significant improvements in overall accuracy, sensitivity, and specificity compared to traditional methods. Notably, we achieve accuracies of 89.81% in Pima diabetes dataset, 75.49% in CDC BRFSS2015 dataset, and 95.28% in Mesra Diabetes dataset. This underscores the potential of deep learning models for robust diabetes diagnosis. See project website https://steve-zeyu-zhang.github.io/DiabetesDiagnosis/ | 翻訳日:2024-03-13 22:16:23 公開日:2024-03-12 |
# 古典振動子と相互作用する量子発振器 A quantum oscillator interacting with a classical oscillator ( http://arxiv.org/abs/2403.07479v1 ) ライセンス: Link先を確認 | Muhammad Sajjad, Andrea Russo, Maite Arcos, Andrzej Grudka, Jonathan Oppenheim | (参考訳) 古典振動子の量子発振器の相互作用とバックリアクションについて検討する。
これは量子系を共役として一貫して行うことができ、反作用は古典系が拡散する確率的成分を持つ。
それでも、量子発振器の状態は、古典発振器の軌道上で純粋に条件付けられる。
古典量子路積分定式化法を用いてシステムを解き、古典振動子または量子振動子の遅い運動状態を調べる。
最後に,この古典的構成の相関について検討する。
理論の自由な相関子を同定し、フルパーティション関数を2階まで摂動的に計算することができる。
これは、1つのシステムがデコヒーレンスを行う他のフィールドと相互作用するスカラー量子場や、その1つが古典的に扱われる放射線を放射するシステムなど、効果的に古典的に扱うことができる多くの他のシステムのおもちゃモデルとして機能する。 We study a quantum oscillator interacting and back-reacting on a classical oscillator. This can be done consistently provided the quantum system decoheres, while the backreaction has a stochastic component which causes the classical system to undergo diffusion. Nonetheless the state of the quantum oscillator can remain pure conditioned on the trajectory of the classical oscillator. We solve the system using the classical-quantum path integral formulation, and investigate slow moving regimes of either the classical or quantum oscillator. Lastly, we study the correlators of this classicalquantum setup. We are able to identify the free correlators of the theory and compute the full partition function perturbatively up to second order. This serves as a toy model for a number of other systems in which one system can be treated as effectively classical, such as a scalar quantum field interacting with another field undergoing decoherence, or a system emitting radiation, one of which is treated classically. | 翻訳日:2024-03-13 22:16:03 公開日:2024-03-12 |
# パーソナライズのためのグラフ基礎モデルに向けて Towards Graph Foundation Models for Personalization ( http://arxiv.org/abs/2403.07478v1 ) ライセンス: Link先を確認 | Andreas Damianou, Francesco Fabbri, Paul Gigioli, Marco De Nadai, Alice Wang, Enrico Palumbo, Mounia Lalmas | (参考訳) パーソナライゼーションの領域では、消費信号やコンテンツに基づく表現といった多様な情報ソースを統合することが、最先端のソリューションを構築する上でますます重要になっている。
この点に関して、この話題に関する2つの大きなトレンドは、グラフニューラルネットワーク(GNN)とファンデーションモデル(FM)である。
GNNは、大規模にパーソナライズをパワーアップする業界で人気のソリューションとして登場したが、FMは、ランキングや検索といったパーソナライズタスクにおいて、将来有望なパフォーマンスにのみ注目している。
本稿では,パーソナライゼーションに適したグラフベースの基礎モデリング手法を提案する。
このアプローチの中心は、さまざまな推奨アイテムタイプにわたるマルチホップコンテンツと消費関係をキャプチャするために設計された異種GNN(HGNN)である。
ファンデーションモデルから要求される一般性を確保するため,すべての項目のタイプに対応するノードを大言語モデル (LLM) で表し,コンテンツ特異性を本質的に超越する共振信号を用いてグラフを構築する。
実用的な一般化を容易にするため,我々はhgnnを,コンテントタイプに無依存に動作する2tアーキテクチャに基づく適応機構と結合する。
HGNNは汎用的な埋め込みを生成するが、2Tコンポーネントはユーザとテムの相互作用データの大きさを連続的にモデル化する。
当社の包括的なアプローチは、実世界の産業用オーディオストリーミングプラットフォーム内で、さまざまな製品にレコメンデーションを提供する上で、厳格に検証され、有効であることが証明されています。 In the realm of personalization, integrating diverse information sources such as consumption signals and content-based representations is becoming increasingly critical to build state-of-the-art solutions. In this regard, two of the biggest trends in research around this subject are Graph Neural Networks (GNNs) and Foundation Models (FMs). While GNNs emerged as a popular solution in industry for powering personalization at scale, FMs have only recently caught attention for their promising performance in personalization tasks like ranking and retrieval. In this paper, we present a graph-based foundation modeling approach tailored to personalization. Central to this approach is a Heterogeneous GNN (HGNN) designed to capture multi-hop content and consumption relationships across a range of recommendable item types. To ensure the generality required from a Foundation Model, we employ a Large Language Model (LLM) text-based featurization of nodes that accommodates all item types, and construct the graph using co-interaction signals, which inherently transcend content specificity. To facilitate practical generalization, we further couple the HGNN with an adaptation mechanism based on a two-tower (2T) architecture, which also operates agnostically to content type. This multi-stage approach ensures high scalability; while the HGNN produces general purpose embeddings, the 2T component models in a continuous space the sheer size of user-item interaction data. Our comprehensive approach has been rigorously tested and proven effective in delivering recommendations across a diverse array of products within a real-world, industrial audio streaming platform. | 翻訳日:2024-03-13 22:15:49 公開日:2024-03-12 |
# 種分布モデリングのための不均衡アウェア存在限定損失関数 Imbalance-aware Presence-only Loss Function for Species Distribution Modeling ( http://arxiv.org/abs/2403.07472v1 ) ライセンス: Link先を確認 | Robin Zbinden, Nina van Tiel, Marc Ru{\ss}wurm, Devis Tuia | (参考訳) 生物多様性の著しい低下に直面した種分布モデル(SDM)は、環境条件と種の発生を結びつけることによって、気候変動が種生息地に与える影響を理解するために不可欠である。
伝統的に種観測の不足によって制限されていたこれらのモデルは、市民科学のイニシアチブによって提供されるより大きなデータセットを統合することで、性能が大幅に向上した。
しかし、これらのデータセット内の種間の強い階級的不均衡に苦しんでおり、しばしば希少種のペナルティ化を引き起こしている。
この問題に取り組むため,本研究は,大規模市民科学系データセットにおける存在限定損失関数を用いた深層学習モデルの学習の有効性を評価する。
この不均衡な損失関数は、様々なデータセットやタスク、特に限られた観察で希少種を正確にモデル化する上で、従来の損失関数よりも優れていることが示されている。 In the face of significant biodiversity decline, species distribution models (SDMs) are essential for understanding the impact of climate change on species habitats by connecting environmental conditions to species occurrences. Traditionally limited by a scarcity of species observations, these models have significantly improved in performance through the integration of larger datasets provided by citizen science initiatives. However, they still suffer from the strong class imbalance between species within these datasets, often resulting in the penalization of rare species--those most critical for conservation efforts. To tackle this issue, this study assesses the effectiveness of training deep learning models using a balanced presence-only loss function on large citizen science-based datasets. We demonstrate that this imbalance-aware loss function outperforms traditional loss functions across various datasets and tasks, particularly in accurately modeling rare species with limited observations. | 翻訳日:2024-03-13 22:15:20 公開日:2024-03-12 |
# プッシュフォワード制約の非凸性と機械学習への影響について On the nonconvexity of some push-forward constraints and its consequences in machine learning ( http://arxiv.org/abs/2403.07471v1 ) ライセンス: Link先を確認 | Lucas de Lara (UT3, IMT), Mathis Deronzier (UT3, IMT), Alberto Gonz\'alez-Sanz, Virgile Foy (UT3, IMT) | (参考訳) プッシュフォワード操作により、決定論的写像を通じて確率測度を再分配することができる。
統計と最適化において重要な役割を担っている: 多くの学習問題(特に最適輸送、生成的モデリング、アルゴリズム的公平性)には、モデル上のプッシュフォワード条件として構成された制約やペナルティが含まれる。
しかし、これらの制約の(非)凸性とその関連する学習問題に対する影響に関する一般的な理論的洞察を欠いている。
本論文は,このギャップを埋めることを目的とする。
第1部では、2つの関数の集合の(非)凸性に対する十分かつ必要な条件の範囲を提供する: 1つの確率測度を別の確率測度に輸送する写像、異なる確率測度にまたがる等出力分布を誘導する写像。
これは、ほとんどの確率測度において、これらのプッシュフォワード制約は凸ではないことを強調している。
第二に、この結果が学習生成モデルやグループフェア予測器における凸最適化問題の設計に重大な制限を与えることを示す。
この研究は、研究者や実践者が、プッシュフォワード条件が凸性に与える影響をより深く理解するのに役立つだろう。 The push-forward operation enables one to redistribute a probability measure through a deterministic map. It plays a key role in statistics and optimization: many learning problems (notably from optimal transport, generative modeling, and algorithmic fairness) include constraints or penalties framed as push-forward conditions on the model. However, the literature lacks general theoretical insights on the (non)convexity of such constraints and its consequences on the associated learning problems. This paper aims at filling this gap. In a first part, we provide a range of sufficient and necessary conditions for the (non)convexity of two sets of functions: the maps transporting one probability measure to another; the maps inducing equal output distributions across distinct probability measures. This highlights that for most probability measures, these push-forward constraints are not convex. In a second time, we show how this result implies critical limitations on the design of convex optimization problems for learning generative models or group-fair predictors. This work will hopefully help researchers and practitioners have a better understanding of the critical impact of push-forward conditions onto convexity. | 翻訳日:2024-03-13 22:15:03 公開日:2024-03-12 |
# 3次元高密度キャプションの包括的調査 : 3次元シーンにおけるオブジェクトの局所化と記述 A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing Objects in 3D Scenes ( http://arxiv.org/abs/2403.07469v1 ) ライセンス: Link先を確認 | Ting Yu, Xiaojun Lin, Shuhui Wang, Weiguo Sheng, Qingming Huang, Jun Yu | (参考訳) 3次元の高密度キャプション(3D)は、3Dシーンの詳細な正確な記述を複数生成することを目的とした、視覚言語によるブリッジングタスクである。
2次元の視覚的キャプションに比べて現実世界の表現が密接なため、データ収集や3Dポイントクラウドソースの処理が複雑になるため、大きな可能性と課題が提示される。
既存の手法の人気と成功にもかかわらず、この分野の進歩を要約した包括的な調査が欠如しており、その進歩を妨げている。
本稿では, タスク定義, アーキテクチャ分類, データセット分析, 評価指標, および深い繁栄に関する議論を含む, 3次元密集キャプションの包括的レビューを行う。
従来の文献の合成に基づいて,既存の手法の共通パラダイムとして機能する標準的なパイプラインを洗練する。
また,既存のモデルを明確に分類し,異なるモジュールに関連する技術を要約し,詳細な実験分析を行う。
年代順の導入ではなく,既存の技術間の差異や関係の探索と分析を容易にするために,異なるクラスに分類する。
また、異なる背景や目的の読者を効率的に読むための読解ガイドラインも提供している。
さらに,課題を特定し,関連する課題と整合させ,価値ある洞察を提供し,今後の研究を刺激することで,将来的な3次元高密度キャプションの方向性を示す。
本研究の目的は,3次元密集キャプションの包括的理解,さらなる調査の促進,マルチメディア関連分野における新規アプリケーションの開発に寄与することにある。 Three-Dimensional (3D) dense captioning is an emerging vision-language bridging task that aims to generate multiple detailed and accurate descriptions for 3D scenes. It presents significant potential and challenges due to its closer representation of the real world compared to 2D visual captioning, as well as complexities in data collection and processing of 3D point cloud sources. Despite the popularity and success of existing methods, there is a lack of comprehensive surveys summarizing the advancements in this field, which hinders its progress. In this paper, we provide a comprehensive review of 3D dense captioning, covering task definition, architecture classification, dataset analysis, evaluation metrics, and in-depth prosperity discussions. Based on a synthesis of previous literature, we refine a standard pipeline that serves as a common paradigm for existing methods. We also introduce a clear taxonomy of existing models, summarize technologies involved in different modules, and conduct detailed experiment analysis. Instead of a chronological order introduction, we categorize the methods into different classes to facilitate exploration and analysis of the differences and connections among existing techniques. We also provide a reading guideline to assist readers with different backgrounds and purposes in reading efficiently. Furthermore, we propose a series of promising future directions for 3D dense captioning by identifying challenges and aligning them with the development of related tasks, offering valuable insights and inspiring future research in this field. Our aim is to provide a comprehensive understanding of 3D dense captioning, foster further investigations, and contribute to the development of novel applications in multimedia and related domains. | 翻訳日:2024-03-13 22:14:46 公開日:2024-03-12 |
# すべてとすべてのためのひとつ: 組み込みデバイスのためのGNNベースの制御フロー検証 One for All and All for One: GNN-based Control-Flow Attestation for Embedded Devices ( http://arxiv.org/abs/2403.07465v1 ) ライセンス: Link先を確認 | Marco Chilese, Richard Mitev, Meni Orenbach, Robert Thorburn, Ahmad Atamli, Ahmad-Reza Sadeghi | (参考訳) Control-Flow Attestation (CFA) は、エンティティ(検証者)がリモートコンピュータシステム(プロ)上でのコード実行の完全性を検証するためのセキュリティサービスである。
既存のCFAスキームは、証明者の内部状態(メモリやコードなど)へのアクセス、証明者のソフトウェアの完全な制御フローグラフ(CFG)、大規模な測定セット、あるいはカスタマイズされたハードウェアなどの非現実的な仮定に悩まされている。
さらに、現在のCFAスキームは、計算オーバーヘッドとリソース使用量が高いため、組み込みシステムをテストするには不十分である。
本稿では,組み込みデバイスにおける既存のCFAスキームの限界を克服し,最小限の要件を持つ軽量CFAアプローチであるRAGEを導入する。
RAGEは、コントロールおよび非コントロールデータアタックを含むコード再利用アタック(CRA)を検出することができる。
1つの実行トレースから機能を効率的に抽出し、教師なしグラフニューラルネットワーク(GNN)を活用して、良質な実行からの逸脱を識別する。
RAGEの背後にある中核的な直感は、実行トレース、実行グラフ、実行埋め込みの間の対応を利用して、完全なCFGにアクセスするという非現実的な要求を排除することである。
RAGEを組込みベンチマークで評価し、それを実証する。
i)組み込みソフトウェアに対する40の現実世界攻撃を検出する。
(ii)我々は,実世界の組込みソフトウェアベンチマークであるembenchに対して,合成戻り指向プログラミング (rop) とデータ指向プログラミング (dop) による攻撃を行い,98.03% (rop) と 91.01% (dop) f1-score を達成した。
(iii)さらに,数百万台のデバイスで使用されているopensslのrageを評価し,ropおよびdop攻撃検出に97.49%と84.42%のf1-scoreを達成し,fprは5.47%であった。 Control-Flow Attestation (CFA) is a security service that allows an entity (verifier) to verify the integrity of code execution on a remote computer system (prover). Existing CFA schemes suffer from impractical assumptions, such as requiring access to the prover's internal state (e.g., memory or code), the complete Control-Flow Graph (CFG) of the prover's software, large sets of measurements, or tailor-made hardware. Moreover, current CFA schemes are inadequate for attesting embedded systems due to their high computational overhead and resource usage. In this paper, we overcome the limitations of existing CFA schemes for embedded devices by introducing RAGE, a novel, lightweight CFA approach with minimal requirements. RAGE can detect Code Reuse Attacks (CRA), including control- and non-control-data attacks. It efficiently extracts features from one execution trace and leverages Unsupervised Graph Neural Networks (GNNs) to identify deviations from benign executions. The core intuition behind RAGE is to exploit the correspondence between execution trace, execution graph, and execution embeddings to eliminate the unrealistic requirement of having access to a complete CFG. We evaluate RAGE on embedded benchmarks and demonstrate that (i) it detects 40 real-world attacks on embedded software; (ii) Further, we stress our scheme with synthetic return-oriented programming (ROP) and data-oriented programming (DOP) attacks on the real-world embedded software benchmark Embench, achieving 98.03% (ROP) and 91.01% (DOP) F1-Score while maintaining a low False Positive Rate of 3.19%; (iii) Additionally, we evaluate RAGE on OpenSSL, used by millions of devices and achieve 97.49% and 84.42% F1-Score for ROP and DOP attack detection, with an FPR of 5.47%. | 翻訳日:2024-03-13 22:14:19 公開日:2024-03-12 |
# ランキングに基づく独立試験について On Ranking-based Tests of Independence ( http://arxiv.org/abs/2403.07464v1 ) ライセンス: Link先を確認 | Myrto Limnios (UCPH), St\'ephan Cl\'emen\c{c}on (LTCI, IDS, S2A, IP Paris) | (参考訳) 本稿では,2つの確率変数$\mathbf{x}$ と $\mathbf{y}$ の独立性をテストするための新しい非パラメトリックフレームワークを開発し,未知の辺数 $h(dx)$ と $g(dy)$ とジョイント分布 $f(dx dy)$ を,roc解析と二成分ランキングに基づいて検証する。
このアプローチの背景にある根拠は、二部ランキングアルゴリズムから得られる一対の分布に関連する最適なスコアリング関数である$(h\otimes g,\; f)$ が単位正方形の主対角から逸脱するroc曲線を持つとき、独立性仮説 $\mathcal{h}\_0$ が必ずしも偽であるという事実である。
優れた柔軟性に加えて、この新しい手法は競合相手をはるかに上回る理論的性質を持つ。
2種類のテストエラーに対する非漸近境界が確立される。
実験的な観点から,本論文では, 数値実験で裏付けられたような, 高次元においても, null 仮定 $\mathcal{H}_0$ から, 様々な種類の小さな出発を検出できる顕著な手法を示す。 In this paper we develop a novel nonparametric framework to test the independence of two random variables $\mathbf{X}$ and $\mathbf{Y}$ with unknown respective marginals $H(dx)$ and $G(dy)$ and joint distribution $F(dx dy)$, based on {\it Receiver Operating Characteristic} (ROC) analysis and bipartite ranking. The rationale behind our approach relies on the fact that, the independence hypothesis $\mathcal{H}\_0$ is necessarily false as soon as the optimal scoring function related to the pair of distributions $(H\otimes G,\; F)$, obtained from a bipartite ranking algorithm, has a ROC curve that deviates from the main diagonal of the unit square.We consider a wide class of rank statistics encompassing many ways of deviating from the diagonal in the ROC space to build tests of independence. Beyond its great flexibility, this new method has theoretical properties that far surpass those of its competitors. Nonasymptotic bounds for the two types of testing errors are established. From an empirical perspective, the novel procedure we promote in this paper exhibits a remarkable ability to detect small departures, of various types, from the null assumption $\mathcal{H}_0$, even in high dimension, as supported by the numerical experiments presented here. | 翻訳日:2024-03-13 22:13:42 公開日:2024-03-12 |
# モード混合潜伏変形によるバックドアアタック Backdoor Attack with Mode Mixture Latent Modification ( http://arxiv.org/abs/2403.07463v1 ) ライセンス: Link先を確認 | Hongwei Zhang, Xiaoyin Xu, Dongsheng An, Xianfeng Gu and Min Zhang | (参考訳) 近年、バックドア攻撃はディープニューラルネットワークにとって重要なセキュリティ上の問題となっている。
悪意のあるバックドアが注入された場合、画像分類モデルは妥協される。
この破損により、モデルは通常クリーンなイメージで機能するが、トリガーが存在するときに特定のターゲットラベルを予測する。
以前の研究は、2つのジャンルに分類できる:データセットの一部にトリガイメージを注入することで、ユーザがモデルをスクラッチからトレーニングしたり、トリガイメージジェネレータと一緒にバックドアモデルのトレーニングを行う。
どちらのアプローチも、トリガーとターゲットラベルの間の接続を確立するために、最適化のためにかなりの量の攻撃可能なパラメータを必要とする。
本稿では,クリーンなモデルに対して最小限の変更(特に出力層)しか必要としないバックドア攻撃パラダイムを提案する。
これを実現するために,潜伏空間における異なるモード間に位置するモード混合サンプルを活用し,バックドア攻撃を行う新しい手法を提案する。
MNIST, CIFAR-10, GTSRB, TinyImageNet の4つのベンチマークデータセットに対して,本手法の有効性を評価する。 Backdoor attacks become a significant security concern for deep neural networks in recent years. An image classification model can be compromised if malicious backdoors are injected into it. This corruption will cause the model to function normally on clean images but predict a specific target label when triggers are present. Previous research can be categorized into two genres: poisoning a portion of the dataset with triggered images for users to train the model from scratch, or training a backdoored model alongside a triggered image generator. Both approaches require significant amount of attackable parameters for optimization to establish a connection between the trigger and the target label, which may raise suspicions as more people become aware of the existence of backdoor attacks. In this paper, we propose a backdoor attack paradigm that only requires minimal alterations (specifically, the output layer) to a clean model in order to inject the backdoor under the guise of fine-tuning. To achieve this, we leverage mode mixture samples, which are located between different modes in latent space, and introduce a novel method for conducting backdoor attacks. We evaluate the effectiveness of our method on four popular benchmark datasets: MNIST, CIFAR-10, GTSRB, and TinyImageNet. | 翻訳日:2024-03-13 22:13:12 公開日:2024-03-12 |
# イオンを捕捉した圧縮センシングリンドブレディアン量子トモグラフィ Compressed-sensing Lindbladian quantum tomography with trapped ions ( http://arxiv.org/abs/2403.07462v1 ) ライセンス: Link先を確認 | Dmitrii Dobrynin, Lorenzo Cardarelli, Markus M\"uller, Alejandro Bermudez | (参考訳) 量子システムのダイナミクスを特徴づけることは、量子情報プロセッサ(QIP)の開発における中心的な課題である。
さまざまなデバイスをベンチマークし、特定のノイズについて学び、次のハードウェアアップグレードを計画している。
しかし、このタスクは大量の測定と時間を要する古典的な処理を必要とするため、非常に難しい。
さらに、ノイズの時間依存性に関心がある場合、興味のある時間間隔内でキャラクタリゼーションを繰り返し実行する必要があるため、追加のオーバーヘッドがある。
この限界を克服すると同時に、学習したノイズ源をその関連性によって順序付けすると同時に、リンドブラジアン量子トモグラフィ(lqt)を用いた雑音力学の動的生成器の推論に焦点をあてる。
従来の欠点を緩和するLQTの2つの改良を提案する。
現在のQIPの弱雑音状態において、LQTの最大推定値を線形化し、制約された最適化を凸問題に変換し、古典的な計算コストを削減し、その堅牢性を向上させる。
また、圧縮センシング技術を導入することで、精度を犠牲にすることなく必要な測定回数を削減できる。
これらの改善を説明するために、LQTツールを単一および2量子ゲートのイオントラップ実験に適用し、この方法で従来の技術の現状を推し進める。 Characterizing the dynamics of quantum systems is a central task for the development of quantum information processors (QIPs). It serves to benchmark different devices, learn about their specific noise, and plan the next hardware upgrades. However, this task is also very challenging, for it requires a large number of measurements and time-consuming classical processing. Moreover, when interested in the time dependence of the noise, there is an additional overhead since the characterization must be performed repeatedly within the time interval of interest. To overcome this limitation while, at the same time, ordering the learned sources of noise by their relevance, we focus on the inference of the dynamical generators of the noisy dynamics using Lindbladian quantum tomography (LQT). We propose two different improvements of LQT that alleviate previous shortcomings. In the weak-noise regime of current QIPs, we manage to linearize the maximum likelihood estimation of LQT, turning the constrained optimization into a convex problem to reduce the classical computation cost and to improve its robustness. Moreover, by introducing compressed sensing techniques, we reduce the number of required measurements without sacrificing accuracy. To illustrate these improvements, we apply our LQT tools to trapped-ion experiments of single- and two-qubit gates, advancing in this way the previous state of the art. | 翻訳日:2024-03-13 22:12:53 公開日:2024-03-12 |
# brierスコアとconcordance indexを用いたアンサンブル法とイベント時間分析モデルの実験的比較 Experimental Comparison of Ensemble Methods and Time-to-Event Analysis Models Through Integrated Brier Score and Concordance Index ( http://arxiv.org/abs/2403.07460v1 ) ライセンス: Link先を確認 | Camila Fernandez (LPSM), Chung Shue Chen, Chen Pierre Gaillard, Alonso Silva | (参考訳) 時系列分析(time-to-event analysis)は、予測メンテナンス、顧客チャーン予測、人口寿命推定といった多くの応用分野により、過去数十年で人気が高まっている統計の分野である。
本稿では,複数の予測モデルの性能を時間-事象分析で検証・比較する。
これらは、機械学習アプローチに加えて、半パラメトリックおよびパラメトリック統計モデルで構成されている。
本研究は3つのデータセットを用いて実施し,2つの異なるスコア(BrierスコアとConcordance index)で評価した。
さらに,アンサンブル法は,時間-時間分析においてまだあまり研究されていないが,予測精度を向上し,予測性能の堅牢性を高めることができることを示す。
そこで本研究では,提案手法の性能評価に影響を及ぼす因子を両スコアで評価するシミュレーション実験を行った。 Time-to-event analysis is a branch of statistics that has increased in popularity during the last decades due to its many application fields, such as predictive maintenance, customer churn prediction and population lifetime estimation. In this paper, we review and compare the performance of several prediction models for time-to-event analysis. These consist of semi-parametric and parametric statistical models, in addition to machine learning approaches. Our study is carried out on three datasets and evaluated in two different scores (the integrated Brier score and concordance index). Moreover, we show how ensemble methods, which surprisingly have not yet been much studied in time-to-event analysis, can improve the prediction accuracy and enhance the robustness of the prediction performance. We conclude the analysis with a simulation experiment in which we evaluate the factors influencing the performance ranking of the methods using both scores. | 翻訳日:2024-03-13 22:12:30 公開日:2024-03-12 |
# スマートコントラクト脆弱性の修正:文学と開発者の実践の比較分析 Fixing Smart Contract Vulnerabilities: A Comparative Analysis of Literature and Developer's Practices ( http://arxiv.org/abs/2403.07458v1 ) ライセンス: Link先を確認 | Francesco Salzano, Simone Scalabrino, Rocco Oliveto and Remo Pareschi | (参考訳) Smart Contractsは、不変トランザクションによる操作を実行することによって、ブロックチェーンネットワークでロジックを実行するプログラムである。
Blockchainネットワークはそのようなトランザクションを検証し、整合性を保証するシーケンシャルなブロックに格納する。
スマートコントラクトはバリューステークを扱うが、損傷のあるトランザクションが検証された場合、決してリターンされない可能性がある。
これを防ぐため、セキュリティの側面はいくつかの分野で検討されており、セキュリティ欠陥のカタログ、セキュアなコードレコメンデーション、脆弱性を修正するためのソリューションが研究されている。
本研究では,文献に見られる脆弱性の修正をガイドラインとして言及する。
しかし、開発者がこれらのガイドラインにどの程度準拠しているか、他の実行可能な共通ソリューションがあるのか、それらが何であるかは、はっきりしない。
私たちの研究の目標は、開発者が既存のガイドラインを遵守することに関連する知識のギャップを埋め、セキュリティ脆弱性に対する新しい実行可能なソリューションを提案することです。
目標を達成するために、私たちはsolidity githubリポジトリから、dasp top 10に含まれる脆弱性を修正するコミットを取得します。
本分析は,文献ベースの定着戦略がどの程度続くかを明らかにすることを目的とする。
また,現在文献に記載されていない新たな定着手法の特定と議論を行う。
質的分析を通じて,これらの新しい固定ソリューションの適合性を評価し,有効なアプローチと潜在的な誤りを判別する。 Smart Contracts are programs running logic in the Blockchain network by executing operations through immutable transactions. The Blockchain network validates such transactions, storing them into sequential blocks of which integrity is ensured. Smart Contracts deal with value stakes, if a damaging transaction is validated, it may never be reverted, leading to unrecoverable losses. To prevent this, security aspects have been explored in several fields, with research providing catalogs of security defects, secure code recommendations, and possible solutions to fix vulnerabilities. In our study, we refer to vulnerability fixing in the ways found in the literature as guidelines. However, it is not clear to what extent developers adhere to these guidelines, nor whether there are other viable common solutions and what they are. The goal of our research is to fill knowledge gaps related to developers' observance of existing guidelines and to propose new and viable solutions to security vulnerabilities. To reach our goal, we will obtain from Solidity GitHub repositories the commits that fix vulnerabilities included in the DASP TOP 10 and we will conduct a manual analysis of fixing approaches employed by developers. Our analysis aims to determine the extent to which literature-based fixing strategies are followed. Additionally, we will identify and discuss emerging fixing techniques not currently documented in the literature. Through qualitative analysis, we will evaluate the suitability of these new fixing solutions and discriminate between valid approaches and potential mistakes. | 翻訳日:2024-03-13 22:12:15 公開日:2024-03-12 |
# マルチビューAEライブラリを用いたマルチビューオートエンコーダのチュートリアル A tutorial on multi-view autoencoders using the multi-view-AE library ( http://arxiv.org/abs/2403.07456v1 ) ライセンス: Link先を確認 | Ana Lawry Aguila, Andre Altmann | (参考訳) 近年、データの複数のモダリティ(またはビュー)をモデル化したり、モダリティ間の関係を理解したり、欠落データを生成することへの関心が高まっている。
マルチビューオートエンコーダは、マルチモーダルデータのモデリングにおける適応性と汎用性において大きな牽引力を得ており、そのアプローチを手前のデータの特徴に合わせて調整する能力を示している。
しかし、ほとんどのマルチビューオートエンコーダは矛盾した表記法を持ち、しばしば異なるコーディングフレームワークを使って実装される。
これを解決するために,多視点オートエンコーダのための統一的な数学的枠組みを提案する。
さらに、各モデルのモチベーションと理論的優位性に関する洞察を提供する。
アクセシビリティと実用的な使用を容易にするため、以前に導入された \texttt{multi-view-AE} ライブラリのドキュメントと機能を拡張する。
このライブラリはpythonによる多数のマルチビューオートエンコーダモデルの実装を提供する。
ベンチマーク実験を通じて,従来のものと比較し,同等あるいは優れた性能を示す。
本研究は,マルチモーダルモデリングのための凝集基盤の確立を目標とし,この分野における貴重な教育資源としての役割を果たす。 There has been a growing interest in recent years in modelling multiple modalities (or views) of data to for example, understand the relationship between modalities or to generate missing data. Multi-view autoencoders have gained significant traction for their adaptability and versatility in modelling multi-modal data, demonstrating an ability to tailor their approach to suit the characteristics of the data at hand. However, most multi-view autoencoders have inconsistent notation and are often implemented using different coding frameworks. To address this, we present a unified mathematical framework for multi-view autoencoders, consolidating their formulations. Moreover, we offer insights into the motivation and theoretical advantages of each model. To facilitate accessibility and practical use, we extend the documentation and functionality of the previously introduced \texttt{multi-view-AE} library. This library offers Python implementations of numerous multi-view autoencoder models, presented within a user-friendly framework. Through benchmarking experiments, we evaluate our implementations against previous ones, demonstrating comparable or superior performance. This work aims to establish a cohesive foundation for multi-modal modelling, serving as a valuable educational resource in the field. | 翻訳日:2024-03-13 22:11:53 公開日:2024-03-12 |
# ガウス局所線形写像を用いた高速・高精度・軽量逐次シミュレーションに基づく推論 Fast, accurate and lightweight sequential simulation-based inference using Gaussian locally linear mappings ( http://arxiv.org/abs/2403.07454v1 ) ライセンス: Link先を確認 | Henrik H\"aggstr\"om, Pedro L. C. Rodrigues, Geoffroy Oudoumanessah, Florence Forbes, Umberto Picchini | (参考訳) 難解な確率を持つ複素モデルに対するベイズ推論は、コンピュータシミュレータに多くの呼び出しを行うアルゴリズムを用いて取り組める。
これらの手法を総合的に「シミュレーションベース推論(SBI)」と呼ぶ。
近年のSBI法では、ニューラルネットワーク(NN)を用いて、不可能な可能性関数と後部分布の近似的かつ表現的な構造を提供している。
しかし、一般には精度と計算需要の最適なトレードオフは達成されていない。
本研究では,確率分布の構造的混合を用いて,確率分布と後方分布の近似を両立する代替案を提案する。
提案手法は, NN-based SBI法と比較して, 計算フットプリントがはるかに小さく, 正確な後部推測を導出する。
本稿では,SBI文献のベンチマークモデルについて概説する。 Bayesian inference for complex models with an intractable likelihood can be tackled using algorithms performing many calls to computer simulators. These approaches are collectively known as "simulation-based inference" (SBI). Recent SBI methods have made use of neural networks (NN) to provide approximate, yet expressive constructs for the unavailable likelihood function and the posterior distribution. However, they do not generally achieve an optimal trade-off between accuracy and computational demand. In this work, we propose an alternative that provides both approximations to the likelihood and the posterior distribution, using structured mixtures of probability distributions. Our approach produces accurate posterior inference when compared to state-of-the-art NN-based SBI methods, while exhibiting a much smaller computational footprint. We illustrate our results on several benchmark models from the SBI literature. | 翻訳日:2024-03-13 22:11:33 公開日:2024-03-12 |
# 時間依存多電子schr\"odinger方程式に対するab-initio変分波動関数 Ab-initio variational wave functions for the time-dependent many-electron Schr\"odinger equation ( http://arxiv.org/abs/2403.07447v1 ) ライセンス: Link先を確認 | Jannes Nys, Gabriel Pescia, Giuseppe Carleo | (参考訳) 多電子量子系のダイナミクスを記述することは、量子化学における電子構造の予測、凝縮物系の性質、複素物質の挙動などの応用に不可欠である。
しかしながら、非平衡量子電子系のリアルタイム進化は、システムによる広大な構成空間の探索のため、理論的および計算的アプローチに重大な課題をもたらす。
本研究は,多体相関を捉えることで平均場近似を超えるフェルミオン時間依存波動関数の変分的アプローチを導入する。
提案手法は、時間発展する量子状態のパラメータ化を伴い、状態の進化の近似を可能にする。
電子相関を考慮するため、時間依存のジャストロー因子とバックフロー変換を用いる。
また、これらの関数をパラメータ化するためにニューラルネットワークを組み込むこともできる。
時間依存変動モンテカルロ法を用いて最適時間依存パラメータを効率的に計算する。
このアプローチは、可解調和相互作用モデル、強いレーザー場における二原子分子のダイナミックス、量子ドットの3つの異なる系で実証されている。
いずれの場合も、平均場法で捉えない力学における多体相関の明確なシグネチャを示す。
その結果、量子状態の時間的進化を正確に捉え、平均場の能力を超えた相互作用する電子系の量子力学の洞察を与える、我々の変分的アプローチの能力を示した。 Describing the dynamics of many-electron quantum systems is crucial for applications such as predicting electronic structures in quantum chemistry, the properties of condensed matter systems, and the behaviors of complex materials. However, the real-time evolution of non-equilibrium quantum electronic systems poses a significant challenge for theoretical and computational approaches, due to the system's exploration of a vast configuration space. This work introduces a variational approach for fermionic time-dependent wave functions, surpassing mean-field approximations by capturing many-body correlations. The proposed methodology involves parameterizing the time-evolving quantum state, enabling the approximation of the state's evolution. To account for electron correlations, we employ time-dependent Jastrow factors and backflow transformations. We also show that we can incorporate neural networks to parameterize these functions. The time-dependent variational Monte Carlo technique is employed to efficiently compute the optimal time-dependent parameters. The approach is demonstrated in three distinct systems: the solvable harmonic interaction model, the dynamics of a diatomic molecule in intense laser fields, and a quenched quantum dot. In all cases, we show clear signatures of many-body correlations in the dynamics not captured by mean-field methods. The results showcase the ability of our variational approach to accurately capture the time evolution of quantum states, providing insight into the quantum dynamics of interacting electronic systems, beyond the capabilities of mean-field. | 翻訳日:2024-03-13 22:11:21 公開日:2024-03-12 |
# 単一ソース領域一般化のための不確実性誘導型コントラスト学習 Uncertainty-guided Contrastive Learning for Single Source Domain Generalisation ( http://arxiv.org/abs/2403.07514v1 ) ライセンス: Link先を確認 | Anastasios Arsenos and Dimitrios Kollias and Evangelos Petrongonas and Christos Skliros and Stefanos Kollias | (参考訳) 単一ドメインの一般化の文脈において、目的は単一のドメインのデータにのみ訓練されたモデルであり、様々な不慣れなドメインに直面する際に強いパフォーマンスを示すことである。
本稿では,Contrastive Uncertainty Domain Generalisation Network (CUDGNet)と呼ばれる新しいモデルを紹介する。
鍵となるアイデアは、入力空間とラベル空間の両方のソース容量を架空のドメインジェネレータを通じて拡張し、コントラスト学習を通じて各クラスのドメイン不変表現を共同で学習することである。
2つのSingle Source Domain Generalisation (SSDG)データセットに対する大規模な実験は、我々のアプローチの有効性を実証している。
また,提案手法は,ジェネレータサブネットワークを経由する単一のフォワードパスから推定時間における効率的な不確実性推定を提供する。 In the context of single domain generalisation, the objective is for models that have been exclusively trained on data from a single domain to demonstrate strong performance when confronted with various unfamiliar domains. In this paper, we introduce a novel model referred to as Contrastive Uncertainty Domain Generalisation Network (CUDGNet). The key idea is to augment the source capacity in both input and label spaces through the fictitious domain generator and jointly learn the domain invariant representation of each class through contrastive learning. Extensive experiments on two Single Source Domain Generalisation (SSDG) datasets demonstrate the effectiveness of our approach, which surpasses the state-of-the-art single-DG methods by up to $7.08\%$. Our method also provides efficient uncertainty estimation at inference time from a single forward pass through the generator subnetwork. | 翻訳日:2024-03-13 22:05:28 公開日:2024-03-12 |
# 短期的・長期的医用画像時系列の時空間表現学習 Spatiotemporal Representation Learning for Short and Long Medical Image Time Series ( http://arxiv.org/abs/2403.07513v1 ) ライセンス: Link先を確認 | Chengzhi Shen, Martin J. Menten, Hrvoje Bogunovi\'c, Ursula Schmidt-Erfurth, Hendrik Scholl, Sobha Sivaprasad, Andrew Lotery, Daniel Rueckert, Paul Hager, Robbie Holland | (参考訳) 時間的発達の分析は多くの医療条件の正確な予後に不可欠である。
短時間のスケールで起こる一時的な変化は、心臓循環のような生理機能の健康を評価する鍵となる。
さらに、加齢関連黄斑変性(AMD)のような進化過程において、数ヶ月または数年にわたって起こる長期的発達の追跡は、正確な予後に不可欠である。
臨床意思決定における短期的および長期的分析の重要性にもかかわらず、医学的深層学習では未熟のままである。
短自然映像を対象とした時空間表現学習技術の現状は,時間的発達よりも時間的定数の検出を優先する。
さらに、観測された変化の文脈化に不可欠な買収間の時間間隔も考慮していない。
これらの問題に対処するため、我々は2つのアプローチを提案する。
まず,クリップレベルのコントラスト学習と新たな時間埋め込みを組み合わせることで,不規則な時系列に適応する。
次に,時間系列の潜在フレーム表現のマスキングと予測を提案する。
心的出力推定と3つの予後AMDタスクを含む時間的依存タスクにおいて,2つのアプローチが従来手法よりも優れていた。
全体としては、深層学習の医学への応用で見過ごされている時間パターンの自動分析を可能にする。 Analyzing temporal developments is crucial for the accurate prognosis of many medical conditions. Temporal changes that occur over short time scales are key to assessing the health of physiological functions, such as the cardiac cycle. Moreover, tracking longer term developments that occur over months or years in evolving processes, such as age-related macular degeneration (AMD), is essential for accurate prognosis. Despite the importance of both short and long term analysis to clinical decision making, they remain understudied in medical deep learning. State of the art methods for spatiotemporal representation learning, developed for short natural videos, prioritize the detection of temporal constants rather than temporal developments. Moreover, they do not account for varying time intervals between acquisitions, which are essential for contextualizing observed changes. To address these issues, we propose two approaches. First, we combine clip-level contrastive learning with a novel temporal embedding to adapt to irregular time series. Second, we propose masking and predicting latent frame representations of the temporal sequence. Our two approaches outperform all prior methods on temporally-dependent tasks including cardiac output estimation and three prognostic AMD tasks. Overall, this enables the automated analysis of temporal patterns which are typically overlooked in applications of deep learning to medicine. | 翻訳日:2024-03-13 22:05:13 公開日:2024-03-12 |
# Relevance Score: ランドマークのような計画のためのヒューリスティック Relevance Score: A Landmark-Like Heuristic for Planning ( http://arxiv.org/abs/2403.07510v1 ) ライセンス: Link先を確認 | Oliver Kim and Mohan Sridharan | (参考訳) ランドマークは、計画問題のすべての有効なソリューションに現れる事実やアクションです。
これらは計画の探索を導くヒューリスティックを計算するのにうまく使われている。
目的を達成するための計画のほとんどに現れる事実や行動を特定するのに役立つ新しい「関連スコア」を定義することで、この概念の拡張を検討する。
本稿では,この関連性スコアを計算し,計画探索におけるヒューリスティックとして用いる手法について述べる。
我々は,提案手法の性能を,ベンチマーク計画問題を用いた画期的なヒューリスティック計画手法の状況と比較した。
元々のランドマークに基づくヒューリスティックは、明確に定義されたランドマークを持つ問題に対するパフォーマンス向上につながるが、我々のアプローチは、非自明なランドマークを持たない問題に対するパフォーマンスを大幅に改善する。 Landmarks are facts or actions that appear in all valid solutions of a planning problem. They have been used successfully to calculate heuristics that guide the search for a plan. We investigate an extension to this concept by defining a novel "relevance score" that helps identify facts or actions that appear in most but not all plans to achieve any given goal. We describe an approach to compute this relevance score and use it as a heuristic in the search for a plan. We experimentally compare the performance of our approach with that of a state of the art landmark-based heuristic planning approach using benchmark planning problems. While the original landmark-based heuristic leads to better performance on problems with well-defined landmarks, our approach substantially improves performance on problems that lack non-trivial landmarks. | 翻訳日:2024-03-13 22:04:55 公開日:2024-03-12 |
# MoAI: 大規模言語と視覚モデルのための全知の混合 MoAI: Mixture of All Intelligence for Large Language and Vision Models ( http://arxiv.org/abs/2403.07508v1 ) ライセンス: Link先を確認 | Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro | (参考訳) 大規模言語モデル(LLM)と命令チューニングの台頭は、命令調整された大規模言語とビジョンモデル(LLVM)の現在のトレンドにつながっている。
この傾向は、特定の目的に合わせて調整された多数の命令チューニングデータセットを慎重にキュレートするか、膨大な視覚言語(VL)データを管理するためにLLVMを拡大することを含む。
しかし、現在のLLVMは、セグメンテーション、検出、シーングラフ生成(SGG)、光学文字認識(OCR)といった視覚的知覚タスクにおいて、特殊なコンピュータビジョン(CV)モデルから利用できる詳細で包括的な実世界のシーン理解を無視している。
代わりに、既存のLLVMは、主にLLMバックボーンのキャパシティと創発能力に依存している。
そこで本研究では,外部セグメンテーション,検出,sgg,ocrモデルの出力から得られる補助視覚情報を活用した新しいllvmであるmoai(mix of all intelligence)を提案する。
MoAIは新たに導入されたMoAI-CompressorとMoAI-Mixerの2つのモジュールを運用している。
外部CVモデルの出力を言語化した後、MoAI圧縮機はそれらを調整して凝縮し、VLタスクに関連のある視覚情報を効率的に利用する。
次にmoai-mixerは、3種類の知性(1)視覚的特徴、(2)外部cvモデルからの補助的特徴、(3)専門家の混合概念を利用して言語的特徴をブレンドする。
この統合を通じて、MoAIは、多数のゼロショットVLタスク、特にオブジェクトの存在、位置、関係、OCRといった現実世界のシーン理解に関連するタスクにおいて、モデルサイズを拡大したり、余分なビジュアルインストラクションチューニングデータセットをキュレートしたりすることなく、オープンソースとクローズドソースのLLVMを著しく上回っている。 The rise of large language models (LLMs) and instruction tuning has led to the current trend of instruction-tuned large language and vision models (LLVMs). This trend involves either meticulously curating numerous instruction tuning datasets tailored to specific objectives or enlarging LLVMs to manage vast amounts of vision language (VL) data. However, current LLVMs have disregarded the detailed and comprehensive real-world scene understanding available from specialized computer vision (CV) models in visual perception tasks such as segmentation, detection, scene graph generation (SGG), and optical character recognition (OCR). Instead, the existing LLVMs rely mainly on the large capacity and emergent capabilities of their LLM backbones. Therefore, we present a new LLVM, Mixture of All Intelligence (MoAI), which leverages auxiliary visual information obtained from the outputs of external segmentation, detection, SGG, and OCR models. MoAI operates through two newly introduced modules: MoAI-Compressor and MoAI-Mixer. After verbalizing the outputs of the external CV models, the MoAI-Compressor aligns and condenses them to efficiently use relevant auxiliary visual information for VL tasks. MoAI-Mixer then blends three types of intelligence (1) visual features, (2) auxiliary features from the external CV models, and (3) language features by utilizing the concept of Mixture of Experts. Through this integration, MoAI significantly outperforms both open-source and closed-source LLVMs in numerous zero-shot VL tasks, particularly those related to real-world scene understanding such as object existence, positions, relations, and OCR without enlarging the model size or curating extra visual instruction tuning datasets. | 翻訳日:2024-03-13 22:04:39 公開日:2024-03-12 |
# 物理インフォームドニューラルネットワークを用いた木星磁場の再構成 Reconstructions of Jupiter's magnetic field using physics informed neural networks ( http://arxiv.org/abs/2403.07507v1 ) ライセンス: Link先を確認 | Philip W. Livermore, Leyuan Wu, Longwei Chen, Sjoerd A.L. de Ridder | (参考訳) ジュノーミッションから収集されたデータを用いた磁気観測は、木星の内部に制約を与えるのに使用できる。
しかし、電気伝導度ゼロと球面高調波の表現を仮定した再構成の継続は、小規模の雑音の増大によって制限される。
本稿では、物理学的インフォームドニューラルネットワークに基づく木星内部磁場の新しい再構成と、Junoの軌道の最初の33(PINN33)または最初の50(PINN50)について述べる。
この方法は局所的な構造を解き、弱い周囲電流を発生させる。
他の方法と比較すると、木星の磁場を表面上と表面上の両方で再構成することは類似しており、ジュノーのデータと類似している。
しかし, 本モデルでは, 奥行きのノイズが抑制されないため, 内部構造のより明瞭な画像が得られる。
我々はダイナモ境界が0.8の分数半径にあると推定する。
この深さでは、磁場は長手帯に配列され、大きな青斑は反対に符号付けられたフラックスの隣接する構造に根付いているように見える。 Magnetic sounding using data collected from the Juno mission can be used to provide constraints on Jupiter's interior. However, inwards continuation of reconstructions assuming zero electrical conductivity and a representation in spherical harmonics are limited by the enhancement of noise at small scales. In this paper we describe new reconstructions of Jupiter's internal magnetic field based on physics-informed neural networks and either the first 33 (PINN33) or the first 50 (PINN50) of Juno's orbits. The method can resolve local structures, and allows for weak ambient electrical currents. Compared with other methods, our reconstructions of Jupiter's magnetic field both on and above the surface are similar, and we achieve a similar fit to the Juno data. However, our models are not hampered by noise at depth, and so offer a much clearer picture of the interior structure. We estimate that the dynamo boundary is at a fractional radius of 0.8. At this depth, the magnetic field is arranged into longitudinal bands, and the great blue spot appears to be rooted in neighbouring structures of oppositely signed flux. | 翻訳日:2024-03-13 22:04:05 公開日:2024-03-12 |
# コードの大規模言語モデルの堅牢性、セキュリティ、プライバシ、説明可能性、効率性、ユーザビリティ Robustness, Security, Privacy, Explainability, Efficiency, and Usability of Large Language Models for Code ( http://arxiv.org/abs/2403.07506v1 ) ライセンス: Link先を確認 | Zhou Yang, Zhensu Sun, Terry Zhuo Yue, Premkumar Devanbu, David Lo | (参考訳) コードのための大規模言語モデル(LLM4Code)は、ソースコードの処理性能(例えば高い精度)を示すもので、ソフトウェア工学を大きく変えた。
多くの研究はLM4Codeの非機能特性を別々に研究しているが、これらの特性がどのように評価され、拡張されるかについては体系的なレビューはない。
本稿は,146件の関連研究を精査し,ロバスト性,セキュリティ,プライバシ,説明可能性,効率性,ユーザビリティなど,正確性を超えた7つの重要な特性を特定するための体系的文献レビューを行った。
現状と動向を議論し,既存の研究のギャップを特定し,今後の研究に向けて有望な方向性を示す。 Large language models for code (LLM4Code), which demonstrate strong performance (e.g., high accuracy) in processing source code, have significantly transformed software engineering. Many studies separately investigate the non-functional properties of LM4Code, but there is no systematic review of how these properties are evaluated and enhanced. This paper fills this gap by thoroughly examining 146 relevant studies, thereby presenting the first systematic literature review to identify seven important properties beyond accuracy, including robustness, security, privacy, explainability, efficiency, and usability. We discuss the current state-of-the-art methods and trends, identify gaps in existing research, and present promising directions for future study. | 翻訳日:2024-03-13 22:03:48 公開日:2024-03-12 |
# hevの制約付き最適燃料消費量:制約付き強化学習アプローチ Constrained Optimal Fuel Consumption of HEV: A Constrained Reinforcement Learning Approach ( http://arxiv.org/abs/2403.07503v1 ) ライセンス: Link先を確認 | Shuchang Yan | (参考訳) ハイブリッド電気自動車(HEV)は、内燃機関と電動モーターの作動特性をうまく組み合わせられるため、ますます人気が高まっている。
しかし、特定の組立条件と特定の速度曲線の下でのバッテリ電気バランスケースのhevの最小燃料消費量は、学界や産業においていまだに明確化する必要がある。
この問題に関して、この研究は、制約付き強化学習(CRL)の観点から初めて、制約付き最適燃料消費(COFC)の数学的表現を提供する。
また、crlの2つの主要なアプローチ、制約付き変分政策最適化(cvpo)とラグランジアンに基づくアプローチが、バッテリ電気バランス条件下で車両の最小燃料消費量を得るために初めて利用される。
我々は,NEDC条件下で有名なTOYOTAハイブリッドシステム(THS)のケーススタディを行い,CRL手法の実装とCVPOとラグランジアン方式の性能比較を行う。
本研究は,socバランス制約を維持しつつ,cvpoとラグランジアンに基づくアプローチが最も低い燃料消費量を得ることができることを示すものである。
CVPO法は安定に収束するが、ラグランジアン法はより大きな振動を伴って3.95 L/100kmの低燃費が得られる。
本結果は,COFC問題に対するCRL手法の有効性を検証するものである。 Hybrid electric vehicles (HEVs) are becoming increasingly popular because they can better combine the working characteristics of internal combustion engines and electric motors. However, the minimum fuel consumption of an HEV for a battery electrical balance case under a specific assembly condition and a specific speed curve still needs to be clarified in academia and industry. Regarding this problem, this work provides the mathematical expression of constrained optimal fuel consumption (COFC) from the perspective of constrained reinforcement learning (CRL) for the first time globally. Also, two mainstream approaches of CRL, constrained variational policy optimization (CVPO) and Lagrangian-based approaches, are utilized for the first time to obtain the vehicle's minimum fuel consumption under the battery electrical balance condition. We conduct case studies on the well-known Prius TOYOTA hybrid system (THS) under the NEDC condition; we give vital steps to implement CRL approaches and compare the performance between the CVPO and Lagrangian-based approaches. Our case study found that CVPO and Lagrangian-based approaches can obtain the lowest fuel consumption while maintaining the SOC balance constraint. The CVPO approach converges stable, but the Lagrangian-based approach can obtain the lowest fuel consumption at 3.95 L/100km, though with more significant oscillations. This result verifies the effectiveness of our proposed CRL approaches to the COFC problem. | 翻訳日:2024-03-13 22:03:32 公開日:2024-03-12 |
# マルチラベル機械学習を用いたセキュリティ関連手法の検出 Detecting Security-Relevant Methods using Multi-label Machine Learning ( http://arxiv.org/abs/2403.07501v1 ) ライセンス: Link先を確認 | Oshando Johnson, Goran Piskachev, Ranjith Krishnamurthy, Eric Bodden | (参考訳) セキュリティ脆弱性を検出するには、セキュリティ関連のメソッドで静的解析ツールを設定する必要がある。
現在のアプローチでは、バイナリ関連機械学習アプローチを使用して、そのようなメソッドを自動的に識別できる。
しかし、セキュリティ関連メソッド間の依存関係を無視し、過度に一般化し、実際はパフォーマンスが良くない。
さらに、検出したメソッドを使用して静的解析ツールを手動で設定する必要がある。
ユーザからのフィードバックと私たちの観察に基づいて、過剰な手作業のステップは退屈で、エラーを起こし、直感に反することが多い。
本稿では,ラベル間の依存関係を考慮したマルチラベル機械学習アプローチを用いて,セキュリティ関連メソッドを検出するIntelliJ IDEAプラグインであるDev-Assistを提案する。
プラグインは静的解析ツールの設定を自動的に生成し、静的解析を実行し、IntelliJ IDEAで結果を表示することができる。
我々の実験によると、Dev-Assistの機械学習アプローチは、関連するアプローチよりもF1-Measureが高い。
さらにプラグインは、静的解析ツールの設定と使用に要する手作業の削減と簡略化も行う。 To detect security vulnerabilities, static analysis tools need to be configured with security-relevant methods. Current approaches can automatically identify such methods using binary relevance machine learning approaches. However, they ignore dependencies among security-relevant methods, over-generalize and perform poorly in practice. Additionally, users have to nevertheless manually configure static analysis tools using the detected methods. Based on feedback from users and our observations, the excessive manual steps can often be tedious, error-prone and counter-intuitive. In this paper, we present Dev-Assist, an IntelliJ IDEA plugin that detects security-relevant methods using a multi-label machine learning approach that considers dependencies among labels. The plugin can automatically generate configurations for static analysis tools, run the static analysis, and show the results in IntelliJ IDEA. Our experiments reveal that Dev-Assist's machine learning approach has a higher F1-Measure than related approaches. Moreover, the plugin reduces and simplifies the manual effort required when configuring and using static analysis tools. | 翻訳日:2024-03-13 22:03:07 公開日:2024-03-12 |
# block-wise lora: テキスト対画像生成における効果的なパーソナライゼーションとスタイライゼーションのための細粒度ローラの再検討 Block-wise LoRA: Revisiting Fine-grained LoRA for Effective Personalization and Stylization in Text-to-Image Generation ( http://arxiv.org/abs/2403.07500v1 ) ライセンス: Link先を確認 | Likun Li, Haoqi Zeng, Changpeng Yang, Haozhe Jia, Di Xu | (参考訳) テキストから画像へのパーソナライゼーションとスタイライゼーションの目的は、事前訓練された拡散モデルに、ユーザによって導入された新しい概念を分析し、それらを期待されるスタイルに組み込むように指示することである。
近年,この課題に対処するためのパラメータ効率細調整(PEFT)アプローチが広く採用され,この分野の発展に大きく寄与している。
その人気にもかかわらず、既存の効率的な微調整手法はT2I世代において効果的なパーソナライズとスタイリングを達成するのに依然として苦労している。
そこで本稿では,sdの異なるブロックに対して,入力プロンプトやターゲットidに忠実な画像を生成するための細粒度細粒度調整を行うブロックワイズ低ランク適応 (lora) を提案する。
大規模実験により提案手法の有効性が示された。 The objective of personalization and stylization in text-to-image is to instruct a pre-trained diffusion model to analyze new concepts introduced by users and incorporate them into expected styles. Recently, parameter-efficient fine-tuning (PEFT) approaches have been widely adopted to address this task and have greatly propelled the development of this field. Despite their popularity, existing efficient fine-tuning methods still struggle to achieve effective personalization and stylization in T2I generation. To address this issue, we propose block-wise Low-Rank Adaptation (LoRA) to perform fine-grained fine-tuning for different blocks of SD, which can generate images faithful to input prompts and target identity and also with desired style. Extensive experiments demonstrate the effectiveness of the proposed method. | 翻訳日:2024-03-13 22:02:55 公開日:2024-03-12 |
# HMCのためのチューニング対角スケール行列 Tuning diagonal scale matrices for HMC ( http://arxiv.org/abs/2403.07495v1 ) ライセンス: Link先を確認 | Jimmy Huy Tran and Tore Selland Kleppe | (参考訳) HMCの対角スケール行列を適応的に調整する3つの手法を議論し比較した。
限界標準偏差の推定によるスケーリングの一般的な実践をベンチマークとして扱う。
平均対目標勾配(isg)に従ってスケーリングし、基礎となるハミルトニアンダイナミクスが交叉する時の周波数が次元をまたいで一様となることを目標とするスケーリング手法を代替案とする。
数値的研究により、ISG法は、特に強い相関関係や非線形依存を持つ場合において、ベンチマークよりも効率的なサンプリングにつながることが示唆されている。
isgメソッドは実装も簡単で、計算コストも安価で、ベンチマークの代替として自動チューニングされたコードを含めるのは比較的簡単である。 Three approaches for adaptively tuning diagonal scale matrices for HMC are discussed and compared. The common practice of scaling according to estimated marginal standard deviations is taken as a benchmark. Scaling according to the mean log-target gradient (ISG), and a scaling method targeting that the frequency of when the underlying Hamiltonian dynamics crosses the respective medians should be uniform across dimensions, are taken as alternatives. Numerical studies suggest that the ISG method leads in many cases to more efficient sampling than the benchmark, in particular in cases with strong correlations or non-linear dependencies. The ISG method is also easy to implement, computationally cheap and would be relatively simple to include in automatically tuned codes as an alternative to the benchmark practice. | 翻訳日:2024-03-13 22:02:37 公開日:2024-03-12 |
# SemGauss-SLAM:Dense Semantic Gaussian Splatting SLAM SemGauss-SLAM: Dense Semantic Gaussian Splatting SLAM ( http://arxiv.org/abs/2403.07494v1 ) ライセンス: Link先を確認 | Siting Zhu, Renjie Qin, Guangming Wang, Jiuming Liu, Hesheng Wang | (参考訳) 本稿では,3次元ガウス表現を利用した最初のセマンティックSLAMシステムであるSemGauss-SLAMを提案する。
本システムでは,3次元ガウス表現に意味的特徴を埋め込み,環境空間レイアウト内の意味情報を効果的にエンコードし,正確な意味的シーン表現を行う。
さらに, 3次元ガウス表現を更新するための特徴量損失を提案し, 3次元ガウス最適化のための高レベルガイダンスを実現する。
さらに, 累積ドリフトを低減し, 再構成精度を向上させるため, 3次元ガウス表現とカメラポーズの協調最適化のための意味関係を利用した意味変形バンドル調整を導入することにより, よりロバストなトラッキングと一貫したマッピングを実現する。
我々のSemGauss-SLAM法は,ReplicaおよびScanNetデータセット上でのマッピングと追跡の精度において,既存の高密度セマンティックSLAM法よりも優れた性能を示すとともに,新規ビューセマンティック合成と3Dセマンティックマッピングの優れた機能を示す。 We propose SemGauss-SLAM, the first semantic SLAM system utilizing 3D Gaussian representation, that enables accurate 3D semantic mapping, robust camera tracking, and high-quality rendering in real-time. In this system, we incorporate semantic feature embedding into 3D Gaussian representation, which effectively encodes semantic information within the spatial layout of the environment for precise semantic scene representation. Furthermore, we propose feature-level loss for updating 3D Gaussian representation, enabling higher-level guidance for 3D Gaussian optimization. In addition, to reduce cumulative drift and improve reconstruction accuracy, we introduce semantic-informed bundle adjustment leveraging semantic associations for joint optimization of 3D Gaussian representation and camera poses, leading to more robust tracking and consistent mapping. Our SemGauss-SLAM method demonstrates superior performance over existing dense semantic SLAM methods in terms of mapping and tracking accuracy on Replica and ScanNet datasets, while also showing excellent capabilities in novel-view semantic synthesis and 3D semantic mapping. | 翻訳日:2024-03-13 22:02:23 公開日:2024-03-12 |
# 通信可能性幾何学によるデータ科学における符号付きグラフ Signed graphs in data sciences via communicability geometry ( http://arxiv.org/abs/2403.07493v1 ) ライセンス: Link先を確認 | Fernando Diaz-Diaz and Ernesto Estrada | (参考訳) 署名されたグラフは、さまざまなコンテキストにおけるデータの表現方法として、衝突する相互作用が存在する。
これには、生物学的、生態学的、社会的なシステムのデータが含まれる。
ここでは、符号付きグラフに対するコミュニカビリティ幾何の概念を提案し、コミュニカビリティ距離や角度といったこの空間のメトリクスがユークリッドおよび球面であることを証明する。
次に、これらのメトリクスを適用して、署名付きグラフのデータ解析におけるいくつかの問題を統一的に解決する。
これらのグラフには、符号付きグラフの分割、次元減少、符号付きネットワークにおけるアライアンス階層の発見、およびこの種のグラフで表されるシステムにおける既存の派閥間の分極の度合いの定量化が含まれる。 Signed graphs are an emergent way of representing data in a variety of contexts were conflicting interactions exist. These include data from biological, ecological, and social systems. Here we propose the concept of communicability geometry for signed graphs, proving that metrics in this space, such as the communicability distance and angles, are Euclidean and spherical. We then apply these metrics to solve several problems in data analysis of signed graphs in a unified way. They include the partitioning of signed graphs, dimensionality reduction, finding hierarchies of alliances in signed networks as well as the quantification of the degree of polarization between the existing factions in systems represented by this type of graphs. | 翻訳日:2024-03-13 22:01:59 公開日:2024-03-12 |
# motion mamba:階層的・双方向選択的ssmを用いた効率的・長期動作生成 Motion Mamba: Efficient and Long Sequence Motion Generation with Hierarchical and Bidirectional Selective SSM ( http://arxiv.org/abs/2403.07487v1 ) ライセンス: Link先を確認 | Zeyu Zhang, Akide Liu, Ian Reid, Richard Hartley, Bohan Zhuang, Hao Tang | (参考訳) 人間の動き生成は、生成的コンピュータビジョンにおいて重要な追求であり、長いシーケンスと効率的な動き生成を実現することは依然として困難である。
状態空間モデル(SSM)の最近の進歩、特にMambaは、効率的なハードウェアを意識した設計による長いシーケンスモデリングにおいてかなり有望であることを示した。
それにもかかわらず、ssmの動作生成への適応は、動作シーケンスをモデル化するための特別な設計アーキテクチャが欠如しているため、困難に直面している。
これらの課題に対処するために,ssmを用いた先駆的モーション生成モデルを示す,シンプルで効率的なアプローチであるmotion mambaを提案する。
具体的には,階層型テンポラルマンバ(HTM)ブロックを設計し,フレーム間の動きの整合性を保つことを目的とした対称U-Netアーキテクチャを用いて,孤立SSMモジュールの様々な数をアンサンブルすることで時間データを処理する。
また,両方向空間mambaブロックをデザインし,潜在ポーズを双方向に処理し,時空間フレーム内の正確な動き生成を促進する。
提案手法は,HumanML3DおよびKIT-MLデータセットの最大50%のFID改善と最大4倍の高速化を実現する。
プロジェクトサイトhttps://steve-zeyu-zhang.github.io/motionmamba/ Human motion generation stands as a significant pursuit in generative computer vision, while achieving long-sequence and efficient motion generation remains challenging. Recent advancements in state space models (SSMs), notably Mamba, have showcased considerable promise in long sequence modeling with an efficient hardware-aware design, which appears to be a promising direction to build motion generation model upon it. Nevertheless, adapting SSMs to motion generation faces hurdles since the lack of a specialized design architecture to model motion sequence. To address these challenges, we propose Motion Mamba, a simple and efficient approach that presents the pioneering motion generation model utilized SSMs. Specifically, we design a Hierarchical Temporal Mamba (HTM) block to process temporal data by ensemble varying numbers of isolated SSM modules across a symmetric U-Net architecture aimed at preserving motion consistency between frames. We also design a Bidirectional Spatial Mamba (BSM) block to bidirectionally process latent poses, to enhance accurate motion generation within a temporal frame. Our proposed method achieves up to 50% FID improvement and up to 4 times faster on the HumanML3D and KIT-ML datasets compared to the previous best diffusion-based method, which demonstrates strong capabilities of high-quality long sequence motion modeling and real-time human motion generation. See project website https://steve-zeyu-zhang.github.io/MotionMamba/ | 翻訳日:2024-03-13 22:01:46 公開日:2024-03-12 |
# XpertAI:サブマニフォールドのモデル戦略を明らかにする XpertAI: uncovering model strategies for sub-manifolds ( http://arxiv.org/abs/2403.07486v1 ) ライセンス: Link先を確認 | Simon Letzgus, Klaus-Robert M\"uller, and Gr\'egoire Montavon | (参考訳) 近年、説明可能なAI(XAI)手法は、MLモデルから深い検証と知識抽出を促進する。
分類のために広く研究されているが、回帰モデルに特有の課題に対処するXAIソリューションはほとんどない。
レグレッションでは、特定のユーザークエリに対処するために、正確に説明を定式化する必要がある(例えば、'why is the output above 0?' と 'why is the output above 50?' を区別する)。
さらに、モデルの振る舞いを関連するデータサブマニフォールドに反映する必要がある。
本稿では,予測戦略を複数の範囲固有のサブストラテジーに分解するフレームワークであるXpertAIを紹介し,それらのサブストラテジーの線形結合としてモデルに関する正確なクエリ(explanandum)を定式化できるようにする。
XpertAIは一般的に、オクルージョン、勾配積分、逆伝播に基づく一般的なXAI属性技術と連携して機能するように構成されている。
質的かつ定量的な結果は、我々のアプローチの利点を実証する。 In recent years, Explainable AI (XAI) methods have facilitated profound validation and knowledge extraction from ML models. While extensively studied for classification, few XAI solutions have addressed the challenges specific to regression models. In regression, explanations need to be precisely formulated to address specific user queries (e.g.\ distinguishing between `Why is the output above 0?' and `Why is the output above 50?'). They should furthermore reflect the model's behavior on the relevant data sub-manifold. In this paper, we introduce XpertAI, a framework that disentangles the prediction strategy into multiple range-specific sub-strategies and allows the formulation of precise queries about the model (the `explanandum') as a linear combination of those sub-strategies. XpertAI is formulated generally to work alongside popular XAI attribution techniques, based on occlusion, gradient integration, or reverse propagation. Qualitative and quantitative results, demonstrate the benefits of our approach. | 翻訳日:2024-03-13 22:01:20 公開日:2024-03-12 |
# PMBO:多変量ポリノミアルサロゲートによるブラックボックス最適化の強化 PMBO: Enhancing Black-Box Optimization through Multivariate Polynomial Surrogates ( http://arxiv.org/abs/2403.07485v1 ) ライセンス: Link先を確認 | Janina Schreiber, Pau Batlle, Damar Wicaksono, Michael Hecht | (参考訳) 本稿では,PMBO (Polynomial-model-based optimization) と呼ばれるサロゲートベースのブラックボックス最適化手法を提案する。
このアルゴリズムは、目的と多項式適合の間の誤差をモデル化するためにガウス過程を用いて、多項式近似をベイズ最適化ステップと交換する。
本稿では,PMBOのアルゴリズム設計について述べるとともに,PMBOの性能を解析的テスト関数の集合に対する最適化手法と比較する。
その結果、PMBOは古典的ベイズ最適化よりも優れており、相関関数群とそのハイパーパラメータ設定の選択に対して頑健であり、逆に古典的ベイズ最適化において慎重に調整する必要があることが示された。
PMBOは、Covariance Matrix Adaptation -- Evolution Strategy (CMA-ES)のような最先端の進化的アルゴリズムと互換性がある。
この結果から,PMBOは低次元最適化問題に対処する際,サロゲートに基づく最適化手法の重要選択として現れることが示唆された。
ここで、多項式の簡素な性質は推論されたサーロゲートモデルの解釈と解析の機会を開き、対象関数のランドスケープに関する大局的な視点を提供する。 We introduce a surrogate-based black-box optimization method, termed Polynomial-model-based optimization (PMBO). The algorithm alternates polynomial approximation with Bayesian optimization steps, using Gaussian processes to model the error between the objective and its polynomial fit. We describe the algorithmic design of PMBO and compare the results of the performance of PMBO with several optimization methods for a set of analytic test functions. The results show that PMBO outperforms the classic Bayesian optimization and is robust with respect to the choice of its correlation function family and its hyper-parameter setting, which, on the contrary, need to be carefully tuned in classic Bayesian optimization. Remarkably, PMBO performs comparably with state-of-the-art evolutionary algorithms such as the Covariance Matrix Adaptation -- Evolution Strategy (CMA-ES). This finding suggests that PMBO emerges as the pivotal choice among surrogate-based optimization methods when addressing low-dimensional optimization problems. Hereby, the simple nature of polynomials opens the opportunity for interpretation and analysis of the inferred surrogate model, providing a macroscopic perspective on the landscape of the objective function. | 翻訳日:2024-03-13 22:01:02 公開日:2024-03-12 |
# SIFiD:LLMによるFactual Inconsistency Detectionの再評価 SIFiD: Reassess Summary Factual Inconsistency Detection with LLM ( http://arxiv.org/abs/2403.07557v1 ) ライセンス: Link先を確認 | Jiuding Yang, Hui Liu, Weidong Guo, Zhuwei Rao, Yu Xu, Di Niu | (参考訳) 要約と原文書間の事実整合性の確保は要約タスクにおいて最重要である。
その結果,不整合の検出に多大な努力が払われた。
近年,Large Language Models (LLMs) の出現に伴い,非一貫性検出に先進的な言語理解能力を活用し始めた。
しかし、初期の試みでは、LLMは命令に従う能力の制限と効果的な検出方法がないため、従来のモデルよりも性能が低いことが示されている。
本研究では, GPT-3.5 と GPT-4 の性能を比較検討して, LLM による要約不整合検出を再評価する。
LLMに基づく不整合検出の研究を進めるために,要約と文書間の意味的類似性を測定することで,文書内のキー文を識別するSIFiD(Summary Inconsistency Detection with Filtered Document)を提案する。 Ensuring factual consistency between the summary and the original document is paramount in summarization tasks. Consequently, considerable effort has been dedicated to detecting inconsistencies. With the advent of Large Language Models (LLMs), recent studies have begun to leverage their advanced language understanding capabilities for inconsistency detection. However, early attempts have shown that LLMs underperform traditional models due to their limited ability to follow instructions and the absence of an effective detection methodology. In this study, we reassess summary inconsistency detection with LLMs, comparing the performances of GPT-3.5 and GPT-4. To advance research in LLM-based inconsistency detection, we propose SIFiD (Summary Inconsistency Detection with Filtered Document) that identify key sentences within documents by either employing natural language inference or measuring semantic similarity between summaries and documents. | 翻訳日:2024-03-13 21:56:15 公開日:2024-03-12 |
# 真理認識コンテキスト選択:不真理なコンテキストによって誤解される大規模言語モデルの幻覚を緩和する Truth-Aware Context Selection: Mitigating the Hallucinations of Large Language Models Being Misled by Untruthful Contexts ( http://arxiv.org/abs/2403.07556v1 ) ライセンス: Link先を確認 | Tian Yu, Shaolei Zhang and Yang Feng | (参考訳) 大規模言語モデル(llm)は印象的なテキスト生成能力を示しているが、ユーザや知識議論ツールが提供する真偽のコンテキストによって容易に誤解され、幻覚を生み出す。
本研究では,LLMが非現実的な情報によって誤解されるのを防止し,知識の議論を活かすために,非現実的なコンテキストを入力から保護する軽量な方法であるTruth-Aware Context Selection (TACS)を提案する。
TACSは入力コンテキスト上で真理検出を行い、LLM内のパラメータ化された知識を活用することから始まる。
その後、それぞれの位置の真理に基づいて対応する注意マスクを構築し、真理のコンテキストを選択し、真理のコンテキストを破棄する。
さらに,新たな評価基準である外乱適応率を導入し,LLMが真理情報を受け入れ,非真理情報に抵抗する能力をさらに研究する。
実験結果から,TACSはコンテキスト内の情報を効果的にフィルタリングし,誤った情報を表示するとLLMの応答の全体的な品質を著しく向上できることがわかった。 Although large language models (LLMs) have demonstrated impressive text generation capabilities, they are easily misled by the untruthful context provided by users or knowledge argumentation tools, thereby producing hallucinations. To alleviate the LLMs from being misled by untruthful information and take advantage of knowledge argumentation, we propose Truth-Aware Context Selection (TACS), a lightweight method to shield untruthful context from the inputs. TACS begins by performing truth detection on the input context, leveraging the parameterized knowledge within the LLM. Subsequently, it constructs a corresponding attention mask based on the truthfulness of each position, selecting the truthful context and discarding the untruthful context. Additionally, we introduce a new evaluation metric, Disturbance Adaption Rate, to further study the LLMs' ability to accept truthful information and resist untruthful information. Experimental results show that TACS can effectively filter information in context and significantly improve the overall quality of LLMs' responses when presented with misleading information. | 翻訳日:2024-03-13 21:55:58 公開日:2024-03-12 |
# ドキュメントインデクシングの未来: gpt と donut はコンテンツ処理のテーブルに革命をもたらす The future of document indexing: GPT and Donut revolutionize table of content processing ( http://arxiv.org/abs/2403.07553v1 ) ライセンス: Link先を確認 | Degaga Wolde Feyisa, Haylemicheal Berihun, Amanuel Zewdu, Mahsa Najimoghadam, Marzieh Zare | (参考訳) 産業プロジェクトは、長く複雑な仕様文書に大きく依存しており、構造化情報の退屈な手作業による抽出が大きなボトルネックとなっている。
本稿では,OCRなしでスキャンした文書から直接情報を抽出するDonutと,堅牢な大規模言語モデルであるOpenAI GPT-3.5 Turboの2つの最先端AIモデルの能力を活用した,このプロセスを自動化する革新的なアプローチを提案する。
提案手法は、構築仕様文書からコンテンツテーブル(tocs)を取得し、その後、tocsテキストをjsonデータに構造化することから始まる。
ドナツは85%、GPT-3.5ターボは89%に達し、ToCを効果的に編成した。
この画期的な成果は、さまざまなドキュメントタイプにわたる情報抽出タスクの自動化、効率の向上、さまざまな産業における重要なリソースの解放といった、aiの膨大な可能性を示す、ドキュメントインデックス化の大きな前進を示している。 Industrial projects rely heavily on lengthy, complex specification documents, making tedious manual extraction of structured information a major bottleneck. This paper introduces an innovative approach to automate this process, leveraging the capabilities of two cutting-edge AI models: Donut, a model that extracts information directly from scanned documents without OCR, and OpenAI GPT-3.5 Turbo, a robust large language model. The proposed methodology is initiated by acquiring the table of contents (ToCs) from construction specification documents and subsequently structuring the ToCs text into JSON data. Remarkable accuracy is achieved, with Donut reaching 85% and GPT-3.5 Turbo reaching 89% in effectively organizing the ToCs. This landmark achievement represents a significant leap forward in document indexing, demonstrating the immense potential of AI to automate information extraction tasks across diverse document types, boosting efficiency and liberating critical resources in various industries. | 翻訳日:2024-03-13 21:55:38 公開日:2024-03-12 |
# エージェントによる対話型インストラクションのためのオンライン連続学習 Online Continual Learning For Interactive Instruction Following Agents ( http://arxiv.org/abs/2403.07548v1 ) ライセンス: Link先を確認 | Byeonghwi Kim, Minhyuk Seo, Jonghyun Choi | (参考訳) 言語指示を通して日常的なタスクを実行する具体的エージェントを学ぶ際、文献はエージェントが最初からすべてのトレーニングデータを学習していると仮定する。
このような学習シナリオは,ロボットエージェントが世界を探索し,知覚する上で,継続的に世界を学ぶことが求められているため,現実的ではない,と我々は主張する。
そこで,より現実的なエージェント学習シナリオに向けて,新しい行動(インクリメンタルラーニング,行動-il)と新しい環境(環境インクリメンタルラーニング,環境-il)の学習,これまでの「データ優先」ベースの連続学習手法が過去のタスクのロジットを維持している。
しかし、記憶された情報はしばしば不十分な学習情報であり、タスク境界情報を必要とする。
そこで本研究では,タスク境界情報(タスクフリー)を平均移動平均値(CAMA)として,タスク境界情報のない信頼性スコアに基づいて更新することを提案する。
提案するbehavior-ilと環境-ilでは,私たちのcamaは,経験的検証において,目に見えるマージンで先行した技術を上回っています。
コードを含むプロジェクトページはhttps://github.com/snumprlab/cl-alfredである。 In learning an embodied agent executing daily tasks via language directives, the literature largely assumes that the agent learns all training data at the beginning. We argue that such a learning scenario is less realistic since a robotic agent is supposed to learn the world continuously as it explores and perceives it. To take a step towards a more realistic embodied agent learning scenario, we propose two continual learning setups for embodied agents; learning new behaviors (Behavior Incremental Learning, Behavior-IL) and new environments (Environment Incremental Learning, Environment-IL) For the tasks, previous 'data prior' based continual learning methods maintain logits for the past tasks. However, the stored information is often insufficiently learned information and requires task boundary information, which might not always be available. Here, we propose to update them based on confidence scores without task boundary information during training (i.e., task-free) in a moving average fashion, named Confidence-Aware Moving Average (CAMA). In the proposed Behavior-IL and Environment-IL setups, our simple CAMA outperforms prior state of the art in our empirical validations by noticeable margins. The project page including codes is https://github.com/snumprlab/cl-alfred. | 翻訳日:2024-03-13 21:55:18 公開日:2024-03-12 |
# SMURF:運動劣化放射場のための連続ダイナミクス SMURF: Continuous Dynamics for Motion-Deblurring Radiance Fields ( http://arxiv.org/abs/2403.07547v1 ) ライセンス: Link先を確認 | Jungho Lee, Dogyoon Lee, Minhyeok Lee, Donghyung Kim, Sangyoun Lee | (参考訳) ニューラル・ラディアンス・フィールド(NeRF)は、高い忠実度を持つ新規なビューを合成する優れた能力で注目されている。
しかし、拡張シャッター露光時のカメラの動きから生じる動きのぼけの存在は、再建された3Dシーンの品質を損なう可能性があり、大きな課題となる。
近年の研究ではこの問題に対処しているが、画像取得時のカメラの動きの連続的ダイナミクスを考慮せず、不正確なシーン再構築につながっている。
さらに、これらの手法は遅いトレーニングとレンダリング速度に悩まされている。
そこで本研究では,神経常微分方程式(neural ordinary differential equation,neural-ode)を用いて連続カメラの運動をモデル化する新しい手法であるシーケンシャルモーション理解放射場(smurf)を提案する。
SMURFの中核となるアイデアは、連続的なカメラの動きをモデル化してぼやけた入力を処理するために設計されたユニークなモジュールである連続運動ぼやけカーネル(CMBK)である。
ベンチマークデータセットに対して厳密に評価された本モデルは,定量的かつ質的に最先端のパフォーマンスを示す。 Neural radiance fields (NeRF) has attracted considerable attention for their exceptional ability in synthesizing novel views with high fidelity. However, the presence of motion blur, resulting from slight camera movements during extended shutter exposures, poses a significant challenge, potentially compromising the quality of the reconstructed 3D scenes. While recent studies have addressed this issue, they do not consider the continuous dynamics of camera movements during image acquisition, leading to inaccurate scene reconstruction. Additionally, these methods are plagued by slow training and rendering speed. To effectively handle these issues, we propose sequential motion understanding radiance fields (SMURF), a novel approach that employs neural ordinary differential equation (Neural-ODE) to model continuous camera motion and leverages the explicit volumetric representation method for faster training and robustness to motion-blurred input images. The core idea of the SMURF is continuous motion blurring kernel (CMBK), a unique module designed to model a continuous camera movements for processing blurry inputs. Our model, rigorously evaluated against benchmark datasets, demonstrates state-of-the-art performance both quantitatively and qualitatively. | 翻訳日:2024-03-13 21:54:53 公開日:2024-03-12 |
# MAMMOTH: 非常に多言語なモジュールオープントランスレーション @ Helsinki MAMMOTH: Massively Multilingual Modular Open Translation @ Helsinki ( http://arxiv.org/abs/2403.07544v1 ) ライセンス: Link先を確認 | Timothee Mickus, Stig-Arne Gr\"onroos, Joseph Attieh, Michele Boggia, Ona De Gibert, Shaoxiong Ji, Niki Andreas Lopi, Alessandro Raganato, Ra\'ul V\'azquez, J\"org Tiedemann | (参考訳) モノリシックな大規模言語モデルの時代におけるNLPは、扱えるサイズと情報の観点からその限界に近づいている。
モジュラー化は、より小さなサブネットワークや特殊な機能を備えたコンポーネントを設計する上で必要なステップである。
本稿では,OpenNMT-pyから派生した大規模多言語モジュール型機械翻訳システムを大規模に学習するためのフレームワークであるMAMMOTHツールキットについて述べる。
A100およびV100 NVIDIA GPUのクラスタ間で効率を実証し、設計哲学と今後の情報計画について議論する。
ツールキットはオンラインで公開されている。 NLP in the age of monolithic large language models is approaching its limits in terms of size and information that can be handled. The trend goes to modularization, a necessary step into the direction of designing smaller sub-networks and components with specialized functionality. In this paper, we present the MAMMOTH toolkit: a framework designed for training massively multilingual modular machine translation systems at scale, initially derived from OpenNMT-py and then adapted to ensure efficient training across computation clusters. We showcase its efficiency across clusters of A100 and V100 NVIDIA GPUs, and discuss our design philosophy and plans for future information. The toolkit is publicly available online. | 翻訳日:2024-03-13 21:54:33 公開日:2024-03-12 |
# 自動運転におけるビジョントランスフォーマーの実態と今後の方向性 A Survey of Vision Transformers in Autonomous Driving: Current Trends and Future Directions ( http://arxiv.org/abs/2403.07542v1 ) ライセンス: Link先を確認 | Quoc-Vinh Lai-Dang | (参考訳) 本調査では,自然言語処理の成功に触発された自律運転における視覚変換モデルの適応について検討する。
逐次画像処理や畳み込みニューラルネットワークといったタスクで従来のリカレントニューラルネットワークを上回っており、複雑なシーン認識で証明されているように、トランスフォーマーはコンピュータビジョンにおいて勢いを増している。
これらの機能は、リアルタイムでダイナミックな視覚シーン処理のための自動運転において不可欠である。
本調査は,自律運転における視覚トランスフォーマーの応用に関する包括的概要を提供し,自己着脱,マルチヘッド注意,エンコーダ・デコーダ・アーキテクチャといった基礎概念に着目した。
我々は、オブジェクト検出、セグメンテーション、歩行者検出、車線検出などのアプリケーションを取り上げ、それらのアーキテクチャ上のメリットと限界を比較した。
この調査は将来の研究方向で終わり、自動運転における視覚変換器の役割の高まりを強調している。 This survey explores the adaptation of visual transformer models in Autonomous Driving, a transition inspired by their success in Natural Language Processing. Surpassing traditional Recurrent Neural Networks in tasks like sequential image processing and outperforming Convolutional Neural Networks in global context capture, as evidenced in complex scene recognition, Transformers are gaining traction in computer vision. These capabilities are crucial in Autonomous Driving for real-time, dynamic visual scene processing. Our survey provides a comprehensive overview of Vision Transformer applications in Autonomous Driving, focusing on foundational concepts such as self-attention, multi-head attention, and encoder-decoder architecture. We cover applications in object detection, segmentation, pedestrian detection, lane detection, and more, comparing their architectural merits and limitations. The survey concludes with future research directions, highlighting the growing role of Vision Transformers in Autonomous Driving. | 翻訳日:2024-03-13 21:54:22 公開日:2024-03-12 |
# 大規模言語モデルによるプロセスモデリング Process Modeling With Large Language Models ( http://arxiv.org/abs/2403.07541v1 ) ライセンス: Link先を確認 | Humam Kourani, Alessandro Berti, Daniel Schuster, Wil M.P. van der Aalst | (参考訳) ビジネスプロセスマネジメント(BPM)の領域では、プロセスモデリングは複雑なプロセスのダイナミクスを理解可能な視覚表現に翻訳し、組織プロセスの理解、分析、改善、自動化を促進する上で重要な役割を担います。
伝統的なプロセスモデリング手法は、しばしば広範な専門知識を必要とし、時間を要する。
本稿では,プロセスモデリングの柔軟性,効率性,アクセシビリティを高めるために,大規模言語モデル(llm)をプロセスモデリングに統合することを検討する。
テキスト記述から始まるプロセスモデルの自動生成と反復的洗練にLLMを利用するフレームワークを提案する。
我々のフレームワークは、セキュアなモデル生成プロトコルとエラー処理機構とともに、効率的なLCM利用戦略を革新的に推進する。
さらに,フレームワークを拡張した具体的なシステムをインスタンス化する。
このシステムは生成されたモデルに対して堅牢な品質保証を提供し、ビジネスプロセスモデリング表記法(BPMN)やペトリネットのような標準モデリング表記法でそれらをエクスポートするのをサポートする。
予備的な結果は、BPM分野における生成AIの変革の可能性について、プロセスモデリングタスクを効率化するフレームワークの能力を示しています。 In the realm of Business Process Management (BPM), process modeling plays a crucial role in translating complex process dynamics into comprehensible visual representations, facilitating the understanding, analysis, improvement, and automation of organizational processes. Traditional process modeling methods often require extensive expertise and can be time-consuming. This paper explores the integration of Large Language Models (LLMs) into process modeling to enhance flexibility, efficiency, and accessibility of process modeling for both expert and non-expert users. We propose a framework that leverages LLMs for the automated generation and iterative refinement of process models starting from textual descriptions. Our framework involves innovative prompting strategies for effective LLM utilization, along with a secure model generation protocol and an error-handling mechanism. Moreover, we instantiate a concrete system extending our framework. This system provides robust quality guarantees on the models generated and supports exporting them in standard modeling notations, such as the Business Process Modeling Notation (BPMN) and Petri nets. Preliminary results demonstrate the framework's ability to streamline process modeling tasks, underscoring the transformative potential of generative AI in the BPM field. | 翻訳日:2024-03-13 21:54:04 公開日:2024-03-12 |
# wannalaugh: 構成可能なランサムウェアエミュレータ -- 悪意のあるストレージトレースを模倣する学習 WannaLaugh: A Configurable Ransomware Emulator -- Learning to Mimic Malicious Storage Traces ( http://arxiv.org/abs/2403.07540v1 ) ライセンス: Link先を確認 | Dionysios Diamantopolous and Roman Pletka and Slavisa Sarafijanovic and A.L. Narasimha Reddy and Haris Pozidis | (参考訳) ランサムウェアは恐ろしく急速に進化するサイバーセキュリティの脅威であり、世界中の個人や組織に深刻な影響を与え続けている。
静的シグネチャとアプリケーション動作パターンに依存した従来の検出方法は、これらの脅威の動的な性質によって挑戦される。
本稿では,この課題に対処するための主な貢献を3つ紹介する。
まず,ランサムウェアエミュレータを紹介する。
このツールは、ランサムウェア攻撃を実際に危害やマルウェアを広めることなく安全に模倣するように設計されており、ランサムウェアの行動を研究するためのユニークなソリューションとなっている。
次に,このエミュレータを用いてストレージi/oトレースを作成する方法を示す。
これらのトレースは機械学習モデルのトレーニングに使用される。
これらのモデルがランサムウェアの検出に有効であることを示し,エミュレータのサイバーセキュリティツール開発における実用的応用を強調した。
第3に,我々のエミュレータが既存のランサムウェアのI/O動作を模倣し,安全なトレース収集を可能にする方法を示す。
エミュレータとアプリケーションの両方が、マシンラーニング駆動のサイバーセキュリティの時代におけるランサムウェア検出の大きな進歩を示している。 Ransomware, a fearsome and rapidly evolving cybersecurity threat, continues to inflict severe consequences on individuals and organizations worldwide. Traditional detection methods, reliant on static signatures and application behavioral patterns, are challenged by the dynamic nature of these threats. This paper introduces three primary contributions to address this challenge. First, we introduce a ransomware emulator. This tool is designed to safely mimic ransomware attacks without causing actual harm or spreading malware, making it a unique solution for studying ransomware behavior. Second, we demonstrate how we use this emulator to create storage I/O traces. These traces are then utilized to train machine-learning models. Our results show that these models are effective in detecting ransomware, highlighting the practical application of our emulator in developing responsible cybersecurity tools. Third, we show how our emulator can be used to mimic the I/O behavior of existing ransomware thereby enabling safe trace collection. Both the emulator and its application represent significant steps forward in ransomware detection in the era of machine-learning-driven cybersecurity. | 翻訳日:2024-03-13 21:53:45 公開日:2024-03-12 |
# LaB-GATr:大規模生体表面および体積メッシュのための幾何学代数変換器 LaB-GATr: geometric algebra transformers for large biomedical surface and volume meshes ( http://arxiv.org/abs/2403.07536v1 ) ライセンス: Link先を確認 | Julian Suk, Baris Imre, Jelmer M. Wolterink | (参考訳) 多くの解剖学的構造は表面または体積メッシュによって記述できる。
機械学習は、これらの3Dモデルから情報を抽出する有望なツールである。
しかし、高忠実度メッシュはしばしば数十万の頂点を含んでいるため、ディープニューラルネットワークアーキテクチャを構築する上でユニークな課題を生み出します。
さらに、患者固有のメッシュは、機械学習アルゴリズムの一般化を制限する正統的な整列ができない場合がある。
本稿では,大規模(バイオ)医療面とボリュームメッシュを用いてシーケンス圧縮と補間により効果的に学習可能な,幾何学的トークン化を備えたトランスフォーマーニューラルネットワークLaB-GATrを提案する。
本手法は,最近提案された幾何代数変換器(gatr)を拡張し,すべてのユークリッド対称性,すなわち回転,変換,反射を尊重し,患者間の正準アライメント問題を効果的に解決する。
LaB-GATrは、最大20万頂点のメッシュを特徴とする、心臓血管血行動態モデリングと神経発達型表現型予測の3つのタスクで最先端の結果を得る。
以上の結果から,LaB-GATrは高忠実度メッシュで学習するための強力なアーキテクチャであることを示す。
私たちの実装は公開されています。 Many anatomical structures can be described by surface or volume meshes. Machine learning is a promising tool to extract information from these 3D models. However, high-fidelity meshes often contain hundreds of thousands of vertices, which creates unique challenges in building deep neural network architectures. Furthermore, patient-specific meshes may not be canonically aligned which limits the generalisation of machine learning algorithms. We propose LaB-GATr, a transfomer neural network with geometric tokenisation that can effectively learn with large-scale (bio-)medical surface and volume meshes through sequence compression and interpolation. Our method extends the recently proposed geometric algebra transformer (GATr) and thus respects all Euclidean symmetries, i.e. rotation, translation and reflection, effectively mitigating the problem of canonical alignment between patients. LaB-GATr achieves state-of-the-art results on three tasks in cardiovascular hemodynamics modelling and neurodevelopmental phenotype prediction, featuring meshes of up to 200,000 vertices. Our results demonstrate that LaB-GATr is a powerful architecture for learning with high-fidelity meshes which has the potential to enable interesting downstream applications. Our implementation is publicly available. | 翻訳日:2024-03-13 21:53:28 公開日:2024-03-12 |
# 自律運転のための単視点と多視点の適応融合 Adaptive Fusion of Single-View and Multi-View Depth for Autonomous Driving ( http://arxiv.org/abs/2403.07535v1 ) ライセンス: Link先を確認 | JunDa Cheng, Wei Yin, Kaixuan Wang, Xiaozhi Chen, Shijie Wang, Xin Yang | (参考訳) マルチビュー深度推定は様々なベンチマークで顕著な性能を達成した。
しかし、現在のほとんどのマルチビューシステムは、自律運転のような多くの現実のシナリオでは利用できない理想的なカメラのポーズに依存している。
本研究では,様々な雑音のポーズ設定下での深度推定システムを評価するために,新しいロバストネスベンチマークを提案する。
驚いたことに、現在のマルチビュー深度推定法やシングルビュー、マルチビュー融合法はノイズのあるポーズ設定で失敗する。
そこで本研究では,高信頼のマルチビューとシングルビューを適応的に統合し,ロバストかつ高精度な奥行き推定を行うシングルビューとマルチビューの融合奥行き推定システムを提案する。
適応融合モジュールは、ラップする信頼マップに基づいて、2つのブランチ間の高信頼領域を動的に選択して融合を行う。
したがって、テクスチャのないシーン、不正確なキャリブレーション、動的オブジェクト、その他の劣化や課題条件に対して、より信頼性の高いブランチを選択する傾向がある。
本手法は,ロバストネス試験において,最先端のマルチビューおよび融合法より優れる。
さらに,正確なポーズ推定を行うと,挑戦的ベンチマーク(KITTI,DDAD)の最先端性能を実現する。
プロジェクトウェブサイト:https://github.com/Junda24/AFNet/ Multi-view depth estimation has achieved impressive performance over various benchmarks. However, almost all current multi-view systems rely on given ideal camera poses, which are unavailable in many real-world scenarios, such as autonomous driving. In this work, we propose a new robustness benchmark to evaluate the depth estimation system under various noisy pose settings. Surprisingly, we find current multi-view depth estimation methods or single-view and multi-view fusion methods will fail when given noisy pose settings. To address this challenge, we propose a single-view and multi-view fused depth estimation system, which adaptively integrates high-confident multi-view and single-view results for both robust and accurate depth estimations. The adaptive fusion module performs fusion by dynamically selecting high-confidence regions between two branches based on a wrapping confidence map. Thus, the system tends to choose the more reliable branch when facing textureless scenes, inaccurate calibration, dynamic objects, and other degradation or challenging conditions. Our method outperforms state-of-the-art multi-view and fusion methods under robustness testing. Furthermore, we achieve state-of-the-art performance on challenging benchmarks (KITTI and DDAD) when given accurate pose estimations. Project website: https://github.com/Junda24/AFNet/. | 翻訳日:2024-03-13 21:53:06 公開日:2024-03-12 |
# クラス類似性を含むオープンワールド意味セグメンテーション Open-World Semantic Segmentation Including Class Similarity ( http://arxiv.org/abs/2403.07532v1 ) ライセンス: Link先を確認 | Matteo Sodano, Federico Magistri, Lucas Nunes, Jens Behley, Cyrill Stachniss | (参考訳) カメラデータの解釈は、自動運転車のような自律走行システムの鍵となる。
現実の環境で動作する視覚システムは、周囲の状況を理解し、新しい状況に対処する能力が必要となる。
本論文は, オープンワールドのセマンティックセマンティックセグメンテーション, すなわち, トレーニング中に未確認の物体を解釈する画像データの変種に対処する。
そこで本研究では,クローズドワールド意味セグメンテーションを精度良く行うとともに,新たなカテゴリを新たなトレーニングデータなしで識別する手法を提案する。
さらに,画像中の新たに発見されたクラスと既知のカテゴリの類似度尺度も提供し,計画やマッピングといった下流タスクで有用な情報を提供する。
広範な実験を通じて,学習データから既知のクラスと異常セグメンテーションについての最新結果が得られ,未知のクラスを区別できることを示した。 Interpreting camera data is key for autonomously acting systems, such as autonomous vehicles. Vision systems that operate in real-world environments must be able to understand their surroundings and need the ability to deal with novel situations. This paper tackles open-world semantic segmentation, i.e., the variant of interpreting image data in which objects occur that have not been seen during training. We propose a novel approach that performs accurate closed-world semantic segmentation and, at the same time, can identify new categories without requiring any additional training data. Our approach additionally provides a similarity measure for every newly discovered class in an image to a known category, which can be useful information in downstream tasks such as planning or mapping. Through extensive experiments, we show that our model achieves state-of-the-art results on classes known from training data as well as for anomaly segmentation and can distinguish between different unknown classes. | 翻訳日:2024-03-13 21:52:44 公開日:2024-03-12 |
# 材料強度スクリーニングのための物理トランスファー学習 Physics-Transfer Learning for Material Strength Screening ( http://arxiv.org/abs/2403.07526v1 ) ライセンス: Link先を確認 | Yingjie Zhao and Zian Zhang and Zhiping Xu | (参考訳) 自然科学の多くの問題と同様、材料の強度は複数の長さと時間スケールにまたがっており、解は精度と性能のバランスをとる必要がある。
パイエルズ応力は結晶塑性の中心的な概念の一つであり、塑性流動への転位抵抗を通じて強度を測定する。
ピエルス応力の決定は、弾性格子応答と結晶スリップのエネルギー景観の両方に依存するマルチスケールの性質を含む。
第一原理計算からのパイエルス応力による強度による物質スクリーニングは転位の非局所的特性に対して計算上は難解であり、最先端の計算材料データベースには含まれない。
本研究では, 経験的原子論シミュレーションから結晶塑性の物理を学習し, 化学的に正確な密度汎関数理論に基づく材料パラメータの計算からピエルス応力を予測する物理移動フレームワークを提案する。
特に、変形格子とガンマ表面のいくつかの単一点計算から単結晶金属の強度を予測でき、材料発見のための効率的な高出力スクリーニングが可能になる。
モデルと誤差源の精度を評価するために不確かさ定量を行い、トレーニングモデルの忠実度を高めて予測における物理的およびシステム不確かさを低減した。
この物理移動フレームワークは、材料科学のマルチスケールモデルにおける物理の階層構造を利用することにより、精度性能ジレンマに直面する他の問題に一般化することができる。 The strength of materials, like many problems in the natural sciences, spans multiple length and time scales, and the solution has to balance accuracy and performance. Peierls stress is one of the central concepts in crystal plasticity that measures the strength through the resistance of a dislocation to plastic flow. The determination of Peierls stress involves a multiscale nature depending on both elastic lattice responses and the energy landscape of crystal slips. Material screening by strength via the Peierls stress from first-principles calculations is computationally intractable for the nonlocal characteristics of dislocations, and not included in the state-of-the-art computational material databases. In this work, we propose a physics-transfer framework to learn the physics of crystal plasticity from empirical atomistic simulations and then predict the Peierls stress from chemically accurate density functional theory-based calculations of material parameters. Notably, the strengths of single-crystalline metals can be predicted from a few single-point calculations for the deformed lattice and on the {\gamma} surface, allowing efficient, high-throughput screening for material discovery. Uncertainty quantification is carried out to assess the accuracy of models and sources of errors, showing reduced physical and system uncertainties in the predictions by elevating the fidelity of training models. This physics-transfer framework can be generalized to other problems facing the accuracy-performance dilemma, by harnessing the hierarchy of physics in the multiscale models of materials science. | 翻訳日:2024-03-13 21:52:28 公開日:2024-03-12 |
# Pseudo- Image Labeling と Margin Loss によるオープンボキャブラリシーンのテキスト認識 Open-Vocabulary Scene Text Recognition via Pseudo-Image Labeling and Margin Loss ( http://arxiv.org/abs/2403.07518v1 ) ライセンス: Link先を確認 | Xuhua Ren, Hengcan Shi, Jin Li | (参考訳) シーンテキスト認識はコンピュータビジョンにおいて重要かつ困難な課題である。
しかし、多くの先行研究は定義済みの単語の認識に重点を置いており、実際の応用には様々な外語彙(OOV)がある。
本稿では,oov単語を認識するための新しいオープンボキャブラリーテキスト認識フレームワークであるpseudo-ocrを提案する。
このタスクにおける重要な課題は、OOVトレーニングデータの欠如である。
そこで本研究では,文字検出と画像インパインティングを利用した擬似ラベル生成モジュールを提案し,実世界の画像から実質的な擬似OOVトレーニングデータを生成する。
従来の合成データとは異なり、擬似OOVデータには実世界の応用をシミュレートするための実像と背景が含まれている。
次に,疑似データのノイズを低減するために,意味的に有意味なデータをフィルタする意味チェック機構を提案する。
第3に,疑似データによるトレーニングを促進するために,品質を意識したマージン損失を導入する。
私たちの損失には、分類能力を高めるマージンベースの部分と、実データと疑似データの両方で低品質のサンプルをペナライズする品質認識部分が含まれています。
大規模な実験により、我々の手法は8つのデータセットで最先端の手法より優れており、ICDAR2022チャレンジで第1位を獲得します。 Scene text recognition is an important and challenging task in computer vision. However, most prior works focus on recognizing pre-defined words, while there are various out-of-vocabulary (OOV) words in real-world applications. In this paper, we propose a novel open-vocabulary text recognition framework, Pseudo-OCR, to recognize OOV words. The key challenge in this task is the lack of OOV training data. To solve this problem, we first propose a pseudo label generation module that leverages character detection and image inpainting to produce substantial pseudo OOV training data from real-world images. Unlike previous synthetic data, our pseudo OOV data contains real characters and backgrounds to simulate real-world applications. Secondly, to reduce noises in pseudo data, we present a semantic checking mechanism to filter semantically meaningful data. Thirdly, we introduce a quality-aware margin loss to boost the training with pseudo data. Our loss includes a margin-based part to enhance the classification ability, and a quality-aware part to penalize low-quality samples in both real and pseudo data. Extensive experiments demonstrate that our approach outperforms the state-of-the-art on eight datasets and achieves the first rank in the ICDAR2022 challenge. | 翻訳日:2024-03-13 21:52:03 公開日:2024-03-12 |
# d4d:単眼深度推定のためのrgbd拡散モデル D4D: An RGBD diffusion model to boost monocular depth estimation ( http://arxiv.org/abs/2403.07516v1 ) ライセンス: Link先を確認 | L. Papa, P. Russo, and I. Amerini | (参考訳) 地上のrgbdデータは、広い範囲のコンピュータビジョンアプリケーションにとって基本であるが、ラベル付きサンプルは収集が難しく、製造に時間がかかる。
このデータ不足を克服するための一般的な解決策は、グラフィックエンジンを使用して合成プロキシを生成することであるが、これらのデータは実世界のイメージを反映しないことが多く、推論ステップにおけるトレーニングされたモデルの性能が低下する。
本稿では,リアルなRGBDサンプルを生成可能な4チャネル拡散モデルであるDiffusion4D(D4D)を組み込んだ新しいトレーニングパイプラインを提案する。
本稿では,rgbと深度マップの対応が正確な測定に不可欠である単眼深度推定タスクにおいて,深層学習モデルの性能を向上させるために開発した解の有効性を示す。
本研究は, 室内NYU深度v2および屋外KITTIデータセットにおいて, RMSEの8.2%, 11.9%) と8.1% (6.1%) の削減を実現し, 合成および原データ性能を向上した。 Ground-truth RGBD data are fundamental for a wide range of computer vision applications; however, those labeled samples are difficult to collect and time-consuming to produce. A common solution to overcome this lack of data is to employ graphic engines to produce synthetic proxies; however, those data do not often reflect real-world images, resulting in poor performance of the trained models at the inference step. In this paper we propose a novel training pipeline that incorporates Diffusion4D (D4D), a customized 4-channels diffusion model able to generate realistic RGBD samples. We show the effectiveness of the developed solution in improving the performances of deep learning models on the monocular depth estimation task, where the correspondence between RGB and depth map is crucial to achieving accurate measurements. Our supervised training pipeline, enriched by the generated samples, outperforms synthetic and original data performances achieving an RMSE reduction of (8.2%, 11.9%) and (8.1%, 6.1%) respectively on the indoor NYU Depth v2 and the outdoor KITTI dataset. | 翻訳日:2024-03-13 21:51:40 公開日:2024-03-12 |
# 分散トレーニングのためのコミュニケーション最適化:アーキテクチャ、進歩、機会 Communication Optimization for Distributed Training: Architecture, Advances, and Opportunities ( http://arxiv.org/abs/2403.07585v1 ) ライセンス: Link先を確認 | Yunze Wei, Tianshuo Hu, Cong Liang, Yong Cui | (参考訳) 過去数年間、パラメータ数が増え続ける大規模ディープニューラルネットワークモデルの隆盛を目撃してきた。
このような大規模モデルのトレーニングは、通常、単一のGPUを超える大量のメモリとコンピューティングリソースを必要とし、分散トレーニングを必要とする。
近年GPUの性能が急速に向上するにつれて、計算時間が減少し、全体としての通信の割合が増加した。
そのため,分散学習におけるコミュニケーションの最適化が急務となっている。
本稿では,分散ディープニューラルネットワークトレーニングの一般アーキテクチャを簡潔に紹介するとともに,3層パラダイムを形成する通信最適化の観点から,並列化戦略,集合的通信ライブラリ,ネットワーク間の関係を分析する。
次に、この3層パラダイムによる現在の代表的な研究動向についてレビューする。
現在の3層パラダイムのレイヤは比較的独立しているが、分散トレーニングシナリオでは、層間協調最適化のための豊富な設計スペースがある。
そこで我々は,コラボレーションデザインの機会を概説するコミュニケーション効率の高い5層パラダイムを更に提唱し,"vertical","horizontal","intra-inter","host-net"コラボレーションデザインの展望を展望する。
この記事では、分散トレーニングのためのコミュニケーション最適化に関する今後の研究について光を当てたい。 The past few years have witnessed the flourishing of large-scale deep neural network models with ever-growing parameter numbers. Training such large-scale models typically requires massive memory and computing resources that exceed those of a single GPU, necessitating distributed training. As GPU performance has rapidly evolved in recent years, computation time has shrunk, thereby increasing the proportion of communication in the overall training time. Therefore, optimizing communication for distributed training has become an urgent issue. In this article, we briefly introduce the general architecture of distributed deep neural network training and analyze relationships among Parallelization Strategy, Collective Communication Library, and Network from the perspective of communication optimization, which forms a three-layer paradigm. We then review current representative research advances with this three-layer paradigm. We find that layers in the current three-layer paradigm are relatively independent, but there is a rich design space for cross-layer collaborative optimization in distributed training scenarios. Therefore, we further advocate a communication-efficient five-layer paradigm underlining opportunities for collaboration designs and look forward to the perspectives of "Vertical", "Horizontal", "Intra-Inter" and "Host-Net" collaboration designs. We hope this article can shed some light on future research on communication optimization for distributed training. | 翻訳日:2024-03-13 21:46:46 公開日:2024-03-12 |
# llmvs小モデル?
大規模言語モデルに基づくテキスト拡張による個人性検出モデル LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced Personality Detection Model ( http://arxiv.org/abs/2403.07581v1 ) ライセンス: Link先を確認 | Linmei Hu, Hongyu He, Duokang Wang, Ziwang Zhao, Yingxia Shao, Liqiang Nie | (参考訳) パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。
この課題の1つの課題は、自己報告アンケートから収集される地対人パーソナリティ特性の不足である。
既存のほとんどの手法は、限定されたパーソナリティラベルの監督の下で事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。
これにより、ポスト機能の品質が低下し、結果としてパフォーマンスに影響を及ぼす。
さらに、性格特性を一つのホットな分類ラベルとして扱い、その中の意味情報を見渡す。
本稿では,この課題においてllmが失敗した場合でも,llmの知識を抽出し,小規模のパーソナリティ検出モデルを強化する,大規模言語モデル(llm)に基づくパーソナリティ検出モデルを提案する。
具体的には,パーソナリティ検出に不可欠な意味的,感情的,言語的側面から,llmがポスト分析(示唆)を生成できるようにする。
コントラスト学習を用いて埋め込み空間にそれらをまとめることで、ポストエンコーダはポスト表現内の精神言語情報をよりよく捉え、パーソナリティ検出を改善することができる。
さらに,LLMを用いてパーソナリティラベルの情報を強化し,検出性能を向上させる。
評価実験の結果,我々のモデルは人格検出の最先端手法よりも優れていた。 Personality detection aims to detect one's personality traits underlying in social media posts. One challenge of this task is the scarcity of ground-truth personality traits which are collected from self-report questionnaires. Most existing methods learn post features directly by fine-tuning the pre-trained language models under the supervision of limited personality labels. This leads to inferior quality of post features and consequently affects the performance. In addition, they treat personality traits as one-hot classification labels, overlooking the semantic information within them. In this paper, we propose a large language model (LLM) based text augmentation enhanced personality detection model, which distills the LLM's knowledge to enhance the small model for personality detection, even when the LLM fails in this task. Specifically, we enable LLM to generate post analyses (augmentations) from the aspects of semantic, sentiment, and linguistic, which are critical for personality detection. By using contrastive learning to pull them together in the embedding space, the post encoder can better capture the psycho-linguistic information within the post representations, thus improving personality detection. Furthermore, we utilize the LLM to enrich the information of personality labels for enhancing the detection performance. Experimental results on the benchmark datasets demonstrate that our model outperforms the state-of-the-art methods on personality detection. | 翻訳日:2024-03-13 21:46:27 公開日:2024-03-12 |
# AACP:自己教師型学習に基づく児童絵画の美学評価 AACP: Aesthetics assessment of children's paintings based on self-supervised learning ( http://arxiv.org/abs/2403.07578v1 ) ライセンス: Link先を確認 | Shiqi Jiang, Ning Li, Chen Shi, Liping Guo, Changbo Wang, Chenhui Li | (参考訳) 子どもの絵の美学評価 (AACP) は、画像美学評価 (IAA) の重要な分野であり、児童教育において重要な役割を担っている。
このタスクは、利用可能な限られたデータや、複数の視点から評価指標の要求など、ユニークな課題を提示する。
しかし、従来のアプローチは大規模なデータセットのトレーニングに頼っており、AACPには適用できない画像に美学スコアを提供する。
この問題を解決するために,児童絵画の美的評価データセットと,自己教師付き学習に基づくモデルを構築した。
1)2つの部分からなる新しいデータセットを構築し,第1部は児童絵画の20k以上の無ラベル画像,第2部は児童絵画の1.2k画像,第2部は複数の意匠の専門家がラベル付けした8つの属性を含む。
2)特徴抽出モジュール,知覚モジュール,不連続評価モジュールを含むパイプラインを設計する。
3) 定性的および定量的な実験を行い,AACPデータセットを用いた他の5つの手法との比較を行った。
実験により, 審美的特徴を正確に把握し, 最新性能が得られることを明らかにした。 The Aesthetics Assessment of Children's Paintings (AACP) is an important branch of the image aesthetics assessment (IAA), playing a significant role in children's education. This task presents unique challenges, such as limited available data and the requirement for evaluation metrics from multiple perspectives. However, previous approaches have relied on training large datasets and subsequently providing an aesthetics score to the image, which is not applicable to AACP. To solve this problem, we construct an aesthetics assessment dataset of children's paintings and a model based on self-supervised learning. 1) We build a novel dataset composed of two parts: the first part contains more than 20k unlabeled images of children's paintings; the second part contains 1.2k images of children's paintings, and each image contains eight attributes labeled by multiple design experts. 2) We design a pipeline that includes a feature extraction module, perception modules and a disentangled evaluation module. 3) We conduct both qualitative and quantitative experiments to compare our model's performance with five other methods using the AACP dataset. Our experiments reveal that our method can accurately capture aesthetic features and achieve state-of-the-art performance. | 翻訳日:2024-03-13 21:46:05 公開日:2024-03-12 |
# FPT:高分解能医用画像分類におけるパラメータおよびメモリ効率の良い微細調整のための微細プロンプトチューニング FPT: Fine-grained Prompt Tuning for Parameter and Memory Efficient Fine Tuning in High-resolution Medical Image Classification ( http://arxiv.org/abs/2403.07576v1 ) ライセンス: Link先を確認 | Yijin Huang, Pujin Cheng, Roger Tam, Xiaoying Tang | (参考訳) パラメータ効率の良い微調整(peft)は、事前学習されたモデルを下流タスクに転送するコスト効率の高い方法として提案されている。
本稿では,医用画像分類のための新しいpeft法であるきめ細粒度プロンプトチューニング(fpt)を提案する。
FPTは、特に高解像度のコンテキストにおいて、他のPEFT法と比較してメモリ消費を著しく削減する。
これを実現するために、まずLPMの重みを凍結し、学習可能な軽量サイドネットワークを構築する。
凍結したLPMは、高解像度画像を入力として精細な特徴を抽出し、一方、サイドネットワークは低解像度画像を供給してメモリ使用量を減らす。
サイドネットワークが事前学習した知識にアクセスできるようにするため、融合モジュールを介してLPMから情報を要約するきめ細かいプロンプトを導入する。
トレーニングコストとメモリ要件をさらに削減するために、重要なトークンの選択とプリロード技術が採用されている。
FPTは, サイズ, モダリティ, 複雑さの異なる4つの医療データセットで評価した。
実験の結果、FPTは学習可能なパラメータの1.8%と512 x 512の入力解像度を持つエンコーダViT-Bモデルのメモリコストの13%しか使用せず、LPM全体の微調整に匹敵する性能を示した。 Parameter-efficient fine-tuning (PEFT) is proposed as a cost-effective way to transfer pre-trained models to downstream tasks, avoiding the high cost of updating entire large-scale pre-trained models (LPMs). In this work, we present Fine-grained Prompt Tuning (FPT), a novel PEFT method for medical image classification. FPT significantly reduces memory consumption compared to other PEFT methods, especially in high-resolution contexts. To achieve this, we first freeze the weights of the LPM and construct a learnable lightweight side network. The frozen LPM takes high-resolution images as input to extract fine-grained features, while the side network is fed low-resolution images to reduce memory usage. To allow the side network to access pre-trained knowledge, we introduce fine-grained prompts that summarize information from the LPM through a fusion module. Important tokens selection and preloading techniques are employed to further reduce training cost and memory requirements. We evaluate FPT on four medical datasets with varying sizes, modalities, and complexities. Experimental results demonstrate that FPT achieves comparable performance to fine-tuning the entire LPM while using only 1.8% of the learnable parameters and 13% of the memory costs of an encoder ViT-B model with a 512 x 512 input resolution. | 翻訳日:2024-03-13 21:45:42 公開日:2024-03-12 |
# 反復(1+1)次元ゲージによる創発的(2+1)d位相次数 Emergent (2+1)D topological orders from iterative (1+1)D gauging ( http://arxiv.org/abs/2403.07575v1 ) ライセンス: Link先を確認 | Jose Garre Rubio | (参考訳) ゲージはゲージ場と呼ばれる新しい自由度を導入し、既存の大域対称性をローカライズする。
この過程に従って、ゲージ場が双対大域対称性を示すことが知られている。
その後、この創発的な大域対称性を、再び大域対称性を示す新しいゲージ場を作成することで測ることができる。
我々は,新しい自由度が生成され,局所対称性を通じて前者と絡み合う,この反復過程について検討する。
本研究では,アベリア群対称性を持つスピン鎖のゲージ化に着目し,新しいスピンを2次元格子上に配置する。
以下のゲージ写像の連結によって修正される創発的2D状態の局所対称性は、アベリア群に一般化された$XZZX$-符号の安定化項と驚くほど一致している。
我々は、構成をテンソルネットワークの族にエンコードし、 ``projected entangled pair emergent states'' (pepes) をダビングする。
この表現を利用し、局所対称性を安定なハミルトン項として考えることにより、ガウグング過程の前の初期対称状態の量子相と境界における凝縮性エノンの間の接続を確立する。 Gauging involves introducing new degrees of freedom, known as gauge fields, to localize an existing global symmetry. It is known that, following this process, the gauge fields exhibit a dual global symmetry. Subsequently, one can gauge this emergent global symmetry by creating new gauge fields that once again exhibit a global symmetry. We investigate this iterative process, wherein new degrees of freedom are created and entangled with the previous ones through local symmetries. We focus on gauging spin chains with Abelian group symmetries and arranging the new spins on a 2D lattice. The local symmetries of the emergent 2D state, which are modified by the concatenation of the following gauging maps surprisingly correspond to the stabilizer terms of the $XZZX$-code generalized to any Abelian group. We encode our construction in the family of tensor network states that we dub ``projected entangled pair emergent states'' (PEPES). By utilizing this representation and by considering the local symmetries as stabilizer Hamiltonian terms, we establish a connection between the condensable anyons at the boundary and the quantum phase of the initial symmetric state before the gauging process. | 翻訳日:2024-03-13 21:45:14 公開日:2024-03-12 |
# 適応型コンピューティングとネットワーク収束(acnc)による動的未来に向けて Towards a Dynamic Future with Adaptable Computing and Network Convergence (ACNC) ( http://arxiv.org/abs/2403.07573v1 ) ライセンス: Link先を確認 | Masoud Shokrnezhad, Hao Yu, Tarik Taleb, Richard Li, Kyunghan Lee, Jaeseung Song, and Cedric Westphal | (参考訳) 多数の接続とqos/e(quality of service/experience, qos/e)前提条件への厳密な執着を特徴とする包括的全対全インタラクションを強調する。
差し迫った課題は、リソース不足に起因し、共同リソースオーケストレーションの目覚ましいアプローチとして、Computer-Network Convergence (CNC) への意図的に移行を促した。
CNCベースのメカニズムは注目されているが、特にMetaverseのようなユースケースにおける将来のサービスの実現における効果は、ユーザ、サービス、リソースの継続的な変化による制限に直面する可能性がある。
そこで本稿では,コンピュータとネットワークリソースの共同オーケストレーションを目的とした自律型機械学習(ML)支援機構として,適応型CNC(ACNC)の概念を提案する。
ACNCは、状態認識とコンテキスト検出の2つの主要な機能を含んでいる。
ユーザ・サービス・コンピューティング・ネットワーク空間の複雑な性質を考えると,本論文では,階層構造における生きた,包括的で抽象的なシステム状態を生成するために,次元還元を用いる。
動的変更によって引き起こされる課題に対処するために、継続的学習(CL)が採用され、システムの状態を専用のMLエージェントによって制御されたコンテキストに分類し、効率的に運用することができる。
これら2つの機能は、リソースを割り当てるためにEnd-to-End(E2E)オーケストレータが監督する閉ループ内で複雑にリンクされている。
本稿では,ACNCの構成要素を紹介するとともに,ACNCの資源供給における役割を実演するメタバースシナリオを提案し,ACNCのワークフローを概説し,効率評価のための数値解析を詳述し,今後の研究への課題と可能性について論じる。 In the context of advancing 6G, a substantial paradigm shift is anticipated, highlighting comprehensive everything-to-everything interactions characterized by numerous connections and stringent adherence to Quality of Service/Experience (QoS/E) prerequisites. The imminent challenge stems from resource scarcity, prompting a deliberate transition to Computing-Network Convergence (CNC) as an auspicious approach for joint resource orchestration. While CNC-based mechanisms have garnered attention, their effectiveness in realizing future services, particularly in use cases like the Metaverse, may encounter limitations due to the continually changing nature of users, services, and resources. Hence, this paper presents the concept of Adaptable CNC (ACNC) as an autonomous Machine Learning (ML)-aided mechanism crafted for the joint orchestration of computing and network resources, catering to dynamic and voluminous user requests with stringent requirements. ACNC encompasses two primary functionalities: state recognition and context detection. Given the intricate nature of the user-service-computing-network space, the paper employs dimension reduction to generate live, holistic, abstract system states in a hierarchical structure. To address the challenges posed by dynamic changes, Continual Learning (CL) is employed, classifying the system state into contexts controlled by dedicated ML agents, enabling them to operate efficiently. These two functionalities are intricately linked within a closed loop overseen by the End-to-End (E2E) orchestrator to allocate resources. The paper introduces the components of ACNC, proposes a Metaverse scenario to exemplify ACNC's role in resource provisioning with Segment Routing v6 (SRv6), outlines ACNC's workflow, details a numerical analysis for efficiency assessment, and concludes with discussions on relevant challenges and potential avenues for future research. | 翻訳日:2024-03-13 21:44:52 公開日:2024-03-12 |
# ハイブリッド符号付き圧力関数によるアクティブ輪郭モデル An Active Contour Model Driven By the Hybrid Signed Pressure Function ( http://arxiv.org/abs/2403.07570v1 ) ライセンス: Link先を確認 | Jing Zhao | (参考訳) 撮像装置や複雑な撮像環境の影響により、日常生活のほとんどの画像は強度不均一性とノイズの特徴を持っている。
そのため、多くの研究者がこれらの問題に対処するために多くの画像分割アルゴリズムを設計している。
このうち,アクティブ輪郭モデルが最も効果的な画像分割アルゴリズムの1つであり,グローバル情報とローカル情報を組み合わせたハイブリッド符号付圧力関数によって駆動されるアクティブ輪郭モデルを提案する。
まず、曲線の内領域と外領域の平均強度と、発展曲線の内領域の中央強度とを組み合わせることにより、新しい大域領域に基づく符号付圧力関数を導入する。
そこで本論文では, 局所領域における曲線の内外領域間のエネルギー差を利用して, 局所項の符号付き圧力関数を設計する。
2つのspf関数を結合して新しい符号付き圧力関数を得て、新しいモデルの進化方程式を得る。
最後に, 実験と数値解析により, 強度不均質画像と雑音画像の両方に対して, セグメンテーション性能が良好であることが判明した。 Due to the influence of imaging equipment and complex imaging environments, most images in daily life have features of intensity inhomogeneity and noise. Therefore, many scholars have designed many image segmentation algorithms to address these issues. Among them, the active contour model is one of the most effective image segmentation algorithms.This paper proposes an active contour model driven by the hybrid signed pressure function that combines global and local information construction. Firstly, a new global region-based signed pressure function is introduced by combining the average intensity of the inner and outer regions of the curve with the median intensity of the inner region of the evolution curve. Then, the paper uses the energy differences between the inner and outer regions of the curve in the local region to design the signed pressure function of the local term. Combine the two SPF function to obtain a new signed pressure function and get the evolution equation of the new model. Finally, experiments and numerical analysis show that the model has excellent segmentation performance for both intensity inhomogeneous images and noisy images. | 翻訳日:2024-03-13 21:44:20 公開日:2024-03-12 |
# シングルステーション地動記録の深層学習における課題の検討 Exploring Challenges in Deep Learning of Single-Station Ground Motion Records ( http://arxiv.org/abs/2403.07569v1 ) ライセンス: Link先を確認 | \"Umit Mert \c{C}a\u{g}lar, Baris Yilmaz, Melek T\"urkmen, Erdem Akag\"und\"uz, Salih Tileylioglu | (参考訳) 現代のディープラーニングモデルは地震学と地震工学の様々な応用において有望な結果を示している。
これらのモデルは主に地震イベントの分類、局所化、地震早期警報システム、構造的健康モニタリングなどのタスクに地動記録を活用することに依存している。
しかし、これらのモデルがこれらの複雑な時系列信号から効果的に学習する程度は、完全には分析されていない。
本研究の目的は,ネットワーク内の地震相到着時間や地震局分布などの補助情報が,地動記録からの深層学習の過程を支配しているかを評価することであり,その効果を阻害する可能性がある。
本研究では,2つの深層学習モデルのハイパーパラメータ探索を行い,地震動記録による深層学習の有効性を評価し,補助情報の影響を検証した。
実験の結果,P相とS相の到着情報に強く依存していることが判明した。
本研究は,現場における潜在的なギャップを浮き彫りにしており,補助情報とは無関係に単変地動記録の深層学習にロバストな手法が欠如していることを示している。 Contemporary deep learning models have demonstrated promising results across various applications within seismology and earthquake engineering. These models rely primarily on utilizing ground motion records for tasks such as earthquake event classification, localization, earthquake early warning systems, and structural health monitoring. However, the extent to which these models effectively learn from these complex time-series signals has not been thoroughly analyzed. In this study, our objective is to evaluate the degree to which auxiliary information, such as seismic phase arrival times or seismic station distribution within a network, dominates the process of deep learning from ground motion records, potentially hindering its effectiveness. We perform a hyperparameter search on two deep learning models to assess their effectiveness in deep learning from ground motion records while also examining the impact of auxiliary information on model performance. Experimental results reveal a strong reliance on the highly correlated P and S phase arrival information. Our observations highlight a potential gap in the field, indicating an absence of robust methodologies for deep learning of single-station ground motion recordings independent of any auxiliary information. | 翻訳日:2024-03-13 21:44:03 公開日:2024-03-12 |
# Triples-to-isiXhosa (T2X):低リソース凝集データ-テキスト生成の課題に対処する Triples-to-isiXhosa (T2X): Addressing the Challenges of Low-Resource Agglutinative Data-to-Text Generation ( http://arxiv.org/abs/2403.07567v1 ) ライセンス: Link先を確認 | Francois Meyer and Jan Buys | (参考訳) ほとんどのデータ・トゥ・テキスト・データセットは英語用なので、低リソース言語でデータ・トゥ・テキストをモデル化することの難しさはほとんど解明されていない。
本稿では,低リソースかつ凝集性の高いisiXhosaのテキスト間データ処理について述べる。
本稿では,WebNLGのサブセットをベースとした新たなデータセットであるTriples-to-isiXhosa(T2X)を紹介する。
また,データ記述の精度を計測するT2Xの評価フレームワークを開発した。
これにより、将来のT2Xユーザは、評価において表面レベルのメトリクスを超えることができる。
モデリング側では、スクラッチから訓練された専用データ-テキストモデルと事前訓練された言語モデル(PLM)の2つのクラスを探索する。
そこで本稿では,SSPG (Subword Segmental Pointer Generator) という,集合データからテキストへの変換を目的としたアーキテクチャを提案する。
単語のセグメンテーションとエンティティのコピーを共同で学び、2つの凝集言語(isixhosaとフィンランド語)の既存の専用モデルを上回る。
本稿では,標準PLMが不足していることを明らかにするT2Xの事前学習ソリューションについて検討する。
細調整の機械翻訳モデルは全体として最良の方法として現れる。
確立されたデータ・ツー・テキストアーキテクチャや、慣用的な事前学習された方法論は、いずれも最適ではない。
生成誤差の質的分析とアブレーション研究で結論づけた。 Most data-to-text datasets are for English, so the difficulties of modelling data-to-text for low-resource languages are largely unexplored. In this paper we tackle data-to-text for isiXhosa, which is low-resource and agglutinative. We introduce Triples-to-isiXhosa (T2X), a new dataset based on a subset of WebNLG, which presents a new linguistic context that shifts modelling demands to subword-driven techniques. We also develop an evaluation framework for T2X that measures how accurately generated text describes the data. This enables future users of T2X to go beyond surface-level metrics in evaluation. On the modelling side we explore two classes of methods - dedicated data-to-text models trained from scratch and pretrained language models (PLMs). We propose a new dedicated architecture aimed at agglutinative data-to-text, the Subword Segmental Pointer Generator (SSPG). It jointly learns to segment words and copy entities, and outperforms existing dedicated models for 2 agglutinative languages (isiXhosa and Finnish). We investigate pretrained solutions for T2X, which reveals that standard PLMs come up short. Fine-tuning machine translation models emerges as the best method overall. These findings underscore the distinct challenge presented by T2X: neither well-established data-to-text architectures nor customary pretrained methodologies prove optimal. We conclude with a qualitative analysis of generation errors and an ablation study. | 翻訳日:2024-03-13 21:43:45 公開日:2024-03-12 |
# 多段階深層強化学習による血糖コントロールの改善 An Improved Strategy for Blood Glucose Control Using Multi-Step Deep Reinforcement Learning ( http://arxiv.org/abs/2403.07566v1 ) ライセンス: Link先を確認 | Weiwei Gu and Senquan Wang | (参考訳) 血糖コントロール(BG)は、BGを体外インスリン注入によって健康な範囲に維持することが1型糖尿病患者にとって重要な課題である。
しかし、従来の患者の自己管理は面倒で危険である。
近年,個別化・自動化されたBG制御手法の研究が盛んに行われており,その中でも深層強化学習(DRL)が新たなアプローチの可能性を示唆している。
本稿では,PAE-POMDP(Prolonged Action Effect-Partially Observable Markov Decision Process)からMDP(Prolonged Action Effect-Partially Observable Markov Decision Process)への薬物効果の遅延と長期性を考慮して,薬物濃度の指数関数的減衰モデルを用いてBG制御問題の定式化を行い,その問題を解決するための新しい多段階DRLアルゴリズムを提案する。
また、優先順位付きエクスペリエンスリプレイ(per)サンプリング方法も使用されている。
シングルステップブートストラップ更新と比較して、マルチステップ学習は効率的であり、バイアス対象の影響を低減している。
提案手法は,同一トレーニング環境におけるベンチマークと比較して,より早く収束し,高い累積報酬を達成するとともに,患者BGが目標範囲内である時間(TIR)を,評価フェーズにおいて改善する。
本研究は,bg制御における多段階強化学習の有効性を検証し,糖尿病患者の最適血糖コントロール尺度の検討と生存率の向上に寄与する。 Blood Glucose (BG) control involves keeping an individual's BG within a healthy range through extracorporeal insulin injections is an important task for people with type 1 diabetes. However,traditional patient self-management is cumbersome and risky. Recent research has been devoted to exploring individualized and automated BG control approaches, among which Deep Reinforcement Learning (DRL) shows potential as an emerging approach. In this paper, we use an exponential decay model of drug concentration to convert the formalization of the BG control problem, which takes into account the delay and prolongedness of drug effects, from a PAE-POMDP (Prolonged Action Effect-Partially Observable Markov Decision Process) to a MDP, and we propose a novel multi-step DRL-based algorithm to solve the problem. The Prioritized Experience Replay (PER) sampling method is also used in it. Compared to single-step bootstrapped updates, multi-step learning is more efficient and reduces the influence from biasing targets. Our proposed method converges faster and achieves higher cumulative rewards compared to the benchmark in the same training environment, and improves the time-in-range (TIR), the percentage of time the patient's BG is within the target range, in the evaluation phase. Our work validates the effectiveness of multi-step reinforcement learning in BG control, which may help to explore the optimal glycemic control measure and improve the survival of diabetic patients. | 翻訳日:2024-03-13 21:43:23 公開日:2024-03-12 |
# RSBuilding:基礎モデルによる一般的なリモートセンシング画像の抽出と変化検出に向けて RSBuilding: Towards General Remote Sensing Image Building Extraction and Change Detection with Foundation Model ( http://arxiv.org/abs/2403.07564v1 ) ライセンス: Link先を確認 | Mingze Wang, Keyan Chen, Lili Su, Cilin Yan, Sheng Xu, Haotian Zhang, Pengcheng Yuan, Xiaolong Jiang and Baochang Zhang | (参考訳) 建物のインテリジェントな解釈は、都市計画と管理、マクロ経済分析、人口動態などにおいて重要な役割を果たす。
リモートセンシング画像構築解釈は主に建物抽出と変更検出を含む。
しかし、現在の方法論はしばしばこれら2つのタスクを独立したエンティティとして扱うため、共有知識を活用できない。
さらに、リモートセンシング画像シーンの複雑さと多様性は、ほとんどのアルゴリズムが個々の小さなデータセットをモデル化するように設計されており、クロスシーンの一般化が欠如しているため、さらなる課題をもたらす。
本稿では,基礎モデルの観点から,RSBuildingと呼ばれる総合的リモートセンシング画像構築理解モデルを提案する。
RSBuildingはクロスシーンの一般化とタスクの普遍性を高めるように設計されている。
具体的には,基礎モデルの事前知識に基づいて画像特徴を抽出し,多レベル特徴抽出器を考案し,スケール情報を強化した。
タスク表現を統一し,画像時空間的手がかりを統合するために,タスクプロンプトを用いたクロスアテンションデコーダを導入する。
両方のタスクにアノテーションを組み込んだデータセットの不足に対処するため、いくつかのタスクの監督が欠如している場合でも、スムーズなモデル収束を促進するためのフェデレーショントレーニング戦略を開発し、異なるタスクの相補性を強化した。
我々のモデルは最大245,000の画像からなるデータセットでトレーニングされ、複数の建物抽出と変更検出データセットで検証された。
実験結果は、RSBuildingが2つの構造的に異なるタスクを同時に処理し、堅牢なゼロショット一般化能力を示すことを示す。 The intelligent interpretation of buildings plays a significant role in urban planning and management, macroeconomic analysis, population dynamics, etc. Remote sensing image building interpretation primarily encompasses building extraction and change detection. However, current methodologies often treat these two tasks as separate entities, thereby failing to leverage shared knowledge. Moreover, the complexity and diversity of remote sensing image scenes pose additional challenges, as most algorithms are designed to model individual small datasets, thus lacking cross-scene generalization. In this paper, we propose a comprehensive remote sensing image building understanding model, termed RSBuilding, developed from the perspective of the foundation model. RSBuilding is designed to enhance cross-scene generalization and task universality. Specifically, we extract image features based on the prior knowledge of the foundation model and devise a multi-level feature sampler to augment scale information. To unify task representation and integrate image spatiotemporal clues, we introduce a cross-attention decoder with task prompts. Addressing the current shortage of datasets that incorporate annotations for both tasks, we have developed a federated training strategy to facilitate smooth model convergence even when supervision for some tasks is missing, thereby bolstering the complementarity of different tasks. Our model was trained on a dataset comprising up to 245,000 images and validated on multiple building extraction and change detection datasets. The experimental results substantiate that RSBuilding can concurrently handle two structurally distinct tasks and exhibits robust zero-shot generalization capabilities. | 翻訳日:2024-03-13 21:42:53 公開日:2024-03-12 |
# モバイル操作のための一般化した機能フィールドの学習 Learning Generalizable Feature Fields for Mobile Manipulation ( http://arxiv.org/abs/2403.07563v1 ) ライセンス: Link先を確認 | Ri-Zhao Qiu, Yafei Hu, Ge Yang, Yuchen Song, Yang Fu, Jianglong Ye, Jiteng Mu, Ruihan Yang, Nikolay Atanasov, Sebastian Scherer, Xiaolong Wang | (参考訳) モバイル操作におけるオープンな問題は、オブジェクトとシーンを統一的に表現する方法である。
後者は細粒度のセマンティクスを理解しながら複雑な幾何学を捉える必要があり、一方前者は複雑さを拡大した物理スケールに継承する。
本稿では,シーンレベルの一般化可能なニューラル特徴場であるGeFF(Generalizable Feature Fields)について述べる。
そこで我々は, 生成的新規なビュー合成を事前学習課題として扱い, 得られたリッチなシーンをCLIP特徴蒸留により自然言語に整列させる。
マニピュレータを備えた四足歩行ロボットにGeFFを配置することにより,本手法の有効性を示す。
我々は,動的シーンでオープン語彙移動操作を行う場合,GeFFのオープンセットオブジェクトへの一般化能力と実行時間を評価する。 An open problem in mobile manipulation is how to represent objects and scenes in a unified manner, so that robots can use it both for navigating in the environment and manipulating objects. The latter requires capturing intricate geometry while understanding fine-grained semantics, whereas the former involves capturing the complexity inherit to an expansive physical scale. In this work, we present GeFF (Generalizable Feature Fields), a scene-level generalizable neural feature field that acts as a unified representation for both navigation and manipulation that performs in real-time. To do so, we treat generative novel view synthesis as a pre-training task, and then align the resulting rich scene priors with natural language via CLIP feature distillation. We demonstrate the effectiveness of this approach by deploying GeFF on a quadrupedal robot equipped with a manipulator. We evaluate GeFF's ability to generalize to open-set objects as well as running time, when performing open-vocabulary mobile manipulation in dynamic scenes. | 翻訳日:2024-03-13 21:42:26 公開日:2024-03-12 |
# ジュピターノートにおけるMLプロジェクトの柔軟なセル分類 A Flexible Cell Classification for ML Projects in Jupyter Notebooks ( http://arxiv.org/abs/2403.07562v1 ) ライセンス: Link先を確認 | Miguel Perez and Selin Aydin and Horst Lichter | (参考訳) Jupyter Notebookは、機械学習(ML)ソリューションの迅速な実験に一般的に使用されるインタラクティブな開発環境である。
コードセルに沿って実行されるMLアクティビティを記述することで、ノートブックの可読性と理解が向上する。
コードセルのマニュアルアノテーションは時間がかかりエラーが発生しやすい。
そのため、ノートブック内のML活動に関する細胞を分類するツールが開発されている。
しかし、現在使用されているMLライブラリの関数呼び出しをMLアクティビティにマップするルックアップテーブルに基づいて動作するため、現在のツールは柔軟性がない。
これらのテーブルは新しいライブラリや変更されたライブラリのために手動で調整されなければならない。
本稿では,ルールベースと決定木分類器を組み合わせたハイブリッド分類法に基づいて,より柔軟な細胞分類法を提案する。
設計の合理性を議論し,開発した分類器について詳細に述べる。
JupyLabelというツールで新しい柔軟な細胞分類手法を実装した。
精度,リコール,f1スコアに関する評価と測定値について考察した。
さらに、既存のセル分類ツールであるHeaderGenとJupyLabelを比較しました。
提案したフレキシブルな細胞分類手法が,このツールよりも優れていることを示すことができた。 Jupyter Notebook is an interactive development environment commonly used for rapid experimentation of machine learning (ML) solutions. Describing the ML activities performed along code cells improves the readability and understanding of Notebooks. Manual annotation of code cells is time-consuming and error-prone. Therefore, tools have been developed that classify the cells of a notebook concerning the ML activity performed in them. However, the current tools are not flexible, as they work based on look-up tables that have been created, which map function calls of commonly used ML libraries to ML activities. These tables must be manually adjusted to account for new or changed libraries. This paper presents a more flexible approach to cell classification based on a hybrid classification approach that combines a rule-based and a decision tree classifier. We discuss the design rationales and describe the developed classifiers in detail. We implemented the new flexible cell classification approach in a tool called JupyLabel. Its evaluation and the obtained metric scores regarding precision, recall, and F1-score are discussed. Additionally, we compared JupyLabel with HeaderGen, an existing cell classification tool. We were able to show that the presented flexible cell classification approach outperforms this tool significantly. | 翻訳日:2024-03-13 21:42:08 公開日:2024-03-12 |
# 意味的シーン補完のためのネットワークポテンシャルの解き放つ Unleashing Network Potentials for Semantic Scene Completion ( http://arxiv.org/abs/2403.07560v1 ) ライセンス: Link先を確認 | Fengyun Wang, Qianru Sun, Dong Zhang, and Jinhui Tang | (参考訳) セマンティックシーン補完(SSC)は, 単一視点のRGB-D画像から, 完全な3次元ボクセル占有率とセマンティクスを予測することを目的としている。
しかし,本研究では,単一モダリティからの非効率な特徴学習と,限られたデータセットへの過度な適合という2つの限界を明らかにした。
これらの問題に対処するために,新たなSSCフレームワークAdversarial Modality Modulation Network (AMMNet)を提案する。
提案した AMMNet では,モーダル間の勾配流の相互依存を可能にするクロスモーダル変調と,動的勾配競争を利用した対向訓練方式の2つのコアモジュールを導入している。
具体的には、クロスモーダル変調は、各単一のモダリティから表現ポテンシャルをより励起するために、特徴を適応的に再カリブレートする。
敵対的訓練は、幾何学的完全性と意味的正確性の両方から視覚の忠実性に対するジェネレータの認識を強化するためにカスタマイズされたガイダンスを備えた、進化する勾配のミニマックスゲームを用いる。
AMMNetは最先端のSSC手法よりも大きなマージンで優れており、SSC手法の有効性と一般化を向上するための有望な方向性を提供する。 Semantic scene completion (SSC) aims to predict complete 3D voxel occupancy and semantics from a single-view RGB-D image, and recent SSC methods commonly adopt multi-modal inputs. However, our investigation reveals two limitations: ineffective feature learning from single modalities and overfitting to limited datasets. To address these issues, this paper proposes a novel SSC framework - Adversarial Modality Modulation Network (AMMNet) - with a fresh perspective of optimizing gradient updates. The proposed AMMNet introduces two core modules: a cross-modal modulation enabling the interdependence of gradient flows between modalities, and a customized adversarial training scheme leveraging dynamic gradient competition. Specifically, the cross-modal modulation adaptively re-calibrates the features to better excite representation potentials from each single modality. The adversarial training employs a minimax game of evolving gradients, with customized guidance to strengthen the generator's perception of visual fidelity from both geometric completeness and semantic correctness. Extensive experimental results demonstrate that AMMNet outperforms state-of-the-art SSC methods by a large margin, providing a promising direction for improving the effectiveness and generalization of SSC methods. | 翻訳日:2024-03-13 21:41:54 公開日:2024-03-12 |
# マルチエージェントパスファイニングのための優先型ハイブリッドポリシー Ensembling Prioritized Hybrid Policies for Multi-agent Pathfinding ( http://arxiv.org/abs/2403.07559v1 ) ライセンス: Link先を確認 | Huijie Tang, Federico Berto, Jinkyoo Park | (参考訳) MARL(Multi-Agent Reinforcement Learning)をベースとしたMAPF(Multi-Agent Path Finding)が最近注目されている。
いくつかのMARL-MAPFメソッドは、あるエージェントが知覚できる情報を豊かにするためにコミュニケーションを使用する。
しかし、既存の作品は高い障害物密度と多数のエージェントを持つ構造化環境ではいまだに苦労している。
通信ベースMARL-MAPFソルバの性能向上を図るため,新しい手法であるEnsembling Prioritized Hybrid Policies (EPH)を提案する。
まず,マルチエージェント環境におけるエージェントコーディネーションを改善するため,よりリッチな情報収集のための選択的通信ブロックを提案し,Qラーニングに基づくアルゴリズムを用いてモデルを訓練する。
さらに,実行期間中のパフォーマンス向上を目的とした3つの高度な推論戦略を導入する。
まず、競合のないゾーンをナビゲートするための単一エージェントの専門家ガイダンスでニューラルネットワークをハイブリダイズする。
第二に,コンフリクトの解決とデッドロック状況の優先順位付けのためのq値に基づく手法を提案する。
最後に,複数の解から最適解を効率的に収集できるロバストアンサンブル法を提案する。
複雑なマルチエージェント環境におけるEPHを実証的に評価し,MAPFの最先端ニューラルネットワーク手法に対する競合性能を示す。 Multi-Agent Reinforcement Learning (MARL) based Multi-Agent Path Finding (MAPF) has recently gained attention due to its efficiency and scalability. Several MARL-MAPF methods choose to use communication to enrich the information one agent can perceive. However, existing works still struggle in structured environments with high obstacle density and a high number of agents. To further improve the performance of the communication-based MARL-MAPF solvers, we propose a new method, Ensembling Prioritized Hybrid Policies (EPH). We first propose a selective communication block to gather richer information for better agent coordination within multi-agent environments and train the model with a Q-learning-based algorithm. We further introduce three advanced inference strategies aimed at bolstering performance during the execution phase. First, we hybridize the neural policy with single-agent expert guidance for navigating conflict-free zones. Secondly, we propose Q value-based methods for prioritized resolution of conflicts as well as deadlock situations. Finally, we introduce a robust ensemble method that can efficiently collect the best out of multiple possible solutions. We empirically evaluate EPH in complex multi-agent environments and demonstrate competitive performance against state-of-the-art neural methods for MAPF. | 翻訳日:2024-03-13 21:41:29 公開日:2024-03-12 |
# 階層型部分機械学習による学習モデルからの効率的な知識削除 Efficient Knowledge Deletion from Trained Models through Layer-wise Partial Machine Unlearning ( http://arxiv.org/abs/2403.07611v1 ) ライセンス: Link先を確認 | Vinay Chakravarthi Gogineni and Esmaeil S. Nadimi | (参考訳) 機械学習は、訓練済みの機械学習モデルで、特定のトレーニングデータサンプルから得られた知識を選択的に消去する能力によって、大きな注目を集めている。
この機能により、データホルダはデータ保護規則に厳密に準拠することができる。
しかし、既存のアンラーニング技術は実践的な制約に直面しており、しばしばパフォーマンスの劣化を引き起こし、学習後の簡単な微調整を要求し、かなりのストレージを必要とする。
そこで本研究では,機械学習アルゴリズムの新しいクラスを提案する。
第1の方法は、部分的記憶喪失学習であり、階層的プルーニングと記憶喪失学習の統合である。
この方法では、トレーニング中にモデルに更新が実行され、その後、トレーニングされたモデルの特定のデータを忘れるために使用される。
第2の方法は、階層的な部分更新をラベルフリップと最適化に基づくアンラーニングに同化して、データ削除がモデルの有効性に与える影響を軽減する。
詳細な実験評価を通じて,提案手法の有効性を示す。
実験の結果, 部分記憶無学習はモデルの有効性を保ちつつ, 短時間の微調整の必要性をなくしていることが明らかとなった。
さらに,ラベルフリッピングと最適化に基づくアンラーニング技術において,階層的な部分的更新を用いることで,モデルの有効性の維持に優れることを示した。 Machine unlearning has garnered significant attention due to its ability to selectively erase knowledge obtained from specific training data samples in an already trained machine learning model. This capability enables data holders to adhere strictly to data protection regulations. However, existing unlearning techniques face practical constraints, often causing performance degradation, demanding brief fine-tuning post unlearning, and requiring significant storage. In response, this paper introduces a novel class of machine unlearning algorithms. First method is partial amnesiac unlearning, integration of layer-wise pruning with amnesiac unlearning. In this method, updates made to the model during training are pruned and stored, subsequently used to forget specific data from trained model. The second method assimilates layer-wise partial-updates into label-flipping and optimization-based unlearning to mitigate the adverse effects of data deletion on model efficacy. Through a detailed experimental evaluation, we showcase the effectiveness of proposed unlearning methods. Experimental results highlight that the partial amnesiac unlearning not only preserves model efficacy but also eliminates the necessity for brief post fine-tuning, unlike conventional amnesiac unlearning. Moreover, employing layer-wise partial updates in label-flipping and optimization-based unlearning techniques demonstrates superiority in preserving model efficacy compared to their naive counterparts. | 翻訳日:2024-03-13 21:36:43 公開日:2024-03-12 |
# couler:クラウドでの統一機械学習ワークフロー最適化 Couler: Unified Machine Learning Workflow Optimization in Cloud ( http://arxiv.org/abs/2403.07608v1 ) ライセンス: Link先を確認 | Xiaoda Wang, Yuan Tang, Tengda Guo, Bo Sang, Jingji Wu, Jian Sha, Ke Zhang, Jiang Qian, Mingjie Tang | (参考訳) 機械学習(ML)はユビキタスになり、さまざまな組織にデータ駆動型アプリケーションを提供している。
研究におけるMLの従来の認識とは対照的に、MLワークフローは複雑でリソース集約的で時間を要する可能性がある。
MLワークフローを拡張して、幅広いデータインフラストラクチャとデータタイプを拡張することで、ワークロードが大きくなり、デプロイメントコストが増加する可能性がある。
現在、多数のワークフローエンジンが利用可能である(10以上が広く認識されている)。
この多様性は、異なるエンジンAPIをマスターするという点でエンドユーザにとって課題となる。
ML運用(MLOps)を特定のワークフローエンジンに最適化することに重点を置いている一方で、現在のメソッドは、さまざまなエンジン間のワークフロー最適化を概ね見落としている。
本研究では,クラウド上でのMLワークフローの統一最適化を目的としたシステムであるCoulerの設計と実装を行う。
私たちの主な洞察は、自然言語(NL)記述を使用してMLワークフローを生成する能力にあります。
大規模言語モデル(LLM)をワークフロー生成に統合し、さまざまなワークフローエンジンに統一されたプログラミングインターフェースを提供する。
このアプローチは、様々なワークフローエンジンのapiを理解する必要性を軽減する。
さらに、Coulerは複数のステージで自動キャッシュを導入し、ワークフローの自動並列化と自動ハイパーパラメータチューニングを可能にすることにより、ワークフローの計算効率を向上させる。
これらの拡張は、冗長な計算コストを最小化し、ディープラーニングワークフロートレーニング中のフォールトトレランスを改善する。
CoulerはAnt Groupの実際の運用シナリオに広くデプロイされており、毎日約22万のワークフローを処理し、CPU/メモリ使用率を15%以上改善し、ワークフローの完了率を約17%改善した。 Machine Learning (ML) has become ubiquitous, fueling data-driven applications across various organizations. Contrary to the traditional perception of ML in research, ML workflows can be complex, resource-intensive, and time-consuming. Expanding an ML workflow to encompass a wider range of data infrastructure and data types may lead to larger workloads and increased deployment costs. Currently, numerous workflow engines are available (with over ten being widely recognized). This variety poses a challenge for end-users in terms of mastering different engine APIs. While efforts have primarily focused on optimizing ML Operations (MLOps) for a specific workflow engine, current methods largely overlook workflow optimization across different engines. In this work, we design and implement Couler, a system designed for unified ML workflow optimization in the cloud. Our main insight lies in the ability to generate an ML workflow using natural language (NL) descriptions. We integrate Large Language Models (LLMs) into workflow generation, and provide a unified programming interface for various workflow engines. This approach alleviates the need to understand various workflow engines' APIs. Moreover, Couler enhances workflow computation efficiency by introducing automated caching at multiple stages, enabling large workflow auto-parallelization and automatic hyperparameters tuning. These enhancements minimize redundant computational costs and improve fault tolerance during deep learning workflow training. Couler is extensively deployed in real-world production scenarios at Ant Group, handling approximately 22k workflows daily, and has successfully improved the CPU/Memory utilization by more than 15% and the workflow completion rate by around 17%. | 翻訳日:2024-03-13 21:36:20 公開日:2024-03-12 |
# テキスト対画像生成における美学と忠実性向上のためのネガティブプロンプトの最適化 Optimizing Negative Prompts for Enhanced Aesthetics and Fidelity in Text-To-Image Generation ( http://arxiv.org/abs/2403.07605v1 ) ライセンス: Link先を確認 | Michael Ogezi and Ning Shi | (参考訳) テキスト対画像生成では、望ましくない画像特性を記述する負のプロンプトを使用することで、画像品質を大幅に向上させることができる。
しかし、良いネガティブなプロンプトを作るのは手作業で面倒です。
そこで我々は,教師付き微調整と強化学習を用いて,画像生成に対する負のプロンプト生成を最適化する新しい手法NegOptを提案する。
総合的なアプローチは、他のアプローチと比較してインセプションスコアの25%を相当増加させ、テストセットからの正の負のプロンプトを上回らせます。
さらに、NegOptを使えば、私たちにとって最も重要なメトリクスを優先的に最適化できます。
最後に、負のプロンプトのデータセットである負のプロンプトDBを構築する。 In text-to-image generation, using negative prompts, which describe undesirable image characteristics, can significantly boost image quality. However, producing good negative prompts is manual and tedious. To address this, we propose NegOpt, a novel method for optimizing negative prompt generation toward enhanced image generation, using supervised fine-tuning and reinforcement learning. Our combined approach results in a substantial increase of 25% in Inception Score compared to other approaches and surpasses ground-truth negative prompts from the test set. Furthermore, with NegOpt we can preferentially optimize the metrics most important to us. Finally, we construct Negative Prompts DB, a dataset of negative prompts. | 翻訳日:2024-03-13 21:35:55 公開日:2024-03-12 |
# 量子回路と測定による多体量子状態近似 Approximating many-body quantum states with quantum circuits and measurements ( http://arxiv.org/abs/2403.07604v1 ) ライセンス: Link先を確認 | Lorenzo Piroli, Georgios Styliaris, J. Ignacio Cirac | (参考訳) 量子回路を局所演算や古典的通信に補助して多体量子状態を作成するプロトコルを提案する。
まず, 正確な準備条件を引き上げることで, 資源を大幅に節約できることを示す。
特に、いわゆる「w$」およびより一般的には、ディッケ状態は、システムサイズに依存しない回路深さとアンシラの数を必要とする。
また,よく知られたスピンモデルの固有状態の生成において,自由と相互作用の両方において資源を節約する方法を示す。
我々の研究の双積として、特定の非局所非クリフォードユニタリ作用素を実装する効率的なスキームを導入する。 We introduce protocols to prepare many-body quantum states with quantum circuits assisted by local operations and classical communication. First, we show that by lifting the requirement of exact preparation, one can substantially save resources. In particular, the so-called $W$ and, more generally, Dicke states require a circuit depth and number of ancillas that are independent of the system size. We also show how one can save resources in the preparation of eigenstates of well-known spin models, both free and interacting. As a biproduct of our work, we introduce an efficient scheme to implement certain non-local, non-Clifford unitary operators. | 翻訳日:2024-03-13 21:35:42 公開日:2024-03-12 |
# ProPML: 確率的部分的マルチラベル学習 ProPML: Probability Partial Multi-label Learning ( http://arxiv.org/abs/2403.07603v1 ) ライセンス: Link先を確認 | {\L}ukasz Struski, Adam Pardyl, Jacek Tabor, Bartosz Zieli\'nski | (参考訳) 部分的マルチラベル学習(英: partial multi-label learning、pml)は、各トレーニングインスタンスが候補ラベルのセットに対応する弱い教師付き学習の一種である。
本稿では、この問題に対する新しい確率的アプローチである \our{} を導入し、二項交叉エントロピーをPML設定に拡張する。
既存の手法とは対照的に、準最適の曖昧さは必要とせず、どんな深層建築にも適用できる。
さらに、人工および実世界のデータセットで行った実験は、特に候補集合の高ノイズに対して、 \our{} が既存のアプローチを上回っていることを示している。 Partial Multi-label Learning (PML) is a type of weakly supervised learning where each training instance corresponds to a set of candidate labels, among which only some are true. In this paper, we introduce \our{}, a novel probabilistic approach to this problem that extends the binary cross entropy to the PML setup. In contrast to existing methods, it does not require suboptimal disambiguation and, as such, can be applied to any deep architecture. Furthermore, experiments conducted on artificial and real-world datasets indicate that \our{} outperforms existing approaches, especially for high noise in a candidate set. | 翻訳日:2024-03-13 21:35:31 公開日:2024-03-12 |
# 統一ソースフリードメイン適応 Unified Source-Free Domain Adaptation ( http://arxiv.org/abs/2403.07601v1 ) ライセンス: Link先を確認 | Song Tang, Wenxin Su, Mao Ye, Jianwei Zhang and Xiatian Zhu | (参考訳) ソーストレーニングデータにアクセスせずにソースモデルをターゲットドメインに転送する目的で、ソースフリードメイン適応(sfda)はクローズドセット、オープンセット、部分セット、一般化された設定など、さまざまなシナリオで広く研究されてきた。
特定のシナリオに焦点を当てた既存のメソッドは、課題のサブセットだけではなく、ターゲットドメインの事前知識も必要とし、実用性とデプロイ性を大幅に制限する。
これらの考察を踏まえて、我々はより実用的で困難な問題である統合SFDAを導入し、すべての特定のシナリオを総合的に統一的に組み込んだ。
本研究では,この統合SFDA問題に対処するため,LCFD(Latent Causal Factors Discovery)と呼ばれる新しいアプローチを提案する。
現実の統計的記述の学習を強調する従来の代替手段とは対照的に、因果性の観点からLCFDを定式化する。
目的は、潜在変数とモデル決定との間の因果関係を明らかにし、ドメインシフトに対する学習モデルの信頼性と堅牢性を高めることである。
広義の世界知識を統合するために、CLIPのような事前学習された視覚言語モデルを利用する。
これは、分布と意味論のばらつきにおける監督の欠如と、理論的保証を備えた新しく設計された情報ボトルネックにおける潜在因果要因の形成と発見を支援する。
広範な実験により、lcfdは異なるsfda設定で新しい最先端の成果を得られることが示され、またソースフリーのアウト・オブ・ディストリビューション一般化(source-free out-of-distribution generalization)も可能である。 In the pursuit of transferring a source model to a target domain without access to the source training data, Source-Free Domain Adaptation (SFDA) has been extensively explored across various scenarios, including closed-set, open-set, partial-set, and generalized settings. Existing methods, focusing on specific scenarios, not only address only a subset of challenges but also necessitate prior knowledge of the target domain, significantly limiting their practical utility and deployability. In light of these considerations, we introduce a more practical yet challenging problem, termed unified SFDA, which comprehensively incorporates all specific scenarios in a unified manner. To tackle this unified SFDA problem, we propose a novel approach called Latent Causal Factors Discovery (LCFD). In contrast to previous alternatives that emphasize learning the statistical description of reality, we formulate LCFD from a causality perspective. The objective is to uncover the causal relationships between latent variables and model decisions, enhancing the reliability and robustness of the learned model against domain shifts. To integrate extensive world knowledge, we leverage a pre-trained vision-language model such as CLIP. This aids in the formation and discovery of latent causal factors in the absence of supervision in the variation of distribution and semantics, coupled with a newly designed information bottleneck with theoretical guarantees. Extensive experiments demonstrate that LCFD can achieve new state-of-the-art results in distinct SFDA settings, as well as source-free out-of-distribution generalization.Our code and data are available at https://github.com/tntek/source-free-domain-adaptation. | 翻訳日:2024-03-13 21:35:19 公開日:2024-03-12 |
# Mondrian: 圧縮パッケージ推論によるオンデバイス高性能ビデオ分析 Mondrian: On-Device High-Performance Video Analytics with Compressive Packed Inference ( http://arxiv.org/abs/2403.07598v1 ) ライセンス: Link先を確認 | Changmin Jeon, Seonjun Kim, Juheon Yi, Youngki Lee | (参考訳) 本稿では,高分解能ビデオストリーム上で高性能オブジェクト検出を実現するエッジシステムであるmondrianを提案する。
リソース制約のあるデバイスでは、多くの軽量モデルやシステム最適化技術が提案されているが、動的高解像度ビデオよりもアクセラレータの可能性を十分に活用していない。
このような機能を実現するため,我々は,処理に必要な画素を選択的に決定し,並列処理を最大化することで,画素単位の処理コストを最小限に抑える新しい圧縮パッケージ推論を考案した。
特に, オブジェクトやシーンの高速な変化特性の影響を反映して, ROIを迅速に抽出し, 動的に縮小する。
そして、そのようなスケールしたROIを大きなキャンバスにインテリジェントに組み合わせ、GPUのような推論アクセラレータの利用を最大化する。
様々なデータセット、モデル、デバイスに対する評価では、mondrianは、最先端のベースライン(例えば、入力再スケーリング、roi抽出、roi抽出+バッチ)を15.0-19.7%高い精度で上回り、様々な1080pビデオストリームを処理するためのフレーム単位での推論よりも6.65ドル高いスループットをもたらす。
論文レビューの後、コードをリリースします。 In this paper, we present Mondrian, an edge system that enables high-performance object detection on high-resolution video streams. Many lightweight models and system optimization techniques have been proposed for resource-constrained devices, but they do not fully utilize the potential of the accelerators over dynamic, high-resolution videos. To enable such capability, we devise a novel Compressive Packed Inference to minimize per-pixel processing costs by selectively determining the necessary pixels to process and combining them to maximize processing parallelism. In particular, our system quickly extracts ROIs and dynamically shrinks them, reflecting the effect of the fast-changing characteristics of objects and scenes. It then intelligently combines such scaled ROIs into large canvases to maximize the utilization of inference accelerators such as GPU. Evaluation across various datasets, models, and devices shows Mondrian outperforms state-of-the-art baselines (e.g., input rescaling, ROI extractions, ROI extractions+batching) by 15.0-19.7% higher accuracy, leading to $\times$6.65 higher throughput than frame-wise inference for processing various 1080p video streams. We will release the code after the paper review. | 翻訳日:2024-03-13 21:34:49 公開日:2024-03-12 |
# ノイズ対応分散量子計算のためのアーキテクチャ An Architecture for Noise-Aware Distributed Quantum Computation ( http://arxiv.org/abs/2403.07596v1 ) ライセンス: Link先を確認 | Sanidhya Gupta and Ankur Raina | (参考訳) アリスが、量子チャネルで接続された普遍的な量子計算が可能な、n$のリモート量子コンピューティングノードにアクセスできると仮定する。
彼女は、これらのリモートノードを共同で計算し、実際の計算がこれらのリモートノードから隠れるように量子状態を保存したいと考えている。
本稿では,Aliceがリモートノードを用いて計算を行い,計算結果を格納するプロトコルについて述べる。
また、これらのノードにエラーが発生した場合、これらのノード自身がノイズを処理できるようにします。
より正確には、分散量子計算とストレージのためのアーキテクチャを開発し、遠隔ノード間の量子処理における重要な課題に対処する。
さらに,各ノードの雑音に対するロバスト性を高めるため,各ノードに適した量子誤り訂正手法を開発した。 Suppose Alice has access to $n$ remote quantum computing nodes capable of universal quantum computation, connected to her by a quantum channel. She wants to use these remote nodes jointly to make computations and store her quantum states such that the actual computation is hidden from these remote nodes. We describe a protocol to help Alice carry out her computation using these remote nodes and store her computation results. We also make sure these nodes can handle noise themselves in case of any error on these nodes. More precisely, we develop an architecture for distributed quantum computation and storage, addressing key challenges in quantum processing across remote nodes. Additionally, we enhance the robustness of each node against noise by developing quantum error-correcting methods suitable for each node. | 翻訳日:2024-03-13 21:34:26 公開日:2024-03-12 |
# MinkUNeXt:3次元スパース畳み込みを用いたポイントクラウドによる大規模位置認識 MinkUNeXt: Point Cloud-based Large-scale Place Recognition using 3D Sparse Convolutions ( http://arxiv.org/abs/2403.07593v1 ) ライセンス: Link先を確認 | J.J. Cabrera, A. Santo, A. Gil, C. Viegas and L. Pay\'a | (参考訳) 本稿では,近年の変圧器が確立した哲学に従うが,単純な3次元畳み込みを用いる3次元スパース畳み込みからなる残差ブロックである3d minknextブロックを,新しい3d minknextブロックに完全に基いて,点群認識のための効率的かつ効率的なアーキテクチャであるminkunextを提案する。
特徴抽出は、U-Netエンコーダデコーダネットワークによって異なるスケールで行われ、それらの特徴の1つの記述子への特徴集約は、一般化平均プール(GeM)によって実行される。
提案したアーキテクチャは,トランスフォーマーやアテンション・レイヤ,デフォルタブル・コンボリューションといった,より複雑で洗練された提案を使わずに,従来の3次元スパース・コンボリューションにのみ依存することで,現在の最先端を超えることが可能であることを実証している。
提案の徹底的な評価はOxford RobotCarとIn-houseデータセットを用いて行われている。
その結果、MinkUNeXtは最先端の他のメソッドよりも優れていることが証明された。 This paper presents MinkUNeXt, an effective and efficient architecture for place-recognition from point clouds entirely based on the new 3D MinkNeXt Block, a residual block composed of 3D sparse convolutions that follows the philosophy established by recent Transformers but purely using simple 3D convolutions. Feature extraction is performed at different scales by a U-Net encoder-decoder network and the feature aggregation of those features into a single descriptor is carried out by a Generalized Mean Pooling (GeM). The proposed architecture demonstrates that it is possible to surpass the current state-of-the-art by only relying on conventional 3D sparse convolutions without making use of more complex and sophisticated proposals such as Transformers, Attention-Layers or Deformable Convolutions. A thorough assessment of the proposal has been carried out using the Oxford RobotCar and the In-house datasets. As a result, MinkUNeXt proves to outperform other methods in the state-of-the-art. | 翻訳日:2024-03-13 21:34:13 公開日:2024-03-12 |
# マルチレゾリューション機能の統合による正確な空間遺伝子発現予測 Accurate Spatial Gene Expression Prediction by integrating Multi-resolution features ( http://arxiv.org/abs/2403.07592v1 ) ライセンス: Link先を確認 | Youngmin Chung, Ji Hun Ha, Kyeong Chan Im, Joo Sang Lee | (参考訳) 空間転写学(ST)技術の最近の進歩は、組織コンテキスト内での詳細な遺伝子発現解析を促進する。
しかし、STの高コストと方法論的な制限はより堅牢な予測モデルを必要とする。
本稿では,全スライド画像(WSI)から空間的遺伝子発現を予測するための新しいディープラーニングフレームワークであるTRIPLEXを紹介する。
TRIPLEXは多解像度の特徴を独自に利用し、個々の部位の細胞形態、これらの部位の周囲の局所的状況、そしてグローバル組織組織を捉えている。
これらの特徴を効果的な融合戦略を通じて統合することにより、TRIPLEXは正確な遺伝子発現予測を実現する。
10XゲノミクスのVisiumデータを用いた3つのパブリックSTデータセットを用いた総合的なベンチマーク研究により、TRIPLEXはMean Squared Error(MSE)、Mean Absolute Error(MAE)、Pearson correlation Coefficient(PCC)において現在の最先端モデルよりも優れていることを示した。
このモデルの予測は、ガン診断と治療の進歩におけるTRIPLEXのポテンシャルを裏付ける、基底真理遺伝子発現プロファイルや腫瘍アノテーションと密接に一致している。 Recent advancements in Spatial Transcriptomics (ST) technology have facilitated detailed gene expression analysis within tissue contexts. However, the high costs and methodological limitations of ST necessitate a more robust predictive model. In response, this paper introduces TRIPLEX, a novel deep learning framework designed to predict spatial gene expression from Whole Slide Images (WSIs). TRIPLEX uniquely harnesses multi-resolution features, capturing cellular morphology at individual spots, the local context around these spots, and the global tissue organization. By integrating these features through an effective fusion strategy, TRIPLEX achieves accurate gene expression prediction. Our comprehensive benchmark study, conducted on three public ST datasets and supplemented with Visium data from 10X Genomics, demonstrates that TRIPLEX outperforms current state-of-the-art models in Mean Squared Error (MSE), Mean Absolute Error (MAE), and Pearson Correlation Coefficient (PCC). The model's predictions align closely with ground truth gene expression profiles and tumor annotations, underscoring TRIPLEX's potential in advancing cancer diagnosis and treatment. | 翻訳日:2024-03-13 21:33:55 公開日:2024-03-12 |
# トレーニング不要なニューラルアーキテクチャ検索のロバスト化と強化 Robustifying and Boosting Training-Free Neural Architecture Search ( http://arxiv.org/abs/2403.07591v1 ) ライセンス: Link先を確認 | Zhenfeng He, Yao Shu, Zhongxiang Dai, Bryan Kian Hsiang Low | (参考訳) ニューラルアーキテクチャサーチ(NAS)はAutoMLの重要なコンポーネントとなり、ディープニューラルネットワークの設計を自動化する標準ツールとなった。
新たなパラダイムとしてのトレーニングフリーnasは、トレーニングフリーメトリクスだけで真のアーキテクチャパフォーマンスを推定することで、標準トレーニングベースのnasの検索コストを削減した。
しかしながら、これらの指標の推定能力は、通常、異なるタスクによって異なるため、単一のトレーニングフリーメトリックだけで、様々なタスクにおいて堅牢で一貫した優れた検索性能を達成することは困難である。
一方、トレーニングフリーのメトリクスと真のアーキテクチャのパフォーマンスの間の推定ギャップは、トレーニングフリーのnasを制限し、優れたパフォーマンスを達成する。
これらの課題に対処するために、トレーニングフリーNAS(RoBoT)アルゴリズムの強化と強化を提案する。
(a)ベイズ最適化から探索された既存のトレーニングフリーメトリクスの最適化組み合わせを用いて、多様なタスクにおける堅牢で一貫したパフォーマンスの指標を開発し、
(b)上記のギャップを橋渡しし、標準のトレーニングフリーなnasの探索性能をさらに高めるために、新たに開発されたメトリクスに欲深い探索、すなわち搾取を適用する。
興味深いことに、我々のRoBoTの期待性能は理論上保証され、より興味深い洞察を得られる穏やかな条件下で、既存のトレーニングフリーNASよりも向上します。
様々なnasベンチマークタスクに関する広範な実験は、理論的な結果をサポートする実証的な証拠をもたらします。 Neural architecture search (NAS) has become a key component of AutoML and a standard tool to automate the design of deep neural networks. Recently, training-free NAS as an emerging paradigm has successfully reduced the search costs of standard training-based NAS by estimating the true architecture performance with only training-free metrics. Nevertheless, the estimation ability of these metrics typically varies across different tasks, making it challenging to achieve robust and consistently good search performance on diverse tasks with only a single training-free metric. Meanwhile, the estimation gap between training-free metrics and the true architecture performances limits training-free NAS to achieve superior performance. To address these challenges, we propose the robustifying and boosting training-free NAS (RoBoT) algorithm which (a) employs the optimized combination of existing training-free metrics explored from Bayesian optimization to develop a robust and consistently better-performing metric on diverse tasks, and (b) applies greedy search, i.e., the exploitation, on the newly developed metric to bridge the aforementioned gap and consequently to boost the search performance of standard training-free NAS further. Remarkably, the expected performance of our RoBoT can be theoretically guaranteed, which improves over the existing training-free NAS under mild conditions with additional interesting insights. Our extensive experiments on various NAS benchmark tasks yield substantial empirical evidence to support our theoretical results. | 翻訳日:2024-03-13 21:33:33 公開日:2024-03-12 |
# pelk:周辺畳み込みを伴うパラメータ効率の高い大型カーネルコンブネット PeLK: Parameter-efficient Large Kernel ConvNets with Peripheral Convolution ( http://arxiv.org/abs/2403.07589v1 ) ライセンス: Link先を確認 | Honghao Chen, Xiangxiang Chu, Yongjian Ren, Xin Zhao, Kaiqi Huang | (参考訳) 最近、いくつかの大きなカーネルconvnetは、パフォーマンスと効率性に訴えている。
しかし、畳み込みの2乗の複雑さを考えると、カーネルのスケールアップは膨大な量のパラメータをもたらし、増大したパラメータは深刻な最適化問題を引き起こす。
これらの問題により、現在のCNNはストライプ畳み込み(51x5 + 5x51)の形で51x51までのスケールを妥協し、カーネルのサイズが大きくなるにつれて飽和し始める。
本稿では,これらの重要な問題に対処し,パフォーマンス向上のためにカーネルのスケールアップを継続できるかどうかを考察する。
本研究では,人間の視覚に触発され,パラメータ共有による高密度グリッド畳み込みの90%以上のパラメータ数を効率良く削減し,カーネルサイズを極端に拡大する,人間のような周辺畳み込みを提案する。
末梢のコンボリューションは人間と非常によく似ており,O(K^2)からO(logK)へのコンボリューションの複雑さを低下させる。
そこで本研究では,パラメータ効率の高いLarge Kernel Network (PeLK)を提案する。
私たちのPeLKは、ImageNet分類、ADE20K上のセマンティックセグメンテーション、MS COCOでのオブジェクト検出など、様々なビジョンタスクにおいて、Swin、ConvNeXt、RepLKNet、SLaKのようなモダンなビジョントランスフォーマーやConvNetアーキテクチャよりも優れています。
初めて、CNNのカーネルサイズを前例のない101x101にスケールアップし、一貫した改善を実証しました。 Recently, some large kernel convnets strike back with appealing performance and efficiency. However, given the square complexity of convolution, scaling up kernels can bring about an enormous amount of parameters and the proliferated parameters can induce severe optimization problem. Due to these issues, current CNNs compromise to scale up to 51x51 in the form of stripe convolution (i.e., 51x5 + 5x51) and start to saturate as the kernel size continues growing. In this paper, we delve into addressing these vital issues and explore whether we can continue scaling up kernels for more performance gains. Inspired by human vision, we propose a human-like peripheral convolution that efficiently reduces over 90% parameter count of dense grid convolution through parameter sharing, and manage to scale up kernel size to extremely large. Our peripheral convolution behaves highly similar to human, reducing the complexity of convolution from O(K^2) to O(logK) without backfiring performance. Built on this, we propose Parameter-efficient Large Kernel Network (PeLK). Our PeLK outperforms modern vision Transformers and ConvNet architectures like Swin, ConvNeXt, RepLKNet and SLaK on various vision tasks including ImageNet classification, semantic segmentation on ADE20K and object detection on MS COCO. For the first time, we successfully scale up the kernel size of CNNs to an unprecedented 101x101 and demonstrate consistent improvements. | 翻訳日:2024-03-13 21:33:09 公開日:2024-03-12 |
# 拡散モデルによる視覚的プライバシー監査 Visual Privacy Auditing with Diffusion Models ( http://arxiv.org/abs/2403.07588v1 ) ライセンス: Link先を確認 | Kristian Schwethelm, Johannes Kaiser, Moritz Knolle, Daniel Rueckert, Georgios Kaissis, Alexander Ziller | (参考訳) 機械学習モデルに対する画像再構成攻撃は、機密情報を漏洩させることで、プライバシーに重大なリスクをもたらす。
差分プライバシー(DP)を用いた攻撃に対する防御は有効であることが証明されているが、適切なDPパラメータを決定することは依然として困難である。
データ復元の成功に関する現在の形式的保証は、特に画像領域において、ターゲットデータに関する敵対的知識に関する過度な理論的仮定に苦しむ。
本研究では,この相違を実証的に検討し,これらの仮定の実用性は先行データと再構成対象データとのドメインシフトに強く依存していることを見出した。
本研究では,実世界画像への逆アクセスを前提とした拡散モデル(dms)に基づく再構成攻撃を提案し,dp-sgd下でのプライバシー漏洩に対する影響を評価する。
その結果,(1)実世界のデータは復元成功を優先し,(2)現在の復元限界はデータのリスクを十分にモデル化せず,(3)dmsはプライバシー漏洩を可視化するための効果的な監査ツールとして機能することがわかった。 Image reconstruction attacks on machine learning models pose a significant risk to privacy by potentially leaking sensitive information. Although defending against such attacks using differential privacy (DP) has proven effective, determining appropriate DP parameters remains challenging. Current formal guarantees on data reconstruction success suffer from overly theoretical assumptions regarding adversary knowledge about the target data, particularly in the image domain. In this work, we empirically investigate this discrepancy and find that the practicality of these assumptions strongly depends on the domain shift between the data prior and the reconstruction target. We propose a reconstruction attack based on diffusion models (DMs) that assumes adversary access to real-world image priors and assess its implications on privacy leakage under DP-SGD. We show that (1) real-world data priors significantly influence reconstruction success, (2) current reconstruction bounds do not model the risk posed by data priors well, and (3) DMs can serve as effective auditing tools for visualizing privacy leakage. | 翻訳日:2024-03-13 21:32:39 公開日:2024-03-12 |
# 分散Webのための多年的セマンティックデータ用語 Perennial Semantic Data Terms of Use for Decentralized Web ( http://arxiv.org/abs/2403.07587v1 ) ライセンス: Link先を確認 | Rui Zhao, Jun Zhao | (参考訳) 今日のデジタルの世界では、Webはますます集中化され、ユーザのプライバシー侵害に対する懸念が高まっている。
solidのような分散webアーキテクチャは、ユーザによる個人的な‘pods’でのデータ管理をより良くすることで、有望なソリューションを提供する。
ユーザは、データポッドへのアクセスを信頼できるアプリケーションを決定するために、多数のアプリケーションをナビゲートする必要があります。
これは多くの場合、長くて複雑な使用規約を読むことを伴う。
これにより、ユーザの自律性が損なわれ、データ誤用の検出が妨げられる。
本稿では,データ利用用語(dtou)に関する新しい形式記述と,dtou推論器を提案する。
ユーザとアプリケーションは、許可、要件、禁止、義務をカバーするローカル知識を備えたdtouポリシーの独自の部分を指定する。
自動推論はコンプライアンスを検証し、出力データに対するポリシーを導出する。
これは ``perennial'' dtou 言語であり、ポリシーオーサリングは1回のみ発生し、ユーザ、アプリケーション、アクティビティサイクルにわたって継続的に自動チェックを行うことができる。
我々のソリューションは、言語と推論エンジンのためのTurtle、Notation 3、RDF Surfaces上に構築されています。
相互運用性を高めるために、他のセマンティックツールとのシームレスな統合を保証する。
この言語をsolidフレームワークにうまく統合し、パフォーマンスベンチマークを実施しました。
この研究は、多年にわたるDToU言語の実用性と、ユーザが分散化されたWebでデータやアプリケーションと対話する方法へのパラダイムシフトの可能性を示し、プライバシーとユーザビリティを改善した。 In today's digital landscape, the Web has become increasingly centralized, raising concerns about user privacy violations. Decentralized Web architectures, such as Solid, offer a promising solution by empowering users with better control over their data in their personal `Pods'. However, a significant challenge remains: users must navigate numerous applications to decide which application can be trusted with access to their data Pods. This often involves reading lengthy and complex Terms of Use agreements, a process that users often find daunting or simply ignore. This compromises user autonomy and impedes detection of data misuse. We propose a novel formal description of Data Terms of Use (DToU), along with a DToU reasoner. Users and applications specify their own parts of the DToU policy with local knowledge, covering permissions, requirements, prohibitions and obligations. Automated reasoning verifies compliance, and also derives policies for output data. This constitutes a ``perennial'' DToU language, where the policy authoring only occurs once, and we can conduct ongoing automated checks across users, applications and activity cycles. Our solution is built on Turtle, Notation 3 and RDF Surfaces, for the language and the reasoning engine. It ensures seamless integration with other semantic tools for enhanced interoperability. We have successfully integrated this language into the Solid framework, and conducted performance benchmark. We believe this work demonstrates a practicality of a perennial DToU language and the potential of a paradigm shift to how users interact with data and applications in a decentralized Web, offering both improved privacy and usability. | 翻訳日:2024-03-13 21:32:22 公開日:2024-03-12 |
# 模擬家庭環境における社会的に適切なエージェント行動のフェデレーション学習 Federated Learning of Socially Appropriate Agent Behaviours in Simulated Home Environments ( http://arxiv.org/abs/2403.07586v1 ) ライセンス: Link先を確認 | Saksham Checker and Nikhil Churamani and Hatice Gunes | (参考訳) ソーシャルロボットが日々の生活に統合されるにつれ、彼らの行動が社会的規範に合致することを保証することが重要である。
広く普及しているオープンワールドアプリケーションでは、個々のロボットが独自の環境について学びながら、お互いの経験から学ぶことができるフェデレーション学習(fl)の設定を探求することが重要である。
本稿では,各クライアントが個別に学習し,異なるロボット行動の社会的適切性を予測し,学習を他人と共有する,多ラベル回帰目標を用いて,異なる戦略を評価する新しいFLベンチマークを提案する。
さらに、各クライアントが状況に応じて漸進的に学習するような異なるコンテキストでトレーニングデータを分割し、FLベースの手法を用いて、状況に応じて社会的に適切なエージェント動作を継続的に学習するFCL(Federated Continual Learning)ベンチマークを提案する。
重みのフェデレーション(FedAvg)は強靭なFL戦略として現れ、リハーサルベースのFCLはコンテキスト分割を通じてロボット行動の社会的適切性を漸進的に学習する。 As social robots become increasingly integrated into daily life, ensuring their behaviours align with social norms is crucial. For their widespread open-world application, it is important to explore Federated Learning (FL) settings where individual robots can learn about their unique environments while also learning from each others' experiences. In this paper, we present a novel FL benchmark that evaluates different strategies, using multi-label regression objectives, where each client individually learns to predict the social appropriateness of different robot actions while also sharing their learning with others. Furthermore, splitting the training data by different contexts such that each client incrementally learns across contexts, we present a novel Federated Continual Learning (FCL) benchmark that adapts FL-based methods to use state-of-the-art Continual Learning (CL) methods to continually learn socially appropriate agent behaviours under different contextual settings. Federated Averaging (FedAvg) of weights emerges as a robust FL strategy while rehearsal-based FCL enables incrementally learning the social appropriateness of robot actions, across contextual splits. | 翻訳日:2024-03-13 21:31:55 公開日:2024-03-12 |
# MoralBERT:社会談話における道徳的価値の検出 MoralBERT: Detecting Moral Values in Social Discourse ( http://arxiv.org/abs/2403.07678v1 ) ライセンス: Link先を確認 | Vjosa Preniqi, Iacopo Ghinassi, Kyriaki Kalimeri, Charalampos Saitis | (参考訳) 道徳は、私たちの決定や判断に大きな影響を与えながら、情報をどのように知覚するかにおいて、基本的な役割を担います。
ワクチン接種、中絶、人種差別、セクシュアリティなど、議論を呼ぶ話題は、しばしば、証拠に基づくだけでなく、道徳的な世界観を反映した意見や態度を引き出す。
自然言語処理の最近の進歩は、道徳的価値を人間の生成したテキストコンテンツで測定できることを実証している。
そこで本研究では,MoralBERTと呼ばれるテキストの道徳的ニュアンスを正確に捉えるために,微調整された言語表現モデルを設計する。
私たちは、Twitter、Reddit、Facebookの3つの異なるソースからの注釈付き道徳データを活用しています。
このアプローチは言語の多様性を広げ、様々な文脈で道徳を理解するモデルの能力を高める可能性がある。
また、モラル予測のための2つの異なるフレームワークであるシングルラベルとマルチラベルを用いて、ドメイン適応手法を標準の微調整bertモデルと比較した。
ドメイン内アプローチと従来の辞書ベースの手法に依存するモデルとを比較し,Word2Vec表現を用いた機械学習分類器を提案する。
その結果,ドメイン内予測モデルは従来のモデルよりも有意に優れていた。
単一ラベル設定は、BERT事前訓練モデルを使用する場合のタスクで以前達成したよりも高い精度に達する。
ドメイン外環境での実験は、既存のドメイン適応技術がさまざまなソーシャルメディアプラットフォーム、特にマルチレーベルタスクの間で一般化するためには、さらなる作業が必要であることを示唆する。
この研究による調査と成果は、さらなる調査の道を開き、議論を呼ぶ社会問題に関する道徳的な物語をより深く理解することを可能にした。 Morality plays a fundamental role in how we perceive information while greatly influencing our decisions and judgements. Controversial topics, including vaccination, abortion, racism, and sexuality, often elicit opinions and attitudes that are not solely based on evidence but rather reflect moral worldviews. Recent advances in natural language processing have demonstrated that moral values can be gauged in human-generated textual content. Here, we design a range of language representation models fine-tuned to capture exactly the moral nuances in text, called MoralBERT. We leverage annotated moral data from three distinct sources: Twitter, Reddit, and Facebook user-generated content covering various socially relevant topics. This approach broadens linguistic diversity and potentially enhances the models' ability to comprehend morality in various contexts. We also explore a domain adaptation technique and compare it to the standard fine-tuned BERT model, using two different frameworks for moral prediction: single-label and multi-label. We compare in-domain approaches with conventional models relying on lexicon-based techniques, as well as a Machine Learning classifier with Word2Vec representation. Our results showed that in-domain prediction models significantly outperformed traditional models. While the single-label setting reaches a higher accuracy than previously achieved for the task when using BERT pretrained models. Experiments in an out-of-domain setting, instead, suggest that further work is needed for existing domain adaptation techniques to generalise between different social media platforms, especially for the multi-label task. The investigations and outcomes from this study pave the way for further exploration, enabling a more profound comprehension of moral narratives about controversial social issues. | 翻訳日:2024-03-13 21:26:55 公開日:2024-03-12 |
# サッカーの試合結果予測のための機械学習 Machine Learning for Soccer Match Result Prediction ( http://arxiv.org/abs/2403.07669v1 ) ライセンス: Link先を確認 | Rory Bunker, Calvin Yeung, Keisuke Fujii | (参考訳) 機械学習はサッカーの試合の結果を予測するための一般的なアプローチとなり、この領域の文学の体系はここ10年半で大きく成長してきた。
本章では、利用可能なデータセット、モデルと機能のタイプ、このアプリケーションドメインでモデルパフォーマンスを評価する方法について論じる。
本章は, サッカーの試合結果予測のための機械学習の現状と今後の展開について, 今後の研究を行うためのリソースとして, より広い範囲で概説することを目的としている。
私たちの主な発見は、piレーティングなどのサッカー固有のレーティングに適用されたcatboostのような勾配ブーストツリーモデルが、現在マッチ機能として目標のみを含むデータセット上で最もパフォーマンスの高いモデルである一方で、さまざまなタイプのデータセットにおけるディープラーニングモデルとランダムフォレストのパフォーマンスをより徹底的に比較する必要があるということです。
さらに、プレイヤーレベルとチームレベルの情報と、時空間追跡やイベントデータなどの追加情報を含む新たなレーティングシステムについても検討した。
最後に、マッチング結果予測モデルの解釈可能性を高めて、チーム管理に役立つようにする必要があります。 Machine learning has become a common approach to predicting the outcomes of soccer matches, and the body of literature in this domain has grown substantially in the past decade and a half. This chapter discusses available datasets, the types of models and features, and ways of evaluating model performance in this application domain. The aim of this chapter is to give a broad overview of the current state and potential future developments in machine learning for soccer match results prediction, as a resource for those interested in conducting future studies in the area. Our main findings are that while gradient-boosted tree models such as CatBoost, applied to soccer-specific ratings such as pi-ratings, are currently the best-performing models on datasets containing only goals as the match features, there needs to be a more thorough comparison of the performance of deep learning models and Random Forest on a range of datasets with different types of features. Furthermore, new rating systems using both player- and team-level information and incorporating additional information from, e.g., spatiotemporal tracking and event data, could be investigated further. Finally, the interpretability of match result prediction models needs to be enhanced for them to be more useful for team management. | 翻訳日:2024-03-13 21:26:29 公開日:2024-03-12 |
# 有限資源を用いた量子情報の放送 Broadcasting Quantum Information using Finite Resources ( http://arxiv.org/abs/2403.07660v1 ) ライセンス: Link先を確認 | Tiago Debarba, Marcus Huber and Nicolai Friis | (参考訳) 測定はシステムと特に準備されたポインタ間の相互作用と見なすことができる。
理想的には、これらの相互作用は測定基準に関してシステムの密度演算子の対角線に対応する情報の正確なコピーを生成する。
しかし、客観的な事実として測定結果を確立するには冗長性が必要である。
そこで我々は,この情報を複数の量子メモリに一元的に分散する問題を考える。
この放送プロセスの精度は、純粋な状態の記憶を作成するための熱力学的制限によって制限されている。
有限温度記憶では,放送プロセスのエントロピー生成の限界を低くした。
このhopevo-landauerバウンドは、初期メモリの混合性が複数のメモリコンポーネントに正確な情報をブロードキャストする能力を制限することを示しており、元の情報の完全性を維持しつつ冗長性の生成を基本的に制限している。
最後に、各メモリコンポーネントのサブシステム数が増加するにつれて、粗粒化または漸近的に、古典的限度内で完全な情報を復元する方法を示し、本質的不完全にもかかわらず、客観的なプロパティがどのように出現するかを明らかにする。 Measurements can be viewed as interactions between systems and specifically prepared pointers. Ideally, these interactions create accurate copies of the information corresponding to the diagonal of the system's density operator with respect to the measurement basis. However, establishing measurement outcomes as objective facts requires redundancy. We therefore consider the problem of unitarily distributing this information to several quantum memories. We show that the accuracy of this broadcasting process is limited by thermodynamic restrictions on preparing the memories in pure states: ideal broadcasting is impossible using finite resources. For finite-temperature memories we put forward a lower bound on the entropy production of the broadcasting process. This Holevo-Landauer bound demonstrates that the mixedness of the initial memory limits the ability to accurately broadcast information to more than one memory component, thus fundamentally restricting the creation of redundancies while maintaining the integrity of the original information. Finally, we show how the full information can be recovered in the classical limit -- via coarse-graining or asymptotically as the number of subsystems of each memory component increases -- thus elucidating how objective properties can emerge despite inherent imperfections. | 翻訳日:2024-03-13 21:26:09 公開日:2024-03-12 |
# ベイズニューラルフィールドを用いたスケーラブル時空間予測 Scalable Spatiotemporal Prediction with Bayesian Neural Fields ( http://arxiv.org/abs/2403.07657v1 ) ライセンス: Link先を確認 | Feras Saad, Jacob Burnim, Colin Carroll, Brian Patton, Urs K\"oster, Rif A. Saurous, Matthew Hoffman | (参考訳) 空間的に参照された時系列からなる時空間データセットは、大気汚染モニタリング、病気の追跡、クラウド要求予測など、多くの科学的およびビジネス知性アプリケーションにおいてユビキタスである。
現代のデータセットはサイズと複雑さを増し続けており、複雑な時空間力学を捉えるのに十分なフレキシブルで、大きな予測問題を扱うのに十分なスケーラブルな新しい統計手法の必要性が高まっている。
ベイズニューラルフィールド(ベイズニューラルフィールド、BayesNF)は、時空間領域上のリッチな確率分布を推定するための一般統計モデルであり、予測、補間、およびバリアグラフィーなどのデータ解析に使用できる。
BayesNFは、高容量関数推定のための新しいディープニューラルネットワークアーキテクチャと、堅牢な不確実性定量化のための階層的ベイズ推論を統合する。
滑らかな微分可能変換の列を通じて事前を定義することにより,確率勾配降下法を用いて訓練した変動学習サロゲートを用いて,大規模データに対して後部推論を行う。
我々はBayesNFを統計的および機械学習のベースラインに対して評価し、数十から数十万の計測値を含む気候および公衆衛生データセットからの多様な予測問題に対する大幅な改善を示す。
論文にはオープンソースのソフトウェアパッケージ(https://github.com/google/bayesnf)が付属しており、jax機械学習プラットフォーム上の最新のgpuとtpuアクセラレータと互換性がある。 Spatiotemporal datasets, which consist of spatially-referenced time series, are ubiquitous in many scientific and business-intelligence applications, such as air pollution monitoring, disease tracking, and cloud-demand forecasting. As modern datasets continue to increase in size and complexity, there is a growing need for new statistical methods that are flexible enough to capture complex spatiotemporal dynamics and scalable enough to handle large prediction problems. This work presents the Bayesian Neural Field (BayesNF), a domain-general statistical model for inferring rich probability distributions over a spatiotemporal domain, which can be used for data-analysis tasks including forecasting, interpolation, and variography. BayesNF integrates a novel deep neural network architecture for high-capacity function estimation with hierarchical Bayesian inference for robust uncertainty quantification. By defining the prior through a sequence of smooth differentiable transforms, posterior inference is conducted on large-scale data using variationally learned surrogates trained via stochastic gradient descent. We evaluate BayesNF against prominent statistical and machine-learning baselines, showing considerable improvements on diverse prediction problems from climate and public health datasets that contain tens to hundreds of thousands of measurements. The paper is accompanied with an open-source software package (https://github.com/google/bayesnf) that is easy-to-use and compatible with modern GPU and TPU accelerators on the JAX machine learning platform. | 翻訳日:2024-03-13 21:25:53 公開日:2024-03-12 |
# より厳しいタスクには専門家が必要だ - MoEモデルの動的ルーティング Harder Tasks Need More Experts: Dynamic Routing in MoE Models ( http://arxiv.org/abs/2403.07652v1 ) ライセンス: Link先を確認 | Quzhe Huang, Zhenwei An, Nan Zhuang, Mingxu Tao, Chen Zhang, Yang Jin, Kun Xu, Kun Xu, Liwei Chen, Songfang Huang, Yansong Feng | (参考訳) 本稿では, 入力の難易度に応じて専門家数を調整することにより, 計算効率とモデル性能を向上させることを目的とした, 混合専門家モデルのための動的エキスパート選択フレームワークを提案する。
入力の複雑さに関係なく、所定の数のエキスパートを活性化する固定トップkルーティングに依存する従来のmoeアプローチとは異なり、各入力に対する専門家選択の信頼性レベルに基づいて専門家を動的に選択する。
これにより、より効率的な計算資源の利用が可能になり、より高度な推論を必要とする複雑なタスクのエキスパートの活性化と、より単純なタスクの削減が可能になる。
提案手法は,様々なベンチマークにおいて従来のTop-2ルーティングよりも大幅に改善され,90%未満のアクティベートパラメータで平均0.7%の改善が達成された。
さらに分析した結果、BBHのような複雑な推論スキルを必要とするタスクに専門家を配置し、入力の複雑さに合わせて計算資源を動的に割り当てる能力を確認した。
この結果はまた、トランスフォーマーモデルのさまざまな層にまたがる専門家の数の変化を強調し、異種MOEフレームワークを設計する可能性についての洞察を提供する。
コードとモデルはhttps://github.com/zhenweian/dynamic_moeで入手できる。 In this paper, we introduce a novel dynamic expert selection framework for Mixture of Experts (MoE) models, aiming to enhance computational efficiency and model performance by adjusting the number of activated experts based on input difficulty. Unlike traditional MoE approaches that rely on fixed Top-K routing, which activates a predetermined number of experts regardless of the input's complexity, our method dynamically selects experts based on the confidence level in expert selection for each input. This allows for a more efficient utilization of computational resources, activating more experts for complex tasks requiring advanced reasoning and fewer for simpler tasks. Through extensive evaluations, our dynamic routing method demonstrates substantial improvements over conventional Top-2 routing across various benchmarks, achieving an average improvement of 0.7% with less than 90% activated parameters. Further analysis shows our model dispatches more experts to tasks requiring complex reasoning skills, like BBH, confirming its ability to dynamically allocate computational resources in alignment with the input's complexity. Our findings also highlight a variation in the number of experts needed across different layers of the transformer model, offering insights into the potential for designing heterogeneous MoE frameworks. The code and models are available at https://github.com/ZhenweiAn/Dynamic_MoE. | 翻訳日:2024-03-13 21:25:27 公開日:2024-03-12 |
# 非線形表面からの直交可変コ・カウンタ伝搬光子対 Directionally Tunable Co- and Counter-Propagating Photon Pairs from a Nonlinear Metasurface ( http://arxiv.org/abs/2403.07651v1 ) ライセンス: Link先を確認 | Maximilian A. Weissflog, Jinyong Ma, Jihua Zhang, Tongmiao Fan, Thomas Pertsch, Dragomir N. Neshev, Sina Saravi, Frank Setzpfandt, Andrey A. Sukhorukov | (参考訳) 非線形準曲面は、最近、自然パラメトリックダウンコンバージョンによる光子対を生成するための新しいプラットフォームとして確立されている。
準曲面における古典的な調和生成では、光の自由度に対する高レベルの制御が達成されているが、光子対生成のためにはまだ開発されていない。
本研究では,非線形な準曲面から発生する光子対の放出角の正確な制御を理論的,実験的に初めて行った。
本測定では,共伝播と反伝播の双方に対して高い一致率を持つ角度調整可能なペアジェネレーションを示す。
基本原理は、非線形ニオブ酸リチウム転移における強角分散を伴う誘導モード共鳴の逆位相整合である。
このようなデバイスにおける光子対生成の簡単な設計戦略を提供し、計算結果と実験結果との間に非常によく一致していることを示す。
ここでは、ポンプ波長による全光放射角チューニングを用いるが、原理はニオブ酸リチウムの電気光学効果によって変調に拡張できる。
この研究は、サブ波長厚光子対源のツールセットに重要な追加を提供する。 Nonlinear metasurfaces have recently been established as a new platform for generating photon pairs via spontaneous parametric down-conversion. While for classical harmonic generation in metasurfaces a high level of control over all degrees of freedom of light has been reached, this capability is yet to be developed for photon pair generation. In this work, we theoretically and experimentally demonstrate for the first time precise control of the emission angle of photon pairs generated from a nonlinear metasurface. Our measurements show angularly tunable pair-generation with high coincidence-to-accidental ratio for both co- and counter-propagating emission. The underlying principle is the transverse phase-matching of guided-mode resonances with strong angular dispersion in a nonlinear lithium niobate metagrating. We provide a straightforward design strategy for photon pair generation in such a device and find very good agreement between the calculations and experimental results. Here we use all-optical emission angle tuning by means of the pump wavelength, however the principle could be extended to modulation via the electro-optic effect in lithium niobate. In sum, this work provides an important addition to the toolset of sub-wavelength thickness photon pair sources. | 翻訳日:2024-03-13 21:25:07 公開日:2024-03-12 |
# データセンターにおける大規模言語モデル開発の特徴 Characterization of Large Language Model Development in the Datacenter ( http://arxiv.org/abs/2403.07648v1 ) ライセンス: Link先を確認 | Qinghao Hu, Zhisheng Ye, Zerui Wang, Guoteng Wang, Meng Zhang, Qiaoling Chen, Peng Sun, Dahua Lin, Xiaolin Wang, Yingwei Luo, Yonggang Wen, Tianwei Zhang | (参考訳) 大きな言語モデル(LLM)は、いくつかの変換タスクで素晴らしいパフォーマンスを示している。
しかしながら、大規模クラスタリソースを効率的に利用してllmを開発することは、ハードウェア障害の頻繁な発生、複雑な並列化戦略、リソース利用の不均衡など、多くの課題に直面することが少なくない。
本稿では,GPU データセンター Acme から収集した6ヶ月の LLM 開発ワークロードトレースの詳細な特徴について述べる。
具体的には、LCMと従来のタスク固有のDeep Learning(DL)ワークロードの相違を調査し、リソース利用パターンを調査し、さまざまなジョブ障害の影響を明らかにする。
我々の分析は、私たちが遭遇したハードルを要約し、LLMに適したシステムを最適化する潜在的な機会を明らかにします。
さらに,(1) llmによる障害診断と自動リカバリによる耐障害性向上を目的とした耐障害予備訓練について紹介する。
2) 試行錯誤とスケジューリング最適化によるタイムリーな性能フィードバックを実現する評価の分離スケジューリングを行う。 Large Language Models (LLMs) have presented impressive performance across several transformative tasks. However, it is non-trivial to efficiently utilize large-scale cluster resources to develop LLMs, often riddled with numerous challenges such as frequent hardware failures, intricate parallelization strategies, and imbalanced resource utilization. In this paper, we present an in-depth characterization study of a six-month LLM development workload trace collected from our GPU datacenter Acme. Specifically, we investigate discrepancies between LLMs and prior task-specific Deep Learning (DL) workloads, explore resource utilization patterns, and identify the impact of various job failures. Our analysis summarizes hurdles we encountered and uncovers potential opportunities to optimize systems tailored for LLMs. Furthermore, we introduce our system efforts: (1) fault-tolerant pretraining, which enhances fault tolerance through LLM-involved failure diagnosis and automatic recovery. (2) decoupled scheduling for evaluation, which achieves timely performance feedback via trial decomposition and scheduling optimization. | 翻訳日:2024-03-13 21:24:50 公開日:2024-03-12 |
# 病態検出のための疾患記述の分解:多視点視覚言語マッチングフレームワーク Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Matching Framework ( http://arxiv.org/abs/2403.07636v1 ) ライセンス: Link先を確認 | Minh Hieu Phan, Yutong Xie, Yuankai Qi, Lingqiao Liu, Liyang Liu, Bowen Zhang, Zhibin Liao, Qi Wu, Minh-Son To, Johan W. Verjans | (参考訳) 医学的視覚言語事前訓練(VLP)は研究の最前線として現れており、クエリ画像と各疾患のテキスト記述を比較してゼロショットの病理診断を可能にしている。
バイオメディカルテキストの複雑なセマンティクスのために、現在の手法は、非構造化報告における重要な病理所見と医療画像の整合に苦慮している。
これにより、対象の疾患のテキスト表現と不一致が生じる。
本稿では,病態の視覚的発現に関する事前知識を活用し,疾患記述をその基本的な側面に分解する新しいVLPフレームワークを提案する。
これは、大きな言語モデルと医療専門家に相談することで達成される。
トランスフォーマーモジュールを統合することで,入力画像と疾患の多様な要素を整合させ,アスペクト中心の画像表現を生成する。
各側面からマッチングを統合することにより、画像とその関連疾患の適合性を改善する。
さらに, アスペクト指向表現を活かし, 既知の疾患や未知の疾患を処理し, 包括的検出効果を最適化したデュアルヘッドトランスフォーマを提案する。
7つの下流データセットで実験を行ない、最新の手法を最大8.07%、AUCスコアが11.23%、新しいカテゴリがそれぞれ上回っている。
我々のコードは \href{https://github.com/HieuPhan33/MAVL}{https://github.com/HieuPhan33/MAVL} で公開されている。 Medical vision language pre-training (VLP) has emerged as a frontier of research, enabling zero-shot pathological recognition by comparing the query image with the textual descriptions for each disease. Due to the complex semantics of biomedical texts, current methods struggle to align medical images with key pathological findings in unstructured reports. This leads to the misalignment with the target disease's textual representation. In this paper, we introduce a novel VLP framework designed to dissect disease descriptions into their fundamental aspects, leveraging prior knowledge about the visual manifestations of pathologies. This is achieved by consulting a large language model and medical experts. Integrating a Transformer module, our approach aligns an input image with the diverse elements of a disease, generating aspect-centric image representations. By consolidating the matches from each aspect, we improve the compatibility between an image and its associated disease. Additionally, capitalizing on the aspect-oriented representations, we present a dual-head Transformer tailored to process known and unknown diseases, optimizing the comprehensive detection efficacy. Conducting experiments on seven downstream datasets, ours outperforms recent methods by up to 8.07% and 11.23% in AUC scores for seen and novel categories, respectively. Our code is released at \href{https://github.com/HieuPhan33/MAVL}{https://github.com/HieuPhan33/MAVL}. | 翻訳日:2024-03-13 21:24:18 公開日:2024-03-12 |
# cardiogenai:herg責任軽減のための再設計のための機械学習ベースのフレームワーク CardioGenAI: A Machine Learning-Based Framework for Re-Engineering Drugs for Reduced hERG Liability ( http://arxiv.org/abs/2403.07632v1 ) ライセンス: Link先を確認 | Gregory W. Kyro, Matthew T. Martin, Eric D. Watt, Victor S. Batista | (参考訳) 薬物による心毒性は、電圧調節されたエルグカリウムイオンチャネルの遮断を通じて、心臓不整脈の生命を脅かすような深刻な副作用をもたらす主要な健康上の懸念である。
したがって、医薬品開発の初期段階において、hERG活性化合物を同定する高度な方法を開発することや、hERG活性を減少させるために市販薬物を最適化することに大きな関心がある。
本研究は,HERG活性を低下させながら薬効を低下させるため,開発薬と市販薬の両方を再設計する機械学習フレームワークであるCardioGenAIを紹介する。
このフレームワークは、hERGチャネルの活性を予測するための新しい最先端の識別モデルと、hERGチャネルの遮断によって引き起こされる不整脈性電位を調節する可能性から、電圧ゲート型NaV1.5およびCaV1.2チャネルに対する活性を含む。
これらのモデルは、仮想スクリーニングパイプラインの有効コンポーネントとして独立して機能することもできる。
我々は、hERGチャネルに高い親和性を示すFDA認可の抗精神病薬であるピモジドに完全な枠組みを適用し、100の精製候補を生成した。
この化合物はピモジドと同じ種類の薬物(ジフェニルメタン)であり、薬理活性は類似しているが、hERGに700倍以上の弱い結合を示す。
分子仮説生成のためのCardioGenAIフレームワークをドラッグ発見ワークフローに統合するためのソフトウェアをオープンソースにしました。 Drug-induced cardiotoxicity is a major health concern which can lead to serious adverse effects including life-threatening cardiac arrhythmias via the blockade of the voltage-gated hERG potassium ion channel. It is therefore of tremendous interest to develop advanced methods to identify hERG-active compounds in early stages of drug development, as well as to optimize commercially available drugs for reduced hERG activity. In this work, we present CardioGenAI, a machine learning-based framework for re-engineering both developmental and marketed drugs for reduced hERG activity while preserving their pharmacological activity. The framework incorporates novel state-of-the-art discriminative models for predicting hERG channel activity, as well as activity against the voltage-gated NaV1.5 and CaV1.2 channels due to their potential implications in modulating the arrhythmogenic potential induced by hERG channel blockade. These models can also serve independently as effective components of a virtual screening pipeline. We applied the complete framework to pimozide, an FDA-approved antipsychotic agent that demonstrates high affinity to the hERG channel, and generated 100 refined candidates. Remarkably, among the candidates is fluspirilene, a compound which is of the same class of drugs (diphenylmethanes) as pimozide and therefore has similar pharmacological activity, yet exhibits over 700-fold weaker binding to hERG. We have made all of our software open-source to facilitate integration of the CardioGenAI framework for molecular hypothesis generation into drug discovery workflows. | 翻訳日:2024-03-13 21:23:54 公開日:2024-03-12 |
# Hunting Attributes:Weakly Supervised Semantic Segmentationのためのコンテキストプロトタイプ認識学習 Hunting Attributes: Context Prototype-Aware Learning for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2403.07630v1 ) ライセンス: Link先を確認 | Feilong Tang, Zhongxing Xu, Zhaojun Qu, Wei Feng, Xingjian Jiang, Zongyuan Ge | (参考訳) 最近のwsss(weakly supervised semantic segmentation)メソッドは、クラスアクティベーションマップ(cam)の完全性を改善するために文脈知識を取り入れようとしている。
この研究では、インスタンスとコンテキスト間の知識バイアスが、インスタンスのセマンティクスを十分に理解するプロトタイプの能力に影響を与えると論じる。
プロトタイプ学習理論に触発されて,プロトタイプ認識を利用して,インスタンスの多様できめ細かい特徴を捉えることを提案する。
この仮説では、文脈のプロトタイプは、この知識バイアスのために、同じで頻繁に共起するオブジェクトカテゴリを誤って活性化する可能性がある。
そこで,このバイアスを緩和して,意味対象領域の空間的カバレッジをよりよく捉えることにより,プロトタイプ表現能力を向上させることを提案する。
この目的により、意味的コンテキストを利用してインスタンスの理解を深めるコンテキストプロトタイプ・アウェアラーニング(CPAL)戦略を提案する。
この手法の核心は、コンテキスト認識プロトタイプを通してオブジェクトの特徴のクラス内変動を正確に捉え、様々なインスタンスの意味的属性への適応を容易にすることである。
プロトタイプの認識を最適化するために機能分布アライメントを設計し、インスタンス特徴分布と密集した特徴を整合させる。
さらに,ラベル誘導型分類監督とプロトタイプ誘導型自己監督を組み合わせた統合トレーニングフレームワークを提案する。
PASCAL VOC 2012 と MS COCO 2014 の実験結果から,CPAL は既製法を大幅に改善し,最先端性能を実現していることがわかった。
プロジェクトはhttps://github.com/barrett-python/cpalで入手できる。 Recent weakly supervised semantic segmentation (WSSS) methods strive to incorporate contextual knowledge to improve the completeness of class activation maps (CAM). In this work, we argue that the knowledge bias between instances and contexts affects the capability of the prototype to sufficiently understand instance semantics. Inspired by prototype learning theory, we propose leveraging prototype awareness to capture diverse and fine-grained feature attributes of instances. The hypothesis is that contextual prototypes might erroneously activate similar and frequently co-occurring object categories due to this knowledge bias. Therefore, we propose to enhance the prototype representation ability by mitigating the bias to better capture spatial coverage in semantic object regions. With this goal, we present a Context Prototype-Aware Learning (CPAL) strategy, which leverages semantic context to enrich instance comprehension. The core of this method is to accurately capture intra-class variations in object features through context-aware prototypes, facilitating the adaptation to the semantic attributes of various instances. We design feature distribution alignment to optimize prototype awareness, aligning instance feature distributions with dense features. In addition, a unified training framework is proposed to combine label-guided classification supervision and prototypes-guided self-supervision. Experimental results on PASCAL VOC 2012 and MS COCO 2014 show that CPAL significantly improves off-the-shelf methods and achieves state-of-the-art performance. The project is available at https://github.com/Barrett-python/CPAL. | 翻訳日:2024-03-13 21:23:27 公開日:2024-03-12 |
# generaitor: 言語モデル説明と適応のためのtree-in-the-loopテキスト生成 generAItor: Tree-in-the-Loop Text Generation for Language Model Explainability and Adaptation ( http://arxiv.org/abs/2403.07627v1 ) ライセンス: Link先を確認 | Thilo Spinner, Rebecca Kehlbeck, Rita Sevastjanova, Tobias St\"ahle, Daniel A. Keim, Oliver Deussen, Mennatallah El-Assady | (参考訳) 大規模な言語モデル(llm)は、自動補完、手書き支援、チャットベースのテキスト生成など、さまざまな下流タスクに広く展開されている。
しかし、基礎となる探索アルゴリズムの出力候補は未探索であり、未説明である。
本稿では,ビーム探索ツリーの視覚的表現を解析,説明,適応する中心的な要素とする,ループ内ツリーのアプローチを提案することで,この欠点に対処する。
これらのタスクをサポートするために,ビジュアル解析技術であるgeneraitorでは,タスク固有のウィジェットを用いて中央ビーム探索ツリーを拡張し,対象とする可視化とインタラクションの可能性を提供する。
提案手法は,複数のレベルでのインタラクションを可能にし,出力候補の生成,探索,比較を含む反復パイプラインを提供するとともに,適応データに基づいてモデルを微調整する。
本研究は,最先端のテンプレートベース手法を超えて,ジェンダーバイアス分析に新たな知見をもたらすことを示す。
さらに,定性的なユーザスタディにおいて,アプローチの適用性を示す。
最後に,テキスト生成のユースケースで発生するような,少数のサンプルに対するモデルの適応性を定量的に評価する。 Large language models (LLMs) are widely deployed in various downstream tasks, e.g., auto-completion, aided writing, or chat-based text generation. However, the considered output candidates of the underlying search algorithm are under-explored and under-explained. We tackle this shortcoming by proposing a tree-in-the-loop approach, where a visual representation of the beam search tree is the central component for analyzing, explaining, and adapting the generated outputs. To support these tasks, we present generAItor, a visual analytics technique, augmenting the central beam search tree with various task-specific widgets, providing targeted visualizations and interaction possibilities. Our approach allows interactions on multiple levels and offers an iterative pipeline that encompasses generating, exploring, and comparing output candidates, as well as fine-tuning the model based on adapted data. Our case study shows that our tool generates new insights in gender bias analysis beyond state-of-the-art template-based methods. Additionally, we demonstrate the applicability of our approach in a qualitative user study. Finally, we quantitatively evaluate the adaptability of the model to few samples, as occurring in text-generation use cases. | 翻訳日:2024-03-13 21:22:57 公開日:2024-03-12 |
# モノセントリックか 多中心都市か?
実証的視点 Monocentric or polycentric city? An empirical perspective ( http://arxiv.org/abs/2403.07624v1 ) ライセンス: Link先を確認 | R\'emi Lemoy | (参考訳) 都市には1つまたは複数のセンターがありますか。
都市を放射的あるいは単中心的に分析する研究は、都市が実際に多中心的であるという研究者によって批判されることが多い。
逆に、都市がどの中心から独立して研究されるとき、他の研究者は、この距離が都市内スケールの主要な決定要因であることから、関心の変数が中心までの距離とともにどのように進化するか疑問に思う。
モノセントリックと多心的フォーマリズムは、都市の研究のために何世紀も前に導入され、様々な分野(経済学、地理学、複雑なシステム、物理学...)における経験的側面と理論的側面の両方に用いられた。
本研究は, 都市における両視点の合成, 文献の活用, ヨーロッパの都市部におけるデータを用いて, ラジアル分析とスケーリング法を組み合わせることで, ヨーロッパで最も多中心的な都市であると考えられる都市が, より標準的な都市との比較を行う。 Do cities have just one or several centers? Studies performing radial or monocentric analyses of cities are usually criticised by researchers stating that cities are actually polycentric, and this has been well known for a long time. Reversely, when cities are studied independently of any center, other researchers will wonder how the variables of interest evolve with the distance to the center, because this distance is known to be a major determinant at the intra-urban scale. Both monocentric and polycentric formalisms have been introduced centuries (respectively, decades) ago for the study of urban areas, and used both on the empirical and the theoretical side in different disciplines (economics, geography, complex systems, physics...). The present work performs a synthesis of both viewpoints on cities, regarding their use in the literature, and explores with data on European urban areas how some cities considered to be the most polycentric in Europe compare to more standard cities when studied through a combination of radial analysis and scaling laws. | 翻訳日:2024-03-13 21:22:38 公開日:2024-03-12 |
# 圧縮暗画像強調のための多重潜在空間マッピング Multiple Latent Space Mapping for Compressed Dark Image Enhancement ( http://arxiv.org/abs/2403.07622v1 ) ライセンス: Link先を確認 | Yi Zeng, Zhengning Wang, Yuxuan Liu, Tianjiao Zeng, Xuhang Liu, Xinglong Luo, Shuaicheng Liu, Shuyuan Zhu and Bing Zeng | (参考訳) ダークイメージの強化は、ダークイメージを通常の光画像に変換することを目的としている。
既存の暗画像強調法は、未圧縮の暗画像を入力として、優れた性能を達成する。
しかし実際には、暗い画像はインターネット上の保存や送信の前に圧縮されることが多い。
圧縮された暗画像を処理する場合、現在の手法は性能が低下する。
暗黒領域に隠された人工物は、現在の方法で増幅され、観察者にとって不快な視覚効果をもたらす。
本研究は,圧縮アーチファクトの増幅を回避しつつ,圧縮黒画像の強調を目的とした。
テクスチャの詳細は圧縮された暗画像の圧縮アーティファクトと相互作用するため、ディテールエンハンスメントとブロッキングアーティファクトの抑制は画像空間で相反する。
したがって、このタスクを潜在空間で処理する。
そこで本研究では,変分自動エンコーダ(VAE)に基づく新しい潜時マッピングネットワークを提案する。
まず,単一解像度機能のみを持つ従来のvaeベースの手法と異なり,マルチ解像度機能を持つ複数の潜在空間を活用し,ディテールのぼやけを低減し,画像の忠実度を向上させる。
具体的には、2つの多レベルvaを訓練して、それぞれ圧縮された暗画像と常光画像を潜在空間に投影する。
第2に,潜在性マッピングネットワークを利用して,圧縮された暗空間から通常の光空間へ特徴を変換する。
具体的には、暗さと圧縮の劣化モデルは互いに異なるので、潜在写像過程を照明分岐と遮蔽分岐に分割する。
総合的な実験により,提案手法は圧縮暗画像強調における最先端性能を実現することを示した。 Dark image enhancement aims at converting dark images to normal-light images. Existing dark image enhancement methods take uncompressed dark images as inputs and achieve great performance. However, in practice, dark images are often compressed before storage or transmission over the Internet. Current methods get poor performance when processing compressed dark images. Artifacts hidden in the dark regions are amplified by current methods, which results in uncomfortable visual effects for observers. Based on this observation, this study aims at enhancing compressed dark images while avoiding compression artifacts amplification. Since texture details intertwine with compression artifacts in compressed dark images, detail enhancement and blocking artifacts suppression contradict each other in image space. Therefore, we handle the task in latent space. To this end, we propose a novel latent mapping network based on variational auto-encoder (VAE). Firstly, different from previous VAE-based methods with single-resolution features only, we exploit multiple latent spaces with multi-resolution features, to reduce the detail blur and improve image fidelity. Specifically, we train two multi-level VAEs to project compressed dark images and normal-light images into their latent spaces respectively. Secondly, we leverage a latent mapping network to transform features from compressed dark space to normal-light space. Specifically, since the degradation models of darkness and compression are different from each other, the latent mapping process is divided mapping into enlightening branch and deblocking branch. Comprehensive experiments demonstrate that the proposed method achieves state-of-the-art performance in compressed dark image enhancement. | 翻訳日:2024-03-13 21:22:17 公開日:2024-03-12 |
# 深層学習による屋内観光地におけるスマートフォンの地域画像化 Smartphone region-wise image indoor localization using deep learning for indoor tourist attraction ( http://arxiv.org/abs/2403.07621v1 ) ライセンス: Link先を確認 | Gabriel Toshio Hirokawa Higa, Rodrigo Stuqui Monzani, Jorge Fernando da Silva Cecatto, Maria Fernanda Balestieri Mariano de Souza, Vanessa Aparecida de Moraes Weber, Hemerson Pistori, Edson Takashi Matsubara | (参考訳) スマートな屋内観光アトラクション(スマートミュージアムや水族館など)は通常、屋内ローカライズ装置に多大な投資を必要とする。
スマートフォンのグローバルな位置決めシステムは、コンクリートや金属ブロックのような密度の高い材料がgps信号を弱めるシナリオには適していない。
深層学習により、スマートフォン画像を用いて、地域的屋内ローカライゼーションを行うことができる。
このアプローチはインフラへの投資を必要とせず、博物館や水族館をスマート博物館やスマート水族館に変えるコストと時間を削減している。
本稿では,屋内観光地におけるスマートフォンカメラ画像を用いた深層学習アルゴリズムによる位置分類を提案する。
我々はブラジルの現実シナリオで提案を評価した。
パンタナル・バイオパーク内の生物をテーマにした水槽を分類するために、10台の異なるスマートフォンから画像を広範囲に収集し、3654枚の画像の新しいデータセットを作成した。
我々は7つの最先端ニューラルネットワークをテストし、3つはトランスフォーマーベースで、平均で90%、リコールで90%、平均で89%のf-scoreをテストした。
その結果,ほとんどの屋内観光地において提案の有効性が示された。 Smart indoor tourist attractions, such as smart museums and aquariums, usually require a significant investment in indoor localization devices. The smartphone Global Positional Systems use is unsuitable for scenarios where dense materials such as concrete and metal block weaken the GPS signals, which is the most common scenario in an indoor tourist attraction. Deep learning makes it possible to perform region-wise indoor localization using smartphone images. This approach does not require any investment in infrastructure, reducing the cost and time to turn museums and aquariums into smart museums or smart aquariums. This paper proposes using deep learning algorithms to classify locations using smartphone camera images for indoor tourism attractions. We evaluate our proposal in a real-world scenario in Brazil. We extensively collect images from ten different smartphones to classify biome-themed fish tanks inside the Pantanal Biopark, creating a new dataset of 3654 images. We tested seven state-of-the-art neural networks, three being transformer-based, achieving precision around 90% on average and recall and f-score around 89% on average. The results indicate good feasibility of the proposal in a most indoor tourist attractions. | 翻訳日:2024-03-13 21:21:50 公開日:2024-03-12 |
# 超音波の自己監督学習における映像内陽性ペア Intra-video Positive Pairs in Self-Supervised Learning for Ultrasound ( http://arxiv.org/abs/2403.07715v1 ) ライセンス: Link先を確認 | Blake VanBerlo, Alexander Wong, Jesse Hoey, Robert Arntfield | (参考訳) 自己教師付き学習(英: Self-supervised learning, SSL)とは、医療画像におけるラベル付きデータのあいまいさに対処する手法である。
対照的かつ非対照的なSSLメソッドは、関連する画像のペアに類似した学習された表現を生成する。
このようなペアは、通常、同じ画像を2回ランダムに歪曲することで構成される。
超音波の映像特性は、対画像間の類似性関係を定義する柔軟性を提供する。
本研究では,同じBモード超音波映像をSSLのペアとして用いた近位画像の利用効果について検討した。
さらに、近接画像対の重み付けを増加させるサンプル重み付けスキームを導入し、sslの目的にどのように統合できるかを実証した。
画像内陽性ペア (IVPP) と呼ばれるこの手法は、従来の超音波特異的比較学習法の平均検査精度を、POCUSデータセットで$\ge 1.3\%$で上回った。
IVPPのハイパーパラメータの詳細な調査により、IVPPハイパーパラメータのいくつかの組み合わせは、下流のタスクによって改善または悪化する可能性があることが明らかになった。
課題特異的なハイパーパラメータを用いたIVPPのメリットや,非競合性と比較した場合の超音波造影法の性能向上などに基づいて,実践者のためのガイドラインを作成した。 Self-supervised learning (SSL) is one strategy for addressing the paucity of labelled data in medical imaging by learning representations from unlabelled images. Contrastive and non-contrastive SSL methods produce learned representations that are similar for pairs of related images. Such pairs are commonly constructed by randomly distorting the same image twice. The videographic nature of ultrasound offers flexibility for defining the similarity relationship between pairs of images. In this study, we investigated the effect of utilizing proximal, distinct images from the same B-mode ultrasound video as pairs for SSL. Additionally, we introduced a sample weighting scheme that increases the weight of closer image pairs and demonstrated how it can be integrated into SSL objectives. Named Intra-Video Positive Pairs (IVPP), the method surpassed previous ultrasound-specific contrastive learning methods' average test accuracy on COVID-19 classification with the POCUS dataset by $\ge 1.3\%$. Detailed investigations of IVPP's hyperparameters revealed that some combinations of IVPP hyperparameters can lead to improved or worsened performance, depending on the downstream task. Guidelines for practitioners were synthesized based on the results, such as the merit of IVPP with task-specific hyperparameters, and the improved performance of contrastive methods for ultrasound compared to non-contrastive counterparts. | 翻訳日:2024-03-13 21:16:59 公開日:2024-03-12 |
# StableToolBench: 大規模言語モデルのツール学習における安定的な大規模ベンチマークを目指して StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models ( http://arxiv.org/abs/2403.07714v1 ) ライセンス: Link先を確認 | Zhicheng Guo, Sijie Cheng, Hao Wang, Shihao Liang, Yujia Qin, Peng Li, Zhiyuan Liu, Maosong Sun, Yang Liu | (参考訳) 大規模言語モデル(LLM)は近年、目覚ましい進歩を目の当たりにしており、LLMと外部ツールを統合して様々な現実世界の課題に対処するツール学習の探求を促している。
LLMのツール活用能力を評価するには、大規模で安定したベンチマークが必要である。
しかし、以前の作業は、限定的な手作りのオンラインツールか、apiステータスの不安定さに苦しむ大規模オンラインapiに依存していた。
この問題に対処するため,我々は,ツールベンチから進化するベンチマークであるstabletoolbenchを紹介し,仮想apiサーバと安定した評価システムを提案する。
仮想APIサーバには、キャッシングシステムとAPIシミュレータが含まれており、APIステータスの変更を緩和するための補完となる。
一方, 安定評価システムは, gpt-4を自動評価器として用いることで, 評価中のランダム性を解消した。
実験により,StableToolBenchの安定性を実証し,APIシミュレータ,キャッシングシステム,評価システムの有効性について検討した。 Large Language Models (LLMs) have witnessed remarkable advancements in recent years, prompting the exploration of tool learning, which integrates LLMs with external tools to address diverse real-world challenges. Assessing the capability of LLMs to utilise tools necessitates large-scale and stable benchmarks. However, previous works relied on either hand-crafted online tools with limited scale, or large-scale real online APIs suffering from instability of API status. To address this problem, we introduce StableToolBench, a benchmark evolving from ToolBench, proposing a virtual API server and stable evaluation system. The virtual API server contains a caching system and API simulators which are complementary to alleviate the change in API status. Meanwhile, the stable evaluation system designs solvable pass and win rates using GPT-4 as the automatic evaluator to eliminate the randomness during evaluation. Experimental results demonstrate the stability of StableToolBench, and further discuss the effectiveness of API simulators, the caching system, and the evaluator system. | 翻訳日:2024-03-13 21:16:36 公開日:2024-03-12 |
# SSMがビデオ拡散モデルを発表:構造化状態空間を用いた効率的なビデオ生成 SSM Meets Video Diffusion Models: Efficient Video Generation with Structured State Spaces ( http://arxiv.org/abs/2403.07711v1 ) ライセンス: Link先を確認 | Yuta Oshima, Shohei Taniguchi, Masahiro Suzuki, Yutaka Matsuo | (参考訳) 拡散モデルによる画像生成における顕著な成果を踏まえ、研究コミュニティはこれらのモデルをビデオ生成に拡張することへの関心が高まっている。
近年,映像生成のための拡散モデルでは,注意層を用いて時間的特徴を抽出している。
しかし、アテンション層はメモリ消費によって制限され、シーケンスの長さとともに二次的に増加する。
この制限は拡散モデルを用いてより長いビデオシーケンスを生成しようとする際の大きな課題となる。
この課題を克服するために、状態空間モデル(SSM)の活用を提案する。
SSMは、最近、シーケンス長に対する線形メモリ消費のために、有効な代替手段として注目されている。
実験では,ビデオ生成の標準ベンチマークであるUCF101を用いて,まずSSMモデルを評価する。
また,より長い映像生成のためのssmsの可能性を検討するために,ミネルナビゲーションデータセットを用いて,フレーム数を64および150に変化させる実験を行った。
これらの設定では、我々のSSMベースのモデルは、注意ベースのモデルと競合するFVDスコアを維持しながら、長いシーケンスでメモリ消費を大幅に削減することができる。
私たちのコードはhttps://github.com/shim0114/SSM-Meets-Video-Diffusion-Modelsで利用可能です。 Given the remarkable achievements in image generation through diffusion models, the research community has shown increasing interest in extending these models to video generation. Recent diffusion models for video generation have predominantly utilized attention layers to extract temporal features. However, attention layers are limited by their memory consumption, which increases quadratically with the length of the sequence. This limitation presents significant challenges when attempting to generate longer video sequences using diffusion models. To overcome this challenge, we propose leveraging state-space models (SSMs). SSMs have recently gained attention as viable alternatives due to their linear memory consumption relative to sequence length. In the experiments, we first evaluate our SSM-based model with UCF101, a standard benchmark of video generation. In addition, to investigate the potential of SSMs for longer video generation, we perform an experiment using the MineRL Navigate dataset, varying the number of frames to 64 and 150. In these settings, our SSM-based model can considerably save memory consumption for longer sequences, while maintaining competitive FVD scores to the attention-based models. Our codes are available at https://github.com/shim0114/SSM-Meets-Video-Diffusion-Models. | 翻訳日:2024-03-13 21:16:17 公開日:2024-03-12 |
# 対照報酬を用いた人間フィードバックからの強化学習の改善 Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards ( http://arxiv.org/abs/2403.07708v1 ) ライセンス: Link先を確認 | Wei Shen, Xiaoying Zhang, Yuanshun Yao, Rui Zheng, Hongyi Guo, Yang Liu | (参考訳) 人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。
しかし、既存のrlhfは正確で情報的な報酬モデルに大きく依存しており、人間のラベルミスのようなさまざまなソースからのノイズに対して脆弱で敏感であり、パイプラインを脆弱にしている。
本研究では,報酬にペナルティ項を導入することにより,報酬モデルの有効性を向上させる。
%コントラスト報酬 当社のアプローチでは,(1)ベースライン計算を行うプロンプトに対する応答を得るオフラインサンプリングステップ,(2)ベースライン応答を用いて計算し,PPO(Proximal Policy Optimization)ステップで使用するコントラスト報酬の2つのステップが関係している。
対照的な報酬は, LLMが報酬の不確実性をペナルティ化し, 堅牢性を向上し, ベースラインの改善を促進し, タスクの難易度に応じて校正し, PPOのばらつきを低減できることを示す。
我々は,経験的に比較的な報酬が,GPTとヒトの両方で評価され,RLHFを大幅に改善することを示す。 Reinforcement learning from human feedback (RLHF) is the mainstream paradigm used to align large language models (LLMs) with human preferences. Yet existing RLHF heavily relies on accurate and informative reward models, which are vulnerable and sensitive to noise from various sources, e.g. human labeling errors, making the pipeline fragile. In this work, we improve the effectiveness of the reward model by introducing a penalty term on the reward, named as \textit{contrastive rewards}. %Contrastive rewards Our approach involves two steps: (1) an offline sampling step to obtain responses to prompts that serve as baseline calculation and (2) a contrastive reward calculated using the baseline responses and used in the Proximal Policy Optimization (PPO) step. We show that contrastive rewards enable the LLM to penalize reward uncertainty, improve robustness, encourage improvement over baselines, calibrate according to task difficulty, and reduce variance in PPO. We show empirically contrastive rewards can improve RLHF substantially, evaluated by both GPTs and humans, and our method consistently outperforms strong baselines. | 翻訳日:2024-03-13 21:16:00 公開日:2024-03-12 |
# ポイントクラウドネットワークの高速かつ簡易な説明可能性 Fast and Simple Explainability for Point Cloud Networks ( http://arxiv.org/abs/2403.07706v1 ) ライセンス: Link先を確認 | Meir Yossef Levi and Guy Gilboa | (参考訳) 本稿では,ポイントクラウドデータのための高速で簡単なAI(XAI)手法を提案する。
トレーニングされたネットワークダウンストリームタスクに関して、ポイントワイズの重要性を計算する。
これにより、安全クリティカルなアプリケーションに必須のネットワーク特性をよりよく理解することができる。
デバッグや可視化に加えて、計算の複雑さも低く、推論時にネットワークへのオンラインフィードバックが促進されます。
これは不確実性を減らし、堅牢性を高めるために使用できる。
本研究では,ボトルネック前に機能規範を1ポイントずつ計算する,‘emph{Feature Based Interpretability}’(FBI)を導入する。
グラデーションとボトルネック前およびポストボトルネック戦略の使用状況を分析し,ボトルネック前の方が滑らかさとランク付けが望ましいことを示した。
我々は,現在のXAI手法と比較して,少なくとも3桁の速度アップが得られるため,大規模クラウドや大規模アーキテクチャに対してスケーラブルである。
本手法は分類可能性の観点からSOTAの結果を得る。
提案手法は, 回転不変性, 分散性(ood)外れ値, 領域シフト, データセットバイアスなどの3次元学習の様々な側面を分析し, 特徴付けるのに有用であることを示す。 We propose a fast and simple explainable AI (XAI) method for point cloud data. It computes pointwise importance with respect to a trained network downstream task. This allows better understanding of the network properties, which is imperative for safety-critical applications. In addition to debugging and visualization, our low computational complexity facilitates online feedback to the network at inference. This can be used to reduce uncertainty and to increase robustness. In this work, we introduce \emph{Feature Based Interpretability} (FBI), where we compute the features' norm, per point, before the bottleneck. We analyze the use of gradients and post- and pre-bottleneck strategies, showing pre-bottleneck is preferred, in terms of smoothness and ranking. We obtain at least three orders of magnitude speedup, compared to current XAI methods, thus, scalable for big point clouds or large-scale architectures. Our approach achieves SOTA results, in terms of classification explainability. We demonstrate how the proposed measure is helpful in analyzing and characterizing various aspects of 3D learning, such as rotation invariance, robustness to out-of-distribution (OOD) outliers or domain shift and dataset bias. | 翻訳日:2024-03-13 21:15:35 公開日:2024-03-12 |
# ステレオマッチングのためのロバスト合成-リール変換 Robust Synthetic-to-Real Transfer for Stereo Matching ( http://arxiv.org/abs/2403.07705v1 ) ライセンス: Link先を確認 | Jiawei Zhang, Jiahe Li, Lei Huang, Xiaohan Yu, Lin Gu, Jin Zheng, Xiao Bai | (参考訳) ドメイン一般化ステレオマッチングネットワークの進歩により、合成データに事前訓練されたモデルは、目に見えない領域に対して強い堅牢性を示す。
しかし、実際のシナリオでそれらを微調整した後、ドメインの一般化能力を著しく劣化させるような堅牢性について研究する研究はほとんどない。
本稿では,未確認領域に対するロバスト性を損なうことなく,微調整型ステレオマッチングネットワークについて検討する。
我々のモチベーションは、グラウンド真実(GT)とPseudo Label(PL)を比較して微調整することにある: GTは劣化するが、PLはドメインの一般化能力を保っている。
実験的にGTとPLの違いは、微調整中にネットワークを正規化できる貴重な情報を意味する。
また,凍結教師,指数移動平均教師(EMA)教師,学生ネットワークからなる微調整にこの差を利用するための枠組みを提案する。
中心となる考え方は、EMAの教師を使って学生が学んだことを測定し、微調整のためにGTとPLを動的に改善することである。
我々はこのフレームワークを最先端のネットワークと統合し,いくつかの実世界のデータセット上での有効性を評価する。
大規模な実験により,本手法は微調整時の領域一般化能力を効果的に維持することを示した。 With advancements in domain generalized stereo matching networks, models pre-trained on synthetic data demonstrate strong robustness to unseen domains. However, few studies have investigated the robustness after fine-tuning them in real-world scenarios, during which the domain generalization ability can be seriously degraded. In this paper, we explore fine-tuning stereo matching networks without compromising their robustness to unseen domains. Our motivation stems from comparing Ground Truth (GT) versus Pseudo Label (PL) for fine-tuning: GT degrades, but PL preserves the domain generalization ability. Empirically, we find the difference between GT and PL implies valuable information that can regularize networks during fine-tuning. We also propose a framework to utilize this difference for fine-tuning, consisting of a frozen Teacher, an exponential moving average (EMA) Teacher, and a Student network. The core idea is to utilize the EMA Teacher to measure what the Student has learned and dynamically improve GT and PL for fine-tuning. We integrate our framework with state-of-the-art networks and evaluate its effectiveness on several real-world datasets. Extensive experiments show that our method effectively preserves the domain generalization ability during fine-tuning. | 翻訳日:2024-03-13 21:15:16 公開日:2024-03-12 |
# 対称Q-ラーニング:オンライン強化学習におけるベルマン誤差の軽減 Symmetric Q-learning: Reducing Skewness of Bellman Error in Online Reinforcement Learning ( http://arxiv.org/abs/2403.07704v1 ) ライセンス: Link先を確認 | Motoki Omura, Takayuki Osa, Yusuke Mukuta, Tatsuya Harada | (参考訳) 深層強化学習では,状態と行動の質を評価するための価値関数の推定が不可欠である。
値関数はしばしば最小二乗法を用いて訓練され、暗黙的にガウス誤差分布を仮定する。
しかし、近年の研究では、ベルマン作用素の性質のため、値関数を訓練するための誤差分布がしばしば歪められ、最小二乗法における正規誤差分布の暗黙の仮定に反することを示した。
そこで本研究では,ゼロ平均分布から発生する合成ノイズを目標値に加え,ガウス誤差分布を生成するSymmetric Q-learning法を提案する。
提案手法をMuJoCoにおける連続制御ベンチマークタスクで評価した。
これにより, 誤差分布の歪を低減し, 最先端強化学習法のサンプル効率を向上した。 In deep reinforcement learning, estimating the value function to evaluate the quality of states and actions is essential. The value function is often trained using the least squares method, which implicitly assumes a Gaussian error distribution. However, a recent study suggested that the error distribution for training the value function is often skewed because of the properties of the Bellman operator, and violates the implicit assumption of normal error distribution in the least squares method. To address this, we proposed a method called Symmetric Q-learning, in which the synthetic noise generated from a zero-mean distribution is added to the target values to generate a Gaussian error distribution. We evaluated the proposed method on continuous control benchmark tasks in MuJoCo. It improved the sample efficiency of a state-of-the-art reinforcement learning method by reducing the skewness of the error distribution. | 翻訳日:2024-03-13 21:14:51 公開日:2024-03-12 |
# CuVLER: 自励式変圧器による教師なし物体の発見 CuVLER: Enhanced Unsupervised Object Discoveries through Exhaustive Self-Supervised Transformers ( http://arxiv.org/abs/2403.07700v1 ) ライセンス: Link先を確認 | Shahaf Arica, Or Rubin, Sapir Gershov, Shlomi Laufer | (参考訳) 本稿では,複数の自己教師対象モデルの特徴表現を活用する,非教師対象発見のための革新的な方法であるVoteCutを紹介する。
VoteCutは正規化されたカットベースのグラフパーティショニング、クラスタリング、ピクセル投票アプローチを採用している。
さらに,VoteCut が生成した擬似ラベルを用いたゼロショットモデル CuVLER (Cut-Vote-and-LeaRn) と,セグメンテーション精度を向上させるための新たなソフトターゲット損失を提案する。
複数のデータセットにまたがる厳密な評価といくつかの教師なしのセットアップにより,本手法は従来の最先端モデルと比較して大幅に改善された。
我々のアブレーション研究は、各コンポーネントの貢献をさらに強調し、我々のアプローチの堅牢性と有効性を明らかにする。
集合的に、VoteCutとCuVLERは、画像セグメンテーションの今後の進歩の道を開く。 In this paper, we introduce VoteCut, an innovative method for unsupervised object discovery that leverages feature representations from multiple self-supervised models. VoteCut employs normalized-cut based graph partitioning, clustering and a pixel voting approach. Additionally, We present CuVLER (Cut-Vote-and-LEaRn), a zero-shot model, trained using pseudo-labels, generated by VoteCut, and a novel soft target loss to refine segmentation accuracy. Through rigorous evaluations across multiple datasets and several unsupervised setups, our methods demonstrate significant improvements in comparison to previous state-of-the-art models. Our ablation studies further highlight the contributions of each component, revealing the robustness and efficacy of our approach. Collectively, VoteCut and CuVLER pave the way for future advancements in image segmentation. | 翻訳日:2024-03-13 21:14:36 公開日:2024-03-12 |
# Large, Small or Both: 意見要約の曖昧化のための言語モデルに基づく新しいデータ拡張フレームワーク Large, Small or Both: A Novel Data Augmentation Framework Based on Language Models for Debiasing Opinion Summarization ( http://arxiv.org/abs/2403.07693v1 ) ライセンス: Link先を確認 | Yanyue Zhang, Pengfei Li, Yilong Lai and Deyu Zhou | (参考訳) 既存の意見要約データセットの70$\%以上のレビューは肯定的であるため、現在の意見要約アプローチは、否定的なテキストの入力によって負の要約を生成することに消極的である。
このような感情バイアスに対処するために、特定のフレームワークに過度に依存しない直接的なアプローチは、データセットの感情分布のバランスをとるために、大きな言語モデルに基づいた追加データを生成することである。
しかし、大きな言語モデルに基づくデータ拡張は2つの欠点に直面している。
1) 拡張データにおける潜在的な問題又は毒性
2)コストがかかる。
そこで,本稿では,意見要約の偏りを解消するために,大規模言語モデルと小規模言語モデルの両方に基づく新しいデータ拡張フレームワークを提案する。
具体的には、大きな言語モデルで肯定的なテキストを書き直すことで、小さなサイズで合成された否定レビューが得られる。
そして、生成されたデータに基づいて異角形復元モデルを訓練する。
トレーニング後、混乱度と感情分類に基づいて異なるサンプル表現とフィルタリングの組み合わせから得られた新しい表現を復号することにより、大量の合成データを得ることができる。
実験により、我々のフレームワークは、大きなモデルだけでなく、より経済的にも、感情バイアスを効果的に軽減できることが示された。 As more than 70$\%$ of reviews in the existing opinion summary data set are positive, current opinion summarization approaches are reluctant to generate negative summaries given the input of negative texts. To address such sentiment bias, a direct approach without the over-reliance on a specific framework is to generate additional data based on large language models to balance the emotional distribution of the dataset. However, data augmentation based on large language models faces two disadvantages: 1) the potential issues or toxicity in the augmented data; 2) the expensive costs. Therefore, in this paper, we propose a novel data augmentation framework based on both large and small language models for debiasing opinion summarization. In specific, a small size of synthesized negative reviews is obtained by rewriting the positive text via a large language model. Then, a disentangle reconstruction model is trained based on the generated data. After training, a large amount of synthetic data can be obtained by decoding the new representation obtained from the combination of different sample representations and filtering based on confusion degree and sentiment classification. Experiments have proved that our framework can effectively alleviate emotional bias same as using only large models, but more economically. | 翻訳日:2024-03-13 21:14:22 公開日:2024-03-12 |
# Masked AutoDecoderは効果的なマルチタスクビジョンジェネラリスト Masked AutoDecoder is Effective Multi-Task Vision Generalist ( http://arxiv.org/abs/2403.07692v1 ) ライセンス: Link先を確認 | Han Qiu, Jiaxing Huang, Peng Gao, Lewei Lu, Xiaoqin Zhang, Shijian Lu | (参考訳) NLPにおける汎用モデルの成功に触発された最近の研究は、異なる視覚タスクを同じシーケンス形式で統一し、シーケンス予測に自己回帰変換器を使用する。
シーケンシャルな依存関係をキャプチャし、再帰的にタスクシーケンスを生成するために、一方向の注意を向ける。
しかし、このような自己回帰変換器は視覚タスクに適さない可能性があるため、視覚タスクシーケンスは通常、自然言語で一般的に見られるシーケンシャルな依存関係を欠いている。
本研究では,マルチタスク・ビジョン・ジェネラリストであるMasked AutoDecoder~(MAD)を設計する。
MADは2つのコア設計で構成されている。
まず,コンテキスト依存を包括的に把握し,視覚タスクシーケンスを並列にデコードするために双方向注意を導入する並列デコードフレームワークを開発した。
第2に,タスクシーケンスのマスキングと再構成により,リッチなタスクコンテキストを学習するマスキングシーケンスモデリング手法を設計する。
このように、MADは単一のネットワークブランチで全てのタスクを処理し、タスク固有の最小限の設計で単純なクロスエントロピー損失を発生させる。
広汎な実験は、様々な視覚タスクを統合するための新しいパラダイムとして、MADの大きな可能性を示している。
MADは、タスク固有のモデルと競合する精度を得ながら、自己回帰モデルよりも優れた性能と推論効率を達成する。
コードはリリースされる。 Inspired by the success of general-purpose models in NLP, recent studies attempt to unify different vision tasks in the same sequence format and employ autoregressive Transformers for sequence prediction. They apply uni-directional attention to capture sequential dependencies and generate task sequences recursively. However, such autoregressive Transformers may not fit vision tasks well, as vision task sequences usually lack the sequential dependencies typically observed in natural languages. In this work, we design Masked AutoDecoder~(MAD), an effective multi-task vision generalist. MAD consists of two core designs. First, we develop a parallel decoding framework that introduces bi-directional attention to capture contextual dependencies comprehensively and decode vision task sequences in parallel. Second, we design a masked sequence modeling approach that learns rich task contexts by masking and reconstructing task sequences. In this way, MAD handles all the tasks by a single network branch and a simple cross-entropy loss with minimal task-specific designs. Extensive experiments demonstrate the great potential of MAD as a new paradigm for unifying various vision tasks. MAD achieves superior performance and inference efficiency compared to autoregressive counterparts while obtaining competitive accuracy with task-specific models. Code will be released. | 翻訳日:2024-03-13 21:14:03 公開日:2024-03-12 |
# Odds比を用いた参照フリーモノリシック選好最適化 Reference-free Monolithic Preference Optimization with Odds Ratio ( http://arxiv.org/abs/2403.07691v1 ) ライセンス: Link先を確認 | Jiwoo Hong, Noah Lee, James Thorne | (参考訳) 最近の言語モデルに対する選好アライメントアルゴリズムは有望な結果を示しているが、教師付き微調整(sft)は収束を成功させるためには不可欠である。
本稿では,選好アライメントの文脈におけるsftの重要役割について検討し,不利な世代スタイルに対する軽微なペナルティが選好アライメントに十分であることを強調する。
この基礎の上に構築され、単純で革新的な参照モデルのないモノリシックオッズ比最適化アルゴリズムORPOを導入し、追加の選好アライメントフェーズの必要性を排除した。
実験的および理論的には、オッズ比は、SFTにおいて125Mから7Bまでの多様なサイズで好ましくないスタイルと好ましくないスタイルを対比する上で、妥当な選択であることを示す。
具体的には、UltraFeedbackでORPOを使用した微調整Phi-2 (2.7B)、Llama-2 (7B)、Mistral (7B)は、7Bと13B以上のパラメータを持つ最先端の言語モデルのパフォーマンスを上回っている。
私たちはMistral-ORPO-$\alpha$(7B)とMistral-ORPO-$\beta$(7B)のコードとモデルチェックポイントをリリースします。 While recent preference alignment algorithms for language models have demonstrated promising results, supervised fine-tuning (SFT) remains imperative for achieving successful convergence. In this paper, we study the crucial role of SFT within the context of preference alignment, emphasizing that a minor penalty for the disfavored generation style is sufficient for preference-aligned SFT. Building on this foundation, we introduce a straightforward and innovative reference model-free monolithic odds ratio preference optimization algorithm, ORPO, eliminating the necessity for an additional preference alignment phase. We demonstrate, both empirically and theoretically, that the odds ratio is a sensible choice for contrasting favored and disfavored styles during SFT across the diverse sizes from 125M to 7B. Specifically, fine-tuning Phi-2 (2.7B), Llama-2 (7B), and Mistral (7B) with ORPO on the UltraFeedback alone surpasses the performance of state-of-the-art language models with more than 7B and 13B parameters: achieving up to 12.20% on $\text{AlpacaEval}_{2.0}$ and 7.32 in MT-Bench, as shown in Figures 1 and 12. We release code and model checkpoints for Mistral-ORPO-$\alpha$ (7B) and Mistral-ORPO-$\beta$ (7B). | 翻訳日:2024-03-13 21:13:43 公開日:2024-03-12 |
# SATDAUG -- 自己申告技術的負債を検出するためのバランスと拡張されたデータセット SATDAUG -- A Balanced and Augmented Dataset for Detecting Self-Admitted Technical Debt ( http://arxiv.org/abs/2403.07690v1 ) ライセンス: Link先を確認 | Edi Sutoyo, Andrea Capiluppi | (参考訳) SATD(Self-admitted Technical debt)とは、開発者がコードベース内の技術的ショートカットや回避策、一時的なソリューションの存在を明確に認識し、文書化する技術的負債の形式である。
近年、研究者はソースコードコメント、イシュートラッカからのメッセージ、プルリクエストセクション、コミットメッセージなど、様々なソフトウェア開発成果物のデータセットを手動でラベル付けしてきた。
これらのデータセットは、satdインスタンスを正確に識別するためのトレーニング、評価、パフォーマンス検証、マシンラーニングおよびディープラーニングモデルの改善のために設計されている。
しかし、特に研究者が特定のSATDの分類に興味がある場合、クラス不均衡は既存のすべてのデータセットに深刻な課題をもたらす。
既存のデータセットにおけるSATD \textit{identification} (インスタンスがSATDであるかどうか) と \textit{categorization} (SATDのどのタイプが分類されているか) のラベル付きデータの不足に対処するため、ソースコードコメント、イシュートラッカ、プルリクエスト、コミットメッセージを含む既存のSATDデータセットの拡張版である \textit{SATDAUG} データセットを共有します。
これらのデータセットは利用可能なアーティファクトとバランスを取り、マシンラーニングやディープラーニングモデルをトレーニングするためのラベル付きデータのよりリッチなソースを提供する。 Self-admitted technical debt (SATD) refers to a form of technical debt in which developers explicitly acknowledge and document the existence of technical shortcuts, workarounds, or temporary solutions within the codebase. Over recent years, researchers have manually labeled datasets derived from various software development artifacts: source code comments, messages from the issue tracker and pull request sections, and commit messages. These datasets are designed for training, evaluation, performance validation, and improvement of machine learning and deep learning models to accurately identify SATD instances. However, class imbalance poses a serious challenge across all the existing datasets, particularly when researchers are interested in categorizing the specific types of SATD. In order to address the scarcity of labeled data for SATD \textit{identification} (i.e., whether an instance is SATD or not) and \textit{categorization} (i.e., which type of SATD is being classified) in existing datasets, we share the \textit{SATDAUG} dataset, an augmented version of existing SATD datasets, including source code comments, issue tracker, pull requests, and commit messages. These augmented datasets have been balanced in relation to the available artifacts and provide a much richer source of labeled data for training machine learning or deep learning models. | 翻訳日:2024-03-13 21:13:15 公開日:2024-03-12 |
# maxwell's demon at work: 神経細胞の飽和を利用した効率的な刈り取り Maxwell's Demon at Work: Efficient Pruning by Leveraging Saturation of Neurons ( http://arxiv.org/abs/2403.07688v1 ) ライセンス: Link先を確認 | Simon Dufort-Labb\'e, Pierluca D'Oro, Evgenii Nikishin, Razvan Pascanu, Pierre-Luc Bacon, Aristide Baratin | (参考訳) ディープニューラルネットワークをトレーニングする場合、$\textit{dying neurons}$\unicode{x2013}$unitsは、不活性または飽和状態になり、トレーニング中に出力ゼロになる$\unicode{x2013}$unitsの現象は、伝統的に望ましくないものと見られ、最適化課題と関連付けられ、継続的な学習シナリオにおける可塑性損失に寄与している。
本稿では, この現象を再評価し, ポーシャリティとプルーニングに着目した。
死にゆくニューロンに対する様々なハイパーパラメータ構成の影響を体系的に探究することにより、単純で効果的な構造的刈り取りアルゴリズムを容易にする可能性を明らかにする。
死んだ神経細胞の増殖を動的に制御する手法である$\textit{Demon Pruning}$ (DemP)を導入する。
アクティブユニットへのノイズ注入と1サイクルのスケジュール正規化戦略の組み合わせによって達成されたDemPは、そのシンプルさと幅広い適用性で際立っている。
CIFAR10とImageNetデータセットの実験では、DemPは既存の構造化プルーニング技術を超え、精度とスパーシティのトレードオフとトレーニングの高速化を示している。
これらの結果は、死のニューロンが効率的なモデル圧縮と最適化のための貴重な資源であることを示す。 When training deep neural networks, the phenomenon of $\textit{dying neurons}$ $\unicode{x2013}$units that become inactive or saturated, output zero during training$\unicode{x2013}$ has traditionally been viewed as undesirable, linked with optimization challenges, and contributing to plasticity loss in continual learning scenarios. In this paper, we reassess this phenomenon, focusing on sparsity and pruning. By systematically exploring the impact of various hyperparameter configurations on dying neurons, we unveil their potential to facilitate simple yet effective structured pruning algorithms. We introduce $\textit{Demon Pruning}$ (DemP), a method that controls the proliferation of dead neurons, dynamically leading to network sparsity. Achieved through a combination of noise injection on active units and a one-cycled schedule regularization strategy, DemP stands out for its simplicity and broad applicability. Experiments on CIFAR10 and ImageNet datasets demonstrate that DemP surpasses existing structured pruning techniques, showcasing superior accuracy-sparsity tradeoffs and training speedups. These findings suggest a novel perspective on dying neurons as a valuable resource for efficient model compression and optimization. | 翻訳日:2024-03-13 21:12:48 公開日:2024-03-12 |
# 予算に関するアノテーション: バランスモデルのパフォーマンスとアノテーションコストに対するジオデータ類似性を活用する Annotations on a Budget: Leveraging Geo-Data Similarity to Balance Model Performance and Annotation Cost ( http://arxiv.org/abs/2403.07687v1 ) ライセンス: Link先を確認 | Oana Ignat, Longju Bai, Joan Nwatu, Rada Mihalcea | (参考訳) 現在の基礎モデルは、様々なタスクで素晴らしいパフォーマンスを示している。
しかし、これらのモデルが訓練プロセスで使用されるデータの地理的・経済的不均衡な表現のため、全員にとって効果的ではないことがいくつかの研究で明らかになっている。
これらのデータのほとんどは西側諸国からのもので、少数国での結果は乏しい。
この問題に対処するには、これらの国からより多くのデータを集める必要があるが、アノテーションのコストは重大なボトルネックとなる可能性がある。
本稿では,モデルの性能とアノテーションコストのバランスをとるために,注釈付データを特定する手法を提案する。
私たちのアプローチは、まず、現在の大規模ビジョン言語の基礎モデルで使用されているトレーニングデータセットで、最も視覚的に異なるトピック(オブジェクトとアクション)のイメージを持つ国を見つけることです。
次に、これらのトピックに高い視覚的類似性を持つ国を特定し、これらの国のデータを用いてトレーニングデータを補完することで、モデルの性能を改善し、アノテーションのコストを削減できることを示す。
国と関連するトピックの一覧はhttps://github.com/MichiganNLP/visual_diversity_budget.comで公開されている。 Current foundation models have shown impressive performance across various tasks. However, several studies have revealed that these models are not effective for everyone due to the imbalanced geographical and economic representation of the data used in the training process. Most of this data comes from Western countries, leading to poor results for underrepresented countries. To address this issue, more data needs to be collected from these countries, but the cost of annotation can be a significant bottleneck. In this paper, we propose methods to identify the data to be annotated to balance model performance and annotation costs. Our approach first involves finding the countries with images of topics (objects and actions) most visually distinct from those already in the training datasets used by current large vision-language foundation models. Next, we identify countries with higher visual similarity for these topics and show that using data from these countries to supplement the training data improves model performance and reduces annotation costs. The resulting lists of countries and corresponding topics are made available at https://github.com/MichiganNLP/visual_diversity_budget. | 翻訳日:2024-03-13 21:12:20 公開日:2024-03-12 |
# 実技からの真正な知識:拡散試験時間適応による悪天候除去 Genuine Knowledge from Practice: Diffusion Test-Time Adaptation for Video Adverse Weather Removal ( http://arxiv.org/abs/2403.07684v1 ) ライセンス: Link先を確認 | Yijun Yang, Hongtao Wu, Angelica I. Aviles-Rivero, Yulun Zhang, Jing Qin, Lei Zhu | (参考訳) 現実の視覚タスクは、雨、干し草、雪、雨滴など、予期せぬ悪天候の出現にしばしば悩まされる。
過去10年間、畳み込みニューラルネットワークと視覚トランスフォーマーは、シングルウィーザービデオの除去において際立った結果をもたらしてきた。
しかし、適切な適応がないため、その多くは他の気象条件への一般化に失敗している。
ViWS-Netは、トレーニング済みの1セットの重量でビデオの悪天候を除去するために提案されているが、テスト時間中に見知らぬ天気になると、列車時の天気と退化によって深刻な盲目となる。
本研究では,ビデオの悪天候除去にテスト時適応を導入し,反復拡散逆過程にテスト時適応を統合する最初のフレームワークを提案する。
具体的には,新しい時間雑音モデルを用いた拡散型ネットワークを考案し,学習段階における劣化映像のフレーム関連情報を効率的に探索する。
推論の段階では、Diffusion tubelet Self-Calibrationというプロキシタスクを導入し、テストビデオストリームのプライマー分布を学習し、オンライン適応のための時間雑音モデルを用いてモデルを最適化する。
実験の結果,Diffusion-based network(Diff-TTA)を用いたテスト時間適応法は,気象条件により劣化したビデオの復元において,最先端の手法よりも優れていた。
一般化可能な能力は、合成ビデオと実世界のビデオの両方で目に見えない気象条件で検証される。 Real-world vision tasks frequently suffer from the appearance of unexpected adverse weather conditions, including rain, haze, snow, and raindrops. In the last decade, convolutional neural networks and vision transformers have yielded outstanding results in single-weather video removal. However, due to the absence of appropriate adaptation, most of them fail to generalize to other weather conditions. Although ViWS-Net is proposed to remove adverse weather conditions in videos with a single set of pre-trained weights, it is seriously blinded by seen weather at train-time and degenerates when coming to unseen weather during test-time. In this work, we introduce test-time adaptation into adverse weather removal in videos, and propose the first framework that integrates test-time adaptation into the iterative diffusion reverse process. Specifically, we devise a diffusion-based network with a novel temporal noise model to efficiently explore frame-correlated information in degraded video clips at training stage. During inference stage, we introduce a proxy task named Diffusion Tubelet Self-Calibration to learn the primer distribution of test video stream and optimize the model by approximating the temporal noise model for online adaptation. Experimental results, on benchmark datasets, demonstrate that our Test-Time Adaptation method with Diffusion-based network(Diff-TTA) outperforms state-of-the-art methods in terms of restoring videos degraded by seen weather conditions. Its generalizable capability is also validated with unseen weather conditions in both synthesized and real-world videos. | 翻訳日:2024-03-13 21:12:03 公開日:2024-03-12 |
# 脱離型HyDRa : ハイブリッド核融合, 深部整合性, レーダによる3次元認識 Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar for Unified 3D Perception ( http://arxiv.org/abs/2403.07746v1 ) ライセンス: Link先を確認 | Philipp Wolters, Johannes Gilg, Torben Teepe, Fabian Herzog, Anouar Laouichi, Martin Hofmann, Gerhard Rigoll | (参考訳) 自動運転車のための低コストで視覚中心の3D認識システムは、近年大きく進歩し、高価なLiDARベースの方法とのギャップを狭めた。
完全に信頼性の高い代替手段となる上での最大の課題は、カメラベースのシステムが長い検知範囲と、照明と気象条件に苦しむため、堅牢な深度予測能力である。
本研究では,多様な3次元知覚タスクのための新しいカメラレーダ融合アーキテクチャであるHyDRaを紹介する。
密度の高いBEV(Bird's Eye View)ベースのアーキテクチャの原則に基づいて、HyDRaは2つの異なる表現空間における補完カメラとレーダーの特徴の強みを組み合わせるためのハイブリッド融合アプローチを導入した。
当社のハイプアソシエーショントランスフォーマーモジュールは、よりロバストで正確な深さ予測を生成するために、パースペクティブビューですでにレーダー機能を活用しています。
BEVでは、レーダ重み付き深度一貫性により初期スパース表現を洗練する。
HyDRaは64.2 NDS (+1.8) と58.4 AMOTA (+1.5) のカメラレーダー融合のための新しい最先端技術を実現している。
さらに、我々の新しいセマンティックにリッチで空間的に正確なBEV機能は、Occ3Dベンチマークの以前のカメラベースの手法を3.7 mIoUで圧倒し、強力な占有率の表現へと直接変換することができる。 Low-cost, vision-centric 3D perception systems for autonomous driving have made significant progress in recent years, narrowing the gap to expensive LiDAR-based methods. The primary challenge in becoming a fully reliable alternative lies in robust depth prediction capabilities, as camera-based systems struggle with long detection ranges and adverse lighting and weather conditions. In this work, we introduce HyDRa, a novel camera-radar fusion architecture for diverse 3D perception tasks. Building upon the principles of dense BEV (Bird's Eye View)-based architectures, HyDRa introduces a hybrid fusion approach to combine the strengths of complementary camera and radar features in two distinct representation spaces. Our Height Association Transformer module leverages radar features already in the perspective view to produce more robust and accurate depth predictions. In the BEV, we refine the initial sparse representation by a Radar-weighted Depth Consistency. HyDRa achieves a new state-of-the-art for camera-radar fusion of 64.2 NDS (+1.8) and 58.4 AMOTA (+1.5) on the public nuScenes dataset. Moreover, our new semantically rich and spatially accurate BEV features can be directly converted into a powerful occupancy representation, beating all previous camera-based methods on the Occ3D benchmark by an impressive 3.7 mIoU. | 翻訳日:2024-03-13 21:07:09 公開日:2024-03-12 |
# 確率的容易な変動因果効果 Probabilistic Easy Variational Causal Effect ( http://arxiv.org/abs/2403.07745v1 ) ライセンス: Link先を確認 | Usef Faghihi and Amir Saki | (参考訳) X$ と $Z$ をランダムベクトルとし、$Y=g(X,Z)$とする。
本稿では,x$ と $z$ が連続である場合,全変動と$g$ のフラックスを用いて,因果問題の広い領域を扱うことができる因果推論の視点を開発する。
実際、我々はProbabilistic Easy Variational Causal Effect (PEACE)と呼ばれる関数に注目しており、これは$Z$の値を一定に保ちながら、連続的かつ介入的に$X$の値を変更することに関して$X$の直接因果効果を測定することができる。
PEACE は $d\ge 0$ の関数であり、これは確率密度値 $f(x|z)$ の強みを管理する次数である。
一方、離散ケースに対する上記のアイデアを一般化し、連続ケースとの整合性を示す。
さらに,測定理論の概念を用いたPEACEの特性について検討する。
さらに,PEACEの汎用性を示す識別可能性基準といくつかの例を提示した。
我々は、peaceが、入力変数の値のマイクロレベルまたはマクロレベルの変更が重要である因果問題に対処する可能性があることに注意する。
最後に、peaceは$\partial g_{in}/\partial x$の小さな変更と$x$と$z$のジョイントディストリビューションの下で安定しており、$g_{in}$は$g$から、$x$と$z$を定義するすべての機能的関係を取り除いて得られる。 Let $X$ and $Z$ be random vectors, and $Y=g(X,Z)$. In this paper, on the one hand, for the case that $X$ and $Z$ are continuous, by using the ideas from the total variation and the flux of $g$, we develop a point of view in causal inference capable of dealing with a broad domain of causal problems. Indeed, we focus on a function, called Probabilistic Easy Variational Causal Effect (PEACE), which can measure the direct causal effect of $X$ on $Y$ with respect to continuously and interventionally changing the values of $X$ while keeping the value of $Z$ constant. PEACE is a function of $d\ge 0$, which is a degree managing the strengths of probability density values $f(x|z)$. On the other hand, we generalize the above idea for the discrete case and show its compatibility with the continuous case. Further, we investigate some properties of PEACE using measure theoretical concepts. Furthermore, we provide some identifiability criteria and several examples showing the generic capability of PEACE. We note that PEACE can deal with the causal problems for which micro-level or just macro-level changes in the value of the input variables are important. Finally, PEACE is stable under small changes in $\partial g_{in}/\partial x$ and the joint distribution of $X$ and $Z$, where $g_{in}$ is obtained from $g$ by removing all functional relationships defining $X$ and $Z$. | 翻訳日:2024-03-13 21:06:43 公開日:2024-03-12 |
# 2光子散逸を利用した量子計測と制御 Harnessing two-photon dissipation for enhanced quantum measurement and control ( http://arxiv.org/abs/2403.07744v1 ) ライセンス: Link先を確認 | Antoine Marquet, Simon Dupouy, Ulysse R\'eglade, Antoine Essig, Joachim Cohen, Emanuele Abertinale, Audrey Bienfait, Th\'eau Peronnin, S\'ebastien Jezouin, Rapha\"el Lescanne, Benjamin Huard | (参考訳) 散逸工学は量子技術に強力なツールを提供する。
近年、新しい超伝導デバイスは、他の全ての関連する時間スケールを超える2光子散逸速度を示した。
特に、猫キュービットの論理状態$|\pm\alpha\rangle$間の遷移を防ぐのに最も有用であることが証明されている。
ここでは、量子計測と制御のための強い2光子散逸の3つの重要な応用について述べる。
まず,高光子数でのウィグナートモグラフィにおける限界を克服する効果を示す。
第2に、猫量子ビット上の普遍ゲートの実現の可能性を示し、猫量子ビット状態と0および1光子の重畳の間のコヒーレントマッピングを利用する。
最後に,2光子散逸下での猫状態の過渡的ダイナミクスを利用して,3.8dBを超えるスクイーズ係数を持つ猫状態を調製する。 Dissipation engineering offers a powerful tool for quantum technologies. Recently, new superconducting devices demonstrated an engineered two-photon dissipation rate exceeding all other relevant timescales. In particular, they have proven most useful to prevent transitions between the logical states $|\pm\alpha\rangle$ of a cat qubit. Here, we present three key applications of strong two-photon dissipation for quantum measurement and control, beyond cat qubit stabilization. Firstly, we demonstrate its efficacy in overcoming limitations encountered in Wigner tomography at high photon numbers. Secondly, we showcase its potential for realizing universal gates on cat qubits, exploiting the coherent mapping between cat qubit states and superpositions of 0 and 1 photons. Finally, we harness the transient dynamics of a cat state under two-photon dissipation to prepare squeezed cat states with a squeezing factor exceeding 3.8 dB. | 翻訳日:2024-03-13 21:06:12 公開日:2024-03-12 |
# 計算病理システムをアーティファクト処理パイプラインに装備する:計算と性能のトレードオフのショーケース Equipping Computational Pathology Systems with Artifact Processing Pipelines: A Showcase for Computation and Performance Trade-offs ( http://arxiv.org/abs/2403.07743v1 ) ライセンス: Link先を確認 | Neel Kanwal, Farbod Khoraminia, Umay Kiraz, Andres Mosquera-Zamudio, Carlos Monteagudo, Emiel A.M. Janssen, Tahlita C.M. Zuiverloon, Chunmig Rong, and Kjersti Engan | (参考訳) 病理組織学は、顕微鏡検査によるがん診断の黄金の基準である。
しかし、組織学的組織処理の手順は、最終的に全スライド画像 (wsis) として知られるガラススライドのデジタル化版に転送されるアーティファクトを生じる。
アーティファクトは診断的に無関係な領域であり、誤った深層学習(DL)アルゴリズムの予測をもたらす可能性がある。
したがって、CPATH(Computer pathology)システムにおけるアーティファクトの検出と排除は、信頼性の高い自動診断に不可欠である。
本稿では, 損傷組織, ぼかし, 折りたたみ組織, 気泡, 組織学的に無関係な血液を含む5つの重要な遺物を検出するための専門家(MoE)の混合手法を提案する。
まず、独立したバイナリDLモデルを専門家として訓練し、特定のアーティファクト形態を捉える。
そして,融合機構を用いて予測を行う。
最終確率分布に対して確率しきい値を適用し,MoEの感度を向上させる。
2つのMoEと2つのマルチクラスモデルであるDCNN(Deep Convolutional Neural Network)とビジョントランスフォーマー(ViT)を用いてDLパイプラインを開発した。
DCNN ベースの MoE と ViTs ベースの MoE スキームは、より単純なマルチクラスモデルよりも優れており、様々な病院やがんタイプのデータセットでテストされた。
提案されたMoEは86.15%のF1と97.93%の感度スコアを持ち、ViTを用いたMoEよりも推論の計算コストが低い。
このMoEsの最高の性能は、マルチクラスモデルよりも比較的高い計算トレードオフを持つ。
提案したアーティファクト検出パイプラインは、信頼性の高いCPATH予測を保証するだけでなく、品質管理も提供する。 Histopathology is a gold standard for cancer diagnosis under a microscopic examination. However, histological tissue processing procedures result in artifacts, which are ultimately transferred to the digitized version of glass slides, known as whole slide images (WSIs). Artifacts are diagnostically irrelevant areas and may result in wrong deep learning (DL) algorithms predictions. Therefore, detecting and excluding artifacts in the computational pathology (CPATH) system is essential for reliable automated diagnosis. In this paper, we propose a mixture of experts (MoE) scheme for detecting five notable artifacts, including damaged tissue, blur, folded tissue, air bubbles, and histologically irrelevant blood from WSIs. First, we train independent binary DL models as experts to capture particular artifact morphology. Then, we ensemble their predictions using a fusion mechanism. We apply probabilistic thresholding over the final probability distribution to improve the sensitivity of the MoE. We developed DL pipelines using two MoEs and two multiclass models of state-of-the-art deep convolutional neural networks (DCNNs) and vision transformers (ViTs). DCNNs-based MoE and ViTs-based MoE schemes outperformed simpler multiclass models and were tested on datasets from different hospitals and cancer types, where MoE using DCNNs yielded the best results. The proposed MoE yields 86.15% F1 and 97.93% sensitivity scores on unseen data, retaining less computational cost for inference than MoE using ViTs. This best performance of MoEs comes with relatively higher computational trade-offs than multiclass models. The proposed artifact detection pipeline will not only ensure reliable CPATH predictions but may also provide quality control. | 翻訳日:2024-03-13 21:05:56 公開日:2024-03-12 |
# 6次元物体姿勢推定のための深部アンサンブルによる不確かさの定量化 Uncertainty Quantification with Deep Ensembles for 6D Object Pose Estimation ( http://arxiv.org/abs/2403.07741v1 ) ライセンス: Link先を確認 | Kira Wursthorn, Markus Hillemann, Markus Ulrich | (参考訳) 6Dオブジェクトのポーズの推定は多くのコンピュータビジョンアプリケーションにおいて基本的なタスクである。
特に、人間とロボットの相互作用、産業検査、自動化といった高いリスクシナリオでは、信頼できるポーズ推定が不可欠である。
近年,6次元物体ポーズ推定のための高精度でロバストなディープラーニング手法が提案されている。
多くのトップパフォーマンスメソッドはエンドツーエンドのトレーニングはできないが、複数のステージで構成される。
深い不確かさの定量化の文脈において、深いアンサンブルは、適切に調整され、ロバストな不確実性推定を生成することが証明されているため、芸術の状況と見なされている。
しかし、ディープアンサンブルはエンドツーエンドでトレーニングできるメソッドにのみ適用できる。
本研究では,深層アンサンブルを用いた多段6次元オブジェクトポーズ推定手法の不確かさを定量化する手法を提案する。
BOPチャレンジ2022において、最も優れた6Dオブジェクトポーズ推定手法の1つであるため、SurfEmbを代表として採用する。
結果を評価するために、確立されたメトリクスと概念を深い不確実性定量化に適用する。
さらに,推定不確実性の品質を定量化するための回帰課題に対する新しい不確実性校正スコアを提案する。 The estimation of 6D object poses is a fundamental task in many computer vision applications. Particularly, in high risk scenarios such as human-robot interaction, industrial inspection, and automation, reliable pose estimates are crucial. In the last years, increasingly accurate and robust deep-learning-based approaches for 6D object pose estimation have been proposed. Many top-performing methods are not end-to-end trainable but consist of multiple stages. In the context of deep uncertainty quantification, deep ensembles are considered as state of the art since they have been proven to produce well-calibrated and robust uncertainty estimates. However, deep ensembles can only be applied to methods that can be trained end-to-end. In this work, we propose a method to quantify the uncertainty of multi-stage 6D object pose estimation approaches with deep ensembles. For the implementation, we choose SurfEmb as representative, since it is one of the top-performing 6D object pose estimation approaches in the BOP Challenge 2022. We apply established metrics and concepts for deep uncertainty quantification to evaluate the results. Furthermore, we propose a novel uncertainty calibration score for regression tasks to quantify the quality of the estimated uncertainty. | 翻訳日:2024-03-13 21:05:22 公開日:2024-03-12 |
# 古典系の3つの統計記述とそのハイブリッド量子古典系への拡張 Three statistical descriptions of classical systems and their extensions to hybrid quantum-classical systems ( http://arxiv.org/abs/2403.07738v1 ) ライセンス: Link先を確認 | Andr\'es Dar\'io Berm\'udez Manjarres, Marcel Reginatto and Sebastian Ulbricht | (参考訳) 古典粒子系に対する3つの統計記述を提示し、それらのハイブリッド量子古典系への拡張について考察する。
古典的な記述は、構成空間上のアンサンブル、位相空間上のアンサンブル、およびクープマン・ヴォン・ノイマンの定式化の代替となるファン・ホーヴ作用素を用いたヒルベルト空間アプローチである。
いずれの場合も、位相空間の通常のポアソン代数に同型な古典的可観測性と対応するリー代数を定義する自然な方法が存在する。
古典粒子の場合、3つの記述は等価であり、どのように関連しているかを示す。
次に、これらの記述を修正して拡張し、古典粒子が量子粒子と相互作用するハイブリッドモデルを導入する。
位相空間上のアンサンブルのアプローチと、新しいヒルベルト空間のアプローチは等価なハイブリッドモデルをもたらすが、構成空間上のアンサンブルのアプローチのハイブリッドモデルとは同値ではない。
このようにして、2つの非等価なハイブリッドシステムを識別し、特に絡み合いに関して異なる予測を行うことになる。
これらの結果は、重力が量子化されるべきかどうかの問題に対処する古典的メディエーターを介して相互作用する量子系に関する「no-go」の定理に関して興味深い。
このような定理は通常、モデルに依存する仮定を必要とする。
ここで論じるハイブリッドシステムは、簡単な例を計算して `no-go'' 定理の仮定とそれらの適用性をテストするために使用できる非等価モデルの具体的な例を提供する。 We present three statistical descriptions for systems of classical particles and consider their extension to hybrid quantum-classical systems. The classical descriptions are ensembles on configuration space, ensembles on phase space, and a Hilbert space approach using van Hove operators which provides an alternative to the Koopman-von Neumann formulation. In all cases, there is a natural way to define classical observables and a corresponding Lie algebra that is isomorphic to the usual Poisson algebra in phase space. We show that in the case of classical particles, the three descriptions are equivalent and indicate how they are related. We then modify and extend these descriptions to introduce hybrid models where a classical particle interacts with a quantum particle. The approach of ensembles on phase space and the Hilbert space approach, which are novel, lead to equivalent hybrid models, while they are not equivalent to the hybrid model of the approach of ensembles on configuration space. Thus, we end up identifying two inequivalent types of hybrid systems, making different predictions, especially when it comes to entanglement. These results are of interest regarding ``no-go'' theorems about quantum systems interacting via a classical mediator which address the issue of whether gravity must be quantized. Such theorems typically require assumptions that make them model dependent. The hybrid systems that we discuss provide concrete examples of inequivalent models that can be used to compute simple examples to test the assumptions of the ``no-go'' theorems and their applicability. | 翻訳日:2024-03-13 21:05:03 公開日:2024-03-12 |
# 翻訳不変カーネルにおけるHSIC推定の最小値 The Minimax Rate of HSIC Estimation for Translation-Invariant Kernels ( http://arxiv.org/abs/2403.07735v1 ) ライセンス: Link先を確認 | Florian Kalinke and Zoltan Szabo | (参考訳) カーネル技術はデータサイエンスと統計学において最も影響力のあるアプローチの一つである。
穏やかな条件下では、カーネルに関連する再生核ヒルベルト空間は、$m\ge 2$ 確率変数の独立性を符号化することができる。
おそらく、カーネルに依存する最も広範な独立対策は、いわゆるヒルベルト=シュミット独立基準(HSIC、統計学では距離共分散とも呼ばれる)である。
20年近く前に導入されて以来、様々な既存のHSIC推定器が設計されているが、HSICを推定できる確率に関する根本的な疑問は依然として残っている。
本研究では,連続有界な翻訳不変特性核を持つガウス的測度を含むボレル測度に対して,hsic推定の最小最適速度が$\mathcal o\!
\left(n^{-1/2}\right)$
具体的には、U-統計量、V-統計量、およびNystr\"om-based one"を含む)で最も頻繁に使われる多くの推定値のミニマックス感覚の最適性を示す。 Kernel techniques are among the most influential approaches in data science and statistics. Under mild conditions, the reproducing kernel Hilbert space associated to a kernel is capable of encoding the independence of $M\ge 2$ random variables. Probably the most widespread independence measure relying on kernels is the so-called Hilbert-Schmidt independence criterion (HSIC; also referred to as distance covariance in the statistics literature). Despite various existing HSIC estimators designed since its introduction close to two decades ago, the fundamental question of the rate at which HSIC can be estimated is still open. In this work, we prove that the minimax optimal rate of HSIC estimation on $\mathbb R^d$ for Borel measures containing the Gaussians with continuous bounded translation-invariant characteristic kernels is $\mathcal O\!\left(n^{-1/2}\right)$. Specifically, our result implies the optimality in the minimax sense of many of the most-frequently used estimators (including the U-statistic, the V-statistic, and the Nystr\"om-based one) on $\mathbb R^d$. | 翻訳日:2024-03-13 21:04:35 公開日:2024-03-12 |
# DSEG-LIME -階層型データ駆動セグメンテーションによる画像説明の改善 DSEG-LIME - Improving Image Explanation by Hierarchical Data-Driven Segmentation ( http://arxiv.org/abs/2403.07733v1 ) ライセンス: Link先を確認 | Patrick Knab, Sascha Marton, Christian Bartelt | (参考訳) 説明可能な人工知能は、複雑な機械学習モデルにおける意思決定プロセスに不可欠である。
LIME(Local Interpretable Model-Agnostic Explanations)は画像解析のためのXAIフレームワークとしてよく知られている。
イメージセグメンテーションを使用して、分類の関連領域を特定する機能を作成する。
その結果、セグメンテーションは説明の一貫性を損なうことができ、セグメンテーションの重要性を損なうことになり、全体的な解釈可能性に影響を及ぼす。
これらの課題に対処するため、DSEG-LIME(Data-Driven Segmentation LIME)を紹介します。
一 人間の認識特徴生成のためのデータ駆動セグメンテーション及び
二 構成による階層的区分の手順
DSEG-LIMEをImageNetデータセットの画像で事前訓練したモデル上でベンチマークする。
分析は、ユーザ調査による質的評価によって補完される確立されたxaiメトリクスを用いた定量的評価を含む。
以上の結果から,DSEGはXAI指標のほとんどで優れており,人間認識概念との整合性を高め,解釈可能性を大幅に向上させることが示された。
コードは下記のとおりである。
com/patrick-knab/DSEG-LIME Explainable Artificial Intelligence is critical in unraveling decision-making processes in complex machine learning models. LIME (Local Interpretable Model-agnostic Explanations) is a well-known XAI framework for image analysis. It utilizes image segmentation to create features to identify relevant areas for classification. Consequently, poor segmentation can compromise the consistency of the explanation and undermine the importance of the segments, affecting the overall interpretability. Addressing these challenges, we introduce DSEG-LIME (Data-Driven Segmentation LIME), featuring: i) a data-driven segmentation for human-recognized feature generation, and ii) a hierarchical segmentation procedure through composition. We benchmark DSEG-LIME on pre-trained models with images from the ImageNet dataset - scenarios without domain-specific knowledge. The analysis includes a quantitative evaluation using established XAI metrics, complemented by a qualitative assessment through a user study. Our findings demonstrate that DSEG outperforms in most of the XAI metrics and enhances the alignment of explanations with human-recognized concepts, significantly improving interpretability. The code is available under: https://github. com/patrick-knab/DSEG-LIME | 翻訳日:2024-03-13 21:04:17 公開日:2024-03-12 |
# cas:fcr制御を用いたオンライン選択共形予測のための一般アルゴリズム CAS: A General Algorithm for Online Selective Conformal Prediction with FCR Control ( http://arxiv.org/abs/2403.07728v1 ) ライセンス: Link先を確認 | Yajie Bao, Yuyang Huo, Haojie Ren, Changliang Zou | (参考訳) 選択後予測推論の問題点をオンライン方式で検討する。
重要でない単位へのリソースの流出を避けるため、オンライン予測タスクでは、予測間隔を報告する前に現在の個人を予備選択することが一般的で有意義である。
オンライン選択は、選択した予測間隔に時間的多重性を引き起こすため、実時間偽被覆率(FCR)を制御して平均的誤発見誤差を測定することが重要である。
我々はcas(calibration after adaptive selection)という汎用フレームワークを開発し、任意の予測モデルとオンライン選択ルールを包み込み、選択後の予測間隔を出力する。
現在の個人が選択された場合、まず履歴データに対して適応的な選択を行い、キャリブレーションセットを構築し、観測されていないラベルに対して共形予測間隔を出力する。
一般的なオンライン選択ルールのためのキャリブレーションセットの扱いやすい構成を提供する。
我々はCASが有限サンプルおよび分布自由状態において正確な選択条件カバレッジを保証することを証明した。
ほとんどのオンライン多重テスト手順を含む決定駆動選択ルールでは、CASは、分布的な仮定なしでターゲットレベル以下のリアルタイムFCRを正確に制御できる。
対称しきい値を持つオンライン選択では,fcrの制御ギャップに対する誤差境界を軽度分布条件下で確立する。
オンラインデータの分布変化を考慮し、最近の動的共形予測手法にCASを組み込み、長期のFCR制御について検討する。
合成データと実データの両方に関する数値的な結果から、CASはターゲットレベルのFCRを効果的に制御し、様々な設定で既存のベースラインよりもより狭い予測間隔を得ることができる。 We study the problem of post-selection predictive inference in an online fashion. To avoid devoting resources to unimportant units, a preliminary selection of the current individual before reporting its prediction interval is common and meaningful in online predictive tasks. Since the online selection causes a temporal multiplicity in the selected prediction intervals, it is important to control the real-time false coverage-statement rate (FCR) to measure the averaged miscoverage error. We develop a general framework named CAS (Calibration after Adaptive Selection) that can wrap around any prediction model and online selection rule to output post-selection prediction intervals. If the current individual is selected, we first perform an adaptive selection on historical data to construct a calibration set, then output a conformal prediction interval for the unobserved label. We provide tractable constructions for the calibration set for popular online selection rules. We proved that CAS can achieve an exact selection-conditional coverage guarantee in the finite-sample and distribution-free regimes. For the decision-driven selection rule, including most online multiple-testing procedures, CAS can exactly control the real-time FCR below the target level without any distributional assumptions. For the online selection with symmetric thresholds, we establish the error bound for the control gap of FCR under mild distributional assumptions. To account for the distribution shift in online data, we also embed CAS into some recent dynamic conformal prediction methods and examine the long-run FCR control. Numerical results on both synthetic and real data corroborate that CAS can effectively control FCR around the target level and yield more narrowed prediction intervals over existing baselines across various settings. | 翻訳日:2024-03-13 21:04:00 公開日:2024-03-12 |
# semeval-2024 shared task 6: shroom、幻覚と関連する可観測オーバージェネレーションに関する共有タスク SemEval-2024 Shared Task 6: SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes ( http://arxiv.org/abs/2403.07726v1 ) ライセンス: Link先を確認 | Timothee Mickus, Elaine Zosa, Ra\'ul V\'azquez, Teemu Vahtola, J\"org Tiedemann, Vincent Segonne, Alessandro Raganato, Marianna Apidianaki | (参考訳) 本稿では,自然言語生成 (nlg) システムからの出力を,不正確で不正確な幻覚の検出に焦点をあてた共有タスクである shroom の結果について述べる。
オーバージェネレーションのケースは、しばしばミッションクリティカルである多くのNLGアプリケーションに危険を及ぼす。
共有タスクは、機械翻訳、パラフレーズ生成、定義モデリングという3つのNLPタスクにまたがる5つのアノテータによってラベル付けされた4000モデル出力のデータセットを新たに構築した。
共有タスクは、42のチームからなる58の異なるユーザによって取り組まれ、そのうち27人がシステム記述の論文を書くように選ばれ、合計で、共有タスクの両トラックに300以上の予測セットを提出した。
多くの参加者は少数のモデルに依存しており、しばしば微調整やゼロショットのプロンプト戦略のために合成データに依存しています。
大部分のチームが提案するベースラインシステムよりも優れていますが、トップスコーリングシステムのパフォーマンスは、より困難な項目のランダムな処理といまだに一致しています。 This paper presents the results of the SHROOM, a shared task focused on detecting hallucinations: outputs from natural language generation (NLG) systems that are fluent, yet inaccurate. Such cases of overgeneration put in jeopardy many NLG applications, where correctness is often mission-critical. The shared task was conducted with a newly constructed dataset of 4000 model outputs labeled by 5 annotators each, spanning 3 NLP tasks: machine translation, paraphrase generation and definition modeling. The shared task was tackled by a total of 58 different users grouped in 42 teams, out of which 27 elected to write a system description paper; collectively, they submitted over 300 prediction sets on both tracks of the shared task. We observe a number of key trends in how this approach was tackled -- many participants rely on a handful of model, and often rely either on synthetic data for fine-tuning or zero-shot prompting strategies. While a majority of the teams did outperform our proposed baseline system, the performances of top-scoring systems are still consistent with a random handling of the more challenging items. | 翻訳日:2024-03-13 21:03:31 公開日:2024-03-12 |
# データ制限二項分類におけるバランシングフェアネスと精度 Balancing Fairness and Accuracy in Data-Restricted Binary Classification ( http://arxiv.org/abs/2403.07724v1 ) ライセンス: Link先を確認 | Zachary McBride Lazri, Danial Dervovic, Antigoni Polychroniadou, Ivan Brugere, Dana Dachman-Soled, and Min Wu | (参考訳) 機密情報を扱うアプリケーションは、機械学習(ML)分類器で利用可能なデータに制限を課すことがある。
例えば、あるアプリケーションでは、分類器はセンシティブな属性に直接アクセスできず、正確で公平な決定を下す能力に影響を与えることがある。
本稿では,分析可能なデータの種類を決定する4つの実践シナリオにおいて,正確性と公平性のトレードオフをモデル化する枠組みを提案する。
先行研究では、データセットの特徴ベクトル、クラスラベル、機密属性の基本的な分布を暗黙的に学習するように訓練されたスコアリング関数の出力を分析して、このトレードオフを調べている。
対照的に,我々のフレームワークは,データセット自体から離散近似を構築し,その基盤となる分布上の最適なベイズ分類器の挙動を直接解析する。
このアプローチにより、複数の凸最適化問題を定式化できるため、質問に答えることができる。 ベイズ分類器の精度は、公平であるように制約された場合のシナリオを制限する異なるデータにどのように影響するか?
分析は、グループと個別の公正を含む一組の公正定義に基づいて行われる。
3つのデータセットの実験は、異なる公正の概念とそれらの分散依存性の間のトレードオフを定量化するツールとして提案されたフレームワークの有用性を示す。 Applications that deal with sensitive information may have restrictions placed on the data available to a machine learning (ML) classifier. For example, in some applications, a classifier may not have direct access to sensitive attributes, affecting its ability to produce accurate and fair decisions. This paper proposes a framework that models the trade-off between accuracy and fairness under four practical scenarios that dictate the type of data available for analysis. Prior works examine this trade-off by analyzing the outputs of a scoring function that has been trained to implicitly learn the underlying distribution of the feature vector, class label, and sensitive attribute of a dataset. In contrast, our framework directly analyzes the behavior of the optimal Bayesian classifier on this underlying distribution by constructing a discrete approximation it from the dataset itself. This approach enables us to formulate multiple convex optimization problems, which allow us to answer the question: How is the accuracy of a Bayesian classifier affected in different data restricting scenarios when constrained to be fair? Analysis is performed on a set of fairness definitions that include group and individual fairness. Experiments on three datasets demonstrate the utility of the proposed framework as a tool for quantifying the trade-offs among different fairness notions and their distributional dependencies. | 翻訳日:2024-03-13 21:03:11 公開日:2024-03-12 |
# シャッフル法の最後のIterate Convergenceについて On the Last-Iterate Convergence of Shuffling Gradient Methods ( http://arxiv.org/abs/2403.07723v1 ) ライセンス: Link先を確認 | Zijian Liu, Zhengyuan Zhou | (参考訳) 置換なしの確率勾配降下法(sgd)としても知られるシャッフル勾配法(shuffling gradient method)は、特に3つの一般的なアルゴリズム(ランダムリシャッフル法(rr)、シャッフル1回法(so)、インクリメンタル勾配法(ig)を含む)を含む、広く実装されている。
経験的成功と比較して、シャッフル勾配法の理論的保証は長い間十分に理解されていなかった。
最近まで、収束率は凸関数の平均イテレートと(計量として二乗距離を用いる)強凸問題に対する最後のイテレートに対して確立されていた。
しかし、関数値ギャップを収束基準として使う場合、既存の理論では、異なる設定(例えば制約付き最適化)で最後の反復の良好な性能を解釈できない。
この実践と理論のギャップを埋めるため、強い凸性がなくても、対象値に対するシュッフリング勾配法におけるラストイテレート収束率を証明できる。
我々の新しい結果は、(ほぼ)既存の最下限と一致するか、あるいは平均的な上限に対して以前の最上限と同速である。 Shuffling gradient methods, which are also known as stochastic gradient descent (SGD) without replacement, are widely implemented in practice, particularly including three popular algorithms: Random Reshuffle (RR), Shuffle Once (SO), and Incremental Gradient (IG). Compared to the empirical success, the theoretical guarantee of shuffling gradient methods was not well-understanding for a long time. Until recently, the convergence rates had just been established for the average iterate for convex functions and the last iterate for strongly convex problems (using squared distance as the metric). However, when using the function value gap as the convergence criterion, existing theories cannot interpret the good performance of the last iterate in different settings (e.g., constrained optimization). To bridge this gap between practice and theory, we prove last-iterate convergence rates for shuffling gradient methods with respect to the objective value even without strong convexity. Our new results either (nearly) match the existing last-iterate lower bounds or are as fast as the previous best upper bounds for the average iterate. | 翻訳日:2024-03-13 21:02:50 公開日:2024-03-12 |
# ビジュアルワードによるマルチモーダル自動回帰モデリング Multi-modal Auto-regressive Modeling via Visual Words ( http://arxiv.org/abs/2403.07720v1 ) ライセンス: Link先を確認 | Tianshuo Peng, Zuchao Li, Lefei Zhang, Hai Zhao, Ping Wang, and Bo Du | (参考訳) 大規模言語モデル(LLM)は、巨大な未注釈テキストコーパスで実行される自動回帰モデリングアプローチの恩恵を受け、強力な知覚と推論能力を示す。
しかし, 大規模マルチモーダルモデル (LMM) を構築するために, 自己回帰モデルからマルチモーダルシナリオへの拡張には, 画像情報が連続的な視覚埋め込みとしてLMMで処理されることは困難であり, 分類のための個別のラベルを得ることはできない。
本稿では,マルチモーダル自動回帰モデリングを初めて統一目的として実現した。
具体的には、視覚特徴をllm語彙上の確率分布にマッピングし、視覚モデルのための監督情報を提供するビジュアルワードの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためのテキスト埋め込みの可能性について検討する。
5つのVQAタスクと4つのベンチマークツールキットの実験結果とアブレーション研究により,提案手法の有効性が検証された。 Large Language Models (LLMs), benefiting from the auto-regressive modelling approach performed on massive unannotated texts corpora, demonstrates powerful perceptual and reasoning capabilities. However, as for extending auto-regressive modelling to multi-modal scenarios to build Large Multi-modal Models (LMMs), there lies a great difficulty that the image information is processed in the LMM as continuous visual embeddings, which cannot obtain discrete supervised labels for classification. In this paper, we successfully perform multi-modal auto-regressive modeling with a unified objective for the first time. Specifically, we propose the concept of visual words, which maps the visual features to probability distributions over LLM's vocabulary, providing supervision information for visual modelling. We further explore the distribution of visual features in the semantic space within LMM and the possibility of using text embeddings to represent visual information. Experimental results and ablation studies on 5 VQA tasks and 4 benchmark toolkits validate the powerful performance of our proposed approach. | 翻訳日:2024-03-13 21:02:28 公開日:2024-03-12 |
# 病理組織像解析のための知識を意識した動的グラフ表現 Dynamic Graph Representation with Knowledge-aware Attention for Histopathology Whole Slide Image Analysis ( http://arxiv.org/abs/2403.07719v1 ) ライセンス: Link先を確認 | Jiawen Li, Yuxuan Chen, Hongbo Chu, Qiehe Sun, Tian Guan, Anjia Han, Yonghong He | (参考訳) 病理組織学的全スライド画像(WSI)分類は医用顕微鏡画像処理の基礎課題となっている。
一般的なアプローチでは、インスタンスバッグ表現としてwsisを学習し、重要なインスタンスを強調しながら、インスタンス間のインタラクションを捉えるのに苦労する。
さらに、従来のグラフ表現法は、明示的な空間的位置を利用してトポロジ構造を構築するが、任意の場所、特に空間的に離れた場所におけるインスタンス間の柔軟な相互作用能力を制限する。
そこで本研究では,知識グラフ構造の形式としてWSIを概念化する動的グラフ表現アルゴリズムを提案する。
具体的には、インスタンス間の頭と尾の関係に基づいて、隣り合ったエッジの埋め込みを動的に構築する。
次に,各隣接点とエッジ点の合同注意スコアを学習することにより,頭部特徴を更新可能な知識認識注意機構を考案する。
最後に、更新されたヘッドのグローバルプーリングプロセスを通じてグラフレベルの埋め込みを行い、wsi分類の暗黙的な表現として機能する。
我々のエンドツーエンドグラフ表現学習アプローチは、TCGAベンチマーク3つのデータセットと社内テストセットにおける最先端のWSI分析手法よりも優れています。
私たちのコードはhttps://github.com/WonderLandxD/WiKGで公開されています。 Histopathological whole slide images (WSIs) classification has become a foundation task in medical microscopic imaging processing. Prevailing approaches involve learning WSIs as instance-bag representations, emphasizing significant instances but struggling to capture the interactions between instances. Additionally, conventional graph representation methods utilize explicit spatial positions to construct topological structures but restrict the flexible interaction capabilities between instances at arbitrary locations, particularly when spatially distant. In response, we propose a novel dynamic graph representation algorithm that conceptualizes WSIs as a form of the knowledge graph structure. Specifically, we dynamically construct neighbors and directed edge embeddings based on the head and tail relationships between instances. Then, we devise a knowledge-aware attention mechanism that can update the head node features by learning the joint attention score of each neighbor and edge. Finally, we obtain a graph-level embedding through the global pooling process of the updated head, serving as an implicit representation for the WSI classification. Our end-to-end graph representation learning approach has outperformed the state-of-the-art WSI analysis methods on three TCGA benchmark datasets and in-house test sets. Our code is available at https://github.com/WonderLandxD/WiKG. | 翻訳日:2024-03-13 21:02:09 公開日:2024-03-12 |
# WorkArena: 共通知識作業タスクの解決におけるWebエージェントの能力 WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? ( http://arxiv.org/abs/2403.07718v1 ) ライセンス: Link先を確認 | Alexandre Drouin, Maxime Gasse, Massimo Caccia, Issam H. Laradji, Manuel Del Verme, Tom Marty, L\'eo Boisvert, Megh Thakkar, Quentin Cappart, David Vazquez, Nicolas Chapados, Alexandre Lacoste | (参考訳) 本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
従来の作業とは違って,エンタープライズソフトウェアシステムを利用した知識労働者の日常業務にまたがる作業を行うエージェントの能力の測定に重点を置いている。
そこで本稿では,広く使用されているservicenowプラットフォームに基づく29タスクの遠隔ホストベンチマークであるworkarenaを提案する。
また,このようなエージェントの設計と評価のための環境であるbrowsergymについても紹介する。
私たちの経験的評価によると、現在のエージェントはWorkArenaを約束しているが、完全なタスク自動化を達成するための大きなギャップが残っている。
特に,オープンソースLLMとクローズドソースLLMの大幅な性能格差を明らかにし,今後の研究・開発における重要な領域を明らかにする。 We study the use of large language model-based agents for interacting with software via web browsers. Unlike prior work, we focus on measuring the agents' ability to perform tasks that span the typical daily work of knowledge workers utilizing enterprise software systems. To this end, we propose WorkArena, a remote-hosted benchmark of 29 tasks based on the widely-used ServiceNow platform. We also introduce BrowserGym, an environment for the design and evaluation of such agents, offering a rich set of actions as well as multimodal observations. Our empirical evaluation reveals that while current agents show promise on WorkArena, there remains a considerable gap towards achieving full task automation. Notably, our analysis uncovers a significant performance disparity between open and closed-source LLMs, highlighting a critical area for future exploration and development in the field. | 翻訳日:2024-03-13 21:01:50 公開日:2024-03-12 |
# ドメイン適応のためのフーリエ変換フレームワーク A Fourier Transform Framework for Domain Adaptation ( http://arxiv.org/abs/2403.07798v1 ) ライセンス: Link先を確認 | Le Luo, Bingrong Xu, Qingyong Zhang, Cheng Lian, Jie Luo | (参考訳) unsupervised domain adaptation(uda)を使用することで、知識をラベル豊富なソースドメインから、関連する情報を含むがラベルがないターゲットドメインに転送することができる。
既存のudaアルゴリズムの多くは、rawイメージを入力として直接使用するのに苦しむため、冗長な情報に重きを置き、一般化能力に乏しいモデルとなる。
この問題に対処するために、フーリエ法(FTF)を用いて教師なし領域適応の性能改善を試みる。
特にftfはフーリエスペクトルの振幅に触発され、主に低レベルの統計情報を保存している。
FTFでは、フーリエ領域内の両方の領域の振幅を拡散することにより、ターゲットドメインからの低レベル情報をソースドメインに効果的に組み込む。
さらに、画像のバッチから特徴を抽出することで、タスクに関連するクラス固有の特徴を保持しながら冗長な情報を排除できることが観察された。
この観測に基づいて、初めてデータストリームレベルでフーリエ変換を適用する。
複数のデータソースをアライメントするために,相関アライメントの概念を導入する。
提案手法の有効性を評価するため,Office-31,Office-Home,ImageCLEF-DA,Office-Caltechの4つのベンチマークデータセットを用いて評価を行った。
我々の結果は優れた性能を示している。 By using unsupervised domain adaptation (UDA), knowledge can be transferred from a label-rich source domain to a target domain that contains relevant information but lacks labels. Many existing UDA algorithms suffer from directly using raw images as input, resulting in models that overly focus on redundant information and exhibit poor generalization capability. To address this issue, we attempt to improve the performance of unsupervised domain adaptation by employing the Fourier method (FTF).Specifically, FTF is inspired by the amplitude of Fourier spectra, which primarily preserves low-level statistical information. In FTF, we effectively incorporate low-level information from the target domain into the source domain by fusing the amplitudes of both domains in the Fourier domain. Additionally, we observe that extracting features from batches of images can eliminate redundant information while retaining class-specific features relevant to the task. Building upon this observation, we apply the Fourier Transform at the data stream level for the first time. To further align multiple sources of data, we introduce the concept of correlation alignment. To evaluate the effectiveness of our FTF method, we conducted evaluations on four benchmark datasets for domain adaptation, including Office-31, Office-Home, ImageCLEF-DA, and Office-Caltech. Our results demonstrate superior performance. | 翻訳日:2024-03-13 20:57:02 公開日:2024-03-12 |
# 共同選択:プライベート合成データのための公開情報を適応的に取り入れる Joint Selection: Adaptively Incorporating Public Information for Private Synthetic Data ( http://arxiv.org/abs/2403.07797v1 ) ライセンス: Link先を確認 | Miguel Fuentes, Brett Mullins, Ryan McKenna, Gerome Miklau, Daniel Sheldon | (参考訳) 限界モデルとグラフィカルモデルに基づく微分プライベートな合成データを生成するメカニズムは、幅広い環境で成功している。
しかし、これらの方法の1つの制限は、パブリックデータを組み込めないことである。
公開データによる事前学習によるデータ生成モデルの初期化は, 合成データの質を向上させることが示されているが, この手法は, モデル構造が事前決定されていない場合に適用できない。
公開データとプライベートデータとを共同で選択するために,適応測定フレームワークを拡張したjam-pgm機構を開発した。
この技術は、グラフィカルモデルに基づくメカニズムに公開データを含めることができる。
また, ジャム-pgmは, 公用データ分布に偏りがある場合でも, 公用データと非公用データ生成機構の両方より優れていることを示す。 Mechanisms for generating differentially private synthetic data based on marginals and graphical models have been successful in a wide range of settings. However, one limitation of these methods is their inability to incorporate public data. Initializing a data generating model by pre-training on public data has shown to improve the quality of synthetic data, but this technique is not applicable when model structure is not determined a priori. We develop the mechanism jam-pgm, which expands the adaptive measurements framework to jointly select between measuring public data and private data. This technique allows for public data to be included in a graphical-model-based mechanism. We show that jam-pgm is able to outperform both publicly assisted and non publicly assisted synthetic data generation mechanisms even when the public data distribution is biased. | 翻訳日:2024-03-13 20:56:42 公開日:2024-03-12 |
# 逐次命令による大規模言語モデルの微調整 Fine-tuning Large Language Models with Sequential Instructions ( http://arxiv.org/abs/2403.07794v1 ) ライセンス: Link先を確認 | Hanxu Hu, Pinzhen Chen, Edoardo M. Ponti | (参考訳) 大きな言語モデル(LLM)は、その一部を無視したり誤解させたりするため、単一のクエリで命令列に従うのに苦労する。
これは、多言語(翻訳、応答)やマルチモーダル(カプセル、応答)タスクのような複数の中間ステップを必要とする複雑な問題において、それらの性能を損なう。
LLaMA-2 70B や Mixtral-8x7B のようなオープンソースの LLM でこれを実証的に検証する。
現在のデータにおけるシーケンシャル命令の不足をターゲットとして、命令チューニングデータを自動的に強化し、複数のシーケンシャル命令を実行する機能を備えた簡易かつ効果的な戦略であるシーケンシャル命令チューニングを提案する。
アルパカのような既存のデータセットのインターリーブ命令を幅広い中間タスクで探索した後、シーケンシャル命令チューニングモデルは、推論、多言語、マルチモーダル能力を含む下流タスクにおいて、従来の命令チューニングベースラインを一貫して上回っていることがわかった。
本手法をさらに光を当てるために,敵対的な中間テキスト,目に見えないタスク,迅速な動詞化,タスク数,迅速な長さがSITに与える影響を分析する。
本手法は,複雑なタスクのチューニングに関する新たな研究の道を開くことを期待する。 Large language models (LLMs) struggle to follow a sequence of instructions in a single query as they may ignore or misinterpret part of it. This impairs their performance in complex problems whose solution requires multiple intermediate steps, such as multilingual (translate then answer) and multimodal (caption then answer) tasks. We empirically verify this with open-source LLMs as large as LLaMA-2 70B and Mixtral-8x7B. Targeting the scarcity of sequential instructions in present-day data, we propose sequential instruction tuning, a simple yet effective strategy to automatically augment instruction tuning data and equip LLMs with the ability to execute multiple sequential instructions. After exploring interleaving instructions in existing datasets, such as Alpaca, with a wide range of intermediate tasks, we find that sequential instruction-tuned models consistently outperform the conventional instruction-tuned baselines in downstream tasks involving reasoning, multilingual, and multimodal abilities. To shed further light on our technique, we analyse how adversarial intermediate texts, unseen tasks, prompt verbalization, number of tasks, and prompt length affect SIT. We hope that this method will open new research avenues on instruction tuning for complex tasks. | 翻訳日:2024-03-13 20:56:29 公開日:2024-03-12 |
# DexCap: Dexterous ManipulationのためのスケーラブルでポータブルなMocapデータ収集システム DexCap: Scalable and Portable Mocap Data Collection System for Dexterous Manipulation ( http://arxiv.org/abs/2403.07788v1 ) ライセンス: Link先を確認 | Chen Wang, Haochen Shi, Weizhuo Wang, Ruohan Zhang, Li Fei-Fei, C. Karen Liu | (参考訳) 人間の手の動きデータからの模倣学習は、現実世界の操作タスクにおいて、人間のような器用さでロボットを倒すための有望な道を示す。
この可能性にもかかわらず、特に既存の手動キャプチャ(mocap)システムの移植性や、モキャップデータを効果的な制御ポリシーに変換するのが困難である。
これらの問題に対処するため,我々は,携帯型ハンドモーションキャプチャシステムであるdexcapと,人手mocapデータから直接デキスタラスロボットスキルをトレーニングする新しい模倣アルゴリズムであるdexilを紹介する。
DexCapは、SLAMと電磁場に基づく手首と指の動きの精密で閉塞に強い追跡と環境の3D観察を提供する。
このリッチデータセットを利用することで、DexILは逆キネマティクスとポイントクラウドベースの模倣学習を使用して、ロボット手で人間の行動を再現する。
人間の動きから学ぶだけでなく、DexCapはロボットのパフォーマンスを改良し、さらに改善するためのオプションの人道修正メカニズムも提供している。
提案手法は,6つのデキスタラスな操作タスクの広範な評価を通じて,優れた性能を示すだけでなく,既存のモーキャップデータから効果的に学習できるシステム能力を示し,将来的なデキスタラスな操作のためのデータ収集手法の道を開く。
詳細はhttps://dex-cap.github.ioで確認できる。 Imitation learning from human hand motion data presents a promising avenue for imbuing robots with human-like dexterity in real-world manipulation tasks. Despite this potential, substantial challenges persist, particularly with the portability of existing hand motion capture (mocap) systems and the difficulty of translating mocap data into effective control policies. To tackle these issues, we introduce DexCap, a portable hand motion capture system, alongside DexIL, a novel imitation algorithm for training dexterous robot skills directly from human hand mocap data. DexCap offers precise, occlusion-resistant tracking of wrist and finger motions based on SLAM and electromagnetic field together with 3D observations of the environment. Utilizing this rich dataset, DexIL employs inverse kinematics and point cloud-based imitation learning to replicate human actions with robot hands. Beyond learning from human motion, DexCap also offers an optional human-in-the-loop correction mechanism to refine and further improve robot performance. Through extensive evaluation across six dexterous manipulation tasks, our approach not only demonstrates superior performance but also showcases the system's capability to effectively learn from in-the-wild mocap data, paving the way for future data collection methods for dexterous manipulation. More details can be found at https://dex-cap.github.io | 翻訳日:2024-03-13 20:56:07 公開日:2024-03-12 |
# 深層学習対応超広視野レンズレスイメージング Generative deep learning-enabled ultra-large field-of-view lens-free imaging ( http://arxiv.org/abs/2403.07786v1 ) ライセンス: Link先を確認 | Ronald B. Liu, Zhe Liu, Max G.A. Wolf, Krishna P. Purohit, Gregor Fritz, Yi Feng, Carsten G. Hansen, Pierre O. Bagnaninchi, Xavier Casadevall i Solvas, Yunjie Yang | (参考訳) 高スループットバイオメディカルアプリケーションの進歩は、リアルタイム大視野イメージング(FOV)機能を必要とする。
物理レンズの限界に対処する従来のレンズレスイメージング (LFI) システムは、ダイナミックでハード・ツー・モデルの光学場によって制約され、その結果、約20$mm^2$の1ショットFOVとなる。
この制限は、生体医学研究のためのライブセルイメージングやマイクロ流体システムの自動化といった応用において大きなボトルネックとなっている。
本稿では、ホログラフィック画像再構成に生成人工知能(AI)を活用するディープラーニング(DL)ベースのイメージングフレームワーク、GenLFIを提案する。
我々は、GenLFIが550$mm^2$以上のリアルタイムFOVを達成でき、現在のLFIシステムを20倍以上上回り、世界最大規模の共焦点顕微鏡よりも1.76倍大きいことを実証した。
解像度は5.52$\mu m$のサブピクセルレベルで、シフトする光源を必要としない。
教師なし学習に基づく再構成は、複雑な光学場におけるダイナミックな3Dサンプル(例えば、液滴ベースのマイクロ流体学と3Dセルモデル)をイメージングする光学場モデリングを必要としない。
このGenLFIフレームワークはLFIシステムの可能性を解き放ち、薬物発見のような高スループットのバイオメディカル応用において新しいフロンティアに取り組むための堅牢なツールを提供する。 Advancements in high-throughput biomedical applications necessitate real-time, large field-of-view (FOV) imaging capabilities. Conventional lens-free imaging (LFI) systems, while addressing the limitations of physical lenses, have been constrained by dynamic, hard-to-model optical fields, resulting in a limited one-shot FOV of approximately 20 $mm^2$. This restriction has been a major bottleneck in applications like live-cell imaging and automation of microfluidic systems for biomedical research. Here, we present a deep-learning(DL)-based imaging framework -- GenLFI -- leveraging generative artificial intelligence (AI) for holographic image reconstruction. We demonstrate that GenLFI can achieve a real-time FOV over 550 $mm^2$, surpassing the current LFI system by more than 20-fold, and even larger than the world's largest confocal microscope by 1.76 times. The resolution is at the sub-pixel level of 5.52 $\mu m$, without the need for a shifting light source. The unsupervised learning-based reconstruction does not require optical field modeling, making imaging dynamic 3D samples (e.g., droplet-based microfluidics and 3D cell models) in complex optical fields possible. This GenLFI framework unlocks the potential of LFI systems, offering a robust tool to tackle new frontiers in high-throughput biomedical applications such as drug discovery. | 翻訳日:2024-03-13 20:55:43 公開日:2024-03-12 |
# fairrr:ランダム化応答によるグループフェアネスの前処理 FairRR: Pre-Processing for Group Fairness through Randomized Response ( http://arxiv.org/abs/2403.07780v1 ) ライセンス: Link先を確認 | Xianli Zeng, Joshua Ward, Guang Cheng | (参考訳) 一連の意思決定プロセスにおける機械学習モデルの利用の増加は、これらのシステムの公平性の研究を促した。
内部処理と後処理の設定においてグループフェアネスを研究するために重要な研究がなされているが、理論上これらの結果を前処理領域に結び付けるものはほとんどない。
本稿では,下流モデルにおけるグループフェアネスの達成を,ランダム化応答フレームワークにおいて応答変数を変更する最適設計行列の発見として定式化できることを示す。
グループフェアネスの尺度は最適なモデルユーティリティで直接制御可能であることを示し、FairRRと呼ばれる、優れた下流モデルユーティリティとフェアネスをもたらす前処理アルゴリズムを提案する。 The increasing usage of machine learning models in consequential decision-making processes has spurred research into the fairness of these systems. While significant work has been done to study group fairness in the in-processing and post-processing setting, there has been little that theoretically connects these results to the pre-processing domain. This paper proposes that achieving group fairness in downstream models can be formulated as finding the optimal design matrix in which to modify a response variable in a Randomized Response framework. We show that measures of group fairness can be directly controlled for with optimal model utility, proposing a pre-processing algorithm called FairRR that yields excellent downstream model utility and fairness. | 翻訳日:2024-03-13 20:55:18 公開日:2024-03-12 |
# semcity:三面拡散による意味シーン生成 SemCity: Semantic Scene Generation with Triplane Diffusion ( http://arxiv.org/abs/2403.07773v1 ) ライセンス: Link先を確認 | Jumin Lee, Sebin Lee, Changho Jo, Woobin Im, Juhyeong Seon, Sung-Eui Yoon | (参考訳) 実世界の屋外環境におけるセマンティックシーン生成のための3次元拡散モデル「セムシティ」を提案する。
ほとんどの3d拡散モデルは、単一の物体、合成屋内シーン、合成屋外シーンの生成に焦点を当てているが、現実世界の屋外シーンの生成は、ほとんど解決されない。
本稿では,実世界の屋外データセット上で拡散モデルを学ぶことにより,実空間シーンの生成に着目する。
合成データとは対照的に、実際の屋外データセットはセンサーの制限により、より空の空間を含むことが多く、実際の屋外分布を学習する際の課題となる。
この問題に対処するために,三面表現をシーン分布のプロキシ形式として活用し,拡散モデルを用いて学習する。
さらに,三平面拡散モデルとシームレスに統合した三平面操作を提案する。
この操作は,屋外シーン生成に関連する様々な下流タスク,例えばシーンインペインティング,シーンアウトペインティング,セマンティックシーンコンプリートの改良において,拡散モデルの適用性を向上させる。
実験の結果,実演データセットsemantickittiにおける既存の作業と比較して,三面拡散モデルが有意義な生成結果を示すことが示された。
また、シーン内のオブジェクトのシームレスな追加、削除、修正を容易にするトリプレーン操作も示しています。
さらに、都市規模へのシーンの拡大も可能にしている。
最後に,この拡散モデルによりシーン分布の学習による意味シーン完了ネットワークの予測が促進されるセマンティックシーン完了改善手法の評価を行った。
私たちのコードはhttps://github.com/zoomin-lee/SemCity.comで利用可能です。 We present "SemCity," a 3D diffusion model for semantic scene generation in real-world outdoor environments. Most 3D diffusion models focus on generating a single object, synthetic indoor scenes, or synthetic outdoor scenes, while the generation of real-world outdoor scenes is rarely addressed. In this paper, we concentrate on generating a real-outdoor scene through learning a diffusion model on a real-world outdoor dataset. In contrast to synthetic data, real-outdoor datasets often contain more empty spaces due to sensor limitations, causing challenges in learning real-outdoor distributions. To address this issue, we exploit a triplane representation as a proxy form of scene distributions to be learned by our diffusion model. Furthermore, we propose a triplane manipulation that integrates seamlessly with our triplane diffusion model. The manipulation improves our diffusion model's applicability in a variety of downstream tasks related to outdoor scene generation such as scene inpainting, scene outpainting, and semantic scene completion refinements. In experimental results, we demonstrate that our triplane diffusion model shows meaningful generation results compared with existing work in a real-outdoor dataset, SemanticKITTI. We also show our triplane manipulation facilitates seamlessly adding, removing, or modifying objects within a scene. Further, it also enables the expansion of scenes toward a city-level scale. Finally, we evaluate our method on semantic scene completion refinements where our diffusion model enhances predictions of semantic scene completion networks by learning scene distribution. Our code is available at https://github.com/zoomin-lee/SemCity. | 翻訳日:2024-03-13 20:55:04 公開日:2024-03-12 |
# PROSKILL:ロボット工学におけるフォーマルなスキル言語 PROSKILL: A formal skill language for acting in robotics ( http://arxiv.org/abs/2403.07770v1 ) ライセンス: Link先を確認 | F\'elix Ingrand (LAAS-CNRS, Universit\'e de Toulouse, Toulouse, France) | (参考訳) 行動は自律ロボットにとって重要な決定機能である。
Actingは、リファインメント、ローカルリカバリ、一時的なディスパッチ、外部非同期イベント、コマンド実行など、その監視するアクティビティの実装とモデル化のスキルに依存している。
計画とロボットプラットフォームの間に座っている間、アクションはしばしばプログラミングプリミティブとこれらのスキルを実行するインタプリタに依存します。
ロボットの機能的コンポーネントをプログラムするための形式的フレームワークを提供する経験から,行動スキルをプログラムするための新しい言語を提案する。
この言語は、オフラインでプロパティをチェックしたり、スキルを実行したり、あるいはより正確には彼らの公式な等価性を確認し、実行時の検証を行うために使用することができる。
この新言語でドローンの探査ミッションをプログラムし、プログラム上のいくつかの形式的特性を証明し、そのミッションを実行するためにドローン上で正式なモデルを直接実行する方法を実例で説明する。 Acting is an important decisional function for autonomous robots. Acting relies on skills to implement and to model the activities it oversees: refinement, local recovery, temporal dispatching, external asynchronous events, and commands execution, all done online. While sitting between planning and the robotic platform, acting often relies on programming primitives and an interpreter which executes these skills. Following our experience in providing a formal framework to program the functional components of our robots, we propose a new language, to program the acting skills. This language maps unequivocally into a formal model which can then be used to check properties offline or execute the skills, or more precisely their formal equivalent, and perform runtime verification. We illustrate with a real example how we can program a survey mission for a drone in this new language, prove some formal properties on the program and directly execute the formal model on the drone to perform the mission. | 翻訳日:2024-03-13 20:54:40 公開日:2024-03-12 |
# 競争から協力へ:現代組織における多エージェントシステムと言語モデルの革命的役割 Transforming Competition into Collaboration: The Revolutionary Role of Multi-Agent Systems and Language Models in Modern Organizations ( http://arxiv.org/abs/2403.07769v1 ) ライセンス: Link先を確認 | Carlos Jose Xavier Cruz | (参考訳) 本稿では,多エージェントシステム理論(SMA)と大規模言語モデル(LLM)を併用した計算エンティティの動的影響について考察する。これは,複雑なヒューマンインタラクションをシミュレートする能力によって特徴付けられる。
これまでの調査では、特に人工知能の自律的アプローチにおいて、特に新しい課題や論理的推論や問題解決などの実践的なタスクを扱う場合、制限があることが示されている。
また、思想の連鎖の刺激などの伝統的な技法は明確な人間の指導を必要とすると考えられている。
提案手法では,大規模言語モデル(LLM)から開発されたエージェントを用いて,エージェント間の議論的アプローチを用いて,シナリオ(ロールプレイ)ビジネスで提案されるユースケースに基づいて知識の生成を刺激する戦略により,行動要素を考慮した個別のプロトタイピングを行う。
我々は,多エージェントシステム理論(SMA)と大規模言語モデル(LLM)に基づく革新的利用に基づいて,組織戦略に有用なエージェントを開発する可能性を示す。 This article explores the dynamic influence of computational entities based on multi-agent systems theory (SMA) combined with large language models (LLM), which are characterized by their ability to simulate complex human interactions, as a possibility to revolutionize human user interaction from the use of specialized artificial agents to support everything from operational organizational processes to strategic decision making based on applied knowledge and human orchestration. Previous investigations reveal that there are limitations, particularly in the autonomous approach of artificial agents, especially when dealing with new challenges and pragmatic tasks such as inducing logical reasoning and problem solving. It is also considered that traditional techniques, such as the stimulation of chains of thoughts, require explicit human guidance. In our approach we employ agents developed from large language models (LLM), each with distinct prototyping that considers behavioral elements, driven by strategies that stimulate the generation of knowledge based on the use case proposed in the scenario (role-play) business, using a discussion approach between agents (guided conversation). We demonstrate the potential of developing agents useful for organizational strategies, based on multi-agent system theories (SMA) and innovative uses based on large language models (LLM based), offering a differentiated and adaptable experiment to different applications, complexities, domains, and capabilities from LLM. | 翻訳日:2024-03-13 20:54:24 公開日:2024-03-12 |
# beyond the labels: パラ言語音声認識データセットにおけるテキスト依存性の公開 Beyond the Labels: Unveiling Text-Dependency in Paralinguistic Speech Recognition Datasets ( http://arxiv.org/abs/2403.07767v1 ) ライセンス: Link先を確認 | Jan Pe\v{s}\'an, Santosh Kesiraju, Luk\'a\v{s} Burget and Jan ''Honza'' \v{C}ernock\'y | (参考訳) 認知負荷や感情といったパラ言語特性は、音声認識研究において重要な領域として認識され、clseやiemocapのような特殊なデータセットを通してしばしば検討される。
しかし、これらのデータセットの完全性は、テキスト依存のために精査されることはほとんどない。
本稿では、このようなデータセットでトレーニングされた機械学習モデルが、単に語彙的特徴を捉えるのではなく、パラ言語的特徴を真に識別することを学ぶという、一般的な仮定を批判的に評価する。
これらのデータセットの語彙重複を調べ、機械学習モデルのパフォーマンスをテストすることで、トレイトラベルにおける重要なテキスト依存性を明らかにする。
この結果から,いくつかの機械学習モデル,特にHuBERTのような大規模事前学習モデルが,意図したパラ言語的特徴よりも必然的に語彙的特徴に焦点を絞っている可能性が示唆された。
この研究は、研究コミュニティが既存のデータセットや方法論の信頼性を再評価し、機械学習モデルが認識するために設計されたものを真に学習することを保証するための活動である。 Paralinguistic traits like cognitive load and emotion are increasingly recognized as pivotal areas in speech recognition research, often examined through specialized datasets like CLSE and IEMOCAP. However, the integrity of these datasets is seldom scrutinized for text-dependency. This paper critically evaluates the prevalent assumption that machine learning models trained on such datasets genuinely learn to identify paralinguistic traits, rather than merely capturing lexical features. By examining the lexical overlap in these datasets and testing the performance of machine learning models, we expose significant text-dependency in trait-labeling. Our results suggest that some machine learning models, especially large pre-trained models like HuBERT, might inadvertently focus on lexical characteristics rather than the intended paralinguistic features. The study serves as a call to action for the research community to reevaluate the reliability of existing datasets and methodologies, ensuring that machine learning models genuinely learn what they are designed to recognize. | 翻訳日:2024-03-13 20:53:56 公開日:2024-03-12 |
# Stable-Makeup: 現実のメイクアップトランスファーが拡散モデルに出会ったとき Stable-Makeup: When Real-World Makeup Transfer Meets Diffusion Model ( http://arxiv.org/abs/2403.07764v1 ) ライセンス: Link先を確認 | Yuxuan Zhang, Lifu Wei, Qing Zhang, Yiren Song, Jiaming Liu, Huaxia Li, Xu Tang, Yao Hu, Haibo Zhao | (参考訳) 現在のメークアップ転送方式は単純なメイクスタイルに限られており、現実のシナリオでは適用が困難である。
本稿では,幅広い実世界のメイクアップをユーザが提供する顔にロバストに伝達できる新しい拡散型メイクアップ法であるstable-makeupを提案する。
Stable-Makeupは事前トレーニングされた拡散モデルに基づいており、Detail-Preserving (D-P) メイクアップエンコーダを使用してメイクアップの詳細をエンコードしている。
また、ソース画像の内容と構造情報を保存するために、コンテンツと構造制御モジュールを使用する。
U-Netに新たにメークアップされたクロスアテンションレイヤの助けを借りて、詳細なメイクアップをソースイメージの対応する位置に正確に転送できる。
コンテンツ構造分離トレーニングの後、Stable-Makeupは、ソースイメージのコンテンツと顔構造を維持することができる。
また, クロスドメインメイクアップ転送, メークアップガイドテキストから画像への生成など, 様々なタスクに適用可能な, 強固な堅牢性と一般化性を示した。
広範囲にわたる実験により, 既存のメークアップトランスファー法において最先端(sota)結果が得られ, 様々な分野において, 幅広い潜在的応用が期待できることを示した。 Current makeup transfer methods are limited to simple makeup styles, making them difficult to apply in real-world scenarios. In this paper, we introduce Stable-Makeup, a novel diffusion-based makeup transfer method capable of robustly transferring a wide range of real-world makeup, onto user-provided faces. Stable-Makeup is based on a pre-trained diffusion model and utilizes a Detail-Preserving (D-P) makeup encoder to encode makeup details. It also employs content and structural control modules to preserve the content and structural information of the source image. With the aid of our newly added makeup cross-attention layers in U-Net, we can accurately transfer the detailed makeup to the corresponding position in the source image. After content-structure decoupling training, Stable-Makeup can maintain content and the facial structure of the source image. Moreover, our method has demonstrated strong robustness and generalizability, making it applicable to varioustasks such as cross-domain makeup transfer, makeup-guided text-to-image generation and so on. Extensive experiments have demonstrated that our approach delivers state-of-the-art (SOTA) results among existing makeup transfer methods and exhibits a highly promising with broad potential applications in various related fields. | 翻訳日:2024-03-13 20:53:39 公開日:2024-03-12 |
# 群れ類似性を用いた橋梁シナリオにおける視覚に基づく車両再識別 Vision-based Vehicle Re-identification in Bridge Scenario using Flock Similarity ( http://arxiv.org/abs/2403.07752v1 ) ライセンス: Link先を確認 | Chunfeng Zhang, Ping Wang | (参考訳) 道路交通の監視と公共の安全管理の必要性から、ビデオ監視カメラは都市部の道路に広く普及している。
しかし、各カメラが直接撮影した情報はサイロ化されており、効果的に使用するのが困難である。
車両の再識別(英: vehicle re-identification)とは、別のカメラに1台のカメラの下に現れる車両を見つけること。
ライセンスプレート認識はいくつかのアプリケーションにおいて重要な役割を果たすが、車両の外観に基づく再識別方法がより適しているシナリオもある。
主な課題は、車両の外観データには、高いクラス間類似性と大きなクラス内差異の特徴があることである。
そのため、車両の外観情報のみに頼って、異なる車両を正確に区別することは困難である。
このとき、時空間情報などの追加情報を導入することがしばしば必要となる。
しかし、橋梁のシナリオで隣接する2台のカメラを通過すると、車両の相対的な位置がほとんど変わらない。
本稿では,車両識別の精度を目標車両に隣接する車両情報を利用して向上させる,群れ類似性に基づく車両再識別手法を提案する。
車両の相対的な位置が変化せず、群れのサイズが適切であれば、実験でveriデータセット上で平均204%の相対的改善が得られる。
次に,2台のカメラを通過する車両の相対位置変化の大きさの影響について検討した。
違いを定量化し、それらの関係を確立するために使用できる2つの指標を示す。
この仮定は橋梁のシナリオに基づいているが、安全とカメラの位置を運転する他のシナリオではそうであることが多い。 Due to the needs of road traffic flow monitoring and public safety management, video surveillance cameras are widely distributed in urban roads. However, the information captured directly by each camera is siloed, making it difficult to use it effectively. Vehicle re-identification refers to finding a vehicle that appears under one camera in another camera, which can correlate the information captured by multiple cameras. While license plate recognition plays an important role in some applications, there are some scenarios where re-identification method based on vehicle appearance are more suitable. The main challenge is that the data of vehicle appearance has the characteristics of high inter-class similarity and large intra-class differences. Therefore, it is difficult to accurately distinguish between different vehicles by relying only on vehicle appearance information. At this time, it is often necessary to introduce some extra information, such as spatio-temporal information. Nevertheless, the relative position of the vehicles rarely changes when passing through two adjacent cameras in the bridge scenario. In this paper, we present a vehicle re-identification method based on flock similarity, which improves the accuracy of vehicle re-identification by utilizing vehicle information adjacent to the target vehicle. When the relative position of the vehicles remains unchanged and flock size is appropriate, we obtain an average relative improvement of 204% on VeRi dataset in our experiments. Then, the effect of the magnitude of the relative position change of the vehicles as they pass through two cameras is discussed. We present two metrics that can be used to quantify the difference and establish a connection between them. Although this assumption is based on the bridge scenario, it is often true in other scenarios due to driving safety and camera location. | 翻訳日:2024-03-13 20:53:13 公開日:2024-03-12 |
# Synth$^2$: 合成キャプションと画像埋め込みによるビジュアル言語モデルの強化 Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings ( http://arxiv.org/abs/2403.07750v1 ) ライセンス: Link先を確認 | Sahand Sharifzadeh, Christos Kaplanis, Shreya Pathak, Dharshan Kumaran, Anastasija Ilic, Jovana Mitrovic, Charles Blundell, Andrea Banino | (参考訳) 高品質な人ラベル画像キャプチャーデータセットの作成は、視覚言語モデル(VLM)の開発において大きなボトルネックとなる。
本稿では,Large Language Models(LLMs)と画像生成モデルの強みを活用して,効率的なVLM学習のための合成画像テキストペアを作成する手法を提案する。
本手法では,llmで生成したキャプションから画像埋め込みを合成するために,テキストから画像へのモデルの事前学習を行う。
これらの合成ペアは、VLMのトレーニングに使用される。
大規模な実験により、人工的なデータで訓練されたVLMは画像キャプションに匹敵する性能を示し、人間の注釈付きデータにのみ訓練されたモデルで使用されるデータのごく一部を必要とすることが示されている。
特に、合成データセットの強化によってベースラインを17%上回っています。
さらに,画像埋め込み空間における合成は画素空間よりも25%高速であることを示す。
本研究は、大規模でカスタマイズ可能な画像データセットを生成するための有望な技術を導入し、VLMの性能の向上と様々な領域にわたる適用性の向上、データ効率の向上と資源利用の促進を実現した。 The creation of high-quality human-labeled image-caption datasets presents a significant bottleneck in the development of Visual-Language Models (VLMs). We propose a novel approach that leverages the strengths of Large Language Models (LLMs) and image generation models to create synthetic image-text pairs for efficient and effective VLM training. Our method employs pretraining a text-to-image model to synthesize image embeddings starting from captions generated by an LLM. These synthetic pairs are then used to train a VLM. Extensive experiments demonstrate that the VLM trained with synthetic data exhibits comparable performance on image captioning, while requiring a fraction of the data used by models trained solely on human-annotated data. In particular, we outperform the baseline by 17% through augmentation with a synthetic dataset. Furthermore, we show that synthesizing in the image embedding space is 25% faster than in the pixel space. This research introduces a promising technique for generating large-scale, customizable image datasets, leading to enhanced VLM performance and wider applicability across various domains, all with improved data efficiency and resource utilization. | 翻訳日:2024-03-13 20:52:46 公開日:2024-03-12 |
# Ariadne と Theseus: 未知のグラフで2つのモバイルエージェントによる探索とレンデブー Ariadne and Theseus: Exploration and Rendezvous with Two Mobile Agents in an Unknown Graph ( http://arxiv.org/abs/2403.07748v1 ) ライセンス: Link先を確認 | Romain Cosson | (参考訳) モバイルコンピューティングにおける2つの根本的な問題、探索とランデブーについて、未知のグラフに2つの異なるモバイルエージェントを用いて検討する。
エージェントは、すべてのノードにあるホワイトボードに関する情報を読み書きすることができる。
両者とも、各時間ごとに隣り合う縁に沿って移動する。
探索問題では、両方のエージェントはグラフの同じノードから始まり、すべてのエッジをトラバースしなければならない。
我々は,深度優先探索の単純な変種が,グラフのエッジ数として$m$の同期時間ステップの集合探索を実現することを示す。
これにより、集合グラフ探索の競争比が向上する。
ランデブー問題では、エージェントはグラフの異なるノードから始まり、できるだけ早く満たさなければならない。
我々は、最大$\frac{3}{2}m$時間ステップでランデブーを保証するアルゴリズムを導入する。
これにより、いわゆる‘Wait for Mommy’アルゴリズムよりも改善される。
すべての保証は、エージェントの速度が常に敵によって制御されるより一般的な非同期設定に由来する。
私たちの保証はまた、すべての辺の長さの和に$m$のエッジの数が置き換えられる場合、重み付きグラフにも一般化される。 We investigate two fundamental problems in mobile computing: exploration and rendezvous, with two distinct mobile agents in an unknown graph. The agents can read and write information on whiteboards that are located at all nodes. They both move along one adjacent edge at every time-step. In the exploration problem, both agents start from the same node of the graph and must traverse all of its edges. We show that a simple variant of depth-first search achieves collective exploration in $m$ synchronous time-steps, where $m$ is the number of edges of the graph. This improves the competitive ratio of collective graph exploration. In the rendezvous problem, the agents start from different nodes of the graph and must meet as fast as possible. We introduce an algorithm guaranteeing rendezvous in at most $\frac{3}{2}m$ time-steps. This improves over the so-called `wait for Mommy' algorithm which requires $2m$ time-steps. All our guarantees are derived from a more general asynchronous setting in which the speeds of the agents are controlled by an adversary at all times. Our guarantees also generalize to weighted graphs, if the number of edges $m$ is replaced by the sum of all edge lengths. | 翻訳日:2024-03-13 20:52:26 公開日:2024-03-12 |
# FineMath:中国の大規模言語モデルのための細粒度数学的評価ベンチマーク FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models ( http://arxiv.org/abs/2403.07747v1 ) ライセンス: Link先を確認 | Yan Liu, Renren Jin, Lin Shi, Zheng Yao, Deyi Xiong | (参考訳) LLM(Large Language Models)の数学的推論能力を徹底的に評価するためには,様々な数学的概念と難易度で数学的な問題を網羅した評価データセットを慎重にキュレートする必要がある。
この目的を追求するために,中国のLLMを評価するための詳細な数学的評価ベンチマークデータセットであるFineMathを提案する。
FineMathは、小学校数学で教えられる主要な数学的概念をカバーし、さらに17のカテゴリの数学語問題に分類され、LLMの数学的推論能力の詳細な分析を可能にする。
数学の単語問題のうち17のカテゴリは、これらの問題を解決するために必要な推論ステップの数に応じて、難易度を手動でアノテートする。
我々は,多種多様なllmに関する広範囲な実験を行い,中国のllmの数学的推論能力に改善の余地があることを見いだした。
また,これまで見過ごされていた評価プロセスと手法について,詳細な分析を行った。
これら2つの要因は,モデル結果と数学的推論能力の理解に大きく影響する。
データセットは近く公開される予定だ。 To thoroughly assess the mathematical reasoning abilities of Large Language Models (LLMs), we need to carefully curate evaluation datasets covering diverse mathematical concepts and mathematical problems at different difficulty levels. In pursuit of this objective, we propose FineMath in this paper, a fine-grained mathematical evaluation benchmark dataset for assessing Chinese LLMs. FineMath is created to cover the major key mathematical concepts taught in elementary school math, which are further divided into 17 categories of math word problems, enabling in-depth analysis of mathematical reasoning abilities of LLMs. All the 17 categories of math word problems are manually annotated with their difficulty levels according to the number of reasoning steps required to solve these problems. We conduct extensive experiments on a wide range of LLMs on FineMath and find that there is still considerable room for improvements in terms of mathematical reasoning capability of Chinese LLMs. We also carry out an in-depth analysis on the evaluation process and methods that have been overlooked previously. These two factors significantly influence the model results and our understanding of their mathematical reasoning capabilities. The dataset will be publicly available soon. | 翻訳日:2024-03-13 20:52:08 公開日:2024-03-12 |
# MoPE-CLIP:モジュールワイドプルーニングエラーメトリックを用いた高能率視覚言語モデルのための構造化プルーニング MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric ( http://arxiv.org/abs/2403.07839v1 ) ライセンス: Link先を確認 | Haokun Lin, Haoli Bai, Zhili Liu, Lu Hou, Muyi Sun, Linqi Song, Ying Wei, Zhenan Sun | (参考訳) 視覚言語で事前訓練されたモデルは、様々な下流タスクで素晴らしいパフォーマンスを達成した。
しかし、その大きなモデルサイズは計算資源の少ないプラットフォーム上での利用を妨げている。
より小さな事前学習モデルを直接使用し、CLIPモデルにマグニチュードベースのプルーニングを適用すると、柔軟性や性能が低下することがわかった。
VLP圧縮の最近の取り組みは、パフォーマンスが制限されるユニモーダル圧縮メトリクスを採用するか、学習可能なマスクを用いたコストの高いマスク探索プロセスを含む。
本稿では,まず,クロスモーダルタスクにおける性能低下によるクリップモジュールの重要性を正確に評価するモジュールワイズプルーニング誤差(mope)メトリックを提案する。
実測値を用いて,事前学習とタスク固有の微調整の両段階に適用可能な統一型プルーニングフレームワークを提案する。
MoPE-CLIPは教師モデルからの知識を効果的に活用し、強力なゼロショット能力を維持しつつ、トレーニング前のコストを大幅に削減する。
微調整の場合、幅から深さへの連続的なプルーニングは、高い競合性を持つタスク固有のモデルをもたらす。
2段階にわたる大規模な実験は、MoPEメトリックの有効性を示し、MoPE-CLIPは従来の最先端のVLP圧縮手法よりも優れていた。 Vision-language pre-trained models have achieved impressive performance on various downstream tasks. However, their large model sizes hinder their utilization on platforms with limited computational resources. We find that directly using smaller pre-trained models and applying magnitude-based pruning on CLIP models leads to inflexibility and inferior performance. Recent efforts for VLP compression either adopt uni-modal compression metrics resulting in limited performance or involve costly mask-search processes with learnable masks. In this paper, we first propose the Module-wise Pruning Error (MoPE) metric, accurately assessing CLIP module importance by performance decline on cross-modal tasks. Using the MoPE metric, we introduce a unified pruning framework applicable to both pre-training and task-specific fine-tuning compression stages. For pre-training, MoPE-CLIP effectively leverages knowledge from the teacher model, significantly reducing pre-training costs while maintaining strong zero-shot capabilities. For fine-tuning, consecutive pruning from width to depth yields highly competitive task-specific models. Extensive experiments in two stages demonstrate the effectiveness of the MoPE metric, and MoPE-CLIP outperforms previous state-of-the-art VLP compression methods. | 翻訳日:2024-03-13 20:33:34 公開日:2024-03-12 |
# 量子回路におけるクロストーク抑制のための同期動的デカップリング Syncopated Dynamical Decoupling for Suppressing Crosstalk in Quantum Circuits ( http://arxiv.org/abs/2403.07836v1 ) ライセンス: Link先を確認 | Bram Evert, Zoe Gonzalez Izquierdo, James Sud, Hong-Ye Hu, Shon Grabbe, Eleanor G. Rieffel, Matthew J. Reagor, and Zhihui Wang | (参考訳) 量子システムの基盤となるハミルトニアンを理論的に理解し、実験的に特徴付けし、修正することは、量子コンピューティングにおいて高忠実性量子ゲートを達成する上で最も重要である。
本研究では、望ましくない2量子ビット結合と基礎となる1量子ビットデコヒーレンスを特徴づけ、それらを抑制するために動的デカップリング(DD)を用いることを検討する。
我々は、デコヒーレンスを防ぎ、望ましくない2量子ビット相互作用を選択的にターゲットとする同期動的デカップリング技術を開発し、正確な量子制御と多くのハードウェアプロトタイプ上で量子コンピューティングを実現するための大きなハードルを克服する。
トランスモン量子ビットベースの超伝導量子デバイスにおいて、単一量子ビットのデコヒーレンスと2組の量子ビット間の静的ZZ結合の下にある白色と1/f$のノイズ成分を分離する。
我々は,2量子ビットベンチマーク実験において,同期動的デカップリングを用いてこれらの誤差を抑え,現実的なアルゴリズム量子回路の性能を大幅に向上させる。 Theoretically understanding and experimentally characterizing and modifying the underlying Hamiltonian of a quantum system is of utmost importance in achieving high-fidelity quantum gates for quantum computing. In this work, we explore the use of dynamical decoupling (DD) in characterizing undesired two-qubit couplings as well as the underlying single-qubit decoherence, and in suppressing them. We develop a syncopated dynamical decoupling technique which protects against decoherence and selectively targets unwanted two-qubit interactions, overcoming both significant hurdles to achieving precise quantum control and realizing quantum computing on many hardware prototypes. On a transmon-qubit-based superconducting quantum device, we identify separate white and $1/f$ noise components underlying the single-qubit decoherence and a static ZZ coupling between pairs of qubits. We suppress these errors using syncopated dynamical decoupling in two-qubit benchmarking experiments and significantly boost performance in a realistic algorithmic quantum circuit. | 翻訳日:2024-03-13 20:33:13 公開日:2024-03-12 |
# 視線追跡と機械学習:医療画像解析への応用に関する体系的レビュー When Eye-Tracking Meets Machine Learning: A Systematic Review on Applications in Medical Image Analysis ( http://arxiv.org/abs/2403.07834v1 ) ライセンス: Link先を確認 | Sahar Moradizeyveh, Mehnaz Tabassum, Sidong Liu, Robert Ahadizad Newport, Amin Beheshti, Antonio Di Ieva | (参考訳) 視線追跡研究は、医学的画像分析と解釈において、様々な医療関連タスクの強化に大きく貢献する。
目の動きを監視し記録する技術であるアイトラッキングは、人間の視覚的注意パターンに関する貴重な洞察を提供する。
この技術は、医療専門家や医療専門家が診断画像と関わり、分析する方法を変革し、医療診断により洞察力と効率的なアプローチを提供する。
医用画像から有意義な特徴や洞察を抽出し、眼球運動データを活用することにより、放射線技師や他の医療専門家が診断目的で画像を監視し、解釈し、理解する方法の理解を深める。
複雑な人間の視覚的注意パターンが埋め込まれた視線追跡データは、人工知能(AI)開発と人間の認知を統合するための橋渡しを提供する。
この統合により、機械学習(ML)とディープラーニング(DL)アプローチにドメイン知識を組み込むことで、人間のような認識と意思決定との整合性を高めることができる。
さらに、眼球追跡データの広範な収集により、人間の視覚パターンを解析し、人間の視覚、注意、認知をよりよく理解するための新しいML/DL手法が実現された。
本稿では,医療画像解析のためのML/DLアルゴリズムの深度化のための視線追跡と手法について検討する。 Eye-gaze tracking research offers significant promise in enhancing various healthcare-related tasks, above all in medical image analysis and interpretation. Eye tracking, a technology that monitors and records the movement of the eyes, provides valuable insights into human visual attention patterns. This technology can transform how healthcare professionals and medical specialists engage with and analyze diagnostic images, offering a more insightful and efficient approach to medical diagnostics. Hence, extracting meaningful features and insights from medical images by leveraging eye-gaze data improves our understanding of how radiologists and other medical experts monitor, interpret, and understand images for diagnostic purposes. Eye-tracking data, with intricate human visual attention patterns embedded, provides a bridge to integrating artificial intelligence (AI) development and human cognition. This integration allows novel methods to incorporate domain knowledge into machine learning (ML) and deep learning (DL) approaches to enhance their alignment with human-like perception and decision-making. Moreover, extensive collections of eye-tracking data have also enabled novel ML/DL methods to analyze human visual patterns, paving the way to a better understanding of human vision, attention, and cognition. This systematic review investigates eye-gaze tracking applications and methodologies for enhancing ML/DL algorithms for medical image analysis in depth. | 翻訳日:2024-03-13 20:32:51 公開日:2024-03-12 |
# モデル編集の欠落部分: モデル編集によって引き起こされた隠れた損傷を深く掘り下げる The Missing Piece in Model Editing: A Deep Dive into the Hidden Damage Brought By Model Editing ( http://arxiv.org/abs/2403.07825v1 ) ライセンス: Link先を確認 | Jianchen Wang, Zhouhong Gu, Zhuozhi Xiong, Hongwei Feng, Yanghua Xiao | (参考訳) 大きな言語モデルは、その顕著な効果で多くのタスクに革命をもたらしたが、これらのモデルの編集は、時代遅れまたは誤った情報の修正に不可欠であり、しばしば隠れた空間における波及効果として知られる複雑な問題に繋がる。
この効果は, 検出が困難であるにもかかわらず, モデル編集作業の有効性を著しく阻害し, モデル性能を低下させる可能性がある。本稿は, モデル適応とその後の編集の影響を定量的に評価する新しい評価手法, グラフィカル・アウトリアー・リレーション・ベース・アセスメント(gora)を提案することで, この科学的課題を解決する。
さらに,このリップル効果を緩和するモデル編集手法であるSelective Outlier Re-Editing Approach(SORA)を導入する。
包括的評価の結果,隠れ空間におけるリップル効果は,現在のモデル編集手法すべてにおいて重大な問題であることが明らかとなった。
しかし,提案手法である gora と sora はそれぞれ,この問題を効果的に識別し緩和し,llm 編集技術の進歩に寄与した。 Large Language Models have revolutionized numerous tasks with their remarkable efficacy.However, the editing of these models, crucial for rectifying outdated or erroneous information, often leads to a complex issue known as the ripple effect in the hidden space. This effect, while difficult to detect, can significantly impede the efficacy of model editing tasks and deteriorate model performance.This paper addresses this scientific challenge by proposing a novel evaluation methodology, Graphical Outlier Relation based Assessment(GORA), which quantitatively evaluates the adaptations of the model and the subsequent impact of editing. Furthermore, we introduce the Selective Outlier Re-Editing Approach(SORA), a model editing method designed to mitigate this ripple effect. Our comprehensive evaluations reveal that the ripple effect in the hidden space is a significant issue in all current model editing methods. However, our proposed methods, GORA and SORA, effectively identify and alleviate this issue, respectively, contributing to the advancement of LLM editing techniques. | 翻訳日:2024-03-13 20:32:27 公開日:2024-03-12 |
# 空間変動型オートエンコーダによる気候データ生成 Fusing Climate Data Products using a Spatially Varying Autoencoder ( http://arxiv.org/abs/2403.07822v1 ) ライセンス: Link先を確認 | Jacob A. Johnson, Matthew J. Heaton, William F. Christensen, Lynsie R. Warr, and Summer B. Rupper | (参考訳) オートエンコーダは、複数のデータソースから情報を圧縮するために使用される強力な機械学習モデルである。
しかしながら、すべての人工ニューラルネットワークと同様に、オートエンコーダはしばしば識別不能で解釈不能である。
本研究は,気候データ製品の融合と結合に使用できる,識別可能かつ解釈可能なオートエンコーダの作成に重点を置いている。
提案するオートエンコーダはベイズ統計フレームワークを用いて,確率論的解釈を可能とし,空間的に変化し,様々なデータ生成物間で有用な空間パターンをキャプチャする。
制約はデータ内のパターンを学習するオートエンコーダに置かれ、各入力から重要な機能を含む解釈可能なコンセンサスを生成する。
本研究では,高山アジアにおける複数の降水生成物からの情報を組み合わせることで,オートエンコーダの有用性を示す。 Autoencoders are powerful machine learning models used to compress information from multiple data sources. However, autoencoders, like all artificial neural networks, are often unidentifiable and uninterpretable. This research focuses on creating an identifiable and interpretable autoencoder that can be used to meld and combine climate data products. The proposed autoencoder utilizes a Bayesian statistical framework, allowing for probabilistic interpretations while also varying spatially to capture useful spatial patterns across the various data products. Constraints are placed on the autoencoder as it learns patterns in the data, creating an interpretable consensus that includes the important features from each input. We demonstrate the utility of the autoencoder by combining information from multiple precipitation products in High Mountain Asia. | 翻訳日:2024-03-13 20:32:07 公開日:2024-03-12 |
# 補助不変量を用いた補間モデル検査の拡張(拡張版) Augmenting Interpolation-Based Model Checking with Auxiliary Invariants (Extended Version) ( http://arxiv.org/abs/2403.07821v1 ) ライセンス: Link先を確認 | Dirk Beyer, Po-Chun Chien, and Nian-Ze Lee | (参考訳) ソフトウェアモデルチェックは難しい問題であり、関連する不変量を生成することは、プログラムの安全性を証明する上で重要な要素である。
プログラム不変量は、データフロー解析に基づく軽量な手順やcraig補間を用いた集中的な手法など、様々なアプローチによって得られる。
データフロー解析は効率的に実行されるが、しばしば特性を証明するには弱すぎる不変量を生成する。
対照的に、補間ベースのアプローチは補間体から強い不変量を構築するが、高価な補間手順のためにスケールしない可能性がある。
不変量はモデルチェックアルゴリズムに注入して解析を支援することもできる。
不変インジェクションは、k-インダクション、述語抽象、シンボリック実行など、多くのよく知られたアプローチで研究されている。
ソフトウェア検証に最近採用されたハードウェアモデル検査アルゴリズムである補間モデル検査(McMillan, 2003)に外部不変量を注入する補間モデル検証アルゴリズムを提案する。
補助不変量はクレイグ補間における到達不能な状態の探索を助け、解析をプログラムの到達可能な部分に限定する。
提案手法を検証フレームワーク CPAchecker に実装し,CPAchecker の成熟した SMT ベースの手法や,その他の最先端のソフトウェア検証手法と比較した。
インジェクション不変性は安全性の証明に必要な補間クエリ数を減らし,実行時の効率を向上することがわかった。
その結果、提案された不変インジェクションアプローチは、通常のバージョン(つまり不変でない)、不変生成子、あるいは比較ツールが解決できない難しいタスクを検証した。 Software model checking is a challenging problem, and generating relevant invariants is a key factor in proving the safety properties of a program. Program invariants can be obtained by various approaches, including lightweight procedures based on data-flow analysis and intensive techniques using Craig interpolation. Although data-flow analysis runs efficiently, it often produces invariants that are too weak to prove the properties. By contrast, interpolation-based approaches build strong invariants from interpolants, but they might not scale well due to expensive interpolation procedures. Invariants can also be injected into model-checking algorithms to assist the analysis. Invariant injection has been studied for many well-known approaches, including k-induction, predicate abstraction, and symbolic execution. We propose an augmented interpolation-based verification algorithm that injects external invariants into interpolation-based model checking (McMillan, 2003), a hardware model-checking algorithm recently adopted for software verification. The auxiliary invariants help prune unreachable states in Craig interpolants and confine the analysis to the reachable parts of a program. We implemented the proposed technique in the verification framework CPAchecker and evaluated it against mature SMT-based methods in CPAchecker as well as other state-of-the-art software verifiers. We found that injecting invariants reduces the number of interpolation queries needed to prove safety properties and improves the run-time efficiency. Consequently, the proposed invariant-injection approach verified difficult tasks that none of its plain version (i.e., without invariants), the invariant generator, or any compared tools could solve. | 翻訳日:2024-03-13 20:31:55 公開日:2024-03-12 |
# label dropout: 領域シフトと部分的ラベリングを用いた複数のデータセットを用いたディープラーニング心エコーセグメンテーションの改善 Label Dropout: Improved Deep Learning Echocardiography Segmentation Using Multiple Datasets With Domain Shift and Partial Labelling ( http://arxiv.org/abs/2403.07818v1 ) ライセンス: Link先を確認 | Iman Islam (1), Esther Puyol-Ant\'on (1), Bram Ruijsink (1), Andrew J. Reader (1), Andrew P. King (1) ((1) King's College London) | (参考訳) 心エコー法(echo)は、心臓機能の評価に使用される最初の画像モダリティである。
エコーによる機能的バイオマーカーの測定は心臓構造のセグメンテーションに依存し、深層学習モデルがセグメンテーションプロセスを自動化するために提案されている。
しかし、これらのツールを広く臨床に応用するためには、セグメンテーションモデルが様々な画像に対して堅牢であることが重要である(例えば、異なるスキャナー、異なるレベルの専門知識を持つオペレーターによって取得されるなど)。
このレベルの堅牢性を達成するには、モデルを複数の多様なデータセットでトレーニングする必要がある。
複数の多様なデータセットを使用したトレーニングで直面する重要な課題は、ラベルの存在の変化である。
部分ラベル付きデータを扱うために,クロスエントロピー損失関数の適応法が提案されている。
本稿では,そのような損失関数と多種多様なデータセットを用いた学習が,ラベルの存在とドメイン特性を関連づけたショートカット学習の形式となり,性能の低下につながることを示す。
この問題に対処するために、ドメイン特性とラベルの有無とのリンクを断ち切る新しいラベルドロップアウトスキームを提案する。
ラベルのドロップアウトは,複数の部分ラベル付きデータセットを用いたトレーニングにおいて,2つの心構造に対して62%,25%のエコーセグメンテーションDiceスコアを改善することを示した。 Echocardiography (echo) is the first imaging modality used when assessing cardiac function. The measurement of functional biomarkers from echo relies upon the segmentation of cardiac structures and deep learning models have been proposed to automate the segmentation process. However, in order to translate these tools to widespread clinical use it is important that the segmentation models are robust to a wide variety of images (e.g. acquired from different scanners, by operators with different levels of expertise etc.). To achieve this level of robustness it is necessary that the models are trained with multiple diverse datasets. A significant challenge faced when training with multiple diverse datasets is the variation in label presence, i.e. the combined data are often partially-labelled. Adaptations of the cross entropy loss function have been proposed to deal with partially labelled data. In this paper we show that training naively with such a loss function and multiple diverse datasets can lead to a form of shortcut learning, where the model associates label presence with domain characteristics, leading to a drop in performance. To address this problem, we propose a novel label dropout scheme to break the link between domain characteristics and the presence or absence of labels. We demonstrate that label dropout improves echo segmentation Dice score by 62% and 25% on two cardiac structures when training using multiple diverse partially labelled datasets. | 翻訳日:2024-03-13 20:31:28 公開日:2024-03-12 |
# Branch-Train-MiX: エキスパートLSMを試験LSMに混合する Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM ( http://arxiv.org/abs/2403.07816v1 ) ライセンス: Link先を確認 | Sainbayar Sukhbaatar, Olga Golovneva, Vasu Sharma, Hu Xu, Xi Victoria Lin, Baptiste Rozi\`ere, Jacob Kahn, Daniel Li, Wen-tau Yih, Jason Weston, Xian Li | (参考訳) 符号化,数学推論,世界知識など,複数の専門分野の能力を有する大規模言語モデル(LLM)を学習するための効率的な手法について検討する。
提案手法はbtx(branch-train-mix)と呼ばれるシードモデルから始まり,高いスループットと通信コストの低減により,恥ずかしいほど並列的に専門家を訓練する。
個々の専門家が非同期でトレーニングされた後、BTXはMixture-of-Expert(MoE)層の専門家としてフィードフォワードパラメータをまとめ、残りのパラメータを平均化し、トークンレベルのルーティングを学ぶためのMoEファインタニングステージが続く。
btxは、ルーティングを学ぶためのmoe微調整段階を持たない分岐列車メルジ法と、非同期に訓練専門家のステージを省略するスパースアップサイクリング法という2つの特別なケースを一般化している。
BTXは代替手法と比較して、最良の精度と効率のトレードオフを実現する。 We investigate efficient methods for training Large Language Models (LLMs) to possess capabilities in multiple specialized domains, such as coding, math reasoning and world knowledge. Our method, named Branch-Train-MiX (BTX), starts from a seed model, which is branched to train experts in embarrassingly parallel fashion with high throughput and reduced communication cost. After individual experts are asynchronously trained, BTX brings together their feedforward parameters as experts in Mixture-of-Expert (MoE) layers and averages the remaining parameters, followed by an MoE-finetuning stage to learn token-level routing. BTX generalizes two special cases, the Branch-Train-Merge method, which does not have the MoE finetuning stage to learn routing, and sparse upcycling, which omits the stage of training experts asynchronously. Compared to alternative approaches, BTX achieves the best accuracy-efficiency tradeoff. | 翻訳日:2024-03-13 20:31:04 公開日:2024-03-12 |
# Chronos: 時系列の言語を学ぶ Chronos: Learning the Language of Time Series ( http://arxiv.org/abs/2403.07815v1 ) ライセンス: Link先を確認 | Abdul Fatir Ansari, Lorenzo Stella, Caner Turkmen, Xiyuan Zhang, Pedro Mercado, Huibin Shen, Oleksandr Shchur, Syama Sundar Rangapuram, Sebastian Pineda Arango, Shubham Kapoor, Jasper Zschiegner, Danielle C. Maddix, Michael W. Mahoney, Kari Torkkola, Andrew Gordon Wilson, Michael Bohlke-Schneider, Yuyang Wang | (参考訳) 我々は、事前訓練された確率時系列モデルのためのシンプルで効果的なフレームワークChronosを紹介する。
chronosは、スケールと量子化を使って時系列値を固定語彙にトークン化し、クロスエントロピー損失によってこれらのトークン化された時系列の既存のトランスフォーマベースの言語モデルアーキテクチャを訓練する。
T5ファミリー(20Mから710Mパラメータ)をベースとしたChronosモデルを,ガウス過程を通じて生成した合成データセットを補完し,一般化を向上した。
42のデータセットからなり、古典的局所モデルと深層学習の両方からなる包括的なベンチマークでは、クロノスモデルが示される。
(a)トレーニングコーパスの一部であるデータセットの他の方法よりも著しく優れており、
b) 新たなデータセットに対して,特に訓練された手法と比較して,ゼロショット性能が同等で,しかも例外的に優れている。
以上の結果から,Chronosモデルでは,様々な領域の時系列データを利用して,未知の予測タスクのゼロショット精度を向上し,事前学習したモデルを実行可能なツールとして位置づけることで,予測パイプラインを大幅に単純化できることが示された。 We introduce Chronos, a simple yet effective framework for pretrained probabilistic time series models. Chronos tokenizes time series values using scaling and quantization into a fixed vocabulary and trains existing transformer-based language model architectures on these tokenized time series via the cross-entropy loss. We pretrained Chronos models based on the T5 family (ranging from 20M to 710M parameters) on a large collection of publicly available datasets, complemented by a synthetic dataset that we generated via Gaussian processes to improve generalization. In a comprehensive benchmark consisting of 42 datasets, and comprising both classical local models and deep learning methods, we show that Chronos models: (a) significantly outperform other methods on datasets that were part of the training corpus; and (b) have comparable and occasionally superior zero-shot performance on new datasets, relative to methods that were trained specifically on them. Our results demonstrate that Chronos models can leverage time series data from diverse domains to improve zero-shot accuracy on unseen forecasting tasks, positioning pretrained models as a viable tool to greatly simplify forecasting pipelines. | 翻訳日:2024-03-13 20:30:43 公開日:2024-03-12 |
# pyvene: インターベンションによるPyTorchモデルの理解と改善のためのライブラリ pyvene: A Library for Understanding and Improving PyTorch Models via Interventions ( http://arxiv.org/abs/2403.07809v1 ) ライセンス: Link先を確認 | Zhengxuan Wu, Atticus Geiger, Aryaman Arora, Jing Huang, Zheng Wang, Noah D. Goodman, Christopher D. Manning, Christopher Potts | (参考訳) モデル内部状態への介入は、モデル編集、ステアリング、堅牢性、解釈可能性など、AIの多くの領域における基本的な操作である。
このような研究を促進するために、さまざまなPyTorchモジュールに対するカスタマイズ可能な介入をサポートするオープンソースのPythonライブラリである$\textbf{pyvene}$を紹介した。
$\textbf{pyvene}$は直感的な設定フォーマットで複雑な介入スキームをサポートし、その介入は静的またはトレーニング可能なパラメータを含むことができる。
我々は、$\textbf{pyvene}$が、ニューラルモデルに介入し、他のモデルと介入を共有するための統一的で拡張可能なフレームワークを提供する方法を示します。
因果抽象と知識局在を用いた解釈可能性解析により,図書館のパワーを説明する。
Python Package Index (PyPI)を通じてライブラリを公開し、https://github.com/stanfordnlp/pyvene.comでコード、ドキュメント、チュートリアルを提供します。 Interventions on model-internal states are fundamental operations in many areas of AI, including model editing, steering, robustness, and interpretability. To facilitate such research, we introduce $\textbf{pyvene}$, an open-source Python library that supports customizable interventions on a range of different PyTorch modules. $\textbf{pyvene}$ supports complex intervention schemes with an intuitive configuration format, and its interventions can be static or include trainable parameters. We show how $\textbf{pyvene}$ provides a unified and extensible framework for performing interventions on neural models and sharing the intervened upon models with others. We illustrate the power of the library via interpretability analyses using causal abstraction and knowledge localization. We publish our library through Python Package Index (PyPI) and provide code, documentation, and tutorials at https://github.com/stanfordnlp/pyvene. | 翻訳日:2024-03-13 20:30:24 公開日:2024-03-12 |
# 高精度評価結果とユーザビリティ向上のための静的解析におけるエラー連鎖支援 Supporting Error Chains in Static Analysis for Precise Evaluation Results and Enhanced Usability ( http://arxiv.org/abs/2403.07808v1 ) ライセンス: Link先を確認 | Anna-Katharina Wickert and Michael Schlichtig and Marvin Vogel and Lukas Winter and Mira Mezini and Eric Bodden | (参考訳) コンテキスト: 静的分析は、開発プロセスや大規模な研究において、バグや脆弱性を理解するのに役立ちます。
偽陽性率が低いことは、実践における適応と経験的研究の正確な結果に不可欠である。
残念なことに、静的解析は、修正位置ではなく脆弱性が現れる場所を報告する傾向がある。
これは疑わしい偽陽性または不正確な結果を引き起こす可能性がある。
方法: この問題に対処するため, 既存の静的解析アルゴリズムを適応させて, 表示と固定位置を区別し, エラー連鎖を報告する手法を考案した。
エラー連鎖は、連続して発生する少なくとも2つの相互接続エラーを表すので、固定位置と表示位置の間の接続を構築する。
当社のツールであるcognicryptsubsを使って、471のgithubリポジトリのケーススタディ、さまざまな分析構成を比較するためのパフォーマンスベンチマーク、エキスパートインタビューを実施しました。
結果: レポートのあるプロジェクトの50パーセントには,少なくとも1つのエラー連鎖があったことが分かりました。
当社のランタイムベンチマークは、改善が最小限のランタイムオーバヘッドを4パーセント未満に抑えたことを示しています。
専門家インタビューの結果から,適応版では分析の実行が少なくなることが示唆された。
結論: 実世界のプロジェクトではエラー連鎖が頻繁に発生し, 無視することで不正確な評価結果につながる可能性が示唆された。
ランタイムベンチマークは、このツールは現実のプロジェクトでエラー連鎖を検出するための実現可能で効率的なソリューションであることを示している。
さらに,この結果から,静的解析の有用性がエラー連鎖のサポートの恩恵を受ける可能性が示唆された。 Context: Static analyses are well-established to aid in understanding bugs or vulnerabilities during the development process or in large-scale studies. A low false-positive rate is essential for the adaption in practice and for precise results of empirical studies. Unfortunately, static analyses tend to report where a vulnerability manifests rather than the fix location. This can cause presumed false positives or imprecise results. Method: To address this problem, we designed an adaption of an existing static analysis algorithm that can distinguish between a manifestation and fix location, and reports error chains. An error chain represents at least two interconnected errors that occur successively, thus building the connection between the fix and manifestation location. We used our tool CogniCryptSUBS for a case study on 471 GitHub repositories, a performance benchmark to compare different analysis configurations, and conducted an expert interview. Result: We found that 50 % of the projects with a report had at least one error chain. Our runtime benchmark demonstrated that our improvement caused only a minimal runtime overhead of less than 4 %. The results of our expert interview indicate that with our adapted version participants require fewer executions of the analysis. Conclusion: Our results indicate that error chains occur frequently in real-world projects, and ignoring them can lead to imprecise evaluation results. The runtime benchmark indicates that our tool is a feasible and efficient solution for detecting error chains in real-world projects. Further, our results gave a hint that the usability of static analyses may benefit from supporting error chains. | 翻訳日:2024-03-13 20:30:04 公開日:2024-03-12 |
# stylegaussian: gaussian splattingによるインスタント3dスタイル転送 StyleGaussian: Instant 3D Style Transfer with Gaussian Splatting ( http://arxiv.org/abs/2403.07807v1 ) ライセンス: Link先を確認 | Kunhao Liu, Fangneng Zhan, Muyu Xu, Christian Theobalt, Ling Shao, Shijian Lu | (参考訳) そこで本稿では,任意の画像のスタイルを毎秒10フレーム(fps)の3dシーンに瞬時に転送する,新しい3dスタイル転送技術であるstylegaussianを紹介する。
3D Gaussian Splatting(3DGS)を活用して、StyleGaussianはリアルタイムレンダリング能力とマルチビュー一貫性を損なうことなくスタイル転送を実現する。
埋め込み、転送、デコードという3つのステップでインスタントスタイル転送を実現する。
当初、2DのVGGシーンは再構築された3Dガウスに埋め込まれていた。
次に、埋め込み機能は、参照スタイルイメージに従って変換される。
最後に、変換された機能は、スタイリングされたRGBにデコードされる。
StyleGaussianには2つの新しいデザインがある。
まず、低次元の機能をレンダリングし、vgg機能を埋め込みながら高次元のフィーチャにマップする、効率的な機能レンダリング戦略です。
メモリ消費を大幅に削減し、3DGSが高次元のメモリ集約機能をレンダリングできるようにする。
2つ目はK-nearest-neighborベースの3D CNNである。
スタイル化された機能のデコーダとして機能し、厳密なマルチビュー一貫性を損なう2D CNN操作を排除する。
拡張実験により、StyleGaussianはリアルタイムレンダリングと厳密なマルチビュー一貫性を維持しながら、より優れたスタイリゼーション品質のインスタント3Dスタイリングを実現することが示された。
プロジェクトページ: https://kunhao-liu.github.io/stylegaussian/ We introduce StyleGaussian, a novel 3D style transfer technique that allows instant transfer of any image's style to a 3D scene at 10 frames per second (fps). Leveraging 3D Gaussian Splatting (3DGS), StyleGaussian achieves style transfer without compromising its real-time rendering ability and multi-view consistency. It achieves instant style transfer with three steps: embedding, transfer, and decoding. Initially, 2D VGG scene features are embedded into reconstructed 3D Gaussians. Next, the embedded features are transformed according to a reference style image. Finally, the transformed features are decoded into the stylized RGB. StyleGaussian has two novel designs. The first is an efficient feature rendering strategy that first renders low-dimensional features and then maps them into high-dimensional features while embedding VGG features. It cuts the memory consumption significantly and enables 3DGS to render the high-dimensional memory-intensive features. The second is a K-nearest-neighbor-based 3D CNN. Working as the decoder for the stylized features, it eliminates the 2D CNN operations that compromise strict multi-view consistency. Extensive experiments show that StyleGaussian achieves instant 3D stylization with superior stylization quality while preserving real-time rendering and strict multi-view consistency. Project page: https://kunhao-liu.github.io/StyleGaussian/ | 翻訳日:2024-03-13 20:29:26 公開日:2024-03-12 |
# beyond memorization:言語モデルにおけるランダムメモリアクセスの課題 Beyond Memorization: The Challenge of Random Memory Access in Language Models ( http://arxiv.org/abs/2403.07805v1 ) ライセンス: Link先を確認 | Tongyao Zhu, Qian Liu, Liang Pang, Zhengbao Jiang, Min-Yen Kan, Min Lin | (参考訳) 言語モデル(LM)の最近の進歩は、NLPタスク、特に知識集約タスクにおいてその効果を示している。
しかし、そのパラメータ内の知識記憶とメモリアクセスのメカニズムは解明されていない。
本稿では、生成型LM(例えば、GPT-2)がそのメモリに順次またはランダムにアクセスできるかどうかを検討する。
入念に設計した合成タスクを通じて, 記憶されたコンテンツをランダムにアクセスする際の課題に遭遇しながら, LMが連続的にメモリにアクセスできることを明らかにする。
本手法により, LMのランダムメモリアクセス性能が向上することがわかった。
さらに,この介入をオープンドメイン質問応答の現実的なシナリオに適用することにより,リテーションによるランダムアクセスの促進が質問応答の著しい改善につながることを検証した。
実験を再現するコードは https://github.com で確認できます。
.com/sail-sg/lm-random-Memory- Access。 Recent developments in Language Models (LMs) have shown their effectiveness in NLP tasks, particularly in knowledge-intensive tasks. However, the mechanisms underlying knowledge storage and memory access within their parameters remain elusive. In this paper, we investigate whether a generative LM (e.g., GPT-2) is able to access its memory sequentially or randomly. Through carefully-designed synthetic tasks, covering the scenarios of full recitation, selective recitation and grounded question answering, we reveal that LMs manage to sequentially access their memory while encountering challenges in randomly accessing memorized content. We find that techniques including recitation and permutation improve the random memory access capability of LMs. Furthermore, by applying this intervention to realistic scenarios of open-domain question answering, we validate that enhancing random access by recitation leads to notable improvements in question answering. The code to reproduce our experiments can be found at https://github. com/sail-sg/lm-random-memory-access. | 翻訳日:2024-03-13 20:29:03 公開日:2024-03-12 |
# デバイス上で学習可能なユーザ音声特性によるキーワードスポッティング Boosting keyword spotting through on-device learnable user speech characteristics ( http://arxiv.org/abs/2403.07802v1 ) ライセンス: Link先を確認 | Cristian Cioflan, Lukas Cavigelli, Luca Benini | (参考訳) 常時オンのTinyML制約のあるアプリケーションのためのキーワードスポッティングシステムは、オフラインでトレーニングされた分類器の精度を高めるために、オンサイトチューニングを必要とする。
ターゲットユーザの音声特異性に適応するには、多くのドメイン内サンプルが必要である。
さらに、現在のオンデバイス学習技術は、常時オンのバッテリー駆動デバイスには適さない、計算集約的でメモリ不足のバックボーン更新スキームに依存している。
本研究では,事前学習されたバックボーンと,ユーザの発話特性を学習するユーザ対応組込みからなる,新しいオンデバイス学習アーキテクチャを提案する。
生成された特徴は融合され、入力発話の分類に用いられる。
google speech commandデータセットの35クラスの問題に基づいて,未認識話者によるドメインシフトを30.1%から24.3%まで,最大19%の誤差率低減率を,ユーザ予測の安価な更新を通じて測定する。
さらに,提案アーキテクチャのサンプル・クラス・スカース学習条件における数発の学習能力を実証した。
オンデバイストレーニングには23.7kパラメータと1mflop/epochが必要であり,バッテリ駆動のマイクロコントローラを対象としたtinymlアプリケーションに適用可能である。 Keyword spotting systems for always-on TinyML-constrained applications require on-site tuning to boost the accuracy of offline trained classifiers when deployed in unseen inference conditions. Adapting to the speech peculiarities of target users requires many in-domain samples, often unavailable in real-world scenarios. Furthermore, current on-device learning techniques rely on computationally intensive and memory-hungry backbone update schemes, unfit for always-on, battery-powered devices. In this work, we propose a novel on-device learning architecture, composed of a pretrained backbone and a user-aware embedding learning the user's speech characteristics. The so-generated features are fused and used to classify the input utterance. For domain shifts generated by unseen speakers, we measure error rate reductions of up to 19% from 30.1% to 24.3% based on the 35-class problem of the Google Speech Commands dataset, through the inexpensive update of the user projections. We moreover demonstrate the few-shot learning capabilities of our proposed architecture in sample- and class-scarce learning conditions. With 23.7 kparameters and 1 MFLOP per epoch required for on-device training, our system is feasible for TinyML applications aimed at battery-powered microcontrollers. | 翻訳日:2024-03-13 20:28:46 公開日:2024-03-12 |
# BraSyn 2023 課題 : MRI 合成の欠如と異なる学習目標の効果 BraSyn 2023 challenge: Missing MRI synthesis and the effect of different learning objectives ( http://arxiv.org/abs/2403.07800v1 ) ライセンス: Link先を確認 | Ivo M. Baltruschat and Parvaneh Janbakhshi and Matthias Lenga | (参考訳) この研究は、2023年のBrain tumor Segmentation Challenge(BraTS)の一部としてホストされたBraSynチャレンジのための脳磁気共鳴画像合成に対処している。
この課題では、研究者は、画像配列の完全なセットで訓練された腫瘍の分節化パイプラインを容易にするために、他の利用可能な配列を与えられた行方不明の磁気共鳴画像配列を合成することに取り組んでいる。
この問題は、画像から画像へのペア翻訳のフレームワークでディープラーニングを使って対処できる。
本研究では、画像品質損失関数の監視下で訓練されたPix2Pixのような一般的なディープラーニングフレームワークの有効性を検討することを提案する。
その結果, 損失関数の違いが合成品質に大きく影響していることが示唆された。
我々はBraSynチャレンジのマルチシーケンスMR画像合成設定における異なる損失関数の影響を系統的に研究した。
さらに,異なる学習目標を有益に組み合わせ,画像合成性能を最適化する方法を示す。 This work is addressing the Brain Magnetic Resonance Image Synthesis for Tumor Segmentation (BraSyn) challenge which was hosted as part of the Brain Tumor Segmentation challenge (BraTS) 2023. In this challenge researchers are invited to work on synthesizing a missing magnetic resonance image sequence given other available sequences to facilitate tumor segmentation pipelines trained on complete sets of image sequences. This problem can be addressed using deep learning in the framework of paired images-to-image translation. In this work, we proposed to investigate the effectiveness of a commonly-used deep learning framework such as Pix2Pix trained under supervision of different image-quality loss functions. Our results indicate that using different loss functions significantly affects the synthesis quality. We systematically study the impact of different loss functions in the multi-sequence MR image synthesis setting of the BraSyn challenge. Furthermore, we show how image synthesis performance can be optimized by beneficially combining different learning objectives. | 翻訳日:2024-03-13 20:28:23 公開日:2024-03-12 |
# beyond text: 視覚信号理解における凍結された大規模言語モデル Beyond Text: Frozen Large Language Models in Visual Signal Comprehension ( http://arxiv.org/abs/2403.07874v1 ) ライセンス: Link先を確認 | Lei Zhu, Fangyun Wei, Yanye Lu | (参考訳) 本研究では,マルチモーダルデータセットの微調整を必要とせず,視覚信号を直接理解する大規模言語モデル(LLM)の可能性を検討する。
本手法の基本概念は,イメージを言語的実体とみなし,LLMの語彙から派生した独立した単語の集合に翻訳する。
これを実現するために、エンコーダデコーダ、LLM語彙、CLIPモデルの併用により、画像が「外部言語」に変換されるV2Tトケナイザ(V2T Tokenizer)を提案する。
この革新的な画像エンコーディングにより、llmは視覚的な理解だけでなく、精巧に調整することなく、自己回帰的な方法で画像のノイズ除去と復元も可能となる。
提案手法を検証するための厳密な実験を行い,画像認識,画像キャプション,視覚的質問応答などの理解タスクに加えて,塗りつぶし,塗りつぶし,ぼろぼろ,シフト復元といった画像の切り離しタスクも実施した。
コードとモデルはhttps://github.com/zh460045050/V2L-Tokenizerで入手できる。 In this work, we investigate the potential of a large language model (LLM) to directly comprehend visual signals without the necessity of fine-tuning on multi-modal datasets. The foundational concept of our method views an image as a linguistic entity, and translates it to a set of discrete words derived from the LLM's vocabulary. To achieve this, we present the Vision-to-Language Tokenizer, abbreviated as V2T Tokenizer, which transforms an image into a ``foreign language'' with the combined aid of an encoder-decoder, the LLM vocabulary, and a CLIP model. With this innovative image encoding, the LLM gains the ability not only for visual comprehension but also for image denoising and restoration in an auto-regressive fashion-crucially, without any fine-tuning. We undertake rigorous experiments to validate our method, encompassing understanding tasks like image recognition, image captioning, and visual question answering, as well as image denoising tasks like inpainting, outpainting, deblurring, and shift restoration. Code and models are available at https://github.com/zh460045050/V2L-Tokenizer. | 翻訳日:2024-03-13 19:50:35 公開日:2024-03-12 |
# 意味理解のための生成型大言語モデル評価の再検討 Rethinking Generative Large Language Model Evaluation for Semantic Comprehension ( http://arxiv.org/abs/2403.07872v1 ) ライセンス: Link先を確認 | Fangyun Wei, Xi Chen, Lin Luo | (参考訳) その高度な能力にもかかわらず、大きな言語モデル(LLM)は効果的な評価において大きなハードルに直面する。
本稿では,まず, 簡易な精度測定が可能な複数選択質問応答法 (MCQA) について検討する。
11ベンチマークにわたる24モデルの総合的な評価を通じて、MCQAの潜在的な欠点、例えば、MCQA評価と実践シナリオにおけるオープンエンド応答の生成の矛盾を浮き彫りにする。
これに対して, GPT-4, GPT-3.5, Google-Gemini-Pro, LLaMA-1/-2 など 24 個の LLM を2 プレイヤーの競争形式で動作させる RWQ-Elo レーティングシステムを導入する。
各LDMはその後Elo格付けを受ける。
本システムは実世界の利用を反映して設計されており,その目的のために,20,772人の認証ユーザ質問からなる「Real-world Question' (RWQ)」と呼ばれる新しいベンチマークを作成した。
さらに,本システムの特徴を網羅的に分析し,AlpacaEvalやMT-Benchといった従来のリーダボードと比較する。
分析の結果,我々のRWQ-Eloシステムの安定性,新モデルの登録可能性,LCMリーダーボードの再構築の可能性などが明らかになった。 Despite their sophisticated capabilities, large language models (LLMs) encounter a major hurdle in effective assessment. This paper first revisits the prevalent evaluation method-multiple choice question answering (MCQA), which allows for straightforward accuracy measurement. Through a comprehensive evaluation of 24 models across 11 benchmarks, we highlight several potential drawbacks of MCQA, for instance, the inconsistency between the MCQA evaluation and the generation of open-ended responses in practical scenarios. In response, we introduce an RWQ-Elo rating system, engaging 24 LLMs such as GPT-4, GPT-3.5, Google-Gemini-Pro and LLaMA-1/-2, in a two-player competitive format, with GPT-4 serving as the judge. Each LLM receives an Elo rating thereafter. This system is designed to mirror real-world usage, and for this purpose, we have compiled a new benchmark called ``Real-world questions'' (RWQ), comprising 20,772 authentic user inquiries. Additionally, we thoroughly analyze the characteristics of our system and compare it with prior leaderboards like AlpacaEval and MT-Bench. Our analysis reveals the stability of our RWQ-Elo system, the feasibility of registering new models, and its potential to reshape LLM leaderboards. | 翻訳日:2024-03-13 19:50:13 公開日:2024-03-12 |
# TeleMoMa:モバイル操作のためのモジュラー・ヴァーサタイル遠隔操作システム TeleMoMa: A Modular and Versatile Teleoperation System for Mobile Manipulation ( http://arxiv.org/abs/2403.07869v1 ) ライセンス: Link先を確認 | Shivin Dass, Wensi Ai, Yuqian Jiang, Samik Singh, Jiaheng Hu, Ruohan Zhang, Peter Stone, Ben Abbatematteo, Roberto Martin-Martin | (参考訳) ロボット工学における模倣学習を制限する重要なボトルネックは、データの欠如である。
この問題はモバイル操作ではより深刻であり、利用可能な遠隔操作インタフェースが不足しているため、デモ収集は静止操作よりも難しい。
本研究では,移動マニピュレータの全身遠隔操作のための汎用モジュールインタフェースであるTeleMoMaを紹介する。
TeleMoMaは、RGBとディープカメラ、バーチャルリアリティコントローラ、キーボード、ジョイスティックなど、あらゆる組み合わせを含む複数のヒューマンインターフェースを統合する。
よりアクセスしやすいバージョンでは、TeleMoMaは単純な視覚(例えばRGB-Dカメラ)を使用して、人間がモバイル操作のデモを行うためにエントリーバーを下げる。
シミュレーションや実世界において,PAL Tiago++,Toyota HSR,Fetchといった既存の移動マニピュレータを遠隔操作することで,TeleMoMaの汎用性を実証する。
我々は,TeleMoMaで収集した実演の質を,体動の同期を含む移動操作タスクの模倣学習ポリシーの訓練により実証する。
最後に,telemomaの遠隔操作チャネルでは,サイト,ロボット,あるいはリモートの遠隔操作が可能であり,コンピュータネットワークを介してコマンドや観察を送信し,初心者がシステムによって実現されるヒューマンインタフェースの異なる組み合わせによるデモの収集を学べるように,ユーザスタディを実施している。
telemomaは、研究者が全身のモバイル操作デモを収集できる、コミュニティにとって有用なツールになることを願っている。
詳しくは、https://robin-lab.cs.utexas.edu/telemoma-webを参照。 A critical bottleneck limiting imitation learning in robotics is the lack of data. This problem is more severe in mobile manipulation, where collecting demonstrations is harder than in stationary manipulation due to the lack of available and easy-to-use teleoperation interfaces. In this work, we demonstrate TeleMoMa, a general and modular interface for whole-body teleoperation of mobile manipulators. TeleMoMa unifies multiple human interfaces including RGB and depth cameras, virtual reality controllers, keyboard, joysticks, etc., and any combination thereof. In its more accessible version, TeleMoMa works using simply vision (e.g., an RGB-D camera), lowering the entry bar for humans to provide mobile manipulation demonstrations. We demonstrate the versatility of TeleMoMa by teleoperating several existing mobile manipulators - PAL Tiago++, Toyota HSR, and Fetch - in simulation and the real world. We demonstrate the quality of the demonstrations collected with TeleMoMa by training imitation learning policies for mobile manipulation tasks involving synchronized whole-body motion. Finally, we also show that TeleMoMa's teleoperation channel enables teleoperation on site, looking at the robot, or remote, sending commands and observations through a computer network, and perform user studies to evaluate how easy it is for novice users to learn to collect demonstrations with different combinations of human interfaces enabled by our system. We hope TeleMoMa becomes a helpful tool for the community enabling researchers to collect whole-body mobile manipulation demonstrations. For more information and video results, https://robin-lab.cs.utexas.edu/telemoma-web. | 翻訳日:2024-03-13 19:49:50 公開日:2024-03-12 |
# コードによる大規模言語モデルの安全性向上への挑戦 Exploring Safety Generalization Challenges of Large Language Models via Code ( http://arxiv.org/abs/2403.07865v1 ) ライセンス: Link先を確認 | Qibing Ren, Chang Gao, Jing Shao, Junchi Yan, Xin Tan, Wai Lam, Lizhuang Ma | (参考訳) 大規模言語モデル(LLM)の急速な進歩は、自然言語処理において顕著な能力をもたらしたが、その潜在的な誤用に対する懸念も持ち上がった。
人間のフィードバックによる微調整や強化学習を監督する戦略は安全性を高めてきたが、これらの手法は自然言語に重点を置いている。
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
GPT-4、Claude-2、Llama-2シリーズを含む最先端のLLMに関する包括的な研究は、これらのモデルのコード入力に対する一般的な安全性の脆弱性を明らかにしている。
さらに,コードアタックと自然言語の間の分散ギャップが大きくなると,自然言語入力をデータ構造でエンコードしたり,あまり普及しないプログラミング言語を使用することなど,安全性の一般化が弱まることが判明した。
これらの結果は、コードドメインにおける新たな安全性リスクと、LLMのコード機能に合わせたより堅牢な安全性アライメントアルゴリズムの必要性を強調している。 The rapid advancement of Large Language Models (LLMs) has brought about remarkable capabilities in natural language processing but also raised concerns about their potential misuse. While strategies like supervised fine-tuning and reinforcement learning from human feedback have enhanced their safety, these methods primarily focus on natural languages, which may not generalize to other domains. This paper introduces CodeAttack, a framework that transforms natural language inputs into code inputs, presenting a novel environment for testing the safety generalization of LLMs. Our comprehensive studies on state-of-the-art LLMs including GPT-4, Claude-2, and Llama-2 series reveal a common safety vulnerability of these models against code input: CodeAttack consistently bypasses the safety guardrails of all models more than 80\% of the time. Furthermore, we find that a larger distribution gap between CodeAttack and natural language leads to weaker safety generalization, such as encoding natural language input with data structures or using less popular programming languages. These findings highlight new safety risks in the code domain and the need for more robust safety alignment algorithms to match the code capabilities of LLMs. | 翻訳日:2024-03-13 19:49:23 公開日:2024-03-12 |
# 低座標次アルゴリズムI:仮説テストのための計算しきい値の普遍性 Low coordinate degree algorithms I: Universality of computational thresholds for hypothesis testing ( http://arxiv.org/abs/2403.07862v1 ) ライセンス: Link先を確認 | Dmitriy Kunisky | (参考訳) 低座標次関数(lcdf) -- ベクトルのエントリの小さな部分集合に依存する関数の線形結合 -- が高次元確率測度間の仮説検定を行う場合について検討する。
これらの関数は、ホプキンスの2018年の論文で提案された一般化であるが、統計学と最適化における全ての効率的なアルゴリズムのプロキシとして近年の文献で広く使われている低次多項式(LDP)のクラスとして研究されることは滅多にない。
LDP計算で用いられる直交多項式分解の代わりに、LCDFの解析はEfron-SteinあるいはANOVA分解に基づいており、より広く適用できる。
lcdfの有効性は、ほぼ任意の添加物i.i.d.ノイズやほぼ任意の指数関数族を含む種類のチャネルのスカラーフィッシャー情報を通してのみチャネルに依存する。
応用として, スパイク行列およびテンソルモデルのldpに対する下限を加法ガウス雑音下で, 一般雑音下におけるlcdfに対する下限まで拡張する。
また,無作為モデルにおける観測を消去し,観測のサインを取ることにより,検閲モデルの効果を簡易かつ統一的に処理する。
これらの結果は、チャネルがいくつかの特別なケースのうちの1つでない場合、これらのモデルの全ての大きなクラスのアルゴリズムに対する最初の計算上の下限であり、その結果、いくつかの統計から計算へのギャップの普遍性に関する最初の実質的な証拠を与える。 We study when low coordinate degree functions (LCDF) -- linear combinations of functions depending on small subsets of entries of a vector -- can hypothesis test between high-dimensional probability measures. These functions are a generalization, proposed in Hopkins' 2018 thesis but seldom studied since, of low degree polynomials (LDP), a class widely used in recent literature as a proxy for all efficient algorithms for tasks in statistics and optimization. Instead of the orthogonal polynomial decompositions used in LDP calculations, our analysis of LCDF is based on the Efron-Stein or ANOVA decomposition, making it much more broadly applicable. By way of illustration, we prove channel universality for the success of LCDF in testing for the presence of sufficiently "dilute" random signals through noisy channels: the efficacy of LCDF depends on the channel only through the scalar Fisher information for a class of channels including nearly arbitrary additive i.i.d. noise and nearly arbitrary exponential families. As applications, we extend lower bounds against LDP for spiked matrix and tensor models under additive Gaussian noise to lower bounds against LCDF under general noisy channels. We also give a simple and unified treatment of the effect of censoring models by erasing observations at random and of quantizing models by taking the sign of the observations. These results are the first computational lower bounds against any large class of algorithms for all of these models when the channel is not one of a few special cases, and thereby give the first substantial evidence for the universality of several statistical-to-computational gaps. | 翻訳日:2024-03-13 19:49:03 公開日:2024-03-12 |
# テキスト・画像生成のための異なる言語モデルと生成視覚モデル Bridging Different Language Models and Generative Vision Models for Text-to-Image Generation ( http://arxiv.org/abs/2403.07860v1 ) ライセンス: Link先を確認 | Shihao Zhao, Shaozhe Hao, Bojia Zi, Huaizhe Xu, Kwan-Yee K. Wong | (参考訳) テキストから画像への拡散モデルの導入により、テキストから画像への生成は大幅に進歩した。
これらのモデルは通常、ユーザのプロンプトを解釈する言語モデルと、対応する画像を生成するビジョンモデルで構成される。
言語モデルと視覚モデルがそれぞれの領域で進歩を続けるにつれ、テキストから画像への拡散モデルにおけるコンポーネントの置き換えを、より先進的な領域で探究する大きな可能性がある。
それゆえ、より広い研究の目的は、テキスト対画像生成のための2つの無関係言語と生成的ビジョンモデルの統合を検討することである。
本稿では,テキスト・ツー・イメージ生成のための多様な事前学習言語モデルと生成視覚モデルの統合を可能にするパイプラインであるLaVi-Bridgeを提案する。
LoRAとアダプタを活用することで、LaVi-Bridgeは、言語やビジョンモデルのオリジナルの重みを変更することなく、柔軟でプラグアンドプレイなアプローチを提供する。
パイプラインは様々な言語モデルや生成視覚モデルと互換性があり、異なる構造を収容しています。
このフレームワーク内では、より高度な言語モデルや生成視覚モデルのような優れたモジュールを組み込むことで、テキストアライメントや画像品質などの顕著な改善が達成されることを示す。
LaVi-Bridgeの有効性を検証するために大規模な評価を行った。
コードはhttps://github.com/ShihaoZhaoZSH/LaVi-Bridgeで入手できる。 Text-to-image generation has made significant advancements with the introduction of text-to-image diffusion models. These models typically consist of a language model that interprets user prompts and a vision model that generates corresponding images. As language and vision models continue to progress in their respective domains, there is a great potential in exploring the replacement of components in text-to-image diffusion models with more advanced counterparts. A broader research objective would therefore be to investigate the integration of any two unrelated language and generative vision models for text-to-image generation. In this paper, we explore this objective and propose LaVi-Bridge, a pipeline that enables the integration of diverse pre-trained language models and generative vision models for text-to-image generation. By leveraging LoRA and adapters, LaVi-Bridge offers a flexible and plug-and-play approach without requiring modifications to the original weights of the language and vision models. Our pipeline is compatible with various language models and generative vision models, accommodating different structures. Within this framework, we demonstrate that incorporating superior modules, such as more advanced language models or generative vision models, results in notable improvements in capabilities like text alignment or image quality. Extensive evaluations have been conducted to verify the effectiveness of LaVi-Bridge. Code is available at https://github.com/ShihaoZhaoZSH/LaVi-Bridge. | 翻訳日:2024-03-13 19:48:37 公開日:2024-03-12 |
# fairness feedback loops: バイアスを増幅する合成データのトレーニング Fairness Feedback Loops: Training on Synthetic Data Amplifies Bias ( http://arxiv.org/abs/2403.07857v1 ) ライセンス: Link先を確認 | Sierra Wyllie, Ilia Shumailov, Nicolas Papernot | (参考訳) モデル誘導分散シフト(MIDS)は、以前のモデルが代々のモデルに対して汚染された新しいモデルトレーニングセットを出力するときに発生する。
これは生成モデルの場合のモデル崩壊、および教師付きモデルに対する実行予測や不公平なフィードバックループとして知られている。
モデルが分散シフトを誘導すると、そのミスやバイアス、不公平さをデータエコシステムの基本真実にエンコードする。
複数の世代にわたるMIDSの追跡を可能にするフレームワークを導入し、当初は偏りのないデータセットであっても、性能、公平性、少数化グループ表現の損失につながる可能性があることを発見した。
このような否定的な結果にもかかわらず、データエコシステムにおけるポジティブ、意図的、介入にモデルがどのように使われるかを特定し、アルゴリズムリパレーション(ar)と呼ばれるフレームワークを通じて歴史的差別の対処を提供する。
我々は、確率勾配降下のための代表訓練バッチをキュレートしてAR介入をシミュレートし、他のMIDSの対象となるモデルやデータエコシステムの不公平性に対してARがいかに改善できるかを示す。
私たちの研究は、MLシステムが本質的に中立で客観的であるという考え方によって実現された不公平なフィードバックループを特定し、緩和し、説明責任を負うための重要な一歩を踏み出します。 Model-induced distribution shifts (MIDS) occur as previous model outputs pollute new model training sets over generations of models. This is known as model collapse in the case of generative models, and performative prediction or unfairness feedback loops for supervised models. When a model induces a distribution shift, it also encodes its mistakes, biases, and unfairnesses into the ground truth of its data ecosystem. We introduce a framework that allows us to track multiple MIDS over many generations, finding that they can lead to loss in performance, fairness, and minoritized group representation, even in initially unbiased datasets. Despite these negative consequences, we identify how models might be used for positive, intentional, interventions in their data ecosystems, providing redress for historical discrimination through a framework called algorithmic reparation (AR). We simulate AR interventions by curating representative training batches for stochastic gradient descent to demonstrate how AR can improve upon the unfairnesses of models and data ecosystems subject to other MIDS. Our work takes an important step towards identifying, mitigating, and taking accountability for the unfair feedback loops enabled by the idea that ML systems are inherently neutral and objective. | 翻訳日:2024-03-13 19:48:15 公開日:2024-03-12 |
# 前立腺癌検出のための量子支持ベクターマシン:性能解析 Quantum Support Vector Machine for Prostate Cancer Detection: A Performance Analysis ( http://arxiv.org/abs/2403.07856v1 ) ライセンス: Link先を確認 | Walid El Maouaki, Taoufik Said, Mohamed Bennai | (参考訳) 本研究は,高度な技術ソリューションのパワーを活かし,前立腺癌検出法の改善を急務とする。
本稿では,Quantum Support Vector Machine (QSVM) の医療的課題への応用を紹介し,従来のSVM(Support Vector Machine) アプローチに対する診断性能の向上を示す。
本研究は,従来のSVM技術よりもQSVMによる診断性能の顕著な向上を概説するだけでなく,量子特徴マップアーキテクチャがもたらした進歩を深く把握し,評価し,前立腺癌データセットのユニークな特徴とシームレスに一致させることを確実にする。
このアーキテクチャは、異なる特徴空間を作ることで成功し、データの複雑な非線形パターンの検出を可能にした。
この結果から、古典的なsvm (92\%$) と同等の精度を示すだけでなく、感度が7.14\%$向上し、f1-score (93.33\%$) が顕著に高いことが判明した。
医学診断における量子コンピューティングの重要な組み合わせは、がん検出における重要な一歩であり、医療技術の将来に有望な影響をもたらす。 This study addresses the urgent need for improved prostate cancer detection methods by harnessing the power of advanced technological solutions. We introduce the application of Quantum Support Vector Machine (QSVM) to this critical healthcare challenge, showcasing an enhancement in diagnostic performance over the classical Support Vector Machine (SVM) approach. Our study not only outlines the remarkable improvements in diagnostic performance made by QSVM over the classic SVM technique, but it delves into the advancements brought about by the quantum feature map architecture, which has been carefully identified and evaluated, ensuring it aligns seamlessly with the unique characteristics of our prostate cancer dataset. This architecture succeded in creating a distinct feature space, enabling the detection of complex, non-linear patterns in the data. The findings reveal not only a comparable accuracy with classical SVM ($92\%$) but also a $7.14\%$ increase in sensitivity and a notably high F1-Score ($93.33\%$). This study's important combination of quantum computing in medical diagnostics marks a pivotal step forward in cancer detection, offering promising implications for the future of healthcare technology. | 翻訳日:2024-03-13 19:47:53 公開日:2024-03-12 |
# データプルーニングにおける知識の蒸留 Distilling the Knowledge in Data Pruning ( http://arxiv.org/abs/2403.07854v1 ) ライセンス: Link先を確認 | Emanuel Ben-Baruch, Adam Botach, Igor Kviatkovsky, Manoj Aggarwal, G\'erard Medioni | (参考訳) ニューラルネットワークのトレーニングに使用されるデータセットのサイズが大きくなるにつれ、データプルーニングは研究の魅力的な分野となる。
しかしながら、現在のデータプルーニングアルゴリズムのほとんどは、フルデータでトレーニングされたモデル、特に高いプルーニングレジームと比較して精度を保つ能力に制限がある。
本稿では,刈り込みサブセットのトレーニングにおいて,知識蒸留(KD)を取り入れたデータ刈り込みの適用について検討する。
つまり、地味ラベルのみに頼るのではなく、教師ネットワークからのソフトな予測を、完全なデータに基づいて事前訓練する。
kdをトレーニングに統合することで、データセット、プルーニングメソッド、およびすべてのプルーニング分数において、大幅な改善が得られます。
まず, 精錬データの訓練を改善するために, 自己蒸留を用いた理論的動機付けを確立する。
kdを用いることで、単純なランダムな刈り取りは、すべての刈り取り方式において、洗練された刈り取り方法に匹敵するか、優れている。
例えば、ImageNetでは、データの50%のランダムなサブセットをトレーニングしても、精度が優れています。
さらに,プルーニング係数と最適知識蒸留重量との間に重要な関係性を示す。
これにより、一般的なプルーニングアルゴリズムで保持されるノイズの多いラベルと低品質の画像によるサンプルの影響を軽減することができる。
最後に、我々は興味深い観察を行い、より低いプルーニング率を使用すると、より大きな教師が精度を低下させ、驚くべきことに、学生よりも少ない能力の教師を雇うことで結果が向上する可能性がある。
私たちのコードは利用可能になります。 With the increasing size of datasets used for training neural networks, data pruning becomes an attractive field of research. However, most current data pruning algorithms are limited in their ability to preserve accuracy compared to models trained on the full data, especially in high pruning regimes. In this paper we explore the application of data pruning while incorporating knowledge distillation (KD) when training on a pruned subset. That is, rather than relying solely on ground-truth labels, we also use the soft predictions from a teacher network pre-trained on the complete data. By integrating KD into training, we demonstrate significant improvement across datasets, pruning methods, and on all pruning fractions. We first establish a theoretical motivation for employing self-distillation to improve training on pruned data. Then, we empirically make a compelling and highly practical observation: using KD, simple random pruning is comparable or superior to sophisticated pruning methods across all pruning regimes. On ImageNet for example, we achieve superior accuracy despite training on a random subset of only 50% of the data. Additionally, we demonstrate a crucial connection between the pruning factor and the optimal knowledge distillation weight. This helps mitigate the impact of samples with noisy labels and low-quality images retained by typical pruning algorithms. Finally, we make an intriguing observation: when using lower pruning fractions, larger teachers lead to accuracy degradation, while surprisingly, employing teachers with a smaller capacity than the student's may improve results. Our code will be made available. | 翻訳日:2024-03-13 19:47:31 公開日:2024-03-12 |
# オンラインFew-Shotクラスインクリメンタルラーニング 12 mJ per Class On-Device Online Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2403.07851v1 ) ライセンス: Link先を確認 | Yoga Esa Wibowo, Cristian Cioflan, Thorir Mar Ingolfsson, Michael Hersche, Leo Zhao, Abbas Rahimi, Luca Benini | (参考訳) FSCIL(Few-Shot Class-Incremental Learning)は、学習済みのクラスを忘れることなく、ラベル付きサンプルのみを使用して、機械学習システムが推論能力を新しいクラスに拡張することを可能にする。
古典的なバックプロパゲーションベースの学習とその変種は、バッテリー駆動のメモリ制約のある極端のシステムにはよく適さない。
本稿では,事前学習された特徴抽出器と,クラスプロトタイプを記憶する拡張可能な明示的メモリからなる軽量モデルに基づいて,オンライン・マイナショット・クラスインクリメンタル・ラーニング(o-fscil)を導入する。
アーキテクチャは、新規な直交正則化で事前訓練され、マルチマージン損失で金属化された。
新しいクラスを学ぶために、我々のアプローチは明示的なメモリを新しいクラスのプロトタイプで拡張し、残りのアーキテクチャは凍結されます。
これにより、単一のパス(オンライン)を持つ少数の例に基づいて、これまで見つからなかったクラスを学ぶことができる。
O-FSCIL は FSCIL CIFAR100 ベンチマークで平均68.62% の精度を得る。
超低消費電力プラットフォーム向けに設計され、60mW GAP9マイクロコントローラにO-FSCILを実装し、新しいクラスにつきわずか12mJでオンライン学習能力を示す。 Few-Shot Class-Incremental Learning (FSCIL) enables machine learning systems to expand their inference capabilities to new classes using only a few labeled examples, without forgetting the previously learned classes. Classical backpropagation-based learning and its variants are often unsuitable for battery-powered, memory-constrained systems at the extreme edge. In this work, we introduce Online Few-Shot Class-Incremental Learning (O-FSCIL), based on a lightweight model consisting of a pretrained and metalearned feature extractor and an expandable explicit memory storing the class prototypes. The architecture is pretrained with a novel feature orthogonality regularization and metalearned with a multi-margin loss. For learning a new class, our approach extends the explicit memory with novel class prototypes, while the remaining architecture is kept frozen. This allows learning previously unseen classes based on only a few examples with one single pass (hence online). O-FSCIL obtains an average accuracy of 68.62% on the FSCIL CIFAR100 benchmark, achieving state-of-the-art results. Tailored for ultra-low-power platforms, we implement O-FSCIL on the 60 mW GAP9 microcontroller, demonstrating online learning capabilities within just 12 mJ per new class. | 翻訳日:2024-03-13 19:47:05 公開日:2024-03-12 |
# ダイヤモンド中のレーザー導波路結合コヒーレントスピン Laser-written waveguide-integrated coherent spins in diamond ( http://arxiv.org/abs/2403.07850v1 ) ライセンス: Link先を確認 | Yanzhao Guo, John P. Hadden, Federico Gorrini, Giulio Coccia, Vibhav Bharadwaj, Vinaya Kumar Kavatamane, Mohammad Sahnawaz Alam, Roberta Ramponi, Paul E. Barclay, Andrea Chiappini, Maurizio Ferrari, Alexander Kubanek, Angelo Bifone, Shane M. Eaton and Anthony J. Bennett | (参考訳) ダイヤモンド中の負電荷の窒素空孔中心のような量子放出体は、ナノセンシングや量子情報処理などの量子技術や、古典的でない光源として魅力的である。
しかし、欠陥のスピンコヒーレンス特性を保ちながら、個々のエミッタをフォトニック構造に配置することは依然として困難である。
本稿では,フェムト秒レーザーで作製したダイヤモンド中の単一およびアンサンブル導波路集積窒素空孔中心と熱アニールについて検討する。
スピンコヒーレンス特性は系統的に研究され、ダイヤモンドの窒素空洞中心と同等であることが示されている。
この方法では、フォトニックデバイスに組み込まれたコヒーレントスピンの製造方法が舗装される。 Quantum emitters, such as the negatively charged nitrogen-vacancy center in diamond, are attractive for quantum technologies such as nano-sensing, quantum information processing, and as a non-classical light source. However, it is still challenging to position individual emitters in photonic structures whilst preserving the spin coherence properties of the defect. In this paper, we investigate single and ensemble waveguide-integrated nitrogen-vacancy centers in diamond fabricated by femtosecond laser writing followed by thermal annealing. Their spin coherence properties are systematically investigated and are shown to be comparable to native nitrogen-vacancy centers in diamond. This method paves the way for the fabrication of coherent spins integrated within photonic devices. | 翻訳日:2024-03-13 19:46:41 公開日:2024-03-12 |
# 説明の頻度サブグラフマイニングによる反復グラフニューラルネットワークの強化 Iterative Graph Neural Network Enhancement via Frequent Subgraph Mining of Explanations ( http://arxiv.org/abs/2403.07849v1 ) ライセンス: Link先を確認 | Harish G. Naik and Jan Polster and Raj Shekhar and Tam\'as Horv\'ath and Gy\"orgy Tur\'an | (参考訳) 我々は、ノード分類のためのグラフニューラルネットワーク(GNN)のためのXAIベースのモデル改善アプローチを定式化し、Explanation Enhanced Graph Learning(EEGL)と呼ぶ。
目的は、説明を用いてGNNの予測性能を改善することである。
EEGLは、学習された"バニラ"GNNから始まる反復的な自己改善アルゴリズムであり、頻繁にサブグラフマイニングを使用して説明サブグラフの関連パターンを見つける。
これらのパターンはさらにフィルタリングされ、ノード近傍の特定のサブグラフの存在に対応するアプリケーション依存の特徴を得る。
Weisfeiler-Leman (1-WL) アルゴリズムのそのような部分グラフベースの拡張に対するアプリケーション依存アルゴリズムの付与は、これまでオープン問題として提案されてきた。
我々は,EEGLが関連する予測性能のアプローチよりも優れており,バニラGNN以上のノード識別能力を有することを示す,合成および実世界のデータを用いた実験的なエビデンスを示す。
また、EEGLのトレーニングダイナミクスも分析する。 We formulate an XAI-based model improvement approach for Graph Neural Networks (GNNs) for node classification, called Explanation Enhanced Graph Learning (EEGL). The goal is to improve predictive performance of GNN using explanations. EEGL is an iterative self-improving algorithm, which starts with a learned "vanilla" GNN, and repeatedly uses frequent subgraph mining to find relevant patterns in explanation subgraphs. These patterns are then filtered further to obtain application-dependent features corresponding to the presence of certain subgraphs in the node neighborhoods. Giving an application-dependent algorithm for such a subgraph-based extension of the Weisfeiler-Leman (1-WL) algorithm has previously been posed as an open problem. We present experimental evidence, with synthetic and real-world data, which show that EEGL outperforms related approaches in predictive performance and that it has a node-distinguishing power beyond that of vanilla GNNs. We also analyze EEGL's training dynamics. | 翻訳日:2024-03-13 19:46:29 公開日:2024-03-12 |
# オンのトポロジカル電荷の測定について On measuring the topological charge of anyons ( http://arxiv.org/abs/2403.07847v1 ) ライセンス: Link先を確認 | Andrey Morozov | (参考訳) 本稿では,位相電荷の測定の原理や,エノン群内を進行する表現の原理について述べる。
本手法を記述し,理論のパラメータの異なる値に対してどのように作用するかを分析する。
また、Chern-Simons理論の様々なレベルに対してより効果的に修正できることを示す。 In this paper we discuss the principles of measuring topological charge or representation traveling in the set of anyons. We describe the procedure and analyze how it works for the different values of parameters of the theory. We also show how it can be modified to be more effective for different levels of Chern-Simons theory. | 翻訳日:2024-03-13 19:46:14 公開日:2024-03-12 |
# b2b電子商取引における予測購入のための機械学習と経験ベイズアプローチ A Machine learning and Empirical Bayesian Approach for Predictive Buying in B2B E-commerce ( http://arxiv.org/abs/2403.07843v1 ) ライセンス: Link先を確認 | Tuhin Subhra De and Pranjal Singh and Alok Patel | (参考訳) インドのような発展途上国では、伝統的なビジネス・ツー・ビジネス(b2b)の商業は、買い手と売り手の強い関係、信頼、信用関係の確立に大きく依存している。
そのため、電子商取引が盛んである。
2016年に設立されたudaanは、テクノロジーによってインドの貿易に革命をもたらすというビジョンで、インド最大のビジネスとビジネスのeコマースプラットフォームだ。
udaanは、ライフスタイル、エレクトロニクス、ホーム、テレコールなど、さまざまな製品カテゴリーで運営されており、買い手関係の育成、注文の合理化、特別プロモーションの促進などを行っている。
購入者の注文配置行動の正確な予測は、持続可能な成長、競争力の高まり、これらの電話機の効率の最適化の鍵となる要因として現れる。
この課題に対処するために,我々は,xgboost と poisson gamma モデルの修正版を組み合わせたアンサンブルアプローチを採用し,顧客の注文パターンを精度良く予測した。
本稿では,機械学習の戦略的融合と経験的ベイズ的アプローチを深く探究する。
この革新的なアプローチは、顧客の注文率を3倍に増やし、eコマース業界に変革をもたらす可能性を秘めている。 In the context of developing nations like India, traditional business to business (B2B) commerce heavily relies on the establishment of robust relationships, trust, and credit arrangements between buyers and sellers. Consequently, ecommerce enterprises frequently. Established in 2016 with a vision to revolutionize trade in India through technology, Udaan is the countrys largest business to business ecommerce platform. Udaan operates across diverse product categories, including lifestyle, electronics, home and employ telecallers to cultivate buyer relationships, streamline order placement procedures, and promote special promotions. The accurate anticipation of buyer order placement behavior emerges as a pivotal factor for attaining sustainable growth, heightening competitiveness, and optimizing the efficiency of these telecallers. To address this challenge, we have employed an ensemble approach comprising XGBoost and a modified version of Poisson Gamma model to predict customer order patterns with precision. This paper provides an in-depth exploration of the strategic fusion of machine learning and an empirical Bayesian approach, bolstered by the judicious selection of pertinent features. This innovative approach has yielded a remarkable 3 times increase in customer order rates, show casing its potential for transformative impact in the ecommerce industry. | 翻訳日:2024-03-13 19:46:07 公開日:2024-03-12 |
# 語彙生成モデルのプライバシーリスクの定量化と緩和 Quantifying and Mitigating Privacy Risks for Tabular Generative Models ( http://arxiv.org/abs/2403.07842v1 ) ライセンス: Link先を確認 | Chaoyi Zhu, Jiayi Tang, Hans Brouwer, Juan F. P\'erez, Marten van Dijk, Lydia Y. Chen | (参考訳) 生成モデルからの合成データが、プライバシ保存データ共有ソリューションとして現れる。
このような合成データセットは,識別可能なプライベート情報を明らかにすることなく,元のデータに類似する。
表型シンセサイザーのバックボーン技術は画像生成モデルに根ざしており、gans(generative adversarial network)から最近の拡散モデルまで幅広い。
最近の作業は、表データのユーティリティプライバシトレードオフに光を当て、合成データのプライバシーリスクを明らかにし、定量化する。
まず,8つのプライバシ攻撃に対する5つの最先端のタブラシンセサイザーの実用的プライバシトレードオフに注目し,会員推測攻撃に特化して,徹底的な実証分析を行った。
グラフ表拡散における高いデータ品質と高いプライバシーリスクを考慮に入れたDP-TLDM,differially Private Tabular Latent Diffusion Modelを提案し,表表データを符号化するオートエンコーダネットワークと潜時拡散モデルを用いて潜在表を合成する。
新たなf-DPフレームワークに続いて,DP-SGDを適用して自動エンコーダとバッチクリッピングを併用し,分離値をプライバシ指標として利用することにより,DPアルゴリズムのプライバシゲインをより正確に把握する。
実験により,DP-TLDMは有意義な理論的プライバシー保証を達成できると同時に,合成データの有用性を大幅に向上できることを示した。
具体的には、DP-TLDMは、他のDP保護表生成モデルと比較して、データ類似性の平均35%、ダウンストリームタスクのユーティリティの15%、データの識別可能性の50%で合成品質を改善する。 Synthetic data from generative models emerges as the privacy-preserving data-sharing solution. Such a synthetic data set shall resemble the original data without revealing identifiable private information. The backbone technology of tabular synthesizers is rooted in image generative models, ranging from Generative Adversarial Networks (GANs) to recent diffusion models. Recent prior work sheds light on the utility-privacy tradeoff on tabular data, revealing and quantifying privacy risks on synthetic data. We first conduct an exhaustive empirical analysis, highlighting the utility-privacy tradeoff of five state-of-the-art tabular synthesizers, against eight privacy attacks, with a special focus on membership inference attacks. Motivated by the observation of high data quality but also high privacy risk in tabular diffusion, we propose DP-TLDM, Differentially Private Tabular Latent Diffusion Model, which is composed of an autoencoder network to encode the tabular data and a latent diffusion model to synthesize the latent tables. Following the emerging f-DP framework, we apply DP-SGD to train the auto-encoder in combination with batch clipping and use the separation value as the privacy metric to better capture the privacy gain from DP algorithms. Our empirical evaluation demonstrates that DP-TLDM is capable of achieving a meaningful theoretical privacy guarantee while also significantly enhancing the utility of synthetic data. Specifically, compared to other DP-protected tabular generative models, DP-TLDM improves the synthetic quality by an average of 35% in data resemblance, 15% in the utility for downstream tasks, and 50% in data discriminability, all while preserving a comparable level of privacy risk. | 翻訳日:2024-03-13 19:45:45 公開日:2024-03-12 |
# シャープ化ラジインクリメンタル準ニュートン法 Sharpened Lazy Incremental Quasi-Newton Method ( http://arxiv.org/abs/2305.17283v3 ) ライセンス: Link先を確認 | Aakash Lahoti, Spandan Senapati, Ketan Rajawat, Alec Koppel | (参考訳) n$関数の和を$d$次元で最小化する問題は、機械学習と統計学においてユビキタスである。
観察回数が大きい多くのアプリケーションでは、単文あたりのコストが$n$から独立しているため、インクリメンタルまたは確率的な方法を使う必要がある。
これらのうち、準ニュートン法(qn)は、単文あたりのコストと収束率のバランスをとる。
具体的には、o(d^2)$コストの1次メソッドの線形レートやo(d^3)$コストの2次メソッドの二次レートとは対照的に、o(d^2)$コストの2次レートを示す。
しかし、既存の増分法には顕著な欠点がある: インクリメンタル準ニュートン(IQN)は漸近的超線型収束のみを示す。
対照的に、Incrmental Greedy BFGS (IGS) は明示的な超線形収束を提供するが、経験的性能に乏しく、定価$O(d^3)である。
これらの問題に対処するために, 明示的な超線形収束率と, 定価$O(d^2)の経験的性能という両世界の長所を達成する Sharpened Lazy Incremental Quasi-Newton Method (SLIQN) を導入する。
SLIQNには2つの重要な変更がある。まず、古典的および欲張りのあるBFGS更新の両方を使用するハイブリッド戦略を取り入れ、IQNとIGSの両方を経験的に上回るようにしている。
第二に、巧妙な定数乗算係数と遅延伝播戦略を採用しており、コストは$o(d^2)$である。
さらに, SLIQNが他の漸進的および確率的準ニュートン変種よりも優れていることを実証し, 2次インクリメンタル手法との競合性を実証した。 The problem of minimizing the sum of $n$ functions in $d$ dimensions is ubiquitous in machine learning and statistics. In many applications where the number of observations $n$ is large, it is necessary to use incremental or stochastic methods, as their per-iteration cost is independent of $n$. Of these, Quasi-Newton (QN) methods strike a balance between the per-iteration cost and the convergence rate. Specifically, they exhibit a superlinear rate with $O(d^2)$ cost in contrast to the linear rate of first-order methods with $O(d)$ cost and the quadratic rate of second-order methods with $O(d^3)$ cost. However, existing incremental methods have notable shortcomings: Incremental Quasi-Newton (IQN) only exhibits asymptotic superlinear convergence. In contrast, Incremental Greedy BFGS (IGS) offers explicit superlinear convergence but suffers from poor empirical performance and has a per-iteration cost of $O(d^3)$. To address these issues, we introduce the Sharpened Lazy Incremental Quasi-Newton Method (SLIQN) that achieves the best of both worlds: an explicit superlinear convergence rate, and superior empirical performance at a per-iteration $O(d^2)$ cost. SLIQN features two key changes: first, it incorporates a hybrid strategy of using both classic and greedy BFGS updates, allowing it to empirically outperform both IQN and IGS. Second, it employs a clever constant multiplicative factor along with a lazy propagation strategy, which enables it to have a cost of $O(d^2)$. Additionally, our experiments demonstrate the superiority of SLIQN over other incremental and stochastic Quasi-Newton variants and establish its competitiveness with second-order incremental methods. | 翻訳日:2024-03-13 17:17:48 公開日:2024-03-12 |
# シャープ化ラジインクリメンタル準ニュートン法 Sharpened Lazy Incremental Quasi-Newton Method ( http://arxiv.org/abs/2305.17283v2 ) ライセンス: Link先を確認 | Aakash Lahoti, Spandan Senapati, Ketan Rajawat, Alec Koppel | (参考訳) n$関数の和を$d$次元で最小化する問題は、機械学習と統計学においてユビキタスである。
観察回数が大きい多くのアプリケーションでは、単文あたりのコストが$n$から独立しているため、インクリメンタルまたは確率的な方法を使う必要がある。
これらのうち、準ニュートン法(qn)は、単文あたりのコストと収束率のバランスをとる。
具体的には、o(d^2)$コストの1次メソッドの線形レートやo(d^3)$コストの2次メソッドの二次レートとは対照的に、o(d^2)$コストの2次レートを示す。
しかし、既存の増分法には顕著な欠点がある: インクリメンタル準ニュートン(IQN)は漸近的超線型収束のみを示す。
対照的に、Incrmental Greedy BFGS (IGS) は明示的な超線形収束を提供するが、経験的性能に乏しく、定価$O(d^3)である。
これらの問題に対処するために, 明示的な超線形収束率と, 定価$O(d^2)の経験的性能という両世界の長所を達成する Sharpened Lazy Incremental Quasi-Newton Method (SLIQN) を導入する。
SLIQNには2つの重要な変更がある。まず、古典的および欲張りのあるBFGS更新の両方を使用するハイブリッド戦略を取り入れ、IQNとIGSの両方を経験的に上回るようにしている。
第二に、巧妙な定数乗算係数と遅延伝播戦略を採用しており、コストは$o(d^2)$である。
さらに, SLIQNが他の漸進的および確率的準ニュートン変種よりも優れていることを実証し, 2次インクリメンタル手法との競合性を実証した。 The problem of minimizing the sum of $n$ functions in $d$ dimensions is ubiquitous in machine learning and statistics. In many applications where the number of observations $n$ is large, it is necessary to use incremental or stochastic methods, as their per-iteration cost is independent of $n$. Of these, Quasi-Newton (QN) methods strike a balance between the per-iteration cost and the convergence rate. Specifically, they exhibit a superlinear rate with $O(d^2)$ cost in contrast to the linear rate of first-order methods with $O(d)$ cost and the quadratic rate of second-order methods with $O(d^3)$ cost. However, existing incremental methods have notable shortcomings: Incremental Quasi-Newton (IQN) only exhibits asymptotic superlinear convergence. In contrast, Incremental Greedy BFGS (IGS) offers explicit superlinear convergence but suffers from poor empirical performance and has a per-iteration cost of $O(d^3)$. To address these issues, we introduce the Sharpened Lazy Incremental Quasi-Newton Method (SLIQN) that achieves the best of both worlds: an explicit superlinear convergence rate, and superior empirical performance at a per-iteration $O(d^2)$ cost. SLIQN features two key changes: first, it incorporates a hybrid strategy of using both classic and greedy BFGS updates, allowing it to empirically outperform both IQN and IGS. Second, it employs a clever constant multiplicative factor along with a lazy propagation strategy, which enables it to have a cost of $O(d^2)$. Additionally, our experiments demonstrate the superiority of SLIQN over other incremental and stochastic Quasi-Newton variants and establish its competitiveness with second-order incremental methods. | 翻訳日:2024-03-13 17:17:13 公開日:2024-03-12 |
# ブロックチェーンによるフェデレーション学習における攻撃防止 Defending Against Poisoning Attacks in Federated Learning with Blockchain ( http://arxiv.org/abs/2307.00543v3 ) ライセンス: Link先を確認 | Nanqing Dong, Zhipeng Wang, Jiahao Sun, Michael Kampffmeyer, William Knottenbelt, Eric Xing | (参考訳) ディープラーニングの時代、フェデレートドラーニング(FL)は、データプライバシを損なうことなく、多施設のデータ所有者やクライアントが協調して機械学習モデルをトレーニングできる有望なアプローチを提示している。
しかし、既存のFLアプローチのほとんどは、グローバルモデルアグリゲーションのための集中型サーバに依存しており、単一障害点につながる。
これにより、システムは不正なクライアントを扱う際に悪意のある攻撃に対して脆弱になる。
本研究では,ブロックチェーンと分散台帳技術に基づくセキュアで信頼性の高いFLシステムを提案することにより,この問題に対処する。
本システムでは,オンチェーン型スマートコントラクトを利用したピアツーピア投票機構と報酬アンドスラッシュ機構を組み込んで,悪意ある行動の検出と検出を行う。
提案手法の有効性を実証するために,理論的および実証的な解析を行った結果,我々のフレームワークは悪意のあるクライアント側の動作に対して堅牢であることがわかった。 In the era of deep learning, federated learning (FL) presents a promising approach that allows multi-institutional data owners, or clients, to collaboratively train machine learning models without compromising data privacy. However, most existing FL approaches rely on a centralized server for global model aggregation, leading to a single point of failure. This makes the system vulnerable to malicious attacks when dealing with dishonest clients. In this work, we address this problem by proposing a secure and reliable FL system based on blockchain and distributed ledger technology. Our system incorporates a peer-to-peer voting mechanism and a reward-and-slash mechanism, which are powered by on-chain smart contracts, to detect and deter malicious behaviors. Both theoretical and empirical analyses are presented to demonstrate the effectiveness of the proposed approach, showing that our framework is robust against malicious client-side behaviors. | 翻訳日:2024-03-13 16:57:42 公開日:2024-03-12 |
# ブロックチェーンによるフェデレーション学習における攻撃防止 Defending Against Poisoning Attacks in Federated Learning with Blockchain ( http://arxiv.org/abs/2307.00543v2 ) ライセンス: Link先を確認 | Nanqing Dong, Zhipeng Wang, Jiahao Sun, Michael Kampffmeyer, William Knottenbelt, Eric Xing | (参考訳) ディープラーニングの時代、フェデレートドラーニング(FL)は、データプライバシを損なうことなく、多施設のデータ所有者やクライアントが協調して機械学習モデルをトレーニングできる有望なアプローチを提示している。
しかし、既存のFLアプローチのほとんどは、グローバルモデルアグリゲーションのための集中型サーバに依存しており、単一障害点につながる。
これにより、システムは不正なクライアントを扱う際に悪意のある攻撃に対して脆弱になる。
本研究では,ブロックチェーンと分散台帳技術に基づくセキュアで信頼性の高いFLシステムを提案することにより,この問題に対処する。
本システムでは,オンチェーン型スマートコントラクトを利用したピアツーピア投票機構と報酬アンドスラッシュ機構を組み込んで,悪意ある行動の検出と検出を行う。
提案手法の有効性を実証するために,理論的および実証的な解析を行った結果,我々のフレームワークは悪意のあるクライアント側の動作に対して堅牢であることがわかった。 In the era of deep learning, federated learning (FL) presents a promising approach that allows multi-institutional data owners, or clients, to collaboratively train machine learning models without compromising data privacy. However, most existing FL approaches rely on a centralized server for global model aggregation, leading to a single point of failure. This makes the system vulnerable to malicious attacks when dealing with dishonest clients. In this work, we address this problem by proposing a secure and reliable FL system based on blockchain and distributed ledger technology. Our system incorporates a peer-to-peer voting mechanism and a reward-and-slash mechanism, which are powered by on-chain smart contracts, to detect and deter malicious behaviors. Both theoretical and empirical analyses are presented to demonstrate the effectiveness of the proposed approach, showing that our framework is robust against malicious client-side behaviors. | 翻訳日:2024-03-13 16:57:22 公開日:2024-03-12 |
# 真実を再考する: 言語モデルがどのように偽のデモを処理するかを理解する Overthinking the Truth: Understanding how Language Models Process False Demonstrations ( http://arxiv.org/abs/2307.09476v3 ) ライセンス: Link先を確認 | Danny Halawi, Jean-Stanislas Denain, Jacob Steinhardt | (参考訳) 現代の言語モデルは、わずかな学習を通じて複雑なパターンを模倣することができ、微調整することなく挑戦的なタスクを完了できる。
しかし、模倣によってモデルが不正確さや有害なコンテンツの再現に繋がることもある。
モデルの内部表現のレンズを通して有害な模倣を研究し,「過度な思考」と「偽誘導ヘッド」の2つの関連する現象を同定する。
中間層から予測をデコードするときに現れる最初の現象は、不正確な数発のデモに対して正しいものである。
初期の層では、両方のデモが類似したモデルの振る舞いを誘導するが、その振る舞いは、ある「クリティカルな層」で鋭く発散し、その後、間違ったデモの精度が徐々に低下する。
第2の現象である偽誘導頭部は、過度に考え直される可能性があり、これらは、過去の実証から偽の情報を受け取り、コピーする後期層の頭であり、アブレーションによって過度に考え直される。
科学的理解以外にも,中間モデル計算の研究は,有害なモデル行動に対する理解と保護に有望な手段である可能性が示唆された。 Modern language models can imitate complex patterns through few-shot learning, enabling them to complete challenging tasks without fine-tuning. However, imitation can also lead models to reproduce inaccuracies or harmful content if present in the context. We study harmful imitation through the lens of a model's internal representations, and identify two related phenomena: "overthinking" and "false induction heads". The first phenomenon, overthinking, appears when we decode predictions from intermediate layers, given correct vs. incorrect few-shot demonstrations. At early layers, both demonstrations induce similar model behavior, but the behavior diverges sharply at some "critical layer", after which the accuracy given incorrect demonstrations progressively decreases. The second phenomenon, false induction heads, are a possible mechanistic cause of overthinking: these are heads in late layers that attend to and copy false information from previous demonstrations, and whose ablation reduces overthinking. Beyond scientific understanding, our results suggest that studying intermediate model computations could be a promising avenue for understanding and guarding against harmful model behaviors. | 翻訳日:2024-03-13 16:49:17 公開日:2024-03-12 |
# 真実を再考する: 言語モデルがどのように偽のデモを処理するかを理解する Overthinking the Truth: Understanding how Language Models Process False Demonstrations ( http://arxiv.org/abs/2307.09476v2 ) ライセンス: Link先を確認 | Danny Halawi, Jean-Stanislas Denain, Jacob Steinhardt | (参考訳) 現代の言語モデルは、わずかな学習を通じて複雑なパターンを模倣することができ、微調整することなく挑戦的なタスクを完了できる。
しかし、模倣によってモデルが不正確さや有害なコンテンツの再現に繋がることもある。
モデルの内部表現のレンズを通して有害な模倣を研究し,「過度な思考」と「偽誘導ヘッド」の2つの関連する現象を同定する。
中間層から予測をデコードするときに現れる最初の現象は、不正確な数発のデモに対して正しいものである。
初期の層では、両方のデモが類似したモデルの振る舞いを誘導するが、その振る舞いは、ある「クリティカルな層」で鋭く発散し、その後、間違ったデモの精度が徐々に低下する。
第2の現象である偽誘導頭部は、過度に考え直される可能性があり、これらは、過去の実証から偽の情報を受け取り、コピーする後期層の頭であり、アブレーションによって過度に考え直される。
科学的理解以外にも,中間モデル計算の研究は,有害なモデル行動に対する理解と保護に有望な手段である可能性が示唆された。 Modern language models can imitate complex patterns through few-shot learning, enabling them to complete challenging tasks without fine-tuning. However, imitation can also lead models to reproduce inaccuracies or harmful content if present in the context. We study harmful imitation through the lens of a model's internal representations, and identify two related phenomena: "overthinking" and "false induction heads". The first phenomenon, overthinking, appears when we decode predictions from intermediate layers, given correct vs. incorrect few-shot demonstrations. At early layers, both demonstrations induce similar model behavior, but the behavior diverges sharply at some "critical layer", after which the accuracy given incorrect demonstrations progressively decreases. The second phenomenon, false induction heads, are a possible mechanistic cause of overthinking: these are heads in late layers that attend to and copy false information from previous demonstrations, and whose ablation reduces overthinking. Beyond scientific understanding, our results suggest that studying intermediate model computations could be a promising avenue for understanding and guarding against harmful model behaviors. | 翻訳日:2024-03-13 16:48:55 公開日:2024-03-12 |
# より表現力のあるテンソルネットワークモデルのための量子フーリエと多項式特徴 Quantized Fourier and Polynomial Features for more Expressive Tensor Network Models ( http://arxiv.org/abs/2309.05436v3 ) ライセンス: Link先を確認 | Frederiek Wesel, Kim Batselier | (参考訳) カーネルマシンの文脈では、多項式とフーリエ特徴は、データを高次元空間にマッピングすることで線形モデルへの非線形拡張を提供するために一般的に使用される。
正確な大規模学習が不可能な学習問題の双対的定式化を考慮しなければ、テンソル積構造によるデータ次元におけるモデルパラメータの指数的増加は、高次元問題に対処することを禁じる。
この指数的スケーリングを回避するための可能なアプローチの1つは、モデル重みをアンダーパラメータ化テンソルネットワークに制限することで、機能に存在するテンソル構造を活用することである。
本稿では,さらにテンソル化,多項式,フーリエ特徴を定量化する。
この特徴量化に基づいて,関連するモデル重みを量子化し,量子化モデルを生成する。
同じ数のモデルパラメータに対して、結果として得られる量子化モデルは、同じ特徴から学習しながら計算コストを増すことなく、非量子化モデルに比べてvc次元により高い結合を持つことを示す。
この付加的なテンソル化が学習問題をいかに正規化するかを実験的に検証し,データ内の最も有意義な特徴を優先順位付けし,一般化能力を高めるモデルを提供するか検証した。
最後に,大規模回帰タスクに対する我々のアプローチをベンチマークし,ラップトップコンピュータで最新の結果を得た。 In the context of kernel machines, polynomial and Fourier features are commonly used to provide a nonlinear extension to linear models by mapping the data to a higher-dimensional space. Unless one considers the dual formulation of the learning problem, which renders exact large-scale learning unfeasible, the exponential increase of model parameters in the dimensionality of the data caused by their tensor-product structure prohibits to tackle high-dimensional problems. One of the possible approaches to circumvent this exponential scaling is to exploit the tensor structure present in the features by constraining the model weights to be an underparametrized tensor network. In this paper we quantize, i.e. further tensorize, polynomial and Fourier features. Based on this feature quantization we propose to quantize the associated model weights, yielding quantized models. We show that, for the same number of model parameters, the resulting quantized models have a higher bound on the VC-dimension as opposed to their non-quantized counterparts, at no additional computational cost while learning from identical features. We verify experimentally how this additional tensorization regularizes the learning problem by prioritizing the most salient features in the data and how it provides models with increased generalization capabilities. We finally benchmark our approach on large regression task, achieving state-of-the-art results on a laptop computer. | 翻訳日:2024-03-13 16:31:03 公開日:2024-03-12 |
# ファームウェアとしてのモバイルファウンデーションモデル Mobile Foundation Model as Firmware ( http://arxiv.org/abs/2308.14363v3 ) ライセンス: Link先を確認 | Jinliang Yuan, Chen Yang, Dongqi Cai, Shihe Wang, Xin Yuan, Zeling Zhang, Xiang Li, Dingge Zhang, Hanzi Mei, Xianqing Jia, Shangguang Wang, Mengwei Xu | (参考訳) 今日の状況では、スマートフォンはローカル実行を目的とした多数のディープラーニングモデルをホストするハブへと進化してきた。
この研究の鍵となる実現は、様々なアーキテクチャ、演算子、実装によって特徴づけられるこれらのモデルの中で注目すべき断片化である。
この断片化は、ハードウェア、システム設定、アルゴリズムの包括的な最適化に多大な負担を課す。
モバイルOSとハードウェアの協調管理アプローチであり、すべてではないとしても、モバイルAIタスクの幅広い範囲で機能する基本モデルを監督する。
この基礎モデルはNPU内に存在し、ファームウェアと同様、アプリやOSのリビジョンには不必要である。
同時に、各アプリは、異なる下流タスクに合わせて、簡潔でオフラインで調整された"アダプタ"を提供する。
この概念から、asysとして知られる具体的なインスタンス化が生まれる。
公開されているLarge Language Models (LLMs) のキュレートされた選択と、ダイナミックなデータフローを容易にする。
この概念の有効性は、コンピュータビジョン(cv)、自然言語処理(nlp)、オーディオ、センシング、マルチモーダル入力などを含む50のデータセットにまたがる38のモバイルaiタスクをカバーする、徹底したベンチマークの作成によって証明される。
このベンチマークで、Shasysは素晴らしいパフォーマンスを披露した。
タスクの85倍の精度で正確性を実現し、ストレージとメモリのスケーラビリティの向上を実証し、NPUサポートで強化された商用オフ・ザ・シェルフ(COTS)モバイルデバイスで十分な推論速度を提供する。
これは、個々のアプリケーションに適したタスク固有のモデルとは対照的である。 In today's landscape, smartphones have evolved into hubs for hosting a multitude of deep learning models aimed at local execution. A key realization driving this work is the notable fragmentation among these models, characterized by varied architectures, operators, and implementations. This fragmentation imposes a significant burden on the comprehensive optimization of hardware, system settings, and algorithms. Buoyed by the recent strides in large foundation models, this work introduces a pioneering paradigm for mobile AI: a collaborative management approach between the mobile OS and hardware, overseeing a foundational model capable of serving a broad spectrum of mobile AI tasks, if not all. This foundational model resides within the NPU and remains impervious to app or OS revisions, akin to firmware. Concurrently, each app contributes a concise, offline fine-tuned "adapter" tailored to distinct downstream tasks. From this concept emerges a concrete instantiation known as \sys. It amalgamates a curated selection of publicly available Large Language Models (LLMs) and facilitates dynamic data flow. This concept's viability is substantiated through the creation of an exhaustive benchmark encompassing 38 mobile AI tasks spanning 50 datasets, including domains such as Computer Vision (CV), Natural Language Processing (NLP), audio, sensing, and multimodal inputs. Spanning this benchmark, \sys unveils its impressive performance. It attains accuracy parity in 85\% of tasks, demonstrates improved scalability in terms of storage and memory, and offers satisfactory inference speed on Commercial Off-The-Shelf (COTS) mobile devices fortified with NPU support. This stands in stark contrast to task-specific models tailored for individual applications. | 翻訳日:2024-03-13 16:27:22 公開日:2024-03-12 |
# ファームウェアとしてのモバイルファウンデーションモデル Mobile Foundation Model as Firmware ( http://arxiv.org/abs/2308.14363v2 ) ライセンス: Link先を確認 | Jinliang Yuan, Chen Yang, Dongqi Cai, Shihe Wang, Xin Yuan, Zeling Zhang, Xiang Li, Dingge Zhang, Hanzi Mei, Xianqing Jia, Shangguang Wang, Mengwei Xu | (参考訳) 今日の状況では、スマートフォンはローカル実行を目的とした多数のディープラーニングモデルをホストするハブへと進化してきた。
この研究の鍵となる実現は、様々なアーキテクチャ、演算子、実装によって特徴づけられるこれらのモデルの中で注目すべき断片化である。
この断片化は、ハードウェア、システム設定、アルゴリズムの包括的な最適化に多大な負担を課す。
モバイルOSとハードウェアの協調管理アプローチであり、すべてではないとしても、モバイルAIタスクの幅広い範囲で機能する基本モデルを監督する。
この基礎モデルはNPU内に存在し、ファームウェアと同様、アプリやOSのリビジョンには不必要である。
同時に、各アプリは、異なる下流タスクに合わせて、簡潔でオフラインで調整された"アダプタ"を提供する。
この概念から、asysとして知られる具体的なインスタンス化が生まれる。
公開されているLarge Language Models (LLMs) のキュレートされた選択と、ダイナミックなデータフローを容易にする。
この概念の有効性は、コンピュータビジョン(cv)、自然言語処理(nlp)、オーディオ、センシング、マルチモーダル入力などを含む50のデータセットにまたがる38のモバイルaiタスクをカバーする、徹底したベンチマークの作成によって証明される。
このベンチマークで、Shasysは素晴らしいパフォーマンスを披露した。
タスクの85倍の精度で正確性を実現し、ストレージとメモリのスケーラビリティの向上を実証し、NPUサポートで強化された商用オフ・ザ・シェルフ(COTS)モバイルデバイスで十分な推論速度を提供する。
これは、個々のアプリケーションに適したタスク固有のモデルとは対照的である。 In today's landscape, smartphones have evolved into hubs for hosting a multitude of deep learning models aimed at local execution. A key realization driving this work is the notable fragmentation among these models, characterized by varied architectures, operators, and implementations. This fragmentation imposes a significant burden on the comprehensive optimization of hardware, system settings, and algorithms. Buoyed by the recent strides in large foundation models, this work introduces a pioneering paradigm for mobile AI: a collaborative management approach between the mobile OS and hardware, overseeing a foundational model capable of serving a broad spectrum of mobile AI tasks, if not all. This foundational model resides within the NPU and remains impervious to app or OS revisions, akin to firmware. Concurrently, each app contributes a concise, offline fine-tuned "adapter" tailored to distinct downstream tasks. From this concept emerges a concrete instantiation known as \sys. It amalgamates a curated selection of publicly available Large Language Models (LLMs) and facilitates dynamic data flow. This concept's viability is substantiated through the creation of an exhaustive benchmark encompassing 38 mobile AI tasks spanning 50 datasets, including domains such as Computer Vision (CV), Natural Language Processing (NLP), audio, sensing, and multimodal inputs. Spanning this benchmark, \sys unveils its impressive performance. It attains accuracy parity in 85\% of tasks, demonstrates improved scalability in terms of storage and memory, and offers satisfactory inference speed on Commercial Off-The-Shelf (COTS) mobile devices fortified with NPU support. This stands in stark contrast to task-specific models tailored for individual applications. | 翻訳日:2024-03-13 16:26:54 公開日:2024-03-12 |
# クロスモーダル特徴拡張によるLiDAR-レーダー点雲からのロバスト3次元物体検出 Robust 3D Object Detection from LiDAR-Radar Point Clouds via Cross-Modal Feature Augmentation ( http://arxiv.org/abs/2309.17336v3 ) ライセンス: Link先を確認 | Jianning Deng, Gabriel Chan, Hantao Zhong, and Chris Xiaoxuan Lu | (参考訳) 本稿では,点雲からの3次元物体検出のための新しい枠組みを提案する。
提案手法は,LiDARと4Dレーダの幻覚方向に依存しない。
バックボーンの改良と幻覚生成を同時に行うために,空間レベルと特徴レベルの両方に複数のアライメントを導入する。
具体的には、LiDARとレーダーのより優れたインスタンスマッチングのための幾何学的不一致を扱うために空間アライメントを提案する。
特徴アライメントステップはさらに、センシングモダリティ間の固有の属性ギャップを橋渡しし、トレーニングを安定化させる。
訓練されたオブジェクト検出モデルは、推論段階で入力としてシングルモーダルデータのみを使用していても、より難しい検出ケースに対処できる。
VoD(View-of-Delft)データセットの大規模な実験により,提案手法は,実行時の競争効率を維持しつつ,レーダおよびLiDARオブジェクト検出の最先端(SOTA)手法よりも優れていた。
コードはhttps://github.com/djning/see_beyond_seeingで入手できる。 This paper presents a novel framework for robust 3D object detection from point clouds via cross-modal hallucination. Our proposed approach is agnostic to either hallucination direction between LiDAR and 4D radar. We introduce multiple alignments on both spatial and feature levels to achieve simultaneous backbone refinement and hallucination generation. Specifically, spatial alignment is proposed to deal with the geometry discrepancy for better instance matching between LiDAR and radar. The feature alignment step further bridges the intrinsic attribute gap between the sensing modalities and stabilizes the training. The trained object detection models can deal with difficult detection cases better, even though only single-modal data is used as the input during the inference stage. Extensive experiments on the View-of-Delft (VoD) dataset show that our proposed method outperforms the state-of-the-art (SOTA) methods for both radar and LiDAR object detection while maintaining competitive efficiency in runtime. Code is available at https://github.com/DJNing/See_beyond_seeing. | 翻訳日:2024-03-13 16:10:19 公開日:2024-03-12 |
# クロスモーダル特徴拡張によるLiDAR-レーダー点雲からのロバスト3次元物体検出 Robust 3D Object Detection from LiDAR-Radar Point Clouds via Cross-Modal Feature Augmentation ( http://arxiv.org/abs/2309.17336v2 ) ライセンス: Link先を確認 | Jianning Deng, Gabriel Chan, Hantao Zhong, and Chris Xiaoxuan Lu | (参考訳) 本稿では,点雲からの3次元物体検出のための新しい枠組みを提案する。
提案手法は,LiDARと4Dレーダの幻覚方向に依存しない。
バックボーンの改良と幻覚生成を同時に行うために,空間レベルと特徴レベルの両方に複数のアライメントを導入する。
具体的には、LiDARとレーダーのより優れたインスタンスマッチングのための幾何学的不一致を扱うために空間アライメントを提案する。
特徴アライメントステップはさらに、センシングモダリティ間の固有の属性ギャップを橋渡しし、トレーニングを安定化させる。
訓練されたオブジェクト検出モデルは、推論段階で入力としてシングルモーダルデータのみを使用していても、より難しい検出ケースに対処できる。
VoD(View-of-Delft)データセットの大規模な実験により,提案手法は,実行時の競争効率を維持しつつ,レーダおよびLiDARオブジェクト検出の最先端(SOTA)手法よりも優れていた。
コードはhttps://github.com/djning/see_beyond_seeingで入手できる。 This paper presents a novel framework for robust 3D object detection from point clouds via cross-modal hallucination. Our proposed approach is agnostic to either hallucination direction between LiDAR and 4D radar. We introduce multiple alignments on both spatial and feature levels to achieve simultaneous backbone refinement and hallucination generation. Specifically, spatial alignment is proposed to deal with the geometry discrepancy for better instance matching between LiDAR and radar. The feature alignment step further bridges the intrinsic attribute gap between the sensing modalities and stabilizes the training. The trained object detection models can deal with difficult detection cases better, even though only single-modal data is used as the input during the inference stage. Extensive experiments on the View-of-Delft (VoD) dataset show that our proposed method outperforms the state-of-the-art (SOTA) methods for both radar and LiDAR object detection while maintaining competitive efficiency in runtime. Code is available at https://github.com/DJNing/See_beyond_seeing. | 翻訳日:2024-03-13 16:10:02 公開日:2024-03-12 |
# Bongard-OpenWorld: 現実の世界における自由な視覚概念のためのFew-Shot Reasoning Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in the Real World ( http://arxiv.org/abs/2310.10207v4 ) ライセンス: Link先を確認 | Rujie Wu, Xiaojian Ma, Zhenliang Zhang, Wei Wang, Qing Li, Song-Chun Zhu, Yizhou Wang | (参考訳) Bongard-OpenWorldは、マシンビジョンのための実世界の数ショット推論を評価するための新しいベンチマークである。
古典的なボナード問題(BP)に由来する: 2つのイメージセット(正と負の)が与えられたモデルでは、クエリイメージが属する集合を正の集合からのみ描写される視覚概念を誘導することによって識別する必要がある。
我々のベンチマークは、最初のBPのいくつかの概念を継承し、新しい2つの課題を追加している。
1)bongard-openworldの視覚概念は,オブジェクトのカテゴリから抽象的な視覚属性,常識的な事実知識まで,オープンボキャブラリから用語のユニークな構成である。
2) 実世界の画像は,多くの対数で使用される合成図と対照的である。
私たちの調査では、bongard-openworldはすでに、現在の少数ショット推論アルゴリズムに重大な課題を課しています。
さらに,最近導入されたLarge Language Models (LLMs) とVision-Language Models (VLMs) が,VLMを直接探索し,VLMとLLMを対話型推論方式で組み合わせることで,その課題をどの程度解決できるかについても検討する。
ボナード問題に対する人間の問題解決過程をエミュレートするために,LLMとVLMを論理的推論で再現する神経象徴的推論手法も考案した。
しかし、最良の学習者は64%の精度を達成し、人間の参加者は91%に到達し易いため、これらのアプローチはいずれも人間と機械のギャップを埋めるには至らなかった。
bongard-openworldは、現在の視覚知能の限界をより深く理解し、より強力な少数ショットの視覚推論能力を持つ視覚エージェントに関する将来の研究を促進するのに役立つことを願っている。 We introduce Bongard-OpenWorld, a new benchmark for evaluating real-world few-shot reasoning for machine vision. It originates from the classical Bongard Problems (BPs): Given two sets of images (positive and negative), the model needs to identify the set that query images belong to by inducing the visual concepts, which is exclusively depicted by images from the positive set. Our benchmark inherits the few-shot concept induction of the original BPs while adding the two novel layers of challenge: 1) open-world free-form concepts, as the visual concepts in Bongard-OpenWorld are unique compositions of terms from an open vocabulary, ranging from object categories to abstract visual attributes and commonsense factual knowledge; 2) real-world images, as opposed to the synthetic diagrams used by many counterparts. In our exploration, Bongard-OpenWorld already imposes a significant challenge to current few-shot reasoning algorithms. We further investigate to which extent the recently introduced Large Language Models (LLMs) and Vision-Language Models (VLMs) can solve our task, by directly probing VLMs, and combining VLMs and LLMs in an interactive reasoning scheme. We even conceived a neuro-symbolic reasoning approach that reconciles LLMs & VLMs with logical reasoning to emulate the human problem-solving process for Bongard Problems. However, none of these approaches manage to close the human-machine gap, as the best learner achieves 64% accuracy while human participants easily reach 91%. We hope Bongard-OpenWorld can help us better understand the limitations of current visual intelligence and facilitate future research on visual agents with stronger few-shot visual reasoning capabilities. | 翻訳日:2024-03-13 15:53:02 公開日:2024-03-12 |
# Bongard-OpenWorld: 現実の世界における自由な視覚概念のためのFew-Shot Reasoning Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in the Real World ( http://arxiv.org/abs/2310.10207v3 ) ライセンス: Link先を確認 | Rujie Wu, Xiaojian Ma, Zhenliang Zhang, Wei Wang, Qing Li, Song-Chun Zhu, Yizhou Wang | (参考訳) Bongard-OpenWorldは、マシンビジョンのための実世界の数ショット推論を評価するための新しいベンチマークである。
古典的なボナード問題(BP)に由来する: 2つのイメージセット(正と負の)が与えられたモデルでは、クエリイメージが属する集合を正の集合からのみ描写される視覚概念を誘導することによって識別する必要がある。
我々のベンチマークは、最初のBPのいくつかの概念を継承し、新しい2つの課題を追加している。
1)bongard-openworldの視覚概念は,オブジェクトのカテゴリから抽象的な視覚属性,常識的な事実知識まで,オープンボキャブラリから用語のユニークな構成である。
2) 実世界の画像は,多くの対数で使用される合成図と対照的である。
私たちの調査では、bongard-openworldはすでに、現在の少数ショット推論アルゴリズムに重大な課題を課しています。
さらに,最近導入されたLarge Language Models (LLMs) とVision-Language Models (VLMs) が,VLMを直接探索し,VLMとLLMを対話型推論方式で組み合わせることで,その課題をどの程度解決できるかについても検討する。
ボナード問題に対する人間の問題解決過程をエミュレートするために,LLMとVLMを論理的推論で再現する神経象徴的推論手法も考案した。
しかし、最良の学習者は64%の精度を達成し、人間の参加者は91%に到達し易いため、これらのアプローチはいずれも人間と機械のギャップを埋めるには至らなかった。
bongard-openworldは、現在の視覚知能の限界をより深く理解し、より強力な少数ショットの視覚推論能力を持つ視覚エージェントに関する将来の研究を促進するのに役立つことを願っている。 We introduce Bongard-OpenWorld, a new benchmark for evaluating real-world few-shot reasoning for machine vision. It originates from the classical Bongard Problems (BPs): Given two sets of images (positive and negative), the model needs to identify the set that query images belong to by inducing the visual concepts, which is exclusively depicted by images from the positive set. Our benchmark inherits the few-shot concept induction of the original BPs while adding the two novel layers of challenge: 1) open-world free-form concepts, as the visual concepts in Bongard-OpenWorld are unique compositions of terms from an open vocabulary, ranging from object categories to abstract visual attributes and commonsense factual knowledge; 2) real-world images, as opposed to the synthetic diagrams used by many counterparts. In our exploration, Bongard-OpenWorld already imposes a significant challenge to current few-shot reasoning algorithms. We further investigate to which extent the recently introduced Large Language Models (LLMs) and Vision-Language Models (VLMs) can solve our task, by directly probing VLMs, and combining VLMs and LLMs in an interactive reasoning scheme. We even conceived a neuro-symbolic reasoning approach that reconciles LLMs & VLMs with logical reasoning to emulate the human problem-solving process for Bongard Problems. However, none of these approaches manage to close the human-machine gap, as the best learner achieves 64% accuracy while human participants easily reach 91%. We hope Bongard-OpenWorld can help us better understand the limitations of current visual intelligence and facilitate future research on visual agents with stronger few-shot visual reasoning capabilities. | 翻訳日:2024-03-13 15:52:30 公開日:2024-03-12 |
# 事前学習型視覚言語モデルのマルチモーダルプロンプトの理解 Understanding the Multi-modal Prompts of the Pre-trained Vision-Language Model ( http://arxiv.org/abs/2312.11570v2 ) ライセンス: Link先を確認 | Shuailei Ma, Chen-Wei Xie, Ying Wei, Siyang Sun, Jiaqi Fan, Xiaoyi Bao, Yuxin Guo, Yun Zheng | (参考訳) プロンプト学習は、様々な下流タスクのためのCLIPなどの微調整基盤モデルの効率的な代替手段として登場した。
しかし,マルチモーダルプロンプトの動作メカニズムを包括的に説明する作業は行われていない。
本稿では,マルチモーダルプロンプトの直接分析を行い,以下の質問を行う。
(i)$ 学習したマルチモーダルプロンプトは認識性能を改善するか?
$
(ii)$マルチモーダルプロンプトは何を学ぶのか?
これらの質問に答えるために、各層における自己注意の計算にプロンプトが影響を及ぼす公式のコンポーネントを2つの異なる方法で分離することから始めます。
$(2)$ プロンプトはトークン埋め込みの更新中にバイアス項を学習し、モデルがターゲットドメインに適応できるようにする。
その後,11種類のダウンストリーム認識データセットを広範囲に可視化し,統計実験を行った。
実験結果から,学習が主に第2の方法で,データセットバイアスとして機能し,事前学習したモデルの認識性能を向上させることを明らかにする。
一方,我々は,発見を検証するためのバイアスチューニング手法を提案する。
マルチモーダルなプロンプトをより深く理解することで、私たちの研究が、この方向への新しい確固たる研究を刺激できることを願っています。 Prompt learning has emerged as an efficient alternative for fine-tuning foundational models, such as CLIP, for various downstream tasks. However, there is no work that provides a comprehensive explanation for the working mechanism of the multi-modal prompts. In this paper, we conduct a direct analysis of the multi-modal prompts by asking the following questions: $(i)$ How do the learned multi-modal prompts improve the recognition performance? $(ii)$ What do the multi-modal prompts learn? To answer these questions, we begin by isolating the component of the formula where the prompt influences the calculation of self-attention at each layer in two distinct ways, \ie, $(1)$ introducing prompt embeddings makes the $[cls]$ token focus on foreground objects. $(2)$ the prompts learn a bias term during the update of token embeddings, allowing the model to adapt to the target domain. Subsequently, we conduct extensive visualization and statistical experiments on the eleven diverse downstream recognition datasets. From the experiments, we reveal that the learned prompts improve the performance mainly through the second way, which acts as the dataset bias to improve the recognition performance of the pre-trained model on the corresponding dataset. Meanwhile, we propose the bias tuning way to validate our finding. With a deeper understanding of the multi-modal prompt, we hope our work can inspire new and solid research in this direction. | 翻訳日:2024-03-13 15:02:52 公開日:2024-03-12 |
# 事前学習型視覚言語モデルのマルチモーダルプロンプトの理解 Understanding the Multi-modal Prompts of the Pre-trained Vision-Language Model ( http://arxiv.org/abs/2312.11570v3 ) ライセンス: Link先を確認 | Shuailei Ma, Chen-Wei Xie, Ying Wei, Siyang Sun, Jiaqi Fan, Xiaoyi Bao, Yuxin Guo, Yun Zheng | (参考訳) プロンプト学習は、様々な下流タスクのためのCLIPなどの微調整基盤モデルの効率的な代替手段として登場した。
しかし,マルチモーダルプロンプトの動作メカニズムを包括的に説明する作業は行われていない。
本稿では,マルチモーダルプロンプトの直接分析を行い,以下の質問を行う。
(i)$ 学習したマルチモーダルプロンプトは認識性能を改善するか?
$
(ii)$マルチモーダルプロンプトは何を学ぶのか?
これらの質問に答えるために、各層における自己注意の計算にプロンプトが影響を及ぼす公式のコンポーネントを2つの異なる方法で分離することから始めます。
$(2)$ プロンプトはトークン埋め込みの更新中にバイアス項を学習し、モデルがターゲットドメインに適応できるようにする。
その後,11種類のダウンストリーム認識データセットを広範囲に可視化し,統計実験を行った。
実験結果から,学習が主に第2の方法で,データセットバイアスとして機能し,事前学習したモデルの認識性能を向上させることを明らかにする。
一方,我々は,発見を検証するためのバイアスチューニング手法を提案する。
マルチモーダルなプロンプトをより深く理解することで、私たちの研究が、この方向への新しい確固たる研究を刺激できることを願っています。 Prompt learning has emerged as an efficient alternative for fine-tuning foundational models, such as CLIP, for various downstream tasks. However, there is no work that provides a comprehensive explanation for the working mechanism of the multi-modal prompts. In this paper, we conduct a direct analysis of the multi-modal prompts by asking the following questions: $(i)$ How do the learned multi-modal prompts improve the recognition performance? $(ii)$ What do the multi-modal prompts learn? To answer these questions, we begin by isolating the component of the formula where the prompt influences the calculation of self-attention at each layer in two distinct ways, \ie, $(1)$ introducing prompt embeddings makes the $[cls]$ token focus on foreground objects. $(2)$ the prompts learn a bias term during the update of token embeddings, allowing the model to adapt to the target domain. Subsequently, we conduct extensive visualization and statistical experiments on the eleven diverse downstream recognition datasets. From the experiments, we reveal that the learned prompts improve the performance mainly through the second way, which acts as the dataset bias to improve the recognition performance of the pre-trained model on the corresponding dataset. Meanwhile, we propose the bias tuning way to validate our finding. With a deeper understanding of the multi-modal prompt, we hope our work can inspire new and solid research in this direction. | 翻訳日:2024-03-13 14:48:21 公開日:2024-03-12 |
# 第6回ABAWコンペティションにおける影響行動分析 The 6th Affective Behavior Analysis in-the-wild (ABAW) Competition ( http://arxiv.org/abs/2402.19344v2 ) ライセンス: Link先を確認 | Dimitrios Kollias and Panagiotis Tzirakis and Alan Cowen and Stefanos Zafeiriou and Irene Kotsia and Alice Baird and Chris Gagne and Chunchang Shao and Guanyu Hu | (参考訳) 本稿では,IEEE CVPR 2024と共同で開催されているワークショップの一環として,第6回ABAWコンペティションについて述べる。
第6回ABAWコンペティションは、人間の感情や行動を理解するための現代的課題に対処する。
より詳しくは、コンペティションは関連するベンチマークタスクにフォーカスし、5つのサブチャレンジから構成される。
一 原子価覚醒度推定(原子価及び覚醒の2つの連続的な影響度を推定すること。)
二 表現認識(七つの基本表現の相互排他類と「他」との認識を目標とする。)
三 行動単位の検出(十二の行動単位の検出を目標とする。)
四 複合表現認識(目的は、相互に排他的な複合表現のクラスを区別すること)及び
五 感情的模倣強度の推定(六つの連続的な感情次元を推定すること。)
本稿では,これらの課題を提示し,それぞれのデータセットと課題プロトコル(評価指標の概要)を記述し,ベースラインシステムと得られた性能を提示する。
コンペティションに関する詳細は、https://affective-behavior-analysis-in-the-wild.github.io/6th.com/を参照してください。 This paper describes the 6th Affective Behavior Analysis in-the-wild (ABAW) Competition, which is part of the respective Workshop held in conjunction with IEEE CVPR 2024. The 6th ABAW Competition addresses contemporary challenges in understanding human emotions and behaviors, crucial for the development of human-centered technologies. In more detail, the Competition focuses on affect related benchmarking tasks and comprises of five sub-challenges: i) Valence-Arousal Estimation (the target is to estimate two continuous affect dimensions, valence and arousal), ii) Expression Recognition (the target is to recognise between the mutually exclusive classes of the 7 basic expressions and 'other'), iii) Action Unit Detection (the target is to detect 12 action units), iv) Compound Expression Recognition (the target is to recognise between the 7 mutually exclusive compound expression classes), and v) Emotional Mimicry Intensity Estimation (the target is to estimate six continuous emotion dimensions). In the paper, we present these Challenges, describe their respective datasets and challenge protocols (we outline the evaluation metrics) and present the baseline systems as well as their obtained performance. More information for the Competition can be found in: https://affective-behavior-analysis-in-the-wild.github.io/6th. | 翻訳日:2024-03-13 13:53:15 公開日:2024-03-12 |
# MMSR:シンボリック回帰はマルチモーダルタスクである MMSR: Symbolic Regression is a Multimodal Task ( http://arxiv.org/abs/2402.18603v3 ) ライセンス: Link先を確認 | Yanjie Li, Jingyi Liu, Weijun Li, Lina Yu, Min Wu, Wenqiang Li, Meilan Hao, Su Wei, Yusong Deng | (参考訳) 数式とは、何千年もの間自然の法則を探求する人間の知恵の結晶化である。
複雑な自然法則を簡潔な数学的公式で記述することは、科学者の絶え間なく追求し、人工知能にとって大きな挑戦である。
この分野は記号回帰と呼ばれる。
記号回帰はもともと組合せ最適化問題として定式化され、gpと強化学習アルゴリズムがそれを解くために用いられた。
しかし、GPはハイパーパラメータに敏感であり、これらの2種類のアルゴリズムは非効率である。
この問題を解決するために、研究者はデータから表現へのマッピングを翻訳問題として扱う。
そして、対応する大規模事前訓練モデルを導入する。
しかし、データと表現の骨格は2言語ほど明確な単語対応を持っていない。
代わりに、それらはむしろ2つのモダリティ(例えば、画像とテキスト)のようなものです。
そこで本稿では,MMSRを提案する。
sr問題は純粋なマルチモーダル問題として解決され、後続のモーダル特徴融合を容易にするためにモーダルアライメントの訓練プロセスにもコントラスト学習が導入されている。
形態的特徴融合の促進を図るために,我々は,コントラスト的学習損失と他の損失を,一方的な学習のみを必要とするコントラスト的学習損失とを同時に訓練する戦略を採用することに留意すべきである。
私たちの実験では、トレーニングを組み合わせることで、機能抽出モジュールとフィーチャーフュージョンモジュールの実行性が向上します。
実験の結果,複数の大規模事前学習ベースラインと比較して,MMSRはSRBenchを含む複数の主流データセットにおいて最も高度な結果が得られることがわかった。 Mathematical formulas are the crystallization of human wisdom in exploring the laws of nature for thousands of years. Describing the complex laws of nature with a concise mathematical formula is a constant pursuit of scientists and a great challenge for artificial intelligence. This field is called symbolic regression. Symbolic regression was originally formulated as a combinatorial optimization problem, and GP and reinforcement learning algorithms were used to solve it. However, GP is sensitive to hyperparameters, and these two types of algorithms are inefficient. To solve this problem, researchers treat the mapping from data to expressions as a translation problem. And the corresponding large-scale pre-trained model is introduced. However, the data and expression skeletons do not have very clear word correspondences as the two languages do. Instead, they are more like two modalities (e.g., image and text). Therefore, in this paper, we proposed MMSR. The SR problem is solved as a pure multimodal problem, and contrastive learning is also introduced in the training process for modal alignment to facilitate later modal feature fusion. It is worth noting that in order to better promote the modal feature fusion, we adopt the strategy of training contrastive learning loss and other losses at the same time, which only needs one-step training, instead of training contrastive learning loss first and then training other losses. Because our experiments prove training together can make the feature extraction module and feature fusion module running-in better. Experimental results show that compared with multiple large-scale pre-training baselines, MMSR achieves the most advanced results on multiple mainstream datasets including SRBench. | 翻訳日:2024-03-13 13:50:35 公開日:2024-03-12 |
# MMSR:シンボリック回帰はマルチモーダルタスクである MMSR: Symbolic Regression is a Multimodal Task ( http://arxiv.org/abs/2402.18603v2 ) ライセンス: Link先を確認 | Yanjie Li, Jingyi Liu, Weijun Li, Lina Yu, Min Wu, Wenqiang Li, Meilan Hao, Su Wei, Yusong Deng | (参考訳) 数式とは、何千年もの間自然の法則を探求する人間の知恵の結晶化である。
複雑な自然法則を簡潔な数学的公式で記述することは、科学者の絶え間なく追求し、人工知能にとって大きな挑戦である。
この分野は記号回帰と呼ばれる。
記号回帰はもともと組合せ最適化問題として定式化され、gpと強化学習アルゴリズムがそれを解くために用いられた。
しかし、GPはハイパーパラメータに敏感であり、これらの2種類のアルゴリズムは非効率である。
この問題を解決するために、研究者はデータから表現へのマッピングを翻訳問題として扱う。
そして、対応する大規模事前訓練モデルを導入する。
しかし、データと表現の骨格は2言語ほど明確な単語対応を持っていない。
代わりに、それらはむしろ2つのモダリティ(例えば、画像とテキスト)のようなものです。
そこで本稿では,MMSRを提案する。
sr問題は純粋なマルチモーダル問題として解決され、後続のモーダル特徴融合を容易にするためにモーダルアライメントの訓練プロセスにもコントラスト学習が導入されている。
形態的特徴融合の促進を図るために,我々は,コントラスト的学習損失と他の損失を,一方的な学習のみを必要とするコントラスト的学習損失とを同時に訓練する戦略を採用することに留意すべきである。
私たちの実験では、トレーニングを組み合わせることで、機能抽出モジュールとフィーチャーフュージョンモジュールの実行性が向上します。
実験の結果,複数の大規模事前学習ベースラインと比較して,MMSRはSRBenchを含む複数の主流データセットにおいて最も高度な結果が得られることがわかった。 Mathematical formulas are the crystallization of human wisdom in exploring the laws of nature for thousands of years. Describing the complex laws of nature with a concise mathematical formula is a constant pursuit of scientists and a great challenge for artificial intelligence. This field is called symbolic regression. Symbolic regression was originally formulated as a combinatorial optimization problem, and GP and reinforcement learning algorithms were used to solve it. However, GP is sensitive to hyperparameters, and these two types of algorithms are inefficient. To solve this problem, researchers treat the mapping from data to expressions as a translation problem. And the corresponding large-scale pre-trained model is introduced. However, the data and expression skeletons do not have very clear word correspondences as the two languages do. Instead, they are more like two modalities (e.g., image and text). Therefore, in this paper, we proposed MMSR. The SR problem is solved as a pure multimodal problem, and contrastive learning is also introduced in the training process for modal alignment to facilitate later modal feature fusion. It is worth noting that in order to better promote the modal feature fusion, we adopt the strategy of training contrastive learning loss and other losses at the same time, which only needs one-step training, instead of training contrastive learning loss first and then training other losses. Because our experiments prove training together can make the feature extraction module and feature fusion module running-in better. Experimental results show that compared with multiple large-scale pre-training baselines, MMSR achieves the most advanced results on multiple mainstream datasets including SRBench. | 翻訳日:2024-03-13 13:50:10 公開日:2024-03-12 |
# 第6回ABAWコンペティションにおける影響行動分析 The 6th Affective Behavior Analysis in-the-wild (ABAW) Competition ( http://arxiv.org/abs/2402.19344v3 ) ライセンス: Link先を確認 | Dimitrios Kollias and Panagiotis Tzirakis and Alan Cowen and Stefanos Zafeiriou and Irene Kotsia and Alice Baird and Chris Gagne and Chunchang Shao and Guanyu Hu | (参考訳) 本稿では,IEEE CVPR 2024と共同で開催されているワークショップの一環として,第6回ABAWコンペティションについて述べる。
第6回ABAWコンペティションは、人間の感情や行動を理解するための現代的課題に対処する。
より詳しくは、コンペティションは関連するベンチマークタスクにフォーカスし、5つのサブチャレンジから構成される。
一 原子価覚醒度推定(原子価及び覚醒の2つの連続的な影響度を推定すること。)
二 表現認識(七つの基本表現の相互排他類と「他」との認識を目標とする。)
三 行動単位の検出(十二の行動単位の検出を目標とする。)
四 複合表現認識(目的は、相互に排他的な複合表現のクラスを区別すること)及び
五 感情的模倣強度の推定(六つの連続的な感情次元を推定すること。)
本稿では,これらの課題を提示し,それぞれのデータセットと課題プロトコル(評価指標の概要)を記述し,ベースラインシステムと得られた性能を提示する。
コンペティションに関する詳細は、https://affective-behavior-analysis-in-the-wild.github.io/6th.com/を参照してください。 This paper describes the 6th Affective Behavior Analysis in-the-wild (ABAW) Competition, which is part of the respective Workshop held in conjunction with IEEE CVPR 2024. The 6th ABAW Competition addresses contemporary challenges in understanding human emotions and behaviors, crucial for the development of human-centered technologies. In more detail, the Competition focuses on affect related benchmarking tasks and comprises of five sub-challenges: i) Valence-Arousal Estimation (the target is to estimate two continuous affect dimensions, valence and arousal), ii) Expression Recognition (the target is to recognise between the mutually exclusive classes of the 7 basic expressions and 'other'), iii) Action Unit Detection (the target is to detect 12 action units), iv) Compound Expression Recognition (the target is to recognise between the 7 mutually exclusive compound expression classes), and v) Emotional Mimicry Intensity Estimation (the target is to estimate six continuous emotion dimensions). In the paper, we present these Challenges, describe their respective datasets and challenge protocols (we outline the evaluation metrics) and present the baseline systems as well as their obtained performance. More information for the Competition can be found in: https://affective-behavior-analysis-in-the-wild.github.io/6th. | 翻訳日:2024-03-13 13:38:31 公開日:2024-03-12 |
# 非ユニタリな力学進化の量子化シミュレーションのための変分アンサッツの設計 -dicke supperradianceへの展開- Designing variational ansatz for quantum-enabled simulation of non-unitary dynamical evolution -- an excursion into Dicke supperradiance ( http://arxiv.org/abs/2403.04653v2 ) ライセンス: Link先を確認 | Saurabh Shivpuje, Manas Sajjan, Yuchen Wang, Zixuan Hu and Sabre Kais | (参考訳) Adaptive Variational Quantum Dynamics (AVQD)アルゴリズムは、オープン量子力学進化のパービュー内で処理されたシステムに対して量子可能なソリューションを提供するための有望なアプローチを提供する。
本研究では、AVQDの非制限ベクトル化変種を用いて、様々な非単位進化系をシミュレートし、ベンチマークする。
我々は、FMO(Fenna Matthews Olson complex)や量子光学の置換不変ディックモデル(Dicke model of quantum optics)などの例を分析するために、表現可能なアンザッツユニタリと関連する作用素プールの構成をどのように実装できるかを例示する。
さらに,ansatzの効率的な分解手法を示し,その応用範囲を近い将来,他の広い範囲の量子システムシナリオにも拡張する。
いずれの場合においても、この手法の有効性を高める正確な数値計算と良好に一致している。
私たちの成功例は、光収穫装置や熱、オプト・メカニカルスイッチなど、化学や物理学の複雑なシステムを研究するために、この適応的な変奏法を活用するための道を開いたものです。 Adaptive Variational Quantum Dynamics (AVQD) algorithms offer a promising approach to providing quantum-enabled solutions for systems treated within the purview of open quantum dynamical evolution. In this study, we employ the unrestricted vectorization variant of AVQD to simulate and benchmark various non-unitarily evolving systems. We exemplify how construction of an expressible ansatz unitary and the associated operator pool can be implemented to analyze examples such as the Fenna Matthews Olson complex (FMO) and even the permutational invariant Dicke model of quantum optics. We furthermore show an efficient decomposition scheme for the ansatz used, which can extend its applications to a wide range of other open quantum system scenarios in near future. In all cases the results obtained are in excellent agreement with exact numerical computations which bolsters the effectiveness of this technique. Our successful demonstrations pave the way for utilizing this adaptive variational technique to study complex systems in chemistry and physics, like light harvesting devices, thermal, and opto mechanical switches, to name a few. | 翻訳日:2024-03-13 13:33:07 公開日:2024-03-12 |
# 自己教師付き学習複雑性の低減は、計算病理学における弱い教師付き分類性能を改善する Reducing self-supervised learning complexity improves weakly-supervised classification performance in computational pathology ( http://arxiv.org/abs/2403.04558v2 ) ライセンス: Link先を確認 | Tim Lenz, Omar S. M. El Nahhas, Marta Ligero, Jakob Nikolas Kather | (参考訳) 深層学習モデルは、日常的に利用可能な組織学的データから臨床的に実行可能な洞察を抽出することに成功している。
一般的にこれらのモデルは、作成が困難で費用がかかる臨床医のアノテーションを必要とする。
自己教師付き学習(SSL)メソッドの出現は、この障壁を排除し、非注釈データに対する大規模な分析を可能にする。
しかし、最近のSSLアプローチは、ますます拡大するモデルアーキテクチャとより大きなデータセットを適用し、データボリューム、ハードウェアの前提条件、全体的なコストの急激なエスカレーションを引き起こし、これらのリソースへのアクセスを少数の機関に制限している。
そこで,計算病理学におけるコントラッシブSSLの複雑性を,コンシューマグレードハードウェアの利用による分類性能との関連で検討した。
具体的には,データ量,アーキテクチャ,アルゴリズムの適応が下流分類タスクに与える影響を分析し,計算資源への影響を強調した。
乳がんファンデーションのモデルを大規模患者コホートで訓練し, 2つの外部患者コホートに対して, 下位分類課題を弱監督的に検証した。
実験により,SSLトレーニング期間を90%短縮しつつ,下流分類性能を向上できることが実証された。
要約して,非資源環境における計算病理学におけるSSLの利用を可能にする適応セットを提案する。 Deep Learning models have been successfully utilized to extract clinically actionable insights from routinely available histology data. Generally, these models require annotations performed by clinicians, which are scarce and costly to generate. The emergence of self-supervised learning (SSL) methods remove this barrier, allowing for large-scale analyses on non-annotated data. However, recent SSL approaches apply increasingly expansive model architectures and larger datasets, causing the rapid escalation of data volumes, hardware prerequisites, and overall expenses, limiting access to these resources to few institutions. Therefore, we investigated the complexity of contrastive SSL in computational pathology in relation to classification performance with the utilization of consumer-grade hardware. Specifically, we analyzed the effects of adaptations in data volume, architecture, and algorithms on downstream classification tasks, emphasizing their impact on computational resources. We trained breast cancer foundation models on a large public patient cohort and validated them on various downstream classification tasks in a weakly supervised manner on two external public patient cohorts. Our experiments demonstrate that we can improve downstream classification performance whilst reducing SSL training duration by 90%. In summary, we propose a set of adaptations which enable the utilization of SSL in computational pathology in non-resource abundant environments. | 翻訳日:2024-03-13 13:32:42 公開日:2024-03-12 |
# 分散・等価最適輸送 Decentralized and Equitable Optimal Transport ( http://arxiv.org/abs/2403.04259v2 ) ライセンス: Link先を確認 | Ivan Lau, Shiqian Ma, C\'esar A. Uribe | (参考訳) 本稿では,分散(離散)最適輸送(d-ot)問題を検討する。
この設定において、エージェントのネットワークは、費用関数が各エージェントのプライベート保持コストの合計である輸送計画の設計を共同で行おうとする。
制約結合最適化問題としてD-OT問題を再構成し,O(1/{\epsilon})の反復複雑性を持つ単一ループ分散アルゴリズムを提案する。
さらに,分散等方的最適輸送(DE-OT)問題を提案する。
DE-OTでは、輸送コストを最小限に抑える交通計画の協調設計に加えて、エージェントは個々のコストの公平性を確保する。
de-ot を解くための提案手法の反復複雑性も o(1/{\epsilon}) である。
このレートは既存の集中型アルゴリズムを改善し、最良の反復複雑性はo(1/{\epsilon}^2)である。 This paper considers the decentralized (discrete) optimal transport (D-OT) problem. In this setting, a network of agents seeks to design a transportation plan jointly, where the cost function is the sum of privately held costs for each agent. We reformulate the D-OT problem as a constraint-coupled optimization problem and propose a single-loop decentralized algorithm with an iteration complexity of O(1/{\epsilon}) that matches existing centralized first-order approaches. Moreover, we propose the decentralized equitable optimal transport (DE-OT) problem. In DE-OT, in addition to cooperatively designing a transportation plan that minimizes transportation costs, agents seek to ensure equity in their individual costs. The iteration complexity of the proposed method to solve DE-OT is also O(1/{\epsilon}). This rate improves existing centralized algorithms, where the best iteration complexity obtained is O(1/{\epsilon}^2). | 翻訳日:2024-03-13 13:32:04 公開日:2024-03-12 |
# 『学習する対話』:対話内学習による事前定義プロファイルのない個人化対話を目指して "In Dialogues We Learn": Towards Personalized Dialogue Without Pre-defined Profiles through In-Dialogue Learning ( http://arxiv.org/abs/2403.03102v3 ) ライセンス: Link先を確認 | Chuanqi Cheng, Quan Tu, Wei Wu, Shuo Shang, Cunli Mao, Zhengtao Yu, Rui Yan | (参考訳) 近年,パーソナライズされた対話システムは,異なるペルソナに合わせて応答を生成できることから注目されている。
しかし、既存のアプローチのほとんどは事前に定義された個人プロフィールに依存しており、これは作成に時間と労力がかかるだけでなく、柔軟性も欠いている。
In-Dialogue Learning (IDL) は,対話履歴を活用でき,個人化された対話生成タスクを事前に定義せずにパーソナライズするためにペルソナを特徴付けることができる。
3つのデータセットに対する実験により,IDLはBLEUとROUGEのスコアを最大200%,ROUGEは247%向上した。
また,人間評価の結果から,提案手法の有効性がさらに検証された。 Personalized dialogue systems have gained significant attention in recent years for their ability to generate responses in alignment with different personas. However, most existing approaches rely on pre-defined personal profiles, which are not only time-consuming and labor-intensive to create but also lack flexibility. We propose In-Dialogue Learning (IDL), a fine-tuning framework that enhances the ability of pre-trained large language models to leverage dialogue history to characterize persona for completing personalized dialogue generation tasks without pre-defined profiles. Our experiments on three datasets demonstrate that IDL brings substantial improvements, with BLEU and ROUGE scores increasing by up to 200% and 247%, respectively. Additionally, the results of human evaluations further validate the efficacy of our proposed method. | 翻訳日:2024-03-13 13:29:32 公開日:2024-03-12 |
# 『学習する対話』:対話内学習による事前定義プロファイルのない個人化対話を目指して "In Dialogues We Learn": Towards Personalized Dialogue Without Pre-defined Profiles through In-Dialogue Learning ( http://arxiv.org/abs/2403.03102v2 ) ライセンス: Link先を確認 | Chuanqi Cheng, Quan Tu, Wei Wu, Shuo Shang, Cunli Mao, Zhengtao Yu, Rui Yan | (参考訳) 近年,パーソナライズされた対話システムは,異なるペルソナに合わせて応答を生成できることから注目されている。
しかし、既存のアプローチのほとんどは事前に定義された個人プロフィールに依存しており、これは作成に時間と労力がかかるだけでなく、柔軟性も欠いている。
In-Dialogue Learning (IDL) は,対話履歴を活用でき,個人化された対話生成タスクを事前に定義せずにパーソナライズするためにペルソナを特徴付けることができる。
3つのデータセットに対する実験により,IDLはBLEUとROUGEのスコアを最大200%,ROUGEは247%向上した。
また,人間評価の結果から,提案手法の有効性がさらに検証された。 Personalized dialogue systems have gained significant attention in recent years for their ability to generate responses in alignment with different personas. However, most existing approaches rely on pre-defined personal profiles, which are not only time-consuming and labor-intensive to create but also lack flexibility. We propose In-Dialogue Learning (IDL), a fine-tuning framework that enhances the ability of pre-trained large language models to leverage dialogue history to characterize persona for completing personalized dialogue generation tasks without pre-defined profiles. Our experiments on three datasets demonstrate that IDL brings substantial improvements, with BLEU and ROUGE scores increasing by up to 200% and 247%, respectively. Additionally, the results of human evaluations further validate the efficacy of our proposed method. | 翻訳日:2024-03-13 13:29:13 公開日:2024-03-12 |
# 損失の切り替えはバッチ強化学習のコストを削減する Switching the Loss Reduces the Cost in Batch Reinforcement Learning ( http://arxiv.org/abs/2403.05385v2 ) ライセンス: Link先を確認 | Alex Ayoub, Kaiwen Wang, Vincent Liu, Samuel Robertson, James McInerney, Dawen Liang, Nathan Kallus, and Csaba Szepesv\'ari | (参考訳) バッチ強化学習(RL)のためのログロス付きQ-定位学習(FQI-LOG)を提案する。
本稿では,FQI-LOGによる準最適政策の学習に必要なサンプルの数が最適政策の累積コストと一致していることを示す。
そのような場合、バッチ RL で $\textit{small-cost}$ bounds, すなわち、最適な達成可能なコストでスケールするバウンドを証明するための一般的なフレームワークを提供する。
さらに,FQI-LOGが目標を確実に達成する問題に対して,2乗損失を訓練したFQIよりも少ないサンプルを用いていることを実証的に検証した。 We propose training fitted Q-iteration with log-loss (FQI-LOG) for batch reinforcement learning (RL). We show that the number of samples needed to learn a near-optimal policy with FQI-LOG scales with the accumulated cost of the optimal policy, which is zero in problems where acting optimally achieves the goal and incurs no cost. In doing so, we provide a general framework for proving $\textit{small-cost}$ bounds, i.e. bounds that scale with the optimal achievable cost, in batch RL. Moreover, we empirically verify that FQI-LOG uses fewer samples than FQI trained with squared loss on problems where the optimal policy reliably achieves the goal. | 翻訳日:2024-03-13 13:22:59 公開日:2024-03-12 |
# セマンティクスセグメンテーションのための周波数適応拡張畳み込み Frequency-Adaptive Dilated Convolution for Semantic Segmentation ( http://arxiv.org/abs/2403.05369v2 ) ライセンス: Link先を確認 | Linwei Chen, Lin Gu, Ying Fu | (参考訳) 連続する要素間のギャップを挿入することによって受容場を広げる拡張畳み込みは、コンピュータビジョンにおいて広く用いられている。
本研究では,スペクトル分析の観点から,拡張畳み込みの個々の位相を改善するための3つの戦略を提案する。
グローバルディレーションレートをハイパーパラメータとして固定する従来の手法とは別に,周波数適応型ディレイト・コンボリューション(FADC, Frequency-Adaptive Dilated Convolution)を導入する。
その後、有効帯域幅と受容フィールドサイズを直接拡張する2つのプラグインモジュールを設計する。
Adaptive Kernel (AdaKern) モジュールは、畳み込み重みを低周波および高周波成分に分解し、チャネル単位でこれらの成分間の比を動的に調整する。
畳み込み重みの高周波部分を増やすことで、AdaKernはより多くの高周波成分を捕捉し、有効帯域幅を改善する。
周波数選択(freqselect)モジュールは、空間的に変化する再重み付けを通じて、特徴表現における高周波数および低周波数成分を最適にバランスさせる。
背景の高周波数を抑え、FADCにより大きな拡張学習を促すことにより、拡張されたスコープに対する受容野を増加させる。
セグメンテーションと物体検出に関する広範囲な実験は,提案手法の有効性を一貫して検証している。
コードは \url{https://github.com/Linwei-Chen/FADC} で公開されている。 Dilated convolution, which expands the receptive field by inserting gaps between its consecutive elements, is widely employed in computer vision. In this study, we propose three strategies to improve individual phases of dilated convolution from the view of spectrum analysis. Departing from the conventional practice of fixing a global dilation rate as a hyperparameter, we introduce Frequency-Adaptive Dilated Convolution (FADC), which dynamically adjusts dilation rates spatially based on local frequency components. Subsequently, we design two plug-in modules to directly enhance effective bandwidth and receptive field size. The Adaptive Kernel (AdaKern) module decomposes convolution weights into low-frequency and high-frequency components, dynamically adjusting the ratio between these components on a per-channel basis. By increasing the high-frequency part of convolution weights, AdaKern captures more high-frequency components, thereby improving effective bandwidth. The Frequency Selection (FreqSelect) module optimally balances high- and low-frequency components in feature representations through spatially variant reweighting. It suppresses high frequencies in the background to encourage FADC to learn a larger dilation, thereby increasing the receptive field for an expanded scope. Extensive experiments on segmentation and object detection consistently validate the efficacy of our approach. The code is publicly available at \url{https://github.com/Linwei-Chen/FADC}. | 翻訳日:2024-03-13 13:22:46 公開日:2024-03-12 |
# ChatASU:LLMの反射を真に理解するための対話 ChatASU: Evoking LLM's Reflexion to Truly Understand Aspect Sentiment in Dialogues ( http://arxiv.org/abs/2403.05326v2 ) ライセンス: Link先を確認 | Yiding Liu and Jingjing Wang and Jiamin Luo and Tao Zeng and Guodong Zhou | (参考訳) 対話型シナリオ(例えば質問応答や対話)におけるアスペクト感情理解(asu)は近年ますます関心を集め、重要な進歩を遂げている。
しかしながら、対話型ASUに関する既存の研究は、意見目標(つまりアスペクト)のコア参照問題をほとんど無視しているが、この現象は対話型シナリオ、特に対話型シナリオにおいて広く見られ、ASUのパフォーマンスを制限している。
近年,大規模言語モデル (LLM) は,様々なNLPタスクをチャットパラダイムに統合する強力な能力を示している。
そこで本稿では,対話シナリオにおけるアスペクト感情を理解するLLMの能力を探究する,Chat-based Aspect Sentiment Understanding (ChatASU)タスクを提案する。
特に、このChatASUタスクはアスペクトコア参照問題に対処するためにサブタスク、すなわちアスペクトチェイン推論(ACR)タスクを導入する。
そこで我々は,ChatASUのバックボーンとしてChatGLMを用いた信頼自己回帰アプローチ(TSA)を提案する。
特に、このtsaは、acrタスクを主 asuタスクの性能を高める補助タスクとして扱い、さらに、信頼された学習を反射機構に統合し、tsaにおけるllms-intrinsic factual hallucination問題を軽減する。
さらに,高品質なChatASUデータセットをアノテートしてTSAを評価することで,提案したTSAは,ChatASUに対するTSAの有効性を正当化し,ChatASUのコアと幻覚の問題を考慮し,最先端のベースラインを著しく上回ることを示す。 Aspect Sentiment Understanding (ASU) in interactive scenarios (e.g., Question-Answering and Dialogue) has attracted ever-more interest in recent years and achieved important progresses. However, existing studies on interactive ASU largely ignore the coreference issue for opinion targets (i.e., aspects), while this phenomenon is ubiquitous in interactive scenarios especially dialogues, limiting the ASU performance. Recently, large language models (LLMs) shows the powerful ability to integrate various NLP tasks with the chat paradigm. In this way, this paper proposes a new Chat-based Aspect Sentiment Understanding (ChatASU) task, aiming to explore LLMs' ability in understanding aspect sentiments in dialogue scenarios. Particularly, this ChatASU task introduces a sub-task, i.e., Aspect Chain Reasoning (ACR) task, to address the aspect coreference issue. On this basis, we propose a Trusted Self-reflexion Approach (TSA) with ChatGLM as backbone to ChatASU. Specifically, this TSA treats the ACR task as an auxiliary task to boost the performance of the primary ASU task, and further integrates trusted learning into reflexion mechanisms to alleviate the LLMs-intrinsic factual hallucination problem in TSA. Furthermore, a high-quality ChatASU dataset is annotated to evaluate TSA, and extensive experiments show that our proposed TSA can significantly outperform several state-of-the-art baselines, justifying the effectiveness of TSA to ChatASU and the importance of considering the coreference and hallucination issues in ChatASU. | 翻訳日:2024-03-13 13:22:22 公開日:2024-03-12 |
# 量子完全グラフニューラルネットワークによるジェット識別 Jet Discrimination with Quantum Complete Graph Neural Network ( http://arxiv.org/abs/2403.04990v2 ) ライセンス: Link先を確認 | Yi-An Chen, Kai-Feng Chen | (参考訳) 機械学習、特にディープニューラルネットワークは、高エネルギー物理学で広く利用されており、様々な応用で顕著な結果を示している。
さらに、機械学習の概念が量子コンピュータに拡張され、量子機械学習として知られる新しい研究領域が生まれた。
本稿では,完全グラフを学習するための新しい変分量子回路モデルquantum complete graph neural network (qcgnn)を提案する。
量子並列性の性質から,QCGNNは古典的手法に対して多項式の高速化を行う。
本稿では,QCGNNの適用について,ジェットを完全グラフで表現する難解なジェット判別を用いて検討する。
その後,従来のグラフニューラルネットワークとの比較分析を行い,ベンチマークを確立させる。 Machine learning, particularly deep neural networks, has been widely utilized in high energy physics and has shown remarkable results in various applications. Moreover, the concept of machine learning has been extended to quantum computers, giving rise to a new research area known as quantum machine learning. In this paper, we propose a novel variational quantum circuit model, Quantum Complete Graph Neural Network (QCGNN), designed for learning complete graphs. We argue that QCGNN has a polynomial speedup against its classical counterpart, due to the property of quantum parallelism. In this paper, we study the application of QCGNN through the challenging jet discrimination, where the jets are represented with complete graphs. Subsequently, we conduct a comparative analysis with classical graph neural networks to establish a benchmark. | 翻訳日:2024-03-13 13:20:14 公開日:2024-03-12 |
# 損失の切り替えはバッチ強化学習のコストを削減する Switching the Loss Reduces the Cost in Batch Reinforcement Learning ( http://arxiv.org/abs/2403.05385v3 ) ライセンス: Link先を確認 | Alex Ayoub, Kaiwen Wang, Vincent Liu, Samuel Robertson, James McInerney, Dawen Liang, Nathan Kallus, and Csaba Szepesv\'ari | (参考訳) バッチ強化学習(RL)のためのログロス付きQ-定位学習(FQI-LOG)を提案する。
本稿では,FQI-LOGによる準最適政策の学習に必要なサンプルの数が最適政策の累積コストと一致していることを示す。
そのような場合、バッチ RL で $\textit{small-cost}$ bounds, すなわち、最適な達成可能なコストでスケールするバウンドを証明するための一般的なフレームワークを提供する。
さらに,FQI-LOGが目標を確実に達成する問題に対して,2乗損失を訓練したFQIよりも少ないサンプルを用いていることを実証的に検証した。 We propose training fitted Q-iteration with log-loss (FQI-LOG) for batch reinforcement learning (RL). We show that the number of samples needed to learn a near-optimal policy with FQI-LOG scales with the accumulated cost of the optimal policy, which is zero in problems where acting optimally achieves the goal and incurs no cost. In doing so, we provide a general framework for proving $\textit{small-cost}$ bounds, i.e. bounds that scale with the optimal achievable cost, in batch RL. Moreover, we empirically verify that FQI-LOG uses fewer samples than FQI trained with squared loss on problems where the optimal policy reliably achieves the goal. | 翻訳日:2024-03-13 13:08:09 公開日:2024-03-12 |
# 音声信号を超音波舌画像データに変換する音声テキスト拡散モデル An Audio-textual Diffusion Model For Converting Speech Signals Into Ultrasound Tongue Imaging Data ( http://arxiv.org/abs/2403.05820v2 ) ライセンス: Link先を確認 | Yudong Yang, Rongfeng Su, Xiaokang Liu, Nan Yan, and Lan Wang | (参考訳) aai(a acoustic-to-articulatory inversion)は、超音波舌画像(uti)データなどの音声を調音運動に変換する。
既存のAAI手法の問題点は、パーソナライズされた音響情報のみを用いて舌の動きの一般的なパターンを導出することであり、それによって生成されたUTIデータの質は制限される。
そこで本研究では, utiデータ生成タスクのための音声・テキスト拡散モデルを提案する。
本モデルでは,舌運動の詳細に関連する個体の固有音響特性をwav2vec 2.0を用いて符号化し,舌運動の普遍性に関連するASR転写をBERTを用いて符号化する。
UTIデータは拡散モジュールを用いて生成される。
実験の結果, 提案する拡散モデルは, 言語解析および臨床評価に不可欠な明瞭な舌輪郭を持つ高品質なuciデータを生成することができた。
このプロジェクトは、webサイト\footnote{https://yangyudong2020.github.io/wav2uti/で見ることができる。 Acoustic-to-articulatory inversion (AAI) is to convert audio into articulator movements, such as ultrasound tongue imaging (UTI) data. An issue of existing AAI methods is only using the personalized acoustic information to derive the general patterns of tongue motions, and thus the quality of generated UTI data is limited. To address this issue, this paper proposes an audio-textual diffusion model for the UTI data generation task. In this model, the inherent acoustic characteristics of individuals related to the tongue motion details are encoded by using wav2vec 2.0, while the ASR transcriptions related to the universality of tongue motions are encoded by using BERT. UTI data are then generated by using a diffusion module. Experimental results showed that the proposed diffusion model could generate high-quality UTI data with clear tongue contour that is crucial for the linguistic analysis and clinical assessment. The project can be found on the website\footnote{https://yangyudong2020.github.io/wav2uti/ | 翻訳日:2024-03-13 12:13:50 公開日:2024-03-12 |
# 音声信号を超音波舌画像データに変換する音声テキスト拡散モデル An Audio-textual Diffusion Model For Converting Speech Signals Into Ultrasound Tongue Imaging Data ( http://arxiv.org/abs/2403.05820v1 ) ライセンス: Link先を確認 | Yudong Yang, Rongfeng Su, Xiaokang Liu, Nan Yan, and Lan Wang | (参考訳) aai(a acoustic-to-articulatory inversion)は、超音波舌画像(uti)データなどの音声を調音運動に変換する。
既存のAAI手法の問題点は、パーソナライズされた音響情報のみを用いて舌の動きの一般的なパターンを導出することであり、それによって生成されたUTIデータの質は制限される。
そこで本研究では, utiデータ生成タスクのための音声・テキスト拡散モデルを提案する。
本モデルでは,舌運動の詳細に関連する個体の固有音響特性をwav2vec 2.0を用いて符号化し,舌運動の普遍性に関連するASR転写をBERTを用いて符号化する。
UTIデータは拡散モジュールを用いて生成される。
実験の結果, 提案する拡散モデルは, 言語解析および臨床評価に不可欠な明瞭な舌輪郭を持つ高品質なuciデータを生成することができた。
このプロジェクトは、webサイト\footnote{https://yangyudong2020.github.io/wav2uti/で見ることができる。 Acoustic-to-articulatory inversion (AAI) is to convert audio into articulator movements, such as ultrasound tongue imaging (UTI) data. An issue of existing AAI methods is only using the personalized acoustic information to derive the general patterns of tongue motions, and thus the quality of generated UTI data is limited. To address this issue, this paper proposes an audio-textual diffusion model for the UTI data generation task. In this model, the inherent acoustic characteristics of individuals related to the tongue motion details are encoded by using wav2vec 2.0, while the ASR transcriptions related to the universality of tongue motions are encoded by using BERT. UTI data are then generated by using a diffusion module. Experimental results showed that the proposed diffusion model could generate high-quality UTI data with clear tongue contour that is crucial for the linguistic analysis and clinical assessment. The project can be found on the website\footnote{https://yangyudong2020.github.io/wav2uti/ | 翻訳日:2024-03-13 12:13:32 公開日:2024-03-12 |
# PR-NET:前立腺癌患者の病態予測のためのパスウェイ改良ネットワーク構造 PR-NET: Leveraging Pathway Refined Network Structures for Prostate Cancer Patient Condition Prediction ( http://arxiv.org/abs/2403.05818v2 ) ライセンス: Link先を確認 | R. Li, J. Liu, X.L. Deng, X. Liu, J.C. Guo, W.Y. Wu, L. Yang | (参考訳) カストレート耐性前立腺癌(crpc)の診断とモニタリングは癌患者にとって重要であるが、現在のモデル(p-netなど)はパラメータ数、一般化、コストの面で制限がある。
そこで本研究では,より正確かつ効率的な前立腺癌患者状態予測モデルpr-netを開発した。
P-NETのネットワーク構造を圧縮し最適化することにより、精度と解釈可能性を維持しつつ、モデルの複雑さを低減できる。
PR-NETは前立腺癌患者の予後を予測するのに優れた性能を示し、P-NETおよび他の6つの伝統的なモデルに顕著な差が認められた。
厳密な評価では,PR-NET は AUC と Recall のスコアが 0.94 と 0.83 であるだけでなく,P-NET の 0.68 と 0.72 に対して,平均 AUC と Recall のスコアが 0.73 と 0.72 の5つの未知のデータセットに対して頑健な一般化性を維持した。
PR-NETの効率は、平均的なトレーニングと推論時間によって証明され、その遺伝子レベルでの解析により46のキー遺伝子が明らかとなり、前立腺癌に対する重要なバイオマーカーを特定するための予測力と効率が向上した。
将来の研究は、アプリケーションドメインをさらに拡張し、モデルの性能と信頼性を最適化する。 The diagnosis and monitoring of Castrate Resistant Prostate Cancer (CRPC) are crucial for cancer patients, but the current models (such as P-NET) have limitations in terms of parameter count, generalization, and cost. To address the issue, we develop a more accurate and efficient Prostate Cancer patient condition prediction model, named PR-NET. By compressing and optimizing the network structure of P-NET, the model complexity is reduced while maintaining high accuracy and interpretability. The PR-NET demonstrated superior performance in predicting prostate cancer patient outcomes, outshining P-NET and six other traditional models with a significant margin. In our rigorous evaluation, PR-NET not only achieved impressive average AUC and Recall scores of 0.94 and 0.83, respectively, on known data but also maintained robust generalizability on five unknown datasets with a higher average AUC of 0.73 and Recall of 0.72, compared to P-NET's 0.68 and 0.5. PR-NET's efficiency was evidenced by its shorter average training and inference times, and its gene-level analysis revealed 46 key genes, demonstrating its enhanced predictive power and efficiency in identifying critical biomarkers for prostate cancer. Future research can further expand its application domains and optimize the model's performance and reliability. | 翻訳日:2024-03-13 12:13:14 公開日:2024-03-12 |
# PR-NET:前立腺癌患者の病態予測のためのパスウェイ改良ネットワーク構造 PR-NET: Leveraging Pathway Refined Network Structures for Prostate Cancer Patient Condition Prediction ( http://arxiv.org/abs/2403.05818v1 ) ライセンス: Link先を確認 | R. Li, J. Liu, X.L. Deng, X. Liu, J.C. Guo, W.Y. Wu, L. Yang | (参考訳) カストレート耐性前立腺癌(crpc)の診断とモニタリングは癌患者にとって重要であるが、現在のモデル(p-netなど)はパラメータ数、一般化、コストの面で制限がある。
そこで本研究では,より正確かつ効率的な前立腺癌患者状態予測モデルpr-netを開発した。
P-NETのネットワーク構造を圧縮し最適化することにより、精度と解釈可能性を維持しつつ、モデルの複雑さを低減できる。
PR-NETは前立腺癌患者の予後を予測するのに優れた性能を示し、P-NETおよび他の6つの伝統的なモデルに顕著な差が認められた。
厳密な評価では,PR-NET は AUC と Recall のスコアが 0.94 と 0.83 であるだけでなく,P-NET の 0.68 と 0.72 に対して,平均 AUC と Recall のスコアが 0.73 と 0.72 の5つの未知のデータセットに対して頑健な一般化性を維持した。
PR-NETの効率は、平均的なトレーニングと推論時間によって証明され、その遺伝子レベルでの解析により46のキー遺伝子が明らかとなり、前立腺癌に対する重要なバイオマーカーを特定するための予測力と効率が向上した。
将来の研究は、アプリケーションドメインをさらに拡張し、モデルの性能と信頼性を最適化する。 The diagnosis and monitoring of Castrate Resistant Prostate Cancer (CRPC) are crucial for cancer patients, but the current models (such as P-NET) have limitations in terms of parameter count, generalization, and cost. To address the issue, we develop a more accurate and efficient Prostate Cancer patient condition prediction model, named PR-NET. By compressing and optimizing the network structure of P-NET, the model complexity is reduced while maintaining high accuracy and interpretability. The PR-NET demonstrated superior performance in predicting prostate cancer patient outcomes, outshining P-NET and six other traditional models with a significant margin. In our rigorous evaluation, PR-NET not only achieved impressive average AUC and Recall scores of 0.94 and 0.83, respectively, on known data but also maintained robust generalizability on five unknown datasets with a higher average AUC of 0.73 and Recall of 0.72, compared to P-NET's 0.68 and 0.5. PR-NET's efficiency was evidenced by its shorter average training and inference times, and its gene-level analysis revealed 46 key genes, demonstrating its enhanced predictive power and efficiency in identifying critical biomarkers for prostate cancer. Future research can further expand its application domains and optimize the model's performance and reliability. | 翻訳日:2024-03-13 12:12:45 公開日:2024-03-12 |
# LTGC:LLMによる生成コンテンツの活用による長距離認識 LTGC: Long-tail Recognition via Leveraging LLMs-driven Generated Content ( http://arxiv.org/abs/2403.05854v2 ) ライセンス: Link先を確認 | Qihao Zhao, Yalun Dai, Hao Li, Wei Hu, Fan Zhang, Jun Liu | (参考訳) ロングテール認識は、モデルがテールカテゴリから良い表現を学び、すべてのカテゴリにわたる不均衡に対処する必要があるため、難しい。
本稿では,生成コンテンツを利用した長期認識のための新しい生成・微調整フレームワークLTGCを提案する。
まず、大規模なモデル(例えば、大言語モデル、llms)の豊富な暗黙の知識に触発されて、ltgcはこれらのモデルの力を利用して、元の尾データを分析して推論し、多様な尾クラスコンテンツを生成する。
そこで我々は,生成したデータの品質を保証し,生成したデータとオリジナルデータの両方を用いてモデルを効率よく微調整する,LTGCの新しい設計を提案する。
可視化はLTGCにおける生成モジュールの有効性を示し、正確で多様なテールデータを生成する。
さらに, 実験結果から, LTGCは, 一般的なロングテールベンチマークにおいて, 既存の最先端手法よりも優れていることが示された。 Long-tail recognition is challenging because it requires the model to learn good representations from tail categories and address imbalances across all categories. In this paper, we propose a novel generative and fine-tuning framework, LTGC, to handle long-tail recognition via leveraging generated content. Firstly, inspired by the rich implicit knowledge in large-scale models (e.g., large language models, LLMs), LTGC leverages the power of these models to parse and reason over the original tail data to produce diverse tail-class content. We then propose several novel designs for LTGC to ensure the quality of the generated data and to efficiently fine-tune the model using both the generated and original data. The visualization demonstrates the effectiveness of the generation module in LTGC, which produces accurate and diverse tail data. Additionally, the experimental results demonstrate that our LTGC outperforms existing state-of-the-art methods on popular long-tailed benchmarks. | 翻訳日:2024-03-13 12:01:16 公開日:2024-03-12 |
# LTGC:LLMによる生成コンテンツの活用による長距離認識 LTGC: Long-tail Recognition via Leveraging LLMs-driven Generated Content ( http://arxiv.org/abs/2403.05854v1 ) ライセンス: Link先を確認 | Qihao Zhao, Yalun Dai, Hao Li, Wei Hu, Fan Zhang, Jun Liu | (参考訳) ロングテール認識は、モデルがテールカテゴリから良い表現を学び、すべてのカテゴリにわたる不均衡に対処する必要があるため、難しい。
本稿では,生成コンテンツを利用した長期認識のための新しい生成・微調整フレームワークLTGCを提案する。
まず、大規模なモデル(例えば、大言語モデル、llms)の豊富な暗黙の知識に触発されて、ltgcはこれらのモデルの力を利用して、元の尾データを分析して推論し、多様な尾クラスコンテンツを生成する。
そこで我々は,生成したデータの品質を保証し,生成したデータとオリジナルデータの両方を用いてモデルを効率よく微調整する,LTGCの新しい設計を提案する。
可視化はLTGCにおける生成モジュールの有効性を示し、正確で多様なテールデータを生成する。
さらに, 実験結果から, LTGCは, 一般的なロングテールベンチマークにおいて, 既存の最先端手法よりも優れていることが示された。 Long-tail recognition is challenging because it requires the model to learn good representations from tail categories and address imbalances across all categories. In this paper, we propose a novel generative and fine-tuning framework, LTGC, to handle long-tail recognition via leveraging generated content. Firstly, inspired by the rich implicit knowledge in large-scale models (e.g., large language models, LLMs), LTGC leverages the power of these models to parse and reason over the original tail data to produce diverse tail-class content. We then propose several novel designs for LTGC to ensure the quality of the generated data and to efficiently fine-tune the model using both the generated and original data. The visualization demonstrates the effectiveness of the generation module in LTGC, which produces accurate and diverse tail data. Additionally, the experimental results demonstrate that our LTGC outperforms existing state-of-the-art methods on popular long-tailed benchmarks. | 翻訳日:2024-03-13 12:00:58 公開日:2024-03-12 |
# 一般手術用視覚変換器:一般手術のためのビデオ事前訓練基礎モデル General surgery vision transformer: A video pre-trained foundation model for general surgery ( http://arxiv.org/abs/2403.05949v2 ) ライセンス: Link先を確認 | Samuel Schmidgall, Ji Woong Kim, Jeffery Jopling, Axel Krieger | (参考訳) オープンアクセスデータや特別な基礎モデルがないことは、手術における計算研究の大きな障壁である。
これに向かって
(i)これまでで最大の手術ビデオデータセットをオープンソース化した。手術時間は680時間で、28の手順にわたるロボットと腹腔鏡の手法のデータを含む。
(II)手術現場でリアルタイムに動作可能な前方ビデオ予測に基づく手術用ビジョントランスフォーマー(GSViT)の事前訓練手法を提案し,GSViTのコードと重みをオープンソース化する。
(iii) 10の手順にまたがる手続き固有のgsvitの微調整版のコード及び重みもリリースする。
(iv)cholec80フェーズアノテーションタスクにおけるgsvitの性能を実証し,最先端シングルフレーム予測器の性能向上を示す。 The absence of openly accessible data and specialized foundation models is a major barrier for computational research in surgery. Toward this, (i) we open-source the largest dataset of general surgery videos to-date, consisting of 680 hours of surgical videos, including data from robotic and laparoscopic techniques across 28 procedures; (ii) we propose a technique for video pre-training a general surgery vision transformer (GSViT) on surgical videos based on forward video prediction that can run in real-time for surgical applications, toward which we open-source the code and weights of GSViT; (iii) we also release code and weights for procedure-specific fine-tuned versions of GSViT across 10 procedures; (iv) we demonstrate the performance of GSViT on the Cholec80 phase annotation task, displaying improved performance over state-of-the-art single frame predictors. | 翻訳日:2024-03-13 11:45:14 公開日:2024-03-12 |
# 一般手術用視覚変換器:一般手術のためのビデオ事前訓練基礎モデル General surgery vision transformer: A video pre-trained foundation model for general surgery ( http://arxiv.org/abs/2403.05949v1 ) ライセンス: Link先を確認 | Samuel Schmidgall, Ji Woong Kim, Jeffery Jopling, Axel Krieger | (参考訳) オープンアクセスデータや特別な基礎モデルがないことは、手術における計算研究の大きな障壁である。
これに向かって
(i)これまでで最大の手術ビデオデータセットをオープンソース化した。手術時間は680時間で、28の手順にわたるロボットと腹腔鏡の手法のデータを含む。
(II)手術現場でリアルタイムに動作可能な前方ビデオ予測に基づく手術用ビジョントランスフォーマー(GSViT)の事前訓練手法を提案し,GSViTのコードと重みをオープンソース化する。
(iii) 10の手順にまたがる手続き固有のgsvitの微調整版のコード及び重みもリリースする。
(iv)cholec80フェーズアノテーションタスクにおけるgsvitの性能を実証し,最先端シングルフレーム予測器の性能向上を示す。 The absence of openly accessible data and specialized foundation models is a major barrier for computational research in surgery. Toward this, (i) we open-source the largest dataset of general surgery videos to-date, consisting of 680 hours of surgical videos, including data from robotic and laparoscopic techniques across 28 procedures; (ii) we propose a technique for video pre-training a general surgery vision transformer (GSViT) on surgical videos based on forward video prediction that can run in real-time for surgical applications, toward which we open-source the code and weights of GSViT; (iii) we also release code and weights for procedure-specific fine-tuned versions of GSViT across 10 procedures; (iv) we demonstrate the performance of GSViT on the Cholec80 phase annotation task, displaying improved performance over state-of-the-art single frame predictors. | 翻訳日:2024-03-13 11:44:58 公開日:2024-03-12 |
# 水中フォトグラメトリーによるインド太平洋におけるサンゴ礁のマルチラベル分類のための深層学習 Deep learning for multi-label classification of coral conditions in the Indo-Pacific via underwater photogrammetry ( http://arxiv.org/abs/2403.05930v2 ) ライセンス: Link先を確認 | Xinlei Shao and Hongruixuan Chen and Kirsty Magson and Jiaqi Wang and Jian Song and Jundong Chen and Jun Sasaki | (参考訳) サンゴ礁生態系は人的活動や気候変動の脅威に直面しているため、世界中のサンゴ保護プログラムが実施されている。
サンゴの健康モニタリングは保護活動の指針となる。
しかし、現在の労働集約型手法では、未ソート画像のバックログが発生し、自動化された分類の必要性が強調される。
正確なアノテーションと更新されたアルゴリズムとデータセットを同時に利用した研究は少ない。
本研究の目的はインド太平洋における共通サンゴ条件と関連するストレスを表わすデータセットの作成である。
同時に、既存の分類アルゴリズムを評価し、サンゴの条件を自動的に検出し、生態情報を抽出する新しいマルチラベル法を提案した。
異なる健康状態とストレスの2万以上の高解像度サンゴ画像を含むデータセットをフィールドサーベイに基づいて構築した。
このデータセット上で7つの代表的なディープラーニングアーキテクチャをテストし,その性能をf1メトリックとマッチ比を用いて定量的に評価した。
この評価に基づいて,アンサンブル学習手法を用いた新しい手法を提案する。
提案手法では,サンゴ礁の条件を健康,危険,死,瓦解と正確に分類し,競合,疾患,捕食,身体的問題などのストレス要因も同定した。
この方法はサンゴのイメージアーカイブの開発、保全活動のガイド、サンゴの管理者や保護主義者の意思決定の参考となる。
提案したアンサンブル学習アプローチはデータセット上で他よりも優れており、ステートオフ・ザ・アート(SOTA)のパフォーマンスを示している。
今後の研究は、グローバルなサンゴ保全活動を支援するために、その一般化性と正確性を改善するだろう。 Since coral reef ecosystems face threats from human activities and climate change, coral conservation programs are implemented worldwide. Monitoring coral health provides references for guiding conservation activities. However, current labor-intensive methods result in a backlog of unsorted images, highlighting the need for automated classification. Few studies have simultaneously utilized accurate annotations along with updated algorithms and datasets. This study aimed to create a dataset representing common coral conditions and associated stressors in the Indo-Pacific. Concurrently, it assessed existing classification algorithms and proposed a new multi-label method for automatically detecting coral conditions and extracting ecological information. A dataset containing over 20,000 high-resolution coral images of different health conditions and stressors was constructed based on the field survey. Seven representative deep learning architectures were tested on this dataset, and their performance was quantitatively evaluated using the F1 metric and the match ratio. Based on this evaluation, a new method utilizing the ensemble learning approach was proposed. The proposed method accurately classified coral conditions as healthy, compromised, dead, and rubble; it also identified corresponding stressors, including competition, disease, predation, and physical issues. This method can help develop the coral image archive, guide conservation activities, and provide references for decision-making for reef managers and conservationists. The proposed ensemble learning approach outperforms others on the dataset, showing State-Of-The-Art (SOTA) performance. Future research should improve its generalizability and accuracy to support global coral conservation efforts. | 翻訳日:2024-03-13 11:43:24 公開日:2024-03-12 |
# 水中フォトグラメトリーによるインド太平洋におけるサンゴ礁のマルチラベル分類のための深層学習 Deep learning for multi-label classification of coral conditions in the Indo-Pacific via underwater photogrammetry ( http://arxiv.org/abs/2403.05930v1 ) ライセンス: Link先を確認 | Xinlei Shao and Hongruixuan Chen and Kirsty Magson and Jiaqi Wang and Jian Song and Jundong Chen and Jun Sasaki | (参考訳) サンゴ礁生態系は人的活動や気候変動の脅威に直面しているため、世界中のサンゴ保護プログラムが実施されている。
サンゴの健康モニタリングは保護活動の指針となる。
しかし、現在の労働集約型手法では、未ソート画像のバックログが発生し、自動化された分類の必要性が強調される。
正確なアノテーションと更新されたアルゴリズムとデータセットを同時に利用した研究は少ない。
本研究の目的はインド太平洋における共通サンゴ条件と関連するストレスを表わすデータセットの作成である。
同時に、既存の分類アルゴリズムを評価し、サンゴの条件を自動的に検出し、生態情報を抽出する新しいマルチラベル法を提案した。
異なる健康状態とストレスの2万以上の高解像度サンゴ画像を含むデータセットをフィールドサーベイに基づいて構築した。
このデータセット上で7つの代表的なディープラーニングアーキテクチャをテストし,その性能をf1メトリックとマッチ比を用いて定量的に評価した。
この評価に基づいて,アンサンブル学習手法を用いた新しい手法を提案する。
提案手法では,サンゴ礁の条件を健康,危険,死,瓦解と正確に分類し,競合,疾患,捕食,身体的問題などのストレス要因も同定した。
この方法はサンゴのイメージアーカイブの開発、保全活動のガイド、サンゴの管理者や保護主義者の意思決定の参考となる。
提案したアンサンブル学習アプローチはデータセット上で他よりも優れており、ステートオフ・ザ・アート(SOTA)のパフォーマンスを示している。
今後の研究は、グローバルなサンゴ保全活動を支援するために、その一般化性と正確性を改善するだろう。 Since coral reef ecosystems face threats from human activities and climate change, coral conservation programs are implemented worldwide. Monitoring coral health provides references for guiding conservation activities. However, current labor-intensive methods result in a backlog of unsorted images, highlighting the need for automated classification. Few studies have simultaneously utilized accurate annotations along with updated algorithms and datasets. This study aimed to create a dataset representing common coral conditions and associated stressors in the Indo-Pacific. Concurrently, it assessed existing classification algorithms and proposed a new multi-label method for automatically detecting coral conditions and extracting ecological information. A dataset containing over 20,000 high-resolution coral images of different health conditions and stressors was constructed based on the field survey. Seven representative deep learning architectures were tested on this dataset, and their performance was quantitatively evaluated using the F1 metric and the match ratio. Based on this evaluation, a new method utilizing the ensemble learning approach was proposed. The proposed method accurately classified coral conditions as healthy, compromised, dead, and rubble; it also identified corresponding stressors, including competition, disease, predation, and physical issues. This method can help develop the coral image archive, guide conservation activities, and provide references for decision-making for reef managers and conservationists. The proposed ensemble learning approach outperforms others on the dataset, showing State-Of-The-Art (SOTA) performance. Future research should improve its generalizability and accuracy to support global coral conservation efforts. | 翻訳日:2024-03-13 11:42:48 公開日:2024-03-12 |
# SEMRes-DDPM:残差ネットワークに基づく拡散モデリングの不均衡データへの適用 SEMRes-DDPM: Residual Network Based Diffusion Modelling Applied to Imbalanced Data ( http://arxiv.org/abs/2403.05918v2 ) ライセンス: Link先を確認 | Ming Zheng, Yang Yang, Zhi-Hang Zhao, Shan-Chao Gan, Yang Chen, Si-Kai Ni and Yang Lu | (参考訳) データマイニングと機械学習の分野では、一般的に使用される分類モデルは、不均衡なデータで効果的に学習できない。
モデルトレーニング前のデータ分散のバランスをとるために、少数のクラスのデータを生成するためにオーバーサンプリング法がよく使われ、バランスの取れていないデータの分類の問題を解決する。
古典的なオーバーサンプリング手法の多くは、データのローカル情報のみに焦点を当てたSMOTE技術に基づいているため、生成したデータに十分な現実性がないという問題がある可能性がある。
In the current oversampling methods based on generative networks, the methods based on GANs can capture the true distribution of data, but there is the problem of pattern collapse and training instability in training; in the oversampling methods based on denoising diffusion probability models, the neural network of the inverse diffusion process using the U-Net is not applicable to tabular data, and although the MLP can be used to replace the U-Net, the problem exists due to the simplicity of the structure and the poor effect of removing noise.
ノイズ除去の問題です
以上の問題を克服するために,semres-ddpm後方拡散法において,表データに適したノイズ除去効果のよい新しいニューラルネットワーク構造semst-resnetを用い,高品質な表データを生成することが可能な新しいオーバーサンプリング法semres-ddpmを提案する。
SEMRes-DDPMは、CWGAN-GPを用いたTabDDPMよりも実際のデータ分布に近いデータ分布を生成し、9つの分類モデルを持つ20の非バランスな表型データセット上で、SEMRes-DDPMは、3つの評価指標(F1、G-mean、AUC)で生成された表型データの品質を改善し、他のSOTAオーバサンプリング手法よりも優れた分類性能を示す。 In the field of data mining and machine learning, commonly used classification models cannot effectively learn in unbalanced data. In order to balance the data distribution before model training, oversampling methods are often used to generate data for a small number of classes to solve the problem of classifying unbalanced data. Most of the classical oversampling methods are based on the SMOTE technique, which only focuses on the local information of the data, and therefore the generated data may have the problem of not being realistic enough. In the current oversampling methods based on generative networks, the methods based on GANs can capture the true distribution of data, but there is the problem of pattern collapse and training instability in training; in the oversampling methods based on denoising diffusion probability models, the neural network of the inverse diffusion process using the U-Net is not applicable to tabular data, and although the MLP can be used to replace the U-Net, the problem exists due to the simplicity of the structure and the poor effect of removing noise. problem of poor noise removal. In order to overcome the above problems, we propose a novel oversampling method SEMRes-DDPM.In the SEMRes-DDPM backward diffusion process, a new neural network structure SEMST-ResNet is used, which is suitable for tabular data and has good noise removal effect, and it can generate tabular data with higher quality. Experiments show that the SEMResNet network removes noise better than MLP; SEMRes-DDPM generates data distributions that are closer to the real data distributions than TabDDPM with CWGAN-GP; on 20 real unbalanced tabular datasets with 9 classification models, SEMRes-DDPM improves the quality of the generated tabular data in terms of three evaluation metrics (F1, G-mean, AUC) with better classification performance than other SOTA oversampling methods. | 翻訳日:2024-03-13 11:40:48 公開日:2024-03-12 |
# SEMRes-DDPM:残差ネットワークに基づく拡散モデリングの不均衡データへの適用 SEMRes-DDPM: Residual Network Based Diffusion Modelling Applied to Imbalanced Data ( http://arxiv.org/abs/2403.05918v1 ) ライセンス: Link先を確認 | Ming Zheng, Yang Yang, Zhi-Hang Zhao, Shan-Chao Gan, Yang Chen, Si-Kai Ni and Yang Lu | (参考訳) データマイニングと機械学習の分野では、一般的に使用される分類モデルは、不均衡なデータで効果的に学習できない。
モデルトレーニング前のデータ分散のバランスをとるために、少数のクラスのデータを生成するためにオーバーサンプリング法がよく使われ、バランスの取れていないデータの分類の問題を解決する。
古典的なオーバーサンプリング手法の多くは、データのローカル情報のみに焦点を当てたSMOTE技術に基づいているため、生成したデータに十分な現実性がないという問題がある可能性がある。
In the current oversampling methods based on generative networks, the methods based on GANs can capture the true distribution of data, but there is the problem of pattern collapse and training instability in training; in the oversampling methods based on denoising diffusion probability models, the neural network of the inverse diffusion process using the U-Net is not applicable to tabular data, and although the MLP can be used to replace the U-Net, the problem exists due to the simplicity of the structure and the poor effect of removing noise.
ノイズ除去の問題です
以上の問題を克服するために,semres-ddpm後方拡散法において,表データに適したノイズ除去効果のよい新しいニューラルネットワーク構造semst-resnetを用い,高品質な表データを生成することが可能な新しいオーバーサンプリング法semres-ddpmを提案する。
SEMRes-DDPMは、CWGAN-GPを用いたTabDDPMよりも実際のデータ分布に近いデータ分布を生成し、9つの分類モデルを持つ20の非バランスな表型データセット上で、SEMRes-DDPMは、3つの評価指標(F1、G-mean、AUC)で生成された表型データの品質を改善し、他のSOTAオーバサンプリング手法よりも優れた分類性能を示す。 In the field of data mining and machine learning, commonly used classification models cannot effectively learn in unbalanced data. In order to balance the data distribution before model training, oversampling methods are often used to generate data for a small number of classes to solve the problem of classifying unbalanced data. Most of the classical oversampling methods are based on the SMOTE technique, which only focuses on the local information of the data, and therefore the generated data may have the problem of not being realistic enough. In the current oversampling methods based on generative networks, the methods based on GANs can capture the true distribution of data, but there is the problem of pattern collapse and training instability in training; in the oversampling methods based on denoising diffusion probability models, the neural network of the inverse diffusion process using the U-Net is not applicable to tabular data, and although the MLP can be used to replace the U-Net, the problem exists due to the simplicity of the structure and the poor effect of removing noise. problem of poor noise removal. In order to overcome the above problems, we propose a novel oversampling method SEMRes-DDPM.In the SEMRes-DDPM backward diffusion process, a new neural network structure SEMST-ResNet is used, which is suitable for tabular data and has good noise removal effect, and it can generate tabular data with higher quality. Experiments show that the SEMResNet network removes noise better than MLP; SEMRes-DDPM generates data distributions that are closer to the real data distributions than TabDDPM with CWGAN-GP; on 20 real unbalanced tabular datasets with 9 classification models, SEMRes-DDPM improves the quality of the generated tabular data in terms of three evaluation metrics (F1, G-mean, AUC) with better classification performance than other SOTA oversampling methods. | 翻訳日:2024-03-13 11:40:17 公開日:2024-03-12 |
# GlanceVAD: ラベル効率の良いビデオ異常検出のためのGlance Supervision GlanceVAD: Exploring Glance Supervision for Label-efficient Video Anomaly Detection ( http://arxiv.org/abs/2403.06154v2 ) ライセンス: Link先を確認 | Huaxin Zhang, Xiang Wang, Xiaohao Xu, Xiaonan Huang, Chuchu Han, Yuehuan Wang, Changxin Gao, Shanjun Zhang, Nong Sang | (参考訳) 近年、ビデオ異常検出は、時間的ラベリングのコストを軽減するために、教師なしと弱教師付きの両方で広く研究されている。
著しい進歩にもかかわらず、これらの手法は、主に正確な時間的異常アノテーションがないために、多くの誤報のような不満足な結果に苦しむ。
本稿では,異常検出精度とアノテーションコストのバランスを改善するために,"glance annotations"と呼ばれる新しいラベリングパラダイムを提案する。
具体的には、視線アノテーションは、各異常事象のランダムフレームであり、容易にアクセスでき、費用対効果がある。
本手法の有効性を評価するため,UCF-Crime と XD-Violence の2つの標準ビデオ異常検出データセットに対して,視線アノテーションを手動でアノテートする。
さらに,gaussian kernelsを基本単位として時間的異常分布を合成し,視線アノテーションから多様でロバストな異常表現の学習を可能にする,カスタマイズされたswisvad法を提案する。
包括的な分析と実験により,提案手法がアノテーションコストとモデル性能のトレードオフを良好に達成できることを確認した。
また, GlanceVAD 法の有効性を実証し, 既存の高度無監督法と弱監督法を著しく上回る結果を得た。
コードとアノテーションはhttps://github.com/pipixin321/glancevadで公開されている。 In recent years, video anomaly detection has been extensively investigated in both unsupervised and weakly supervised settings to alleviate costly temporal labeling. Despite significant progress, these methods still suffer from unsatisfactory results such as numerous false alarms, primarily due to the absence of precise temporal anomaly annotation. In this paper, we present a novel labeling paradigm, termed "glance annotation", to achieve a better balance between anomaly detection accuracy and annotation cost. Specifically, glance annotation is a random frame within each abnormal event, which can be easily accessed and is cost-effective. To assess its effectiveness, we manually annotate the glance annotations for two standard video anomaly detection datasets: UCF-Crime and XD-Violence. Additionally, we propose a customized GlanceVAD method, that leverages gaussian kernels as the basic unit to compose the temporal anomaly distribution, enabling the learning of diverse and robust anomaly representations from the glance annotations. Through comprehensive analysis and experiments, we verify that the proposed labeling paradigm can achieve an excellent trade-off between annotation cost and model performance. Extensive experimental results also demonstrate the effectiveness of our GlanceVAD approach, which significantly outperforms existing advanced unsupervised and weakly supervised methods. Code and annotations will be publicly available at https://github.com/pipixin321/GlanceVAD. | 翻訳日:2024-03-13 11:33:51 公開日:2024-03-12 |
# 画像復元のための拡散浄化を伴うデカップリングデータ整合性 Decoupled Data Consistency with Diffusion Purification for Image Restoration ( http://arxiv.org/abs/2403.06054v2 ) ライセンス: Link先を確認 | Xiang Li, Soo Min Kwon, Ismail R. Alkhouri, Saiprasad Ravishanka, Qing Qu | (参考訳) 拡散モデルは最近、データ分布をモデル化する能力が極めて高いため、画像復元の幅広いタスクに優れ、強力な生成前駆体として注目を集めている。
画像復元問題を解決するために, 拡散モデルの逆サンプリングプロセスに重回帰勾配ステップを組み込むことにより, 既存の手法の多くがデータ一貫性を実現する。
しかし、追加の勾配ステップは、計算オーバーヘッドが大きくなり推論時間が増加するため、実世界の実用的なアプリケーションにとって課題となる。
また、データ一貫性ステップの数は、逆サンプリングステップの数によって制限されるため、加速拡散モデルサンプリング器を使用する際のさらなる困難が生じる。
本研究では,データ一貫性ステップから逆プロセスを切り離し,これらの問題に対処する新しい拡散型画像復元ソルバを提案する。
本手法では,データ一貫性を維持するために再構築相と拡散浄化によって先行を強制する改良相を交互に行う。
提案手法は汎用性を示し,潜在空間における効率的な問題解決に高度に適応する。
さらに、一貫性モデルを統合することで、多数のサンプリングステップの必要性を低減する。
本手法の有効性は,画像のデノイジング,デブラリング,インパインティング,スーパーレゾリューションなど,様々な画像復元タスクにわたる総合的な実験により検証される。 Diffusion models have recently gained traction as a powerful class of deep generative priors, excelling in a wide range of image restoration tasks due to their exceptional ability to model data distributions. To solve image restoration problems, many existing techniques achieve data consistency by incorporating additional likelihood gradient steps into the reverse sampling process of diffusion models. However, the additional gradient steps pose a challenge for real-world practical applications as they incur a large computational overhead, thereby increasing inference time. They also present additional difficulties when using accelerated diffusion model samplers, as the number of data consistency steps is limited by the number of reverse sampling steps. In this work, we propose a novel diffusion-based image restoration solver that addresses these issues by decoupling the reverse process from the data consistency steps. Our method involves alternating between a reconstruction phase to maintain data consistency and a refinement phase that enforces the prior via diffusion purification. Our approach demonstrates versatility, making it highly adaptable for efficient problem-solving in latent space. Additionally, it reduces the necessity for numerous sampling steps through the integration of consistency models. The efficacy of our approach is validated through comprehensive experiments across various image restoration tasks, including image denoising, deblurring, inpainting, and super-resolution. | 翻訳日:2024-03-13 11:33:27 公開日:2024-03-12 |
# CarbonNet: コンピュータビジョンは気候変動にどのように貢献するか?
CCSの地下構造からジオメカニクスを学習して地球温暖化を緩和する応用 CarbonNet: How Computer Vision Plays a Role in Climate Change? Application: Learning Geomechanics from Subsurface Geometry of CCS to Mitigate Global Warming ( http://arxiv.org/abs/2403.06025v2 ) ライセンス: Link先を確認 | Wei Chen, Yunan Li and Yuan Tian | (参考訳) 本稿では,炭素捕獲・隔離のための地下地形画像から地表面の変位を予測するために,コンピュータビジョンを用いた新しいアプローチを提案する。
CCSは炭素中立社会の重要な構成要素であることが証明されている。
しかし、科学者は、大きなモデルスケールと複雑な物理を持つ事前学習モデルの一般化に制限があるため、計算コストが高いという課題があると考えている。
地下地形画像から直接モデルを訓練することで,これらの課題に対処する。
カーボンインジェクションによる地表面変位の応答を把握し,ccsプロジェクトにおける意思決定にトレーニングしたモデルを活用することが目的である。
我々は,画像予測問題である静的力学問題に対して,複数のモデル(CNN,ResNet,ResNetUNet)を実装した。
次に、ビデオ予測問題である過渡的力学シナリオにLSTMとトランスフォーマーを用いる。
ResNetUNetは静的力学問題におけるアーキテクチャにより他より優れており、LSTMは過渡問題におけるトランスフォーマーに匹敵する性能を示している。
このレポートでは、データセットを詳細に概説し、続いてモデル記述をメソッドセクションにまとめます。
結果と議論では、将来の作業で重要な学習、観察、結論が論文にまとめられている。 We introduce a new approach using computer vision to predict the land surface displacement from subsurface geometry images for Carbon Capture and Sequestration (CCS). CCS has been proved to be a key component for a carbon neutral society. However, scientists see there are challenges along the way including the high computational cost due to the large model scale and limitations to generalize a pre-trained model with complex physics. We tackle those challenges by training models directly from the subsurface geometry images. The goal is to understand the respons of land surface displacement due to carbon injection and utilize our trained models to inform decision making in CCS projects. We implement multiple models (CNN, ResNet, and ResNetUNet) for static mechanics problem, which is a image prediction problem. Next, we use the LSTM and transformer for transient mechanics scenario, which is a video prediction problem. It shows ResNetUNet outperforms the others thanks to its architecture in static mechanics problem, and LSTM shows comparable performance to transformer in transient problem. This report proceeds by outlining our dataset in detail followed by model descriptions in method section. Result and discussion state the key learning, observations, and conclusion with future work rounds out the paper. | 翻訳日:2024-03-13 11:33:06 公開日:2024-03-12 |
# videomamba: 効率的なビデオ理解のための状態空間モデル VideoMamba: State Space Model for Efficient Video Understanding ( http://arxiv.org/abs/2403.06977v2 ) ライセンス: Link先を確認 | Kunchang Li, Xinhao Li, Yi Wang, Yinan He, Yali Wang, Limin Wang, and Yu Qiao | (参考訳) ローカル冗長性とビデオ理解におけるグローバル依存という2つの課題に対処するため、この作業は、mambaをビデオドメインに革新的に適応させる。
提案するビデオマンバは、既存の3d畳み込みニューラルネットワークとビデオトランスフォーマーの限界を克服する。
線形複雑度演算子は、高解像度の長時間ビデオ理解に欠かせない効率的な長期モデリングを可能にする。
ビデオマンバの4つのコア能力は,(1)新しい自己蒸留技術により,データセットの事前学習を行わない視覚領域のスケーラビリティ,(2)細粒度の動きの違いでも短時間動作を認識する感度,(3)長期ビデオ理解の優位性,従来の機能ベースモデルに対する著しい進歩,(4)他との互換性,マルチモーダルコンテキストにおけるロバスト性を示すこと,の4つである。
これらの異なる利点により、VideoMambaはビデオ理解のための新しいベンチマークを設定し、包括的なビデオ理解のためのスケーラブルで効率的なソリューションを提供する。
すべてのコードとモデルはhttps://github.com/OpenGVLab/VideoMamba.comで入手できる。 Addressing the dual challenges of local redundancy and global dependencies in video understanding, this work innovatively adapts the Mamba to the video domain. The proposed VideoMamba overcomes the limitations of existing 3D convolution neural networks and video transformers. Its linear-complexity operator enables efficient long-term modeling, which is crucial for high-resolution long video understanding. Extensive evaluations reveal VideoMamba's four core abilities: (1) Scalability in the visual domain without extensive dataset pretraining, thanks to a novel self-distillation technique; (2) Sensitivity for recognizing short-term actions even with fine-grained motion differences; (3) Superiority in long-term video understanding, showcasing significant advancements over traditional feature-based models; and (4) Compatibility with other modalities, demonstrating robustness in multi-modal contexts. Through these distinct advantages, VideoMamba sets a new benchmark for video understanding, offering a scalable and efficient solution for comprehensive video understanding. All the code and models are available at https://github.com/OpenGVLab/VideoMamba. | 翻訳日:2024-03-13 11:24:56 公開日:2024-03-12 |
# deadiff: 不連続表現を持つ効率的なスタイリゼーション拡散モデル DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations ( http://arxiv.org/abs/2403.06951v2 ) ライセンス: Link先を確認 | Tianhao Qi, Shancheng Fang, Yanze Wu, Hongtao Xie, Jiawei Liu, Lang Chen, Qian He, Yongdong Zhang | (参考訳) 拡散ベースのテキストから画像へのモデルは、参照スタイルを転送する大きな可能性を秘めている。
しかし、現在のエンコーダベースのアプローチは、スタイルを転送しながらテキストから画像へのモデルのテキスト制御性を著しく損なう。
本稿では、以下の2つの戦略を用いて、この問題に対処するためのDEADiffを紹介する。
1)参照画像のスタイルと意味を分離するメカニズム。
分離された特徴表現は、まず異なるテキスト記述によって指示されるqフォーマによって抽出される。
そして、それらを相互に排他的な相互アテンション層のサブセットに注入して、より良い絡み合うようにします。
2)非再構成学習法。
q-formersは、同一のターゲットではなくペア画像を使用して訓練され、参照画像と接地画像は同じスタイルまたは意味を持つ。
そこで本研究では,DADiffがテキスト・画像モデルに固有のテキスト制御性と,参照画像に類似するスタイルとの最適バランスを,定量的かつ定性的に示すことができることを示す。
プロジェクトページはhttps://tianhao-qi.github.io/deadiff/。 The diffusion-based text-to-image model harbors immense potential in transferring reference style. However, current encoder-based approaches significantly impair the text controllability of text-to-image models while transferring styles. In this paper, we introduce DEADiff to address this issue using the following two strategies: 1) a mechanism to decouple the style and semantics of reference images. The decoupled feature representations are first extracted by Q-Formers which are instructed by different text descriptions. Then they are injected into mutually exclusive subsets of cross-attention layers for better disentanglement. 2) A non-reconstructive learning method. The Q-Formers are trained using paired images rather than the identical target, in which the reference image and the ground-truth image are with the same style or semantics. We show that DEADiff attains the best visual stylization results and optimal balance between the text controllability inherent in the text-to-image model and style similarity to the reference image, as demonstrated both quantitatively and qualitatively. Our project page is https://tianhao-qi.github.io/DEADiff/. | 翻訳日:2024-03-13 11:24:32 公開日:2024-03-12 |
# MEND: 効果的なインコンテキスト学習のためのメタdEmonstratioN蒸留 MEND: Meta dEmonstratioN Distillation for Efficient and Effective In-Context Learning ( http://arxiv.org/abs/2403.06914v2 ) ライセンス: Link先を確認 | Yichuan Li, Xiyao Ma, Sixing Lu, Kyumin Lee, Xiaohu Liu, Chenlei Guo | (参考訳) 大規模言語モデル(llm)は、いくつかの入出力ペア(デーモンストレーション)とともに、llmが与えられたテスト入力の予測を行う、印象的なインコンテキスト学習(icl)能力を示している。
それでも、デモを含めることで、自己認識機構の計算オーバーヘッドが2次的に増加する。
既存の解は、長いデモをコンパクトベクトルに蒸留しようとする。
しかし、それらはしばしばタスク固有のリトレーニングやllmのコンテキスト内学習性能の妥協を必要とする。
これらの課題を緩和するために、言語モデルが新しい下流タスクをリトレーニングすることなく、長いデモをベクトルに蒸留することを学ぶメタデモ蒸留(mend)を提案する。
MEND と LLM のアライメントを高めるために知識蒸留を活用し,効率と有効性を両立させる。
MENDには、メタ蒸留前訓練と微調整を含む2段階のトレーニングプロセスを通じて、蒸留実験のメタ知識が与えられている。
Decoder-only (GPT-2) と encoder-decoder (T5) を用いて、7つの多様な ICL タスクパーティションの総合評価を行った。
マッチするだけでなく、しばしばバニラICLや最先端の蒸留モデルよりも優れ、計算要求を大幅に減少させる。
この革新は、大規模言語モデルの実践的展開のための拡張スケーラビリティと効率を約束する Large Language models (LLMs) have demonstrated impressive in-context learning (ICL) capabilities, where a LLM makes predictions for a given test input together with a few input-output pairs (demonstrations). Nevertheless, the inclusion of demonstrations leads to a quadratic increase in the computational overhead of the self-attention mechanism. Existing solutions attempt to distill lengthy demonstrations into compact vectors. However, they often require task-specific retraining or compromise LLM's in-context learning performance. To mitigate these challenges, we present Meta dEmonstratioN Distillation (MEND), where a language model learns to distill any lengthy demonstrations into vectors without retraining for a new downstream task. We exploit the knowledge distillation to enhance alignment between MEND and LLM, achieving both efficiency and effectiveness simultaneously. MEND is endowed with the meta-knowledge of distilling demonstrations through a two-stage training process, which includes meta-distillation pretraining and fine-tuning. Comprehensive evaluations across seven diverse ICL task partitions using decoder-only (GPT-2) and encoder-decoder (T5) attest to MEND's prowess. It not only matches but often outperforms the Vanilla ICL as well as other state-of-the-art distillation models, while significantly reducing the computational demands. This innovation promises enhanced scalability and efficiency for the practical deployment of large language models | 翻訳日:2024-03-13 11:24:14 公開日:2024-03-12 |
# quasar: 高度な表現による品質と美学のスコア付け QUASAR: QUality and Aesthetics Scoring with Advanced Representations ( http://arxiv.org/abs/2403.06866v2 ) ライセンス: Link先を確認 | Sergey Kastryulin, Denis Prokopenko, Artem Babenko, Dmitry V. Dylov | (参考訳) 本稿では,画像品質と美的評価のための新しいデータ駆動型非パラメトリック手法を提案する。
データに効率的な画像アンカーを提案することで、表現力のあるテキスト埋め込みの必要性を解消する。
7つの最先端の自己教師付きモデルの広範な評価を通じて、様々なデータセットとベンチマークで優れたパフォーマンスと堅牢性を示す。
特に、限られたデータでも人間評価と高い一致を達成し、データの性質と前処理パイプラインに対して高い堅牢性を示す。
私たちのコントリビューションは、視覚情報の知覚に関する洞察を提供しながら、画像の評価を合理化するソリューションを提供します。 This paper introduces a new data-driven, non-parametric method for image quality and aesthetics assessment, surpassing existing approaches and requiring no prompt engineering or fine-tuning. We eliminate the need for expressive textual embeddings by proposing efficient image anchors in the data. Through extensive evaluations of 7 state-of-the-art self-supervised models, our method demonstrates superior performance and robustness across various datasets and benchmarks. Notably, it achieves high agreement with human assessments even with limited data and shows high robustness to the nature of data and their pre-processing pipeline. Our contributions offer a streamlined solution for assessment of images while providing insights into the perception of visual information. | 翻訳日:2024-03-13 11:23:49 公開日:2024-03-12 |
# CEAT:非経験的クラス増分学習のための連続拡張・吸収変換器 CEAT: Continual Expansion and Absorption Transformer for Non-Exemplar Class-Incremental Learning ( http://arxiv.org/abs/2403.06670v2 ) ライセンス: Link先を確認 | Xinyuan Gao, Songlin Dong, Yuhang He, Xing Wei, Yihong Gong | (参考訳) 現実のアプリケーションでは、動的シナリオは、古い知識を忘れずに新しいタスクを継続的に学習する能力を持つ必要がある。
Experience-Replayメソッドは、ジョイントトレーニングのために古いイメージのサブセットを格納する。
より厳格なプライバシー保護のシナリオでは、古い画像を保存することは不可能になり、より厳しい可塑性安定ジレンマと分類子バイアスにつながる。
上記の課題を克服するため,我々は連続膨張吸収トランスフォーマ(ceat)という新しいアーキテクチャを提案する。
このモデルは、凍結した前のパラメータと平行に拡散層を拡張することで、新しい知識を学ぶことができる。
タスクが終了すると、拡張されたパラメータをバックボーンに損失なく吸収して、パラメータ数が一定になるようにします。
モデルの学習能力を向上させるために,特徴空間における古クラスと新クラスの重複を低減するために,新しいプロトタイプを設計した。
さらに,新しいクラスに対する分類子バイアスに対処するために,分類子を補正する擬似機能を生成する新しい手法を提案する。
本手法を3つの標準非例クラスインクリメンタルラーニングベンチマーク(necil)を用いて実験した。
広範な実験により,cifar-100,tinyimagenet,imagenet-subsetの5.38%,5.20%,4.92%の改善を達成した。 In real-world applications, dynamic scenarios require the models to possess the capability to learn new tasks continuously without forgetting the old knowledge. Experience-Replay methods store a subset of the old images for joint training. In the scenario of more strict privacy protection, storing the old images becomes infeasible, which leads to a more severe plasticity-stability dilemma and classifier bias. To meet the above challenges, we propose a new architecture, named continual expansion and absorption transformer~(CEAT). The model can learn the novel knowledge by extending the expanded-fusion layers in parallel with the frozen previous parameters. After the task ends, we losslessly absorb the extended parameters into the backbone to ensure that the number of parameters remains constant. To improve the learning ability of the model, we designed a novel prototype contrastive loss to reduce the overlap between old and new classes in the feature space. Besides, to address the classifier bias towards the new classes, we propose a novel approach to generate the pseudo-features to correct the classifier. We experiment with our methods on three standard Non-Exemplar Class-Incremental Learning~(NECIL) benchmarks. Extensive experiments demonstrate that our model gets a significant improvement compared with the previous works and achieves 5.38%, 5.20%, and 4.92% improvement on CIFAR-100, TinyImageNet, and ImageNet-Subset. | 翻訳日:2024-03-13 11:23:38 公開日:2024-03-12 |
# Lander.AI:3次元動的プラットフォームランディングのエキスパートのための適応的ランディング行動エージェント Lander.AI: Adaptive Landing Behavior Agent for Expertise in 3D Dynamic Platform Landings ( http://arxiv.org/abs/2403.06572v2 ) ライセンス: Link先を確認 | Robinroy Peter, Lavanya Ratnabala, Demetros Aschu, Aleksey Fedoseev, Dzmitry Tsetserukou | (参考訳) ダイナミックプラットフォームに自律的なドローンを着陸させることは、予測不可能な速度と、ドッキングプラットフォームの風、地面効果、タービン、プロペラによる外乱による重大な課題を提示する。
本研究では,風の強い環境下でプラットフォーム上での移動と着陸を目的とし,ドローンの自律性と安全性を向上する先進的深層強化学習(DRL)エージェントであるLander:AIを紹介する。
ランダー:AIは、風の乱流を含む現実世界の複雑さを反映し、エージェントの堅牢性と適応性を確保する環境であるジム・ピブル・ドーンシミュレーションの中で厳格に訓練されている。
エージェントの能力は、様々なテストシナリオでcrazyflie 2.1ドローンで実証的に検証され、シミュレートされた環境と実環境の両方を含む。
実験の結果、ランダー:AIの高精度着陸と移動プラットフォームへの適応能力は、風による乱れでも示されました。
さらに、システム性能は、拡張カルマンフィルタを付加したベースラインPIDコントローラに対してベンチマークされ、着陸精度とエラー回復の大幅な改善が示された。
Lander:AIは、バイオインスパイアされた学習を活用して、鳥のような外部の力に適応し、力の大きさを知らずにドローンの適応性を高める。この研究は、ドローンの着陸技術を進歩させ、検査や緊急用途に欠かせないだけでなく、複雑な空力問題に対処するDRLの可能性も強調している。 Mastering autonomous drone landing on dynamic platforms presents formidable challenges due to unpredictable velocities and external disturbances caused by the wind, ground effect, turbines or propellers of the docking platform. This study introduces an advanced Deep Reinforcement Learning (DRL) agent, Lander:AI, designed to navigate and land on platforms in the presence of windy conditions, thereby enhancing drone autonomy and safety. Lander:AI is rigorously trained within the gym-pybullet-drone simulation, an environment that mirrors real-world complexities, including wind turbulence, to ensure the agent's robustness and adaptability. The agent's capabilities were empirically validated with Crazyflie 2.1 drones across various test scenarios, encompassing both simulated environments and real-world conditions. The experimental results showcased Lander:AI's high-precision landing and its ability to adapt to moving platforms, even under wind-induced disturbances. Furthermore, the system performance was benchmarked against a baseline PID controller augmented with an Extended Kalman Filter, illustrating significant improvements in landing precision and error recovery. Lander:AI leverages bio-inspired learning to adapt to external forces like birds, enhancing drone adaptability without knowing force magnitudes.This research not only advances drone landing technologies, essential for inspection and emergency applications, but also highlights the potential of DRL in addressing intricate aerodynamic challenges. | 翻訳日:2024-03-13 11:23:14 公開日:2024-03-12 |
# モデル再プログラミングによる肢喪失者の関節運動予測の促進 Enhancing Joint Motion Prediction for Individuals with Limb Loss Through Model Reprogramming ( http://arxiv.org/abs/2403.06569v2 ) ライセンス: Link先を確認 | Sharmita Dey, Sarath R. Nair | (参考訳) 肢の喪失による運動障害は、世界中の何百万人もの個人が直面する大きな課題である。
人工装具などの高度な補助技術の開発は、切断患者の生活の質を大幅に改善する可能性がある。
このような技術の設計において重要な要素は、欠損肢に対する基準関節運動の正確な予測である。
しかし、この課題は、有能な身体障害者からのかなりの量のデータとは対照的に、切断患者に利用可能な関節運動データの不足によって妨げられている。
これを克服するために,我々はディープラーニングのリプログラミング特性を活用して,モデルのパラメータを変更することなく,トレーニングされたモデルを新たな目標のために再利用する。
データレベルの操作だけで、元々は身体障害者向けに設計されたモデルをアンシュートでの関節運動を予測するように適応させます。
本研究の成果は, 補助技術の進歩と切断者の移動性に有意な影響を及ぼす。 Mobility impairment caused by limb loss is a significant challenge faced by millions of individuals worldwide. The development of advanced assistive technologies, such as prosthetic devices, has the potential to greatly improve the quality of life for amputee patients. A critical component in the design of such technologies is the accurate prediction of reference joint motion for the missing limb. However, this task is hindered by the scarcity of joint motion data available for amputee patients, in contrast to the substantial quantity of data from able-bodied subjects. To overcome this, we leverage deep learning's reprogramming property to repurpose well-trained models for a new goal without altering the model parameters. With only data-level manipulation, we adapt models originally designed for able-bodied people to forecast joint motion in amputees. The findings in this study have significant implications for advancing assistive tech and amputee mobility. | 翻訳日:2024-03-13 11:22:45 公開日:2024-03-12 |
# サンプルプロンプを用いたコンテキスト内残差学習による一般異常検出に向けて Toward Generalist Anomaly Detection via In-context Residual Learning with Few-shot Sample Prompts ( http://arxiv.org/abs/2403.06495v2 ) ライセンス: Link先を確認 | Jiawen Zhu and Guansong Pang | (参考訳) 本稿では,GAD(Generalist Anomaly Detection)の問題点を考察し,対象データに対するさらなるトレーニングを行なわずに,異なるアプリケーションドメインからさまざまなデータセットの異常を検出するための1つの単一検出モデルを訓練することを目的とする。
最近の研究により、CLIPのような大規模な事前学習された視覚言語モデル(VLM)は、様々なデータセットから産業的欠陥を検出するための強力な一般化能力を持っていることが示されているが、それらの手法は欠陥に関する手作りのテキストプロンプトに大きく依存しているため、自然画像の医学的画像異常や意味的異常など他のアプリケーションでの異常への一般化が困難である。
そこで本研究では,様々なデータセットにおける広告のサンプルプロンプトとして,低ショット正規画像を用いたgadモデルを訓練することを提案する。
そこで本研究では,gadの文脈内残差学習モデルであるinctrlを学習する新しい手法を提案する。
クエリ画像と数発のサンプルプロンプト間の残差の全体的評価に基づいて、通常のサンプルから異常を識別する補助データセットを用いて訓練する。
データセットにかかわらず、異常の定義に従って、通常のサンプルよりも大きな残基が異常に対して期待されているため、InCTRLはさらなるトレーニングをすることなく、異なるドメインをまたいで一般化することができる。
9つのadデータセットに関する包括的な実験を行い,産業的欠陥,医療的異常,意味的異常の検出を包含するgadベンチマークを構築した。 This paper explores the problem of Generalist Anomaly Detection (GAD), aiming to train one single detection model that can generalize to detect anomalies in diverse datasets from different application domains without any further training on the target data. Some recent studies have shown that large pre-trained Visual-Language Models (VLMs) like CLIP have strong generalization capabilities on detecting industrial defects from various datasets, but their methods rely heavily on handcrafted text prompts about defects, making them difficult to generalize to anomalies in other applications, e.g., medical image anomalies or semantic anomalies in natural images. In this work, we propose to train a GAD model with few-shot normal images as sample prompts for AD on diverse datasets on the fly. To this end, we introduce a novel approach that learns an in-context residual learning model for GAD, termed InCTRL. It is trained on an auxiliary dataset to discriminate anomalies from normal samples based on a holistic evaluation of the residuals between query images and few-shot normal sample prompts. Regardless of the datasets, per definition of anomaly, larger residuals are expected for anomalies than normal samples, thereby enabling InCTRL to generalize across different domains without further training. Comprehensive experiments on nine AD datasets are performed to establish a GAD benchmark that encapsulate the detection of industrial defect anomalies, medical anomalies, and semantic anomalies in both one-vs-all and multi-class setting, on which InCTRL is the best performer and significantly outperforms state-of-the-art competing methods. | 翻訳日:2024-03-13 11:22:33 公開日:2024-03-12 |
# CLIcK:韓国における文化的・言語知能のベンチマークデータセット CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean ( http://arxiv.org/abs/2403.06412v2 ) ライセンス: Link先を確認 | Eunsu Kim, Juyoung Suk, Philhoon Oh, Haneul Yoo, James Thorne, Alice Oh | (参考訳) 韓国語のための大規模言語モデル(llm)の急速な発展にもかかわらず、必要な韓国文化と言語知識をテストするベンチマークデータセットが明らかに欠如している。
既存の朝鮮語のベンチマークデータセットの多くは英語の翻訳から派生しているため、異なる文化的文脈を見落としていることが多い。
韓国の文化知識を収集するデータから得られた数少ないベンチマークデータセットでは、バイアスやヘイトスピーチ検出といった狭いタスクのみが提供されている。
このギャップに対処するため、韓国の文化・言語知能のベンチマーク(CLIcK)を導入し、1,995のQAペアからなるデータセットについて述べる。
CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。
CLIcKの各事例について,その疑問に正しく答えるためには,文化知識と言語知識が必要である,詳細なアノテーションを提供する。
CLIcKを使用して、13の言語モデルをテストし、パフォーマンスを評価します。
評価の結果から,各カテゴリの業績や,理解に影響を及ぼすさまざまな要因が明らかになった。
CLIcKは韓国の文化と言語におけるLLMの習熟度に関する大規模な韓国中心の分析を初めて提供している。 Despite the rapid development of large language models (LLMs) for the Korean language, there remains an obvious lack of benchmark datasets that test the requisite Korean cultural and linguistic knowledge. Because many existing Korean benchmark datasets are derived from the English counterparts through translation, they often overlook the different cultural contexts. For the few benchmark datasets that are sourced from Korean data capturing cultural knowledge, only narrow tasks such as bias and hate speech detection are offered. To address this gap, we introduce a benchmark of Cultural and Linguistic Intelligence in Korean (CLIcK), a dataset comprising 1,995 QA pairs. CLIcK sources its data from official Korean exams and textbooks, partitioning the questions into eleven categories under the two main categories of language and culture. For each instance in CLIcK, we provide fine-grained annotation of which cultural and linguistic knowledge is required to answer the question correctly. Using CLIcK, we test 13 language models to assess their performance. Our evaluation uncovers insights into their performances across the categories, as well as the diverse factors affecting their comprehension. CLIcK offers the first large-scale comprehensive Korean-centric analysis of LLMs' proficiency in Korean culture and language. | 翻訳日:2024-03-13 11:21:59 公開日:2024-03-12 |
# deepsafempc: 安全マルチエージェント強化学習のためのディープラーニングモデル予測制御 DeepSafeMPC: Deep Learning-Based Model Predictive Control for Safe Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2403.06397v2 ) ライセンス: Link先を確認 | Xuefeng Wang, Henglin Pu, Hyung Jun Kim and Husheng Li | (参考訳) safe multi-agent reinforcement learning(safe marl)は近年注目を集めており、グローバルリターンを最適化するだけでなく、行動制約を通じて安全要件を遵守するエージェントの必要性を強調している。
近年の研究では、安全確保の課題に対処するため、制御理論とマルチエージェント強化学習を統合している。
しかし、モデル予測制御(MPC)の手法は、主にマルチエージェント環境の複雑で暗黙的な動的特性のために、非常に限定的な応用しかなかった。
このギャップを埋めるため,安全マルチエージェント強化学習(DeepSafeMPC)のためのDeep Learning-based Model Predictive Controlと呼ばれる新しい手法を提案する。
DeepSafeMPCの重要な洞察は、環境力学を正確に予測するために、エンタライズされたディープラーニングモデルを活用することである。
本手法は最適解探索に MARL の原理を適用した。
mpcの雇用を通じて、エージェントの行動は安全な状態内で同時に制限することができる。
安全マルチエージェント MuJoCo 環境を用いたアプローチの有効性を実証し,MARL の安全性問題に対処する上で大きな進歩を示す。 Safe Multi-agent reinforcement learning (safe MARL) has increasingly gained attention in recent years, emphasizing the need for agents to not only optimize the global return but also adhere to safety requirements through behavioral constraints. Some recent work has integrated control theory with multi-agent reinforcement learning to address the challenge of ensuring safety. However, there have been only very limited applications of Model Predictive Control (MPC) methods in this domain, primarily due to the complex and implicit dynamics characteristic of multi-agent environments. To bridge this gap, we propose a novel method called Deep Learning-Based Model Predictive Control for Safe Multi-Agent Reinforcement Learning (DeepSafeMPC). The key insight of DeepSafeMPC is leveraging a entralized deep learning model to well predict environmental dynamics. Our method applies MARL principles to search for optimal solutions. Through the employment of MPC, the actions of agents can be restricted within safe states concurrently. We demonstrate the effectiveness of our approach using the Safe Multi-agent MuJoCo environment, showcasing significant advancements in addressing safety concerns in MARL. | 翻訳日:2024-03-13 11:21:38 公開日:2024-03-12 |
# FlowVQTalker: 正規化フローと量子化による高品質感情会話顔生成 FlowVQTalker: High-Quality Emotional Talking Face Generation through Normalizing Flow and Quantization ( http://arxiv.org/abs/2403.06375v2 ) ライセンス: Link先を確認 | Shuai Tan, Bin Ji, Ye Pan | (参考訳) 感情的な話し顔の生成は、実用的だが挑戦的な取り組みである。
生命のようなアバターを作るには、人間の視点から2つの重要な洞察を導きます。
1) 音声と非決定論的顔のダイナミックスとの関係は, 表情, 瞬き, ポーズを包含し, 同期的かつ一対一のマッピングを示すべきである。
2) 鮮やかな表現には, 感情認識型ハイディフィニション(hd)テクスチャや細かい歯が伴うことが多い。
しかし、どちらの側面も既存の方法によってしばしば見過ごされる。
そこで本研究では,フローとベクトル量子化の正規化モデルを用いて,両方の洞察を同時に満たす感情的な発話顔を生成する(FlowVQTalker)。
具体的には、混合分布を表す多感情級潜伏空間に顔の感情のダイナミクスを符号化するフローベース係数生成器を開発する。
生成プロセスは、モデル化された分布からランダムサンプリングを行い、伴奏音声によって誘導され、リップ同期と不確定な非言語顔手がかりの生成を可能にする。
さらに, ベクトル量子化画像生成装置は, 学習したコードブックを用いて, 表情画像の作成をコードクエリタスクとして処理し, 結果の感情知覚を高めるリッチで高品質なテクスチャを提供する。
本手法の有効性を示すために広範な実験を行った。 Generating emotional talking faces is a practical yet challenging endeavor. To create a lifelike avatar, we draw upon two critical insights from a human perspective: 1) The connection between audio and the non-deterministic facial dynamics, encompassing expressions, blinks, poses, should exhibit synchronous and one-to-many mapping. 2) Vibrant expressions are often accompanied by emotion-aware high-definition (HD) textures and finely detailed teeth. However, both aspects are frequently overlooked by existing methods. To this end, this paper proposes using normalizing Flow and Vector-Quantization modeling to produce emotional talking faces that satisfy both insights concurrently (FlowVQTalker). Specifically, we develop a flow-based coefficient generator that encodes the dynamics of facial emotion into a multi-emotion-class latent space represented as a mixture distribution. The generation process commences with random sampling from the modeled distribution, guided by the accompanying audio, enabling both lip-synchronization and the uncertain nonverbal facial cues generation. Furthermore, our designed vector-quantization image generator treats the creation of expressive facial images as a code query task, utilizing a learned codebook to provide rich, high-quality textures that enhance the emotional perception of the results. Extensive experiments are conducted to showcase the effectiveness of our approach. | 翻訳日:2024-03-13 11:21:18 公開日:2024-03-12 |
# Style2Talker:感情スタイルとアートスタイルを備えた高解像度トーキングヘッドジェネレーション Style2Talker: High-Resolution Talking Head Generation with Emotion Style and Art Style ( http://arxiv.org/abs/2403.06365v2 ) ライセンス: Link先を確認 | Shuai Tan, Bin Ji, Ye Pan | (参考訳) 音声駆動音声ヘッドの自動アニメーションは近年注目されているが、従来の取り組みは主に、感情スタイルとアートスタイルという2つの重要な要素を無視して、音声と唇の同期を実現することに集中してきた。
本稿では,Style2Talkerという,革新的な音声駆動音声生成手法を提案する。
Style-EとStyle-Aという2つのスタイル化ステージがあり、テキストコントロールされた感情スタイルと絵コントロールされたアートスタイルを最終出力に統合する。
そこで本研究では,既存の映像データセットに対して感情的テキストラベルを自動アノテートする大規模事前学習モデルを用いた,無労働のパラダイムを提案する。
合成感情テキストを組み込んだStyle-Eステージでは、大規模CLIPモデルを用いて、音声と組み合わせた感情表現を抽出し、3DMMモデルの感情運動係数を生成するために設計された効率的な潜在拡散モデルの条件として機能する。
そこで我々は,Style-Aステージに進むことで,係数駆動型モーションジェネレータと,有名なStyleGANに埋め込まれたアート固有のスタイルパスを開発する。
これにより、生成した感情的動き係数とアートスタイルのソース画像を用いて、高解像度のトーキーヘッドビデオを合成することができる。
さらに,画像の詳細をよりよく保存し,アーティファクトを避けるために,識別画像から抽出したマルチスケールコンテンツ特徴をStyleGANに提供し,その中間特徴マップを設計したコンテンツエンコーダと精細化ネットワークで改良する。
本手法は,感情スタイルとアートスタイルの両方の音声-リップ同期とパフォーマンスにおいて,既存の最先端手法よりも優れた性能を示す。 Although automatically animating audio-driven talking heads has recently received growing interest, previous efforts have mainly concentrated on achieving lip synchronization with the audio, neglecting two crucial elements for generating expressive videos: emotion style and art style. In this paper, we present an innovative audio-driven talking face generation method called Style2Talker. It involves two stylized stages, namely Style-E and Style-A, which integrate text-controlled emotion style and picture-controlled art style into the final output. In order to prepare the scarce emotional text descriptions corresponding to the videos, we propose a labor-free paradigm that employs large-scale pretrained models to automatically annotate emotional text labels for existing audiovisual datasets. Incorporating the synthetic emotion texts, the Style-E stage utilizes a large-scale CLIP model to extract emotion representations, which are combined with the audio, serving as the condition for an efficient latent diffusion model designed to produce emotional motion coefficients of a 3DMM model. Moving on to the Style-A stage, we develop a coefficient-driven motion generator and an art-specific style path embedded in the well-known StyleGAN. This allows us to synthesize high-resolution artistically stylized talking head videos using the generated emotional motion coefficients and an art style source picture. Moreover, to better preserve image details and avoid artifacts, we provide StyleGAN with the multi-scale content features extracted from the identity image and refine its intermediate feature maps by the designed content encoder and refinement network, respectively. Extensive experimental results demonstrate our method outperforms existing state-of-the-art methods in terms of audio-lip synchronization and performance of both emotion style and art style. | 翻訳日:2024-03-13 11:20:55 公開日:2024-03-12 |
# $n$-qubitsの量子系の有理不変量について On the rational invariants of quantum systems of $n$-qubits ( http://arxiv.org/abs/2403.06346v2 ) ライセンス: Link先を確認 | Luca Candelori, Vladimir Y. Chernyak, and John R. Klein | (参考訳) $n$-qubit 系の場合、局所対称性群の作用に関して不変な混合状態空間上の有理函数は絡み合いの詳細な測度と見なすことができる。
すべての不変有理関数の体は複素数上の純粋超越的であり、超越次数は 4^n - 2n-1$ である。
明示的な超越基底も示される。 For an $n$-qubit system, a rational function on the space of mixed states which is invariant with respect to the action of the group of local symmetries may be viewed as a detailed measure of entanglement. We show that the field of all such invariant rational functions is purely transcendental over the complex numbers and has transcendence degree $4^n - 2n-1$. An explicit transcendence basis is also exhibited. | 翻訳日:2024-03-13 11:20:18 公開日:2024-03-12 |
# 確率制御による拡散モデルの微調整:エントロピー正則化以降 Fine-tuning of diffusion models via stochastic control: entropy regularization and beyond ( http://arxiv.org/abs/2403.06279v2 ) ライセンス: Link先を確認 | Wenpin Tang | (参考訳) 本稿では, 上原らにより最近提案された連続時間拡散モデル(arXiv:2402.15194, 2024)を用いて, エントロピー規則化微調整問題に対する厳密な対処法を開発し, 提供することを目的とする。
このアイデアは、エントロピー正則化器を導入して報酬崩壊を緩和するサンプル生成に確率制御を使用することである。
また、一般的な$f$-divergence正規化子を含む微調整まで分析を拡張できることを示す。 This paper aims to develop and provide a rigorous treatment to the problem of entropy regularized fine-tuning in the context of continuous-time diffusion models, which was recently proposed by Uehara et al. (arXiv:2402.15194, 2024). The idea is to use stochastic control for sample generation, where the entropy regularizer is introduced to mitigate reward collapse. We also show how the analysis can be extended to fine-tuning involving a general $f$-divergence regularizer. | 翻訳日:2024-03-13 11:20:10 公開日:2024-03-12 |
# ai支援ct画像解析によるcovid-19診断 : 医療aiシステムの展開 COVID-19 Computer-aided Diagnosis through AI-assisted CT Imaging Analysis: Deploying a Medical AI System ( http://arxiv.org/abs/2403.06242v2 ) ライセンス: Link先を確認 | Demetris Gerogiannis and Anastasios Arsenos and Dimitrios Kollias and Dimitris Nikitopoulos and Stefanos Kollias | (参考訳) コンピュータ支援診断システム(CAD)は、医療画像による新しいコロナウイルス病2019(COVID-19)の特定において、医師にとって強力な支援となる。
本稿では、ct画像を自動的に分析し、新型コロナウイルスの迅速検出に感染の可能性を提供する最先端のaiシステムの統合と、信頼性と迅速な展開について紹介する。
このシステムは, 分類と分節化の両方からなるシステムであり, 医師の検出時間を短縮し, 新型コロナウイルス検出の総合的効率を高めることが期待されている。
データ格差や匿名化、モデルの時間効率性のテスト、データセキュリティなど、さまざまな課題を克服し、クラウドとエッジ環境の両方でシステムの信頼性とスケーラブルなデプロイを可能にしました。
さらに,我々のAIシステムは,各3次元CTスキャンに感染確率を割り当て,アンカーセットの類似性を通じて説明可能性を高め,医師による感染患者のタイムリーな確認と分離を容易にする。 Computer-aided diagnosis (CAD) systems stand out as potent aids for physicians in identifying the novel Coronavirus Disease 2019 (COVID-19) through medical imaging modalities. In this paper, we showcase the integration and reliable and fast deployment of a state-of-the-art AI system designed to automatically analyze CT images, offering infection probability for the swift detection of COVID-19. The suggested system, comprising both classification and segmentation components, is anticipated to reduce physicians' detection time and enhance the overall efficiency of COVID-19 detection. We successfully surmounted various challenges, such as data discrepancy and anonymisation, testing the time-effectiveness of the model, and data security, enabling reliable and scalable deployment of the system on both cloud and edge environments. Additionally, our AI system assigns a probability of infection to each 3D CT scan and enhances explainability through anchor set similarity, facilitating timely confirmation and segregation of infected patients by physicians. | 翻訳日:2024-03-13 11:19:58 公開日:2024-03-12 |