このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240326となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 真のクリーンコンピューティングのための時空間負荷シフト
Spatio-temporal load shifting for truly clean computing ( http://arxiv.org/abs/2405.00036v1 ) ライセンス: Link先を確認 | Iegor Riepin, Tom Brown, Victor Zavala, | (参考訳) データセンターを持つ企業は、二酸化炭素排出量を減らすためにかなりの量の再生可能エネルギーを取得している。
電力消費に関連する炭素フットプリントを1時間単位で除去することを目的として,24/7炭素自由エネルギー(CFE)マッチングの実現への関心が高まっている。
しかし、再生可能エネルギー資源の変動は、この目標を達成する上で大きな課題となる。
我々は、コンピューティングジョブと関連する電力負荷を、時間とデータセンター位置の両方でシフトさせることの影響について検討する。
我々は、時空間負荷の柔軟性を活用して24/7 CFEマッチングを実現するために、企業が管理する地理的に分散したデータセンターのネットワークをシミュレートする最適化モデルを開発する。
再生可能エネルギー資源の平均的品質の変化、気象条件の違いによる長距離風力発電の相関の低さ、地球の自転による太陽放射ピークのラグの3つを分離した。
データセンターの位置と年時が、どの信号が効果的なロード・シェイピング戦略を駆動するかに影響を及ぼすことを示す。
これらの信号のインフォメーション利用に基づくエネルギー調達と負荷シフトの決定により、クリーンコンピューティングの資源効率とコスト効率が向上し、24/7 CFEのコストは、柔軟性のある負荷の全ての追加パーセンテージに対して1.29$\pm$0.07 EUR/MWhに削減される。
データセンターを持つ企業が、真にクリーンなコンピューティングに時空間負荷の柔軟性を活用する方法について、実践的なガイドラインを提供する。
私たちの結果とオープンソースの最適化モデルは、柔軟な負荷と二酸化炭素排出量の削減に関心を持つ幅広い企業にも役立ちます。
Companies with datacenters are procuring significant amounts of renewable energy to reduce their carbon footprint. There is increasing interest in achieving 24/7 Carbon-Free Energy (CFE) matching in electricity usage, aiming to eliminate all carbon footprints associated with electricity consumption on an hourly basis. However, the variability of renewable energy resources poses significant challenges for achieving this goal. We explore the impact of shifting computing jobs and associated power loads both in time and between datacenter locations. We develop an optimization model to simulate a network of geographically distributed datacenters managed by a company leveraging spatio-temporal load flexibility to achieve 24/7 CFE matching. We isolate three signals relevant for informed use of load flexiblity: varying average quality of renewable energy resources, low correlation between wind power generation over long distances due to different weather conditions, and lags in solar radiation peak due to Earth's rotation. We illustrate that the location of datacenters and the time of year affect which signal drives an effective load-shaping strategy. The energy procurement and load-shifting decisions based on informed use of these signals facilitate the resource-efficiency and cost-effectiveness of clean computing -- the costs of 24/7 CFE are reduced by 1.29$\pm$0.07 EUR/MWh for every additional percentage of flexible load. We provide practical guidelines on how companies with datacenters can leverage spatio-temporal load flexibility for truly clean computing. Our results and the open-source optimization model can also be useful for a broader variety of companies with flexible loads and an interest in eliminating their carbon footprint. | 翻訳日:2024-07-01 11:29:30 公開日:2024-03-26 |
# ノイズフリー量子オブザーバブルの回収」へのコメント
Comment on "Recovering noise-free quantum observables" ( http://arxiv.org/abs/2405.00037v1 ) ライセンス: Link先を確認 | Josu Etxezarreta Martinez, Olatz Sanz Larrarte, Javier Oliva del Moral, Reza Dastbasteh, Ruben M. Otxoa, | (参考訳) ZNE(Zero-noise Extrapolation)は、興味のある観測対象のノイズフリー期待値の回復を目指すため、ノイズ中間量子(NISQ)マシンを用いて最も広く使われている量子エラー緩和手法である。
近年、オッテンとグレイは、調整可能な大域的ノイズ源が存在しないシステムに対して、ポリノミカルZNEの多次元一般化を提案した。
A \textbf{99,} 012338 (2019)]
具体的には、各キュービットが異なるレートで複数のノイズ処理を経験するマルチキュービットシステムについて言及する。
提案手法は有効であるが, 提案手法は, 少なくとも量子コンピューティングの観点からは, 実現不可能な実験のオーバーヘッドを生じさせる。
本論では, 従来の外挿法は, 多数の異なるノイズ源から構成される非同一分布雑音に対して適用可能であることを示し, 測定オーバーヘッドが大幅に低減されることを示唆している。
そこで本稿では,ZNEの文脈において,グローバルノイズ源がどのような意味を持つのかを明らかにする。
Zero-noise extrapolation (ZNE) stands as the most widespread quantum error mitigation technique in order to aim the recovery of noise-free expectation values of observables of interest by means of Noisy Intermediate-Scale Quantum (NISQ) machines. Recently, Otten and Gray proposed a multidimensional generalization of poynomial ZNE for systems where there is not a tunable global noise source [Phys. Rev. A \textbf{99,} 012338 (2019)]. Specifically, the authors refer to multiqubit systems where each of the qubits experiences several noise processes with different rates, i.e. a non-identically distributed noise model. While effective, the proposed method presents an unbearable experiment repetition overhead, making it impractical, at least from the perspective of quantum computing. In this comment, we show that the traditional extrapolation techniques can be applied for such non-identically distributed noise setting consisted of many different noise sources, implying that the measurement overhead is reduced considerably. For doing so, we clarify what it is meant by a tunable global noise source in the context of ZNE, concept that we consider important to be clarified for a correct understanding about how and why these methods work. | 翻訳日:2024-07-01 11:29:30 公開日:2024-03-26 |
# 人間-ロボットインタラクションのための大規模言語モデル:機会とリスク
Large Language Models for Human-Robot Interaction: Opportunities and Risks ( http://arxiv.org/abs/2405.00693v1 ) ライセンス: Link先を確認 | Jesse Atuhurra, | (参考訳) 大規模言語モデル(LLM)の著しい発展は、新しいイノベーションと応用の波をもたらし、当初より長くかかると予測されていた研究結果をもたらした。
本研究は,最近の研究成果を活かし,社会ロボットに展開する大規模言語モデルの可能性についてメタスタディを提示する。
我々は、教育、医療、エンターテイメントといった社会ロボットの応用に特に重点を置いている。
社会ロボットに導入する前に、これらの言語モデルが、信頼、偏見、倫理、認知、チームワークといった社会的規範や問題に対して、いかに安全に"理解"できるかを研究します。
この研究は、言語モデルをロボットに組み込むことに興味を持つ他のロボット研究者に、豊富なガイドを提供することを期待している。
The tremendous development in large language models (LLM) has led to a new wave of innovations and applications and yielded research results that were initially forecast to take longer. In this work, we tap into these recent developments and present a meta-study about the potential of large language models if deployed in social robots. We place particular emphasis on the applications of social robots: education, healthcare, and entertainment. Before being deployed in social robots, we also study how these language models could be safely trained to ``understand'' societal norms and issues, such as trust, bias, ethics, cognition, and teamwork. We hope this study provides a resourceful guide to other robotics researchers interested in incorporating language models in their robots. | 翻訳日:2024-07-01 11:19:45 公開日:2024-03-26 |
# アンタングリング結び目:計算ノートにおける誤り解決のためのLLMの活用
Untangling Knots: Leveraging LLM for Error Resolution in Computational Notebooks ( http://arxiv.org/abs/2405.01559v1 ) ライセンス: Link先を確認 | Konstantin Grotov, Sergey Titov, Yaroslav Zharov, Timofey Bryksin, | (参考訳) 計算ノートは研究関連の開発に欠かせないツールとなり、開発プロセスにおいて前代未聞の対話性と柔軟性を提供した。
しかし、これらの利点は再現可能性のコストとバグの可能性を増大させます。
バグ修正のためのツールはたくさんありますが、一般的には古典的な線形コードをターゲットにしています。
コードフローの大規模言語モデルの台頭により、スマートなバグ修正ツールの新たなストリームが出現した。
しかしながら、これらのツールの適用性は、非線形計算ノートブックにはまだ問題がある。
本稿では,反復型LCMエージェントを用いて,計算ノートの誤りを解消するための潜在的な解決策を提案する。
本稿では,本手法によって提起された課題について考察し,提案手法の研究を容易にするために,バグを含む新しい計算ノートブックのデータセットを共有する。
Computational notebooks became indispensable tools for research-related development, offering unprecedented interactivity and flexibility in the development process. However, these benefits come at the cost of reproducibility and an increased potential for bugs. There are many tools for bug fixing; however, they are generally targeted at the classical linear code. With the rise of code-fluent Large Language Models, a new stream of smart bug-fixing tools has emerged. However, the applicability of those tools is still problematic for non-linear computational notebooks. In this paper, we propose a potential solution for resolving errors in computational notebooks via an iterative LLM-based agent. We discuss the questions raised by this approach and share a novel dataset of computational notebooks containing bugs to facilitate the research of the proposed approach. | 翻訳日:2024-07-01 11:09:59 公開日:2024-03-26 |
# メタフットショット画像分類のためのマルチモーダルCLIP推論
Multimodal CLIP Inference for Meta-Few-Shot Image Classification ( http://arxiv.org/abs/2405.10954v1 ) ライセンス: Link先を確認 | Constance Ferragu, Philomene Chagniot, Vincent Coyette, | (参考訳) 最近の文献では、ほとんどショット分類はNウェイkショットメタラーニング問題によって定義されている。
この目的のために設計されたモデルは、通常、外部データの使用を除いて制限された設定に従って標準ベンチマークを最適化するように訓練される。
大規模な言語とビジョンモデルの最近の進歩を考えると、自然に問題が発生する。
CLIPのようなジョイント(イメージ、テキスト)の埋め込みを学ぶマルチモーダル基盤モデルは特に興味深い。
実際、マルチモーダルトレーニングはモデルの堅牢性、特にあいまいさに関して、数発のセットアップでしばしば見られる制限を向上することが証明されている。
本研究は、CLIPのテキストと画像エンコーダのモダリティを組み合わせることで、広く採用されているベンチマークにおいて、最先端のメタファ学習者よりも優れたパフォーマンスを発揮することを示した。
この結果は,CLIPのようなマルチモーダル基盤モデルの可能性とロバスト性を確認し,そのようなモデルを活用した既存および将来のアプローチのベースラインとして機能する。
In recent literature, few-shot classification has predominantly been defined by the N-way k-shot meta-learning problem. Models designed for this purpose are usually trained to excel on standard benchmarks following a restricted setup, excluding the use of external data. Given the recent advancements in large language and vision models, a question naturally arises: can these models directly perform well on meta-few-shot learning benchmarks? Multimodal foundation models like CLIP, which learn a joint (image, text) embedding, are of particular interest. Indeed, multimodal training has proven to enhance model robustness, especially regarding ambiguities, a limitation frequently observed in the few-shot setup. This study demonstrates that combining modalities from CLIP's text and image encoders outperforms state-of-the-art meta-few-shot learners on widely adopted benchmarks, all without additional training. Our results confirm the potential and robustness of multimodal foundation models like CLIP and serve as a baseline for existing and future approaches leveraging such models. | 翻訳日:2024-07-01 08:39:42 公開日:2024-03-26 |
# Sketch2 Prototype: ジェネレーティブAIによる迅速な概念設計探索とプロトタイピング
Sketch2Prototype: Rapid Conceptual Design Exploration and Prototyping with Generative AI ( http://arxiv.org/abs/2405.12985v1 ) ライセンス: Link先を確認 | Kristen M. Edwards, Brandon Man, Faez Ahmed, | (参考訳) Sketch2Prototypeは、手描きのスケッチを、スケッチ・トゥ・テキスト、テキスト・トゥ・イメージ、イメージ・トゥ・3Dステージを通じて、多様な2Dイメージと3Dプロトタイプのセットに変換するAIベースのフレームワークである。
このフレームワークは、様々なスケッチで示され、テキスト、画像、および3Dモダリティを迅速に生成し、アーリーステージの設計探索を強化する。
テキストを中間モダリティとして用いることで、多種多様な製造可能な3Dモデルを生成するために、直接スケッチから3Dのベースラインを上回ります。
ユーザフィードバックと反復的デザイン拡張のためのテキストモダリティの値に注意しながら,現在の画像から3Dまでの技法の限界を見いだす。
Sketch2Prototype is an AI-based framework that transforms a hand-drawn sketch into a diverse set of 2D images and 3D prototypes through sketch-to-text, text-to-image, and image-to-3D stages. This framework, shown across various sketches, rapidly generates text, image, and 3D modalities for enhanced early-stage design exploration. We show that using text as an intermediate modality outperforms direct sketch-to-3D baselines for generating diverse and manufacturable 3D models. We find limitations in current image-to-3D techniques, while noting the value of the text modality for user-feedback and iterative design augmentation. | 翻訳日:2024-07-01 08:39:42 公開日:2024-03-26 |
# GreEn-ERビルのオープンエネルギーデータのライフサイクル-資源動員からデータ再利用性まで-
Lifecycle of a sub-metered tertiary multi-use (GreEn-ER) building's open energy data: from resource mobilisation to data re-usability ( http://arxiv.org/abs/2406.11846v1 ) ライセンス: Link先を確認 | Seun Osonuga, Vincent Imard, Benoit Delinchant, Frederic Wurtz, | (参考訳) 建物内のセンサーの普及により、これまで以上に多くのデータにアクセスできるようになった。
このデータの増加を封じ込めるために、過去10年間に多くのオープンデータライフサイクルが提案されてきた。
しかし、提案されたライフサイクルの多くは、構築された環境に必要な複雑さを反映していない。
本稿では,新しいオープンデータライフサイクルモデルであるOpen Energy Data Lifecycle (OPENDAL)を提案する。
OPENDALは、より一般的なライフサイクルにおける重要なテーマの上に構築されており、サイクル間の情報フローとデータを取り巻く利害関係者間の相互作用をよりよく説明することによって、それらを拡張しようとしている。
これらの要素は、公開されたデータセットの再利用を増やすため、ライフサイクルに含まれます。
また,フランスの混在型教育施設であるGreEn-ERビルディングのデータセットにライフサイクルモデルを適用した。
これらのデータセットのさまざまなユースケースが強調され、他の個人によるデータ使用のインセンティブとして議論される。
The proliferation of sensors in buildings has given us access to more data than before. To shepherd this rise in data, many open data lifecycles have been proposed over the past decade. However, many of the proposed lifecycles do not reflect the necessary complexity in the built environment. In this paper, we present a new open data lifecycle model: Open Energy Data Lifecycle (OPENDAL). OPENDAL builds on the key themes in more popular lifecycles and looks to extend them by better accounting for the information flows between cycles and the interactions between stakeholders around the data. These elements are included in the lifecycle in a bid to increase the reuse of published datasets. In addition, we apply the lifecycle model to the datasets from the GreEn-ER building, a mixed-use education building in France. Different use cases of these datasets are highlighted and discussed as a way to incentivise the use of data by other individuals. | 翻訳日:2024-07-01 07:40:34 公開日:2024-03-26 |
# 低リソース言語のためのSyllable Tokenizationの導入: Swahiliを事例として
Introducing Syllable Tokenization for Low-resource Languages: A Case Study with Swahili ( http://arxiv.org/abs/2406.15358v1 ) ライセンス: Link先を確認 | Jesse Atuhurra, Hiroyuki Shindo, Hidetaka Kamigaito, Taro Watanabe, | (参考訳) mBERTやGPT2のような事前訓練された言語モデルがより良くなり、低リソース言語にも適用できるように、多言語NLPで多くの試みがなされている。
事前学習型言語モデル(PLM)の多言語化を実現するためには,任意の言語の言語特性を捉えた単語埋め込みを作成する技術が必要である。
トークン化は、文字やサブワードに基づいて単語を分割することができ、言語の構造を最もよく表す単語埋め込みを生成するためである。
このような単語の埋め込みを作成することは、モデルが訓練されていない他の言語にPLMを適用するのに不可欠であり、多言語NLPを可能にする。
しかしながら、ほとんどのPLMは、特定の言語に合わないかもしれないBPE、ワードピース、ユニグラムのような一般的なトークン化手法を使用している。
入力テキスト内の音節に基づくトークン化は、音節トークン化と呼ばれ、音節対応言語モデルの開発を促進するべきであると仮定する。
音節対応言語モデルは、例えばスワヒリ語のような音節に富んだ言語にPLMを適用することができる。
以前の作業ではサブワードトークン化が導入されていた。
私たちの仕事はそのような努力を延長する。
特に,スワヒリ語に基づく音節トークン化手法を提案し,実験中心の手法を適用した。
GPT2を用いてテキスト生成実験を行い,音節トークン化の有効性について検討した。
提案手法はスワヒリ語を効果的に表現した音節埋め込みを生成する。
Many attempts have been made in multilingual NLP to ensure that pre-trained language models, such as mBERT or GPT2 get better and become applicable to low-resource languages. To achieve multilingualism for pre-trained language models (PLMs), we need techniques to create word embeddings that capture the linguistic characteristics of any language. Tokenization is one such technique because it allows for the words to be split based on characters or subwords, creating word embeddings that best represent the structure of the language. Creating such word embeddings is essential to applying PLMs to other languages where the model was not trained, enabling multilingual NLP. However, most PLMs use generic tokenization methods like BPE, wordpiece, or unigram which may not suit specific languages. We hypothesize that tokenization based on syllables within the input text, which we call syllable tokenization, should facilitate the development of syllable-aware language models. The syllable-aware language models make it possible to apply PLMs to languages that are rich in syllables, for instance, Swahili. Previous works introduced subword tokenization. Our work extends such efforts. Notably, we propose a syllable tokenizer and adopt an experiment-centric approach to validate the proposed tokenizer based on the Swahili language. We conducted text-generation experiments with GPT2 to evaluate the effectiveness of the syllable tokenizer. Our results show that the proposed syllable tokenizer generates syllable embeddings that effectively represent the Swahili language. | 翻訳日:2024-07-01 07:21:03 公開日:2024-03-26 |
# インスタンス分類システムにおけるドメイン適応
Domain Adaptation in Intent Classification Systems: A Review ( http://arxiv.org/abs/2404.14415v1 ) ライセンス: Link先を確認 | Jesse Atuhurra, Hidetaka Kamigaito, Taro Watanabe, Eric Nichols, | (参考訳) 特定のタスクを実行する対話エージェントは、自然言語で人間とコミュニケーションするインテリジェントエージェントを構築するという、NLP研究者の長期的な目標の一部である。
このようなシステムは、ユーザーがタスクを完了するのを助けるために、あるドメインから別のドメインに容易に適応すべきである。
研究者は、そのようなシステムを達成するための意図分類のための幅広い技術、目的、データセットを開発した。
意図分類システム(ICS)の進歩にもかかわらず、技術的な観点からの進歩の体系的なレビューはまだ行われていない。
事実上、意図分類の重要な実装詳細は限定的かつ不明確であり、自然言語処理(NLP)の研究者が新しい手法を開発するのが困難である。
このギャップを埋めるために,同時代の著作を意図的分類でレビューする。
具体的には、対話システムの意図的分類部を訓練するために必要なデータセット、ドメイン、タスク、方法の徹底的な技術的レビューを行う。
構造化分析では、なぜ意図分類が難しいのかを説明し、将来的な仕事の機会を提示しながら、ドメイン適応の限界を研究する。
Dialogue agents, which perform specific tasks, are part of the long-term goal of NLP researchers to build intelligent agents that communicate with humans in natural language. Such systems should adapt easily from one domain to another to assist users in completing tasks. Researchers have developed a broad range of techniques, objectives, and datasets for intent classification to achieve such systems. Despite the progress in developing intent classification systems (ICS), a systematic review of the progress from a technical perspective is yet to be conducted. In effect, important implementation details of intent classification remain restricted and unclear, making it hard for natural language processing (NLP) researchers to develop new methods. To fill this gap, we review contemporary works in intent classification. Specifically, we conduct a thorough technical review of the datasets, domains, tasks, and methods needed to train the intent classification part of dialogue systems. Our structured analysis describes why intent classification is difficult and studies the limitations to domain adaptation while presenting opportunities for future work. | 翻訳日:2024-04-28 11:16:37 公開日:2024-03-26 |
# 単一チャネル音源分離のための最大離散性生成規則化と非負行列分解
Maximum Discrepancy Generative Regularization and Non-Negative Matrix Factorization for Single Channel Source Separation ( http://arxiv.org/abs/2404.15296v1 ) ライセンス: Link先を確認 | Martin Ludvigsen, Markus Grasmair, | (参考訳) 正規化関数の逆学習という考え方は、最近、逆問題のより広い文脈で導入されている。
この方法の背景にある直感は、表現したい信号のクラスを構成する基本的特徴を学ぶだけでなく、表現のどの特徴を避けるかを学ぶ必要がある、という認識である。
本稿では,この手法を生成モデルの学習に適用し,最大離散性生成規則化(Maximum Discrepancy Generative Regularization)と呼ぶ。
特に、非負行列因子化(NMF)によるソース分離の問題に適用し、NMFベースに対する対角的トレーニングのための新しい手法を提案する。
画像と音声を分離する数値実験では、特に強い監視データがほとんど、あるいは全くない場合には、再構成信号が明らかに改善されることが示されている。
The idea of adversarial learning of regularization functionals has recently been introduced in the wider context of inverse problems. The intuition behind this method is the realization that it is not only necessary to learn the basic features that make up a class of signals one wants to represent, but also, or even more so, which features to avoid in the representation. In this paper, we will apply this approach to the training of generative models, leading to what we call Maximum Discrepancy Generative Regularization. In particular, we apply this to problem of source separation by means of Non-negative Matrix Factorization (NMF) and present a new method for the adversarial training of NMF bases. We show in numerical experiments, both for image and audio separation, that this leads to a clear improvement of the reconstructed signals, in particular in the case where little or no strong supervision data is available. | 翻訳日:2024-04-28 11:06:36 公開日:2024-03-26 |
# マルチUAV支援マルチIRSを用いた指向性変調ネットワークのためのマルチストリーム伝送
Multi-stream Transmission for Directional Modulation Network via distributed Multi-UAV-aided Multi-IRS ( http://arxiv.org/abs/2404.15297v1 ) ライセンス: Link先を確認 | Ke Yang, Rongen Dong, Feng Shu, Weiping Shi, Yan Wang, Xuehui Wang, | (参考訳) アクティブ・インテリジェント・リフレクション・サーフェス(IRS)は将来の6Gネットワークの革命的な技術である。
従来の遠距離単体IRS支援指向変調(DM)ネットワークは1(直接経路なし)または2(既存の直接経路なし)自由度(DoFs)しか持たない。
これは、基地局から利用者に同時に送信されるストリームは1つか2つしかないことを意味し、IRSが達成したレートゲインを著しく制限する。
DM用に2つ以上のDoFを作るには?
本稿では,1つの大規模IRSを複数の小型IRSに分割し,複数の無人航空機(UAV)を介して複数の小型IRSを分散配置するDoF($K$$$\geq3$)を作成することで,ポイントツーポイントマルチストリーム伝送を実現するために,新しいマルチIRS支援マルチストリームDMネットワークを提案する。
NSP-ZF-PAと呼ばれるビームフォーミングベクトル、受信ビームフォーミングベクトル、位相シフト行列(PSM)を設計するために、ヌル空間投影、ゼロフォース(ZF)、位相アライメントを採用する。
ここでは、$K$ PSM とその対応するビームフォーミングベクトルは独立に最適化される。
重み付き最小平均二乗誤差(WMMSE)アルゴリズムはIRSの電力制約を導入することで最適化変数の繰り返しを交互に行う。
計算複雑性を抑えるために、最大トレース法であるMax-TR-SVDを提案し、全てのIRSのPSMを最適化する。
数値シミュレーションの結果,提案したNSP-ZF-PAはMax-TR-SVDよりも高い性能を示した。
特に16個の小IRSのNSP-ZF-PAの割合は、すべての小IRSを1つの大きなIRSとして組み合わせることで、NSP-ZF-PAの約5倍である。
したがって、劇的な速度向上は複数の分散IRSによって達成される。
Active intelligent reflecting surface (IRS) is a revolutionary technique for the future 6G networks. The conventional far-field single-IRS-aided directional modulation(DM) networks have only one (no direct path) or two (existing direct path) degrees of freedom (DoFs). This means that there are only one or two streams transmitted simultaneously from base station to user and will seriously limit its rate gain achieved by IRS. How to create multiple DoFs more than two for DM? In this paper, single large-scale IRS is divided to multiple small IRSs and a novel multi-IRS-aided multi-stream DM network is proposed to achieve a point-to-point multi-stream transmission by creating $K$ ($\geq3$) DoFs, where multiple small IRSs are placed distributively via multiple unmanned aerial vehicles (UAVs). The null-space projection, zero-forcing (ZF) and phase alignment are adopted to design the transmit beamforming vector, receive beamforming vector and phase shift matrix (PSM), respectively, called NSP-ZF-PA. Here, $K$ PSMs and their corresponding beamforming vectors are independently optimized. The weighted minimum mean-square error (WMMSE) algorithm is involved in alternating iteration for the optimization variables by introducing the power constraint on IRS, named WMMSE-PC, where the majorization-minimization (MM) algorithm is used to solve the total PSM. To achieve a lower computational complexity, a maximum trace method, called Max-TR-SVD, is proposed by optimize the PSM of all IRSs. Numerical simulation results has shown that the proposed NSP-ZF-PA performs much better than Max-TR-SVD in terms of rate. In particular, the rate of NSP-ZF-PA with sixteen small IRSs is about five times that of NSP-ZF-PA with combining all small IRSs as a single large IRS. Thus, a dramatic rate enhancement may be achieved by multiple distributed IRSs. | 翻訳日:2024-04-28 11:06:36 公開日:2024-03-26 |
# 生成モデルを用いた圧縮強化学習
Compressed Federated Reinforcement Learning with a Generative Model ( http://arxiv.org/abs/2404.10635v1 ) ライセンス: Link先を確認 | Ali Beikmohammadi, Sarit Khirirat, Sindri Magnússon, | (参考訳) 強化学習は近年、前例のない人気を得たが、それでもサンプルの非効率さに悩まされている。
この課題に対処するため、フェデレーション強化学習(FedRL)が出現し、エージェントは局所的な推定を集約することで単一のポリシーを協調的に学習する。
しかし、この集約ステップは、かなりの通信コストを発生させる。
本稿では,通信効率のよいFedRL手法であるCompFedRLを提案する。
具体的には、中央サーバがローカルエージェントから圧縮された$Q$-estimatesを定期的に集約することにより、最適な$Q$-functionを学習する生成モデルセットアップを用いて、圧縮された$Q$-learningを検討する。
提案アルゴリズムの有限時間解析により, 直接圧縮と誤りフィードバック圧縮のどちらを用いても強い収束挙動を示すことにより, この2つのメカニズムの影響を初めて特徴づけた。
我々の限界は、通信コストを同時に低減しつつ、エージェント数やその他の連合ハイパーパラメータに関する解の精度の向上を示している。
我々の理論を裏付けるために、我々は、Top-K$およびSparsified-K$スペーシフィケーション作用素を考慮し、詳細な数値実験も行います。
Reinforcement learning has recently gained unprecedented popularity, yet it still grapples with sample inefficiency. Addressing this challenge, federated reinforcement learning (FedRL) has emerged, wherein agents collaboratively learn a single policy by aggregating local estimations. However, this aggregation step incurs significant communication costs. In this paper, we propose CompFedRL, a communication-efficient FedRL approach incorporating both \textit{periodic aggregation} and (direct/error-feedback) compression mechanisms. Specifically, we consider compressed federated $Q$-learning with a generative model setup, where a central server learns an optimal $Q$-function by periodically aggregating compressed $Q$-estimates from local agents. For the first time, we characterize the impact of these two mechanisms (which have remained elusive) by providing a finite-time analysis of our algorithm, demonstrating strong convergence behaviors when utilizing either direct or error-feedback compression. Our bounds indicate improved solution accuracy concerning the number of agents and other federated hyperparameters while simultaneously reducing communication costs. To corroborate our theory, we also conduct in-depth numerical experiments to verify our findings, considering Top-$K$ and Sparsified-$K$ sparsification operators. | 翻訳日:2024-04-21 19:45:03 公開日:2024-03-26 |
# ユニバーサル量子エミュレータ
Universal Quantum Emulator ( http://arxiv.org/abs/1606.02734v2 ) ライセンス: Link先を確認 | Iman Marvian, Seth Lloyd, | (参考訳) 本稿では,未知のユニタリ変換の動作を与えられた入力状態に対してエミュレートする量子アルゴリズムを提案する。
アルゴリズムは、エミュレートされるユニタリやサンプル入力状態に関する事前情報を想定しない。
未知のユニタリの動作をエミュレートするために、新しい入力状態を与えられたサンプル出力対にコヒーレントに結合する。
注目すべきことに、アルゴリズムのランタイムは D において対数的であり、ヒルベルト空間の次元は d と多項式的に増加する。
さらに、アルゴリズムのサンプル複雑性、すなわち、アルゴリズムの実行に必要なサンプル出力ペアのコピーの総数は、Dとdの多項式とは独立である。
対照的に、非コヒーレントなメソッド、すなわちトモグラフィーを使用するメソッドのランタイムとサンプルの複雑さはどちらもDで線形であり、アルゴリズムは最終的に、与えられたサンプルやエミュレートされたユニタリについて何も学ばないという意味で盲目である。
このアルゴリズムは、量子位相推定のような他のアルゴリズムのサブルーチンとして使用できる。
We propose a quantum algorithm that emulates the action of an unknown unitary transformation on a given input state, using multiple copies of some unknown sample input states of the unitary and their corresponding output states. The algorithm does not assume any prior information about the unitary to be emulated or the sample input states. To emulate the action of the unknown unitary, the new input state is coupled to the given sample input-output pairs in a coherent fashion. Remarkably, the runtime of the algorithm is logarithmic in D, the dimension of the Hilbert space, and increases polynomially with d, the dimension of the subspace spanned by the sample input states. Furthermore, the sample complexity of the algorithm-i.e., the total number of copies of the sample input-output pairs needed to run the algorithm-is independent of D and polynomial in d. In contrast, the runtime and sample complexity of incoherent methods, i.e., methods that use tomography, are both linear in D. The algorithm is blind, in the sense that, at the end, it does not learn anything about the given samples or the emulated unitary. This algorithm can be used as a subroutine in other algorithms, such as quantum phase estimation. | 翻訳日:2024-04-07 23:24:36 公開日:2024-03-26 |
# ループ誘起ヒッグス粒子崩壊における三部体の絡み合いとベル非局在性
Tripartite entanglement and Bell non-locality in loop-induced Higgs boson decays ( http://arxiv.org/abs/2403.18023v1 ) ライセンス: Link先を確認 | R. A. Morales, | (参考訳) 本稿では、レプトン湯川セクターにおけるCP違反相互作用を付加した標準模型の文脈内で、三体$H\to\gamma l\bar{l}$崩壊($l=e,\mu,\tau$)の量子絡み合い特性について検討する。
本研究の目的は, 位相空間における最終光子, レプトン, アンティルプトン間の絡み合いの分布を明らかにすることである。
これらの珍しいヒッグス粒子崩壊は1ループレベルで起こり、三部構造系における基本的な相互作用の量子的相関を計算し、ベル非局所性を調べるユニークな機会となる。
さらに, 脱脂後, 自己蒸留後の現象についても検討する。
マルチパーティの絡み合い測定は、バイパートイトの場合よりもよりリッチな構造を持ち、コライダー現象学においてより注目に値する。
この線では、高エネルギー状態内の他の多粒子系にも拡張可能な3体ヒッグス粒子崩壊の観測可能な新しい観測値について分析する。
最終粒子間の絡み合いは, 時折, 特定の運動学的構成において, 最大絡み合い状態を達成することが判明した。
また、これらの崩壊チャネルはベル非局所性試験には有望であるが、CP効果はこの種の観測可能なレプトン質量によって抑制される。
In this article, we study quantum entanglement properties of the three-body $H\to\gamma l\bar{l}$ decays (for $l=e,\mu,\tau$) within the context of the Standard Model augmented with CP-violating interactions in the lepton Yukawa sector. Our aim is to elucidate the distribution of entanglement between the final photon, lepton and antilepton across the phase-space. These rare Higgs boson decays occur at 1-loop level, presenting a unique opportunity to scrutinize quantum correlations of fundamental interactions in tripartite systems by computing concurrence measures and investigating Bell non-locality. Moreover, we explore post-decay and autodistillation phenomena. Multipartite entanglement measures have much richer structure than those in the bipartite case, thus deserve more attention in collider phenomenology. In this line, we analyze here novel observables for these three-body Higgs boson decays, which can be extended to other multiparticle systems within the high-energy regime. We found that entanglement manifests among final particles, occasionally achieving a maximally entangled state in specific kinematical configurations. Also, these decay channels are promising for Bell non-locality tests but CP-effects are suppressed by lepton masses in this kind of observables. | 翻訳日:2024-04-07 23:24:36 公開日:2024-03-26 |
# デジタルキャンバスの選択 - 芸術的パフォーマンスに対する機械学習アプローチ
Choreographing the Digital Canvas: A Machine Learning Approach to Artistic Performance ( http://arxiv.org/abs/2404.00054v1 ) ライセンス: Link先を確認 | Siyuan Peng, Kate Ladenheim, Snehesh Shrestha, Cornelia Fermüller, | (参考訳) 本稿では,属性記述に基づく芸術演奏のためのデザインツールについて紹介する。
そのために、転倒アクションの特定のパフォーマンスを使用しました。
このプラットフォームは、新しい機械学習(ML)モデルとインタラクティブインターフェースを統合して、芸術的な動きを生成、視覚化する。
我々のアプローチのコアは、モーションキャプチャ(MoCap)データからリアルな3次元人体の動きを捕捉・生成する課題に対処するために開発された、循環型属性合成変分オートコーダ(AC-VAE)モデルである。
我々は、動きを3つの異なるフェーズ(Impact、Glitch、Fall)に分割する新しいオントロジーを特徴とする、落下運動のダイナミクスに焦点を当てたユニークなデータセットを作成しました。
MLモデルのイノベーションは、これらのフェーズを別々に学ぶ能力にある。
自然かつ可塑性な動きを生成するために、包括的データ拡張技術と初期ポーズ損失関数を適用することで実現される。
私たちのWebベースのインターフェースは、アーティストがこの技術を利用するための直感的なプラットフォームを提供し、モーション属性のきめ細かいコントロールと、360度ビューや再生操作のための動的タイムラインを含むインタラクティブな視覚化ツールを提供します。
我々の研究は、テクノロジーが人間の表現の創造性を増幅し、より広い芸術的コミュニティに洗練された動きを生み出す未来への道を開く。
This paper introduces the concept of a design tool for artistic performances based on attribute descriptions. To do so, we used a specific performance of falling actions. The platform integrates a novel machine-learning (ML) model with an interactive interface to generate and visualize artistic movements. Our approach's core is a cyclic Attribute-Conditioned Variational Autoencoder (AC-VAE) model developed to address the challenge of capturing and generating realistic 3D human body motions from motion capture (MoCap) data. We created a unique dataset focused on the dynamics of falling movements, characterized by a new ontology that divides motion into three distinct phases: Impact, Glitch, and Fall. The ML model's innovation lies in its ability to learn these phases separately. It is achieved by applying comprehensive data augmentation techniques and an initial pose loss function to generate natural and plausible motion. Our web-based interface provides an intuitive platform for artists to engage with this technology, offering fine-grained control over motion attributes and interactive visualization tools, including a 360-degree view and a dynamic timeline for playback manipulation. Our research paves the way for a future where technology amplifies the creative potential of human expression, making sophisticated motion generation accessible to a wider artistic community. | 翻訳日:2024-04-07 23:07:46 公開日:2024-03-26 |
# TransformerエンコードHTTPレスポンスヘッダによるWebサーバのフィンガープリント
Fingerprinting web servers through Transformer-encoded HTTP response headers ( http://arxiv.org/abs/2404.00056v1 ) ライセンス: Link先を確認 | Patrick Darwinkel, | (参考訳) 我々は、最先端のディープラーニング、ビッグデータ、自然言語処理を活用して、脆弱なWebサーババージョンの検出を強化することを検討した。
ルールベースシステムに対する精度と特異性の改善に焦点をあてて、さまざまな曖昧で非標準のHTTPリクエストを477万のドメインに送信し、HTTPレスポンスステータスラインをキャプチャして実験を行った。
BPEトークンとRoBERTaエンコーダを教師なしマスキング言語モデリングのためにトレーニングすることで,これらのステータスラインを表現した。
次に、各ドメインのWebサーバを表すために、デメンタリティを減らし、コード化されたレスポンスラインを連結する。
ランダムフォレストと多層パーセプトロン(MLP)はこれらのウェブサーバを分類し、それぞれ0.94と0.96のマクロF1スコアを達成した。
MLPは、重み付きF1スコアを0.55で達成し、347のメジャータイプとマイナーバージョンを分類した。
分析は、我々のテストケースがWebサーバタイプの意味のある差別であることを示している。
私たちのアプローチは、ルールベースのシステムに対する強力で柔軟な代替手段としての可能性を実証しています。
We explored leveraging state-of-the-art deep learning, big data, and natural language processing to enhance the detection of vulnerable web server versions. Focusing on improving accuracy and specificity over rule-based systems, we conducted experiments by sending various ambiguous and non-standard HTTP requests to 4.77 million domains and capturing HTTP response status lines. We represented these status lines through training a BPE tokenizer and RoBERTa encoder for unsupervised masked language modeling. We then dimensionality reduced and concatenated encoded response lines to represent each domain's web server. A Random Forest and multilayer perceptron (MLP) classified these web servers, and achieved 0.94 and 0.96 macro F1-score, respectively, on detecting the five most popular origin web servers. The MLP achieved a weighted F1-score of 0.55 on classifying 347 major type and minor version pairs. Analysis indicates that our test cases are meaningful discriminants of web server types. Our approach demonstrates promise as a powerful and flexible alternative to rule-based systems. | 翻訳日:2024-04-07 23:07:46 公開日:2024-03-26 |
# PerOS: クラウド上のパーソナライズされた自己適応型オペレーティングシステム
PerOS: Personalized Self-Adapting Operating Systems in the Cloud ( http://arxiv.org/abs/2404.00057v1 ) ライセンス: Link先を確認 | Hongyu Hè, | (参考訳) オペレーティングシステム(OS)は、コンピュータシステムの基礎であり、ハードウェアリソースを管理し、多様なアプリケーションのためのセキュアな環境を確保する。
しかし、OSの基本的な設計目的は、その持続的重要性にもかかわらず、数十年にわたって最小限の進化をみせてきた。
従来のスピード、メモリ効率、セキュリティ、スケーラビリティといった側面の優先順位付けは、インテリジェンスの重要な側面だけでなく、パーソナライズされたユーザエクスペリエンスを見落としていることが多い。
機械学習(ML)の顕著な進歩など、技術革新が進む中で、知性の欠如がますます批判的になっている。
今日のパーソナルデバイスは、ユーザのための親密なコンパニオンへと進化し、LinuxやiOSといった従来のOS、特に異種コンポーネントを特徴とする特別なハードウェアの出現において、ユニークな課題を提起している。
さらに、MLにおける大規模言語モデル(LLM)の台頭は、ユーザインタラクションとソフトウェア開発パラダイムを再構築するトランスフォーメーション機能を導入している。
既存の文献では、主にシステムの最適化やMLワークロードの高速化にMLメソッドを活用することに重点を置いているが、OSレベルでパーソナライズされたユーザエクスペリエンスに対処する上で、大きなギャップがある。
この課題に対処するために、この研究はパーソナライズされたOSであるPerOSを提案している。
PerOSは、宣言型インターフェース、自己適応型カーネル、セキュアなデータ管理を通じて、適切なユーザエクスペリエンスを提供しながら、プライバシと個人情報を保護し、スケーラブルなクラウド中心アーキテクチャでセキュアなデータ管理を提供することを目指している。
Operating systems (OSes) are foundational to computer systems, managing hardware resources and ensuring secure environments for diverse applications. However, despite their enduring importance, the fundamental design objectives of OSes have seen minimal evolution over decades. Traditionally prioritizing aspects like speed, memory efficiency, security, and scalability, these objectives often overlook the crucial aspect of intelligence as well as personalized user experience. The lack of intelligence becomes increasingly critical amid technological revolutions, such as the remarkable advancements in machine learning (ML). Today's personal devices, evolving into intimate companions for users, pose unique challenges for traditional OSes like Linux and iOS, especially with the emergence of specialized hardware featuring heterogeneous components. Furthermore, the rise of large language models (LLMs) in ML has introduced transformative capabilities, reshaping user interactions and software development paradigms. While existing literature predominantly focuses on leveraging ML methods for system optimization or accelerating ML workloads, there is a significant gap in addressing personalized user experiences at the OS level. To tackle this challenge, this work proposes PerOS, a personalized OS ingrained with LLM capabilities. PerOS aims to provide tailored user experiences while safeguarding privacy and personal data through declarative interfaces, self-adaptive kernels, and secure data management in a scalable cloud-centric architecture; therein lies the main research question of this work: How can we develop intelligent, secure, and scalable OSes that deliver personalized experiences to thousands of users? | 翻訳日:2024-04-07 23:07:46 公開日:2024-03-26 |
# NJUST-KMG at TRAC-2024 Tasks 1 and 2: Offline Harm Potential Identification
NJUST-KMG at TRAC-2024 Tasks 1 and 2: Offline Harm Potential Identification ( http://arxiv.org/abs/2403.19713v1 ) ライセンス: Link先を確認 | Jingyuan Wang, Shengdong Xu, Yang Yang, | (参考訳) 本報告では2つのサブタスクを囲むTRAC-2024オフラインハーム電位密度化法について詳述する。
この調査は、いくつかのインドの言語でソーシャルメディアのコメントからなる豊富なデータセットを利用しており、専門家の審査員によって、オフラインの文脈に害をもたらす悪影響を正確に把握するために注釈付けされた。
参加者に割り当てられた目的は、与えられた状況における害の可能性を正確に評価し、最も可能性の高い標的を特定できるアルゴリズムを設計することであった。
F1値はそれぞれ0.73と0.96の2つの異なるトラックで2位にランクインした。
提案手法は, 主に, 微調整のための事前学習モデルの選択, コントラスト学習技術の導入, およびテストセットのアンサンブルアプローチの達成に関わる。
This report provide a detailed description of the method that we proposed in the TRAC-2024 Offline Harm Potential dentification which encloses two sub-tasks. The investigation utilized a rich dataset comprised of social media comments in several Indian languages, annotated with precision by expert judges to capture the nuanced implications for offline context harm. The objective assigned to the participants was to design algorithms capable of accurately assessing the likelihood of harm in given situations and identifying the most likely target(s) of offline harm. Our approach ranked second in two separate tracks, with F1 values of 0.73 and 0.96 respectively. Our method principally involved selecting pretrained models for finetuning, incorporating contrastive learning techniques, and culminating in an ensemble approach for the test set. | 翻訳日:2024-04-01 17:43:20 公開日:2024-03-26 |
# SugarcaneNet2024:Sgarcane病分類のためのLASSO正規化事前訓練モデルの最適化された平均アンサンブルアプローチ
SugarcaneNet2024: An Optimized Weighted Average Ensemble Approach of LASSO Regularized Pre-trained Models for Sugarcane Disease Classification ( http://arxiv.org/abs/2403.18870v1 ) ライセンス: Link先を確認 | Md. Simul Hasan Talukder, Sharmin Akter, Abdullah Hafez Nur, | (参考訳) 世界の砂糖産業にとって重要な作物であるシュガーカインは、その収量と品質の両方にかなりの悪影響を及ぼすいくつかの病気の傾向にある。
予防イニシアチブを効果的に管理し、実施するには、疾患を迅速かつ正確に検出する必要がある。
本研究では,サトウキビ病を自動的にかつ迅速に検出するための従来の手法よりも優れたサトウキビNet2024というユニークなモデルを提案する。
InceptionV3、InceptionResNetV2、DenseNet201、DenseNet169、Xception、ResNet152V2の7つのカスタマイズおよびLASSO正規化事前学習モデルの最適化された平均アンサンブルを集約した。
当初、0.0001 LASSO正則化、30%のドロップアウト層、3つのバッチ正規化を加えた。
この添加によりサトウキビ葉病分類の精度が大幅に向上した。
その後、平均アンサンブルと個々のモデルの比較研究を行い、アンサンブルの手法がより良くなったことを示唆した。
すべての改良された事前訓練されたモデルの平均アンサンブルは、それぞれ100%、99%、99%、99.45%のスコア、精度、リコール、精度で優れた結果をもたらした。
グリッドサーチを組み込んだ最適化された平均アンサンブル手法の実装により、さらに性能が向上した。
この最適化されたサトウキビNet2024モデルは、精度、精度、リコール、F1スコアの99.67%、100%、100%、100%を達成し、サトウキビ病の診断に最善を尽くした。
Sugarcane, a key crop for the world's sugar industry, is prone to several diseases that have a substantial negative influence on both its yield and quality. To effectively manage and implement preventative initiatives, diseases must be detected promptly and accurately. In this study, we present a unique model called sugarcaneNet2024 that outperforms previous methods for automatically and quickly detecting sugarcane disease through leaf image processing. Our proposed model consolidates an optimized weighted average ensemble of seven customized and LASSO-regularized pre-trained models, particularly InceptionV3, InceptionResNetV2, DenseNet201, DenseNet169, Xception, and ResNet152V2. Initially, we added three more dense layers with 0.0001 LASSO regularization, three 30% dropout layers, and three batch normalizations with renorm enabled at the bottom of these pre-trained models to improve the performance. The accuracy of sugarcane leaf disease classification was greatly increased by this addition. Following this, several comparative studies between the average ensemble and individual models were carried out, indicating that the ensemble technique performed better. The average ensemble of all modified pre-trained models produced outstanding outcomes: 100%, 99%, 99%, and 99.45% for f1 score, precision, recall, and accuracy, respectively. Performance was further enhanced by the implementation of an optimized weighted average ensemble technique incorporated with grid search. This optimized sugarcaneNet2024 model performed the best for detecting sugarcane diseases, having achieved accuracy, precision, recall, and F1 score of 99.67%, 100%, 100%, and 100% , respectively. | 翻訳日:2024-03-29 20:23:28 公開日:2024-03-26 |
# 臨床領域の知識に基づくテンプレートは気胸分類におけるポストホックAI説明を改善する
Clinical Domain Knowledge-Derived Template Improves Post Hoc AI Explanations in Pneumothorax Classification ( http://arxiv.org/abs/2403.18871v1 ) ライセンス: Link先を確認 | Han Yuan, Chuan Hong, Pengtao Jiang, Gangming Zhao, Nguyen Tuan Anh Tran, Xinxing Xu, Yet Yen Yan, Nan Liu, | (参考訳) 背景:気胸は肺と胸壁の間の異常な空気の収集によって引き起こされる急性胸腺疾患である。
深層学習(DL)モデルに係わる不透明性に対処するため、説明可能な人工知能(XAI)手法が、DLモデルによる気胸診断に関連する領域に導入されている。
しかし、これらの説明は時々実際の病変領域から分岐し、さらなる改善の必要性を浮き彫りにする。
方法:XAI法によるモデル説明に気胸の臨床知識を取り入れ,これらの説明の質を高めるためのテンプレート誘導手法を提案する。
放射線医が生み出した病変の1つを利用して, 気胸発生の潜在的な領域を示すテンプレートを最初に生成する。
このテンプレートはモデル説明に重ねて、テンプレートの境界外にある余分な説明をフィルタリングする。
実世界の2つのデータセットで2つのDLモデルを説明する際に,テンプレートガイダンスを使わずに3つのXAI手法の比較分析を行った。
結果:提案手法は,3つのXAIメソッドと2つのDLモデル,2つのデータセット上に構築された12のベンチマークシナリオに対して,一貫してベースラインXAIメソッドを改善した。
ベースライン性能に対する性能改善によって算出された平均インクリメンタルパーセンテージは、IoU(Intersection over Union)では97.8%、DSC(Dice similarity Coefficient)では94.1%であった。
結論: Pneumothorax 診断の文脈において,我々は,AI説明を改善するためのテンプレート誘導アプローチを提案した。
我々は、臨床領域の専門知識を統合することで、AIモデルを解明するための新しいアプローチを期待する。
Background: Pneumothorax is an acute thoracic disease caused by abnormal air collection between the lungs and chest wall. To address the opaqueness often associated with deep learning (DL) models, explainable artificial intelligence (XAI) methods have been introduced to outline regions related to pneumothorax diagnoses made by DL models. However, these explanations sometimes diverge from actual lesion areas, highlighting the need for further improvement. Method: We propose a template-guided approach to incorporate the clinical knowledge of pneumothorax into model explanations generated by XAI methods, thereby enhancing the quality of these explanations. Utilizing one lesion delineation created by radiologists, our approach first generates a template that represents potential areas of pneumothorax occurrence. This template is then superimposed on model explanations to filter out extraneous explanations that fall outside the template's boundaries. To validate its efficacy, we carried out a comparative analysis of three XAI methods with and without our template guidance when explaining two DL models in two real-world datasets. Results: The proposed approach consistently improved baseline XAI methods across twelve benchmark scenarios built on three XAI methods, two DL models, and two datasets. The average incremental percentages, calculated by the performance improvements over the baseline performance, were 97.8% in Intersection over Union (IoU) and 94.1% in Dice Similarity Coefficient (DSC) when comparing model explanations and ground-truth lesion areas. Conclusions: In the context of pneumothorax diagnoses, we proposed a template-guided approach for improving AI explanations. We anticipate that our template guidance will forge a fresh approach to elucidating AI models by integrating clinical domain expertise. | 翻訳日:2024-03-29 20:23:28 公開日:2024-03-26 |
# エンコーダLLMのバックボーンの可視化
Targeted Visualization of the Backbone of Encoder LLMs ( http://arxiv.org/abs/2403.18872v1 ) ライセンス: Link先を確認 | Isaac Roberts, Alexander Schulz, Luca Hermes, Barbara Hammer, | (参考訳) 意図に基づく大規模言語モデル(LLMs)は、自然言語処理(NLP)における最先端技術である。
最も一般的なアーキテクチャはBERTのようなエンコーダとGPTモデルのようなデコーダである。
この研究に焦点を当てたエンコーダモデルの成功にもかかわらず、バイアスや敵攻撃に対する感受性の問題など、いくつかのリスクも抱えており、そのような問題を検出するために説明可能なAIの必要性が示されています。
単一入力の予測に焦点をあてた様々な局所的説明可能性手法が存在するが、他の領域に出現した分類検査の次元削減に基づくグローバルな手法は、埋め込み空間において単にt-SNEを使用する以上のものであるが、NLPでは広く普及していない。
このギャップを低減するために,NLP領域に2次元のデータセットとともに決定関数の一部を可視化するDeepViewの応用について検討する。
これまで、DeepViewは深層画像分類モデルの検査に用いられてきたが、BERTベースのNLP分類器に適用し、逆摂動型入力サンプルの設定や事前学習、微調整、マルチタスクモデルを含む、この領域のユーザビリティを調査する方法を実証してきた。
Attention based Large Language Models (LLMs) are the state-of-the-art in natural language processing (NLP). The two most common architectures are encoders such as BERT, and decoders like the GPT models. Despite the success of encoder models, on which we focus in this work, they also bear several risks, including issues with bias or their susceptibility for adversarial attacks, signifying the necessity for explainable AI to detect such issues. While there does exist various local explainability methods focusing on the prediction of single inputs, global methods based on dimensionality reduction for classification inspection, which have emerged in other domains and that go further than just using t-SNE in the embedding space, are not widely spread in NLP. To reduce this gap, we investigate the application of DeepView, a method for visualizing a part of the decision function together with a data set in two dimensions, to the NLP domain. While in previous work, DeepView has been used to inspect deep image classification models, we demonstrate how to apply it to BERT-based NLP classifiers and investigate its usability in this domain, including settings with adversarially perturbed input samples and pre-trained, fine-tuned, and multi-task models. | 翻訳日:2024-03-29 20:23:28 公開日:2024-03-26 |
# 網膜CTによる心血管疾患の予測
Predicting risk of cardiovascular disease using retinal OCT imaging ( http://arxiv.org/abs/2403.18873v1 ) ライセンス: Link先を確認 | Cynthia Maldonado-Garcia, Rodrigo Bonazzola, Enzo Ferrante, Thomas H Julian, Panagiotis I Sergouniotis, Nishant Ravikumara, Alejandro F Frangi, | (参考訳) 光コヒーレンストモグラフィー(OCT)が将来性心血管疾患(CVD)の予測に有効である可能性について検討した。
我々は,変分オートエンコーダ(VAE)に基づく自己教師型深層学習手法を用いて,高次元 OCT 画像の低次元表現を学習し,OCT 画像内の異なる網膜層の異なる特徴を捉える。
ランダムフォレスト (RF) 分類器は, CVD イベント (MI または 脳卒中) のリスクのある患者と非CVD の患者を区別するために, 学習した潜伏的特徴と, 参加者の人口統計および臨床データを用いて訓練された。
画像取得後5年以内にCVDイベント(MIまたはストローク)に罹患する可能性のある個人を正しく識別する能力に基づいて,マルチモーダルデータに基づく予測モデルの評価を行った。
自己監督型VAE特徴選択とマルチモーダル型ランダムフォレスト分類器は,将来CVDイベントのリスクがある患者とAUC0.75のコントロール群とを区別し,QRISK3スコア(AUC=0.597)よりも優れていた。
OCT画像で見られる脈絡膜層は,新しいモデル説明可能性アプローチを用いて,今後のCVD事象の予測因子として同定された。
網膜CTは、心血管疾患のリスクを予測するための費用対効果と非侵襲的な代替手段を提供する。
We investigated the potential of optical coherence tomography (OCT) as an additional imaging technique to predict future cardiovascular disease (CVD). We utilised a self-supervised deep learning approach based on Variational Autoencoders (VAE) to learn low-dimensional representations of high-dimensional 3D OCT images and to capture distinct characteristics of different retinal layers within the OCT image. A Random Forest (RF) classifier was subsequently trained using the learned latent features and participant demographic and clinical data, to differentiate between patients at risk of CVD events (MI or stroke) and non-CVD cases. Our predictive model, trained on multimodal data, was assessed based on its ability to correctly identify individuals likely to suffer from a CVD event(MI or stroke), within a 5-year interval after image acquisition. Our self-supervised VAE feature selection and multimodal Random Forest classifier differentiate between patients at risk of future CVD events and the control group with an AUC of 0.75, outperforming the clinically established QRISK3 score (AUC= 0.597). The choroidal layer visible in OCT images was identified as an important predictor of future CVD events using a novel approach to model explanability. Retinal OCT imaging provides a cost-effective and non-invasive alternative to predict the risk of cardiovascular disease and is readily accessible in optometry practices and hospitals. | 翻訳日:2024-03-29 20:23:28 公開日:2024-03-26 |
# 分光異常エミッタを有する結合キャビティアレイにおけるポラリトン生成
Polariton Creation in Coupled Cavity Arrays with Spectrally Disordered Emitters ( http://arxiv.org/abs/2112.15469v5 ) ライセンス: Link先を確認 | Jesse Patton, Victoria A. Norman, Eliana C. Mann, Brinda Puri, Richard T. Scalettar, Marina Radulaski, | (参考訳) 集積フォトニクスは、強い相関系における凝縮物質現象のアナログ量子シミュレーションのための有望なプラットフォームである。
この目的のために、スペクトル不規則エミッタのアンサンブルを結合した共振器アレイにおける全フォトニック量子シミュレータの実装について検討する。
本モデルは,フォトニック結晶キャビティアレイに集積された色中心アンサンブルを反映する。
量子マスター方程式と実効ハミルトニアンのアプローチを用いて、オープン量子タヴィス-カミングス-ハバードフレームワークにおけるエネルギーバンドの形成と波動関数特性を研究する。
本研究では, 発振器周波数, 共振器共振器周波数, 発振器共振器共振器共振器の共振器結合率, 共振器共振器共振器共振器共振器共振器の偏光器生成および(脱)局所化の条件について検討した。
これらの特性を定量化するために,各波動関数の光-物質ハイブリッド化とノード非局在化を特徴付ける2つの測度,分極性および結節参加比を導入する。
これらの新しいメトリクスと有効ハミルトンのアプローチを組み合わせることで、固体系の空洞量子力学工学のための強力なツールボックスであることが証明された。
Integrated photonics has been a promising platform for analog quantum simulation of condensed matter phenomena in strongly correlated systems. To that end, we explore the implementation of all-photonic quantum simulators in coupled cavity arrays with integrated ensembles of spectrally disordered emitters. Our model is reflective of color center ensembles integrated into photonic crystal cavity arrays. Using the Quantum Master Equation and the Effective Hamiltonian approaches, we study energy band formation and wavefunction properties in the open quantum Tavis-Cummings-Hubbard framework. We find conditions for polariton creation and (de)localization under experimentally relevant values of disorder in emitter frequencies, cavity resonance frequencies, and emitter-cavity coupling rates. To quantify these properties, we introduce two metrics, the polaritonic and nodal participation ratios, that characterize the light-matter hybridization and the node delocalization of the wavefunction, respectively. These new metrics combined with the Effective Hamiltonian approach prove to be a powerful toolbox for cavity quantum electrodynamical engineering of solid-state systems. | 翻訳日:2024-03-28 23:39:03 公開日:2024-03-26 |
# SmoothQuant:大規模言語モデルのための高精度かつ効率的なポストトレーニング量子化
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models ( http://arxiv.org/abs/2211.10438v6 ) ライセンス: Link先を確認 | Guangxuan Xiao, Ji Lin, Mickael Seznec, Hao Wu, Julien Demouth, Song Han, | (参考訳) 大規模言語モデル(LLM)は優れた性能を示すが、計算とメモリ集約性がある。
量子化はメモリを減らし、推論を加速する。
しかし、既存の手法では精度とハードウェアの効率を同時に維持できない。
SmoothQuant, a training-free, accuracy-serving and general-purpose post-training Quantization (PTQ) solution to enable 8-bit weight, 8-bit activation (W8A8) Quantization for LLMs。
SmoothQuantは、活性化中に重みが量子化しやすいという事実に基づいて、数学的に等価な変換で、活性化から重みへの量子化の難しさをオフラインで移動させることにより、アクティベーションアウトリーを滑らかにする。
SmoothQuantは、OPT、BLOOM、GLM、MT-NLG、Llama-1/2、Falcon、Mistral、Mixtralモデルを含む、LLMのすべての行列乗算に対するウェイトとアクティベーションの両方のINT8量子化を可能にする。
最大1.56倍の高速化と2倍のメモリ削減を実現した。
SmoothQuantは、単一のノード内で530B LLMを提供する。
私たちの仕事は、ハードウェアコストを削減し、LLMを民主化するターンキーソリューションを提供します。
コードはhttps://github.com/mit-han-lab/smoothquant.comで入手できる。
Large language models (LLMs) show excellent performance but are compute- and memory-intensive. Quantization can reduce memory and accelerate inference. However, existing methods cannot maintain accuracy and hardware efficiency at the same time. We propose SmoothQuant, a training-free, accuracy-preserving, and general-purpose post-training quantization (PTQ) solution to enable 8-bit weight, 8-bit activation (W8A8) quantization for LLMs. Based on the fact that weights are easy to quantize while activations are not, SmoothQuant smooths the activation outliers by offline migrating the quantization difficulty from activations to weights with a mathematically equivalent transformation. SmoothQuant enables an INT8 quantization of both weights and activations for all the matrix multiplications in LLMs, including OPT, BLOOM, GLM, MT-NLG, Llama-1/2, Falcon, Mistral, and Mixtral models. We demonstrate up to 1.56x speedup and 2x memory reduction for LLMs with negligible loss in accuracy. SmoothQuant enables serving 530B LLM within a single node. Our work offers a turn-key solution that reduces hardware costs and democratizes LLMs. Code is available at https://github.com/mit-han-lab/smoothquant. | 翻訳日:2024-03-28 23:39:03 公開日:2024-03-26 |
# HIVE:教育用ビジュアル編集のための人間のフィードバックを損なう
HIVE: Harnessing Human Feedback for Instructional Visual Editing ( http://arxiv.org/abs/2303.09618v2 ) ライセンス: Link先を確認 | Shu Zhang, Xinyi Yang, Yihao Feng, Can Qin, Chia-Chih Chen, Ning Yu, Zeyuan Chen, Huan Wang, Silvio Savarese, Stefano Ermon, Caiming Xiong, Ran Xu, | (参考訳) 人間のフィードバックを組み込むことは、大きな言語モデルによって生成されたテキストを人間の好みに合わせるのに不可欠であることが示されている。
我々は、入力画像と編集命令に基づいて出力が生成される最先端の命令画像編集モデルも同様に人間のフィードバックの恩恵を受けることができると仮定する。
本稿では,HIVE(インストラクショナル・ビジュアル・編集)のためのヒューマンフィードバックを利用する新しいフレームワークを提案する。
具体的には、編集された画像に対する人間のフィードバックを収集し、報酬関数を学習して、基礎となるユーザの好みをキャプチャする。
次に、推定報酬に基づいて人間の好みを組み込むスケーラブルな拡散モデル微調整手法を提案する。
さらに、データの制限によるバイアスを軽減するために、新しい1Mトレーニングデータセット、学習に報奨する3.6K報酬データセット、教育画像編集のパフォーマンスを高める1K評価データセットをコントリビュートする。
我々は,HIVEが従来の最先端の指導画像編集手法よりも大きなマージンで有利であることを示し,定量的かつ定性的に広範な実験を行った。
Incorporating human feedback has been shown to be crucial to align text generated by large language models to human preferences. We hypothesize that state-of-the-art instructional image editing models, where outputs are generated based on an input image and an editing instruction, could similarly benefit from human feedback, as their outputs may not adhere to the correct instructions and preferences of users. In this paper, we present a novel framework to harness human feedback for instructional visual editing (HIVE). Specifically, we collect human feedback on the edited images and learn a reward function to capture the underlying user preferences. We then introduce scalable diffusion model fine-tuning methods that can incorporate human preferences based on the estimated reward. Besides, to mitigate the bias brought by the limitation of data, we contribute a new 1M training dataset, a 3.6K reward dataset for rewards learning, and a 1K evaluation dataset to boost the performance of instructional image editing. We conduct extensive empirical experiments quantitatively and qualitatively, showing that HIVE is favored over previous state-of-the-art instructional image editing approaches by a large margin. | 翻訳日:2024-03-28 23:31:58 公開日:2024-03-26 |
# ERM++: ドメインの一般化のための改善されたベースライン
ERM++: An Improved Baseline for Domain Generalization ( http://arxiv.org/abs/2304.01973v3 ) ライセンス: Link先を確認 | Piotr Teterwak, Kuniaki Saito, Theodoros Tsiligkaridis, Kate Saenko, Bryan A. Plummer, | (参考訳) ドメイン一般化(DG)は、訓練されていないデータの新しい分布に一般化する分類器の能力を測定する。
近年の研究では、ソースドメインに対する経験的リスクを最小限に抑える超パラメータ調整経験的リスク最小化(ERM)トレーニングが、既存のDGメソッドよりも優れていることが示されている。
ERMは、学習率、重量減少、バッチサイズ、ドロップアウトなどのハイパーパラメータをチューニングするだけで、そのような強力な結果を得た。
しかし、過剰適合と破滅的な忘れを更に制限する追加のハイパーパラメータが存在する。
したがって、トレーニング量、初期化、追加の正規化子を含む、未チューニングのハイパーパラメータのチューニングに重点を置いている。
結果、より強力なベースライン ERM++ を呼び出します。
ERM++は、ResNet-50を持つ5つのデータセットの標準ベンチマークにおいて、以前のEMMベースラインと比較して、DGのパフォーマンスを5%以上改善し、VT-B/16で15%以上向上し、両方のアーキテクチャでDomainBed上のすべてのSOTAメソッドを上回っている。
また、DGパフォーマンスと事前トレーニングデータとの類似性についても検討し、事前トレーニングデータディストリビューションとの類似性はパフォーマンスの重要な要因であるが、より強力な初期化を持つEMM++は、異種データセットでも強力なパフォーマンスを提供できることを発見した。
Domain Generalization (DG) measures a classifier's ability to generalize to new distributions of data it was not trained on. Recent work has shown that a hyperparameter-tuned Empirical Risk Minimization (ERM) training procedure, that is simply minimizing the empirical risk on the source domains, can outperform most existing DG methods. ERM has achieved such strong results while only tuning hyper-parameters such as learning rate, weight decay, batch size, and dropout. However there are additional hyperparameters which further limit overfitting and catastrophic forgetting. We therefore focus on tuning previously untuned hyper-parameters, including training amount, initialization, and additional regularizers. We call the resulting stronger baseline ERM++. ERM++ improves the performance of DG by over 5% compared to prior ERM baselines on a standard benchmark of 5 datasets with a ResNet-50 and over 15% with a ViT-B/16, and outperforms all SOTA methods on DomainBed with both architectures. We also explore the relationship between DG performance and similarity to pre-training data, and find that similarity to pre-training data distributions is an important driver of performance, but that ERM++ with stronger initializations can deliver strong performance even on dissimilar datasets.Code is released at https://github.com/piotr-teterwak/erm_plusplus. | 翻訳日:2024-03-28 23:22:06 公開日:2024-03-26 |
# Curious Rhythms: ウィキペディア消費の時間的規則性
Curious Rhythms: Temporal Regularities of Wikipedia Consumption ( http://arxiv.org/abs/2305.09497v2 ) ライセンス: Link先を確認 | Tiziano Piccardi, Martin Gerlach, Robert West, | (参考訳) ウィキペディアは世界最大の百科事典として、幅広い情報ニーズに対応している。
以前の研究では、ウィキペディア利用者の情報は1日を通して異なることが指摘されていたが、現在までに基礎となる力学の大規模かつ定量的な研究は行われていない。
本論文は,英語ウィキペディアのサーバログから抽出した数十億件のタイムゾーン補正ページ要求を大規模に分析し,その状況と時間が消費情報の種類とどのように関連しているかを調査することによって,このギャップを埋めるものである。
まず, 日中交替のグローバルなパターンを除去したとしても, 個々の物品の消費習慣が日中変化を強く維持していることを示す。
そこで,本研究では,夜間に好まれる記事と就労時間に好まれる記事とを特に区別し,消費パターンの原型的形状を特徴付ける。
最後に、ウィキペディアの記事のアクセスリズムの話題的・文脈的相関について検討し、記事の話題、読者国、アクセスデバイス(モバイル対デスクトップ)が日々の注意パターンの重要な予測因子であることを示す。
これらの発見は、人間がウェブ上で情報を求める方法に新たな光を当て、ウィキペディアを知識と学習のための最大のオープンプラットフォームの一つとして焦点を合わせ、ウィキペディアが情報のニーズを満たすリッチな知識基盤としての役割を一日を通じて強調し、世界中の情報を探究する情報を理解し、適切な情報システムの設計に意味があることを強調した。
Wikipedia, in its role as the world's largest encyclopedia, serves a broad range of information needs. Although previous studies have noted that Wikipedia users' information needs vary throughout the day, there is to date no large-scale, quantitative study of the underlying dynamics. The present paper fills this gap by investigating temporal regularities in daily consumption patterns in a large-scale analysis of billions of timezone-corrected page requests mined from English Wikipedia's server logs, with the goal of investigating how context and time relate to the kind of information consumed. First, we show that even after removing the global pattern of day-night alternation, the consumption habits of individual articles maintain strong diurnal regularities. Then, we characterize the prototypical shapes of consumption patterns, finding a particularly strong distinction between articles preferred during the evening/night and articles preferred during working hours. Finally, we investigate topical and contextual correlates of Wikipedia articles' access rhythms, finding that article topic, reader country, and access device (mobile vs. desktop) are all important predictors of daily attention patterns. These findings shed new light on how humans seek information on the Web by focusing on Wikipedia as one of the largest open platforms for knowledge and learning, emphasizing Wikipedia's role as a rich knowledge base that fulfills information needs spread throughout the day, with implications for understanding information seeking across the globe and for designing appropriate information systems. | 翻訳日:2024-03-28 23:22:06 公開日:2024-03-26 |
# leftover-Lunch: 言語モデルのためのアドバンテージに基づくオフライン強化学習
Leftover-Lunch: Advantage-based Offline Reinforcement Learning for Language Models ( http://arxiv.org/abs/2305.14718v4 ) ライセンス: Link先を確認 | Ashutosh Baheti, Ximing Lu, Faeze Brahman, Ronan Le Bras, Maarten Sap, Mark Riedl, | (参考訳) RLHF(Reinforcement Learning with Human Feedback)は、言語モデル(LM)アライメントの最も顕著な手法である。
しかし、RLHFは不安定でデータハングリーなプロセスであり、微調整のために新しい高品質なLM生成データを必要とする。
本稿では,既存のデータに対するRLトレーニングを可能にするオフラインポリシー勾配アルゴリズムであるAdvantage-Leftover Lunch RL (A-LoL)を紹介する。
LM出力シーケンス全体を単一のアクションとして仮定することで、A-LoLはシーケンスレベルの分類器や人間設計のスコアリング機能を報酬として組み込むことができる。
その後、LMの値の推定値を使用することで、A-LoLは正の優位性(左上)のデータポイントのみを訓練し、ノイズに耐性を持たせる。
全体として、A-LoLは実装が容易で、サンプル効率が高く、安定したLMトレーニングレシピである。
A-LoLとその変種の有効性を4つの異なる言語生成タスクで示す。
オンラインRL(PPO)と最近のRL(DPO, PRO)とオフラインRL(GOLD)を比較した。
一般的に使用されているRLHFベンチマークであるHelpful and Harmless Assistant (HHA)では、A-LoLメソッドで訓練されたLMは、人間によるベースラインよりも安全で役に立つと評価されている。
さらに、残りの3つのタスクでは、A-LoLはノイズや準最適トレーニングデータを使用しても、複数の異なる報酬関数を最適化することができた。
実験コードもリリースしています。
https://github.com/abaheti95/LoL-RL
Reinforcement Learning with Human Feedback (RLHF) is the most prominent method for Language Model (LM) alignment. However, RLHF is an unstable and data-hungry process that continually requires new high-quality LM-generated data for finetuning. We introduce Advantage-Leftover Lunch RL (A-LoL), a new class of offline policy gradient algorithms that enable RL training on any pre-existing data. By assuming the entire LM output sequence as a single action, A-LoL allows incorporating sequence-level classifiers or human-designed scoring functions as rewards. Subsequently, by using LM's value estimate, A-LoL only trains on positive advantage (leftover) data points, making it resilient to noise. Overall, A-LoL is an easy-to-implement, sample-efficient, and stable LM training recipe. We demonstrate the effectiveness of A-LoL and its variants with a set of four different language generation tasks. We compare against both online RL (PPO) and recent preference-based (DPO, PRO) and reward-based (GOLD) offline RL baselines. On the commonly-used RLHF benchmark, Helpful and Harmless Assistant (HHA), LMs trained with A-LoL methods achieve the highest diversity while also being rated more safe and helpful than the baselines according to humans. Additionally, in the remaining three tasks, A-LoL could optimize multiple distinct reward functions even when using noisy or suboptimal training data. We also release our experimental code. https://github.com/abaheti95/LoL-RL | 翻訳日:2024-03-28 23:22:06 公開日:2024-03-26 |
# 金融の感性分析:トランスフォーマーからeXplainable Lexicons(XLex)へ
Sentiment Analysis in Finance: From Transformers Back to eXplainable Lexicons (XLex) ( http://arxiv.org/abs/2306.03997v3 ) ライセンス: Link先を確認 | Maryan Rizinski, Hristijan Peshov, Kostadin Mishev, Milos Jovanovik, Dimitar Trajanov, | (参考訳) 金融における感情分析(英: Lexicon-based sentiment analysis、SA)は、人間の専門家が作成した専門的、手動で注釈付けされた語彙を活用して、財務文書から感情を抽出する。
辞書ベースのメソッドは簡単に実装でき、テキストデータで操作できるが、辞書の作成、保守、更新にはかなりの手作業による注記が必要である。
これらの手法は、様々なNLPタスクにおいて顕著な性能のために支配的になったトランスフォーマーモデルなど、深層学習に基づくアプローチよりも劣っていると考えられている。
しかし、トランスフォーマーはトレーニングとテストの両方に広範なデータと計算資源を必要とする。
さらに、予測時間が大きくなり、リアルタイム生産環境や限られた処理能力を持つシステムには適さない。
本稿では,eXplainable Lexicons (XLex) と呼ばれる新しい手法を提案する。
本稿では、トランスとSHAP(SHapley Additive ExPlanations)を利用して、金融レキシコンを学習するための説明性を実現する手法を提案する。
本研究の主な貢献は4つある。
まず,トランスフォーマーを用いた説明可能なレキシコンにより,ベンチマークLoughran-McDonald (LM)レキシコンの語彙カバレッジが向上し,レキシコンの注釈,維持,更新における人間の関与が軽減されることを示す。
第2に、財務データセットのSAにおいて、結果として得られるレキシコンが標準LMレキシコンより優れていることを示す。
第3に、レキシコンに基づくアプローチは、トランスに比べてモデル速度とサイズにおいてはるかに効率的であることを示す。
最後に、XLexのアプローチは、レキシコンモデルが事前定義されたルールに依存しているため、トランスフォーマーモデルよりも本質的に解釈可能である。
Lexicon-based sentiment analysis (SA) in finance leverages specialized, manually annotated lexicons created by human experts to extract sentiment from financial texts. Although lexicon-based methods are simple to implement and fast to operate on textual data, they require considerable manual annotation efforts to create, maintain, and update the lexicons. These methods are also considered inferior to the deep learning-based approaches, such as transformer models, which have become dominant in various NLP tasks due to their remarkable performance. However, transformers require extensive data and computational resources for both training and testing. Additionally, they involve significant prediction times, making them unsuitable for real-time production environments or systems with limited processing capabilities. In this paper, we introduce a novel methodology named eXplainable Lexicons (XLex) that combines the advantages of both lexicon-based methods and transformer models. We propose an approach that utilizes transformers and SHapley Additive exPlanations (SHAP) for explainability to learn financial lexicons. Our study presents four main contributions. Firstly, we demonstrate that transformer-aided explainable lexicons can enhance the vocabulary coverage of the benchmark Loughran-McDonald (LM) lexicon, reducing the human involvement in annotating, maintaining, and updating the lexicons. Secondly, we show that the resulting lexicon outperforms the standard LM lexicon in SA of financial datasets. Thirdly, we illustrate that the lexicon-based approach is significantly more efficient in terms of model speed and size compared to transformers. Lastly, the XLex approach is inherently more interpretable than transformer models as lexicon models rely on predefined rules, allowing for better insights into the results of SA and making the XLex approach a viable tool for financial decision-making. | 翻訳日:2024-03-28 23:22:06 公開日:2024-03-26 |
# 良いが常に公平ではない:3つの商用機械翻訳システムにおけるジェンダーバイアスの評価
Good, but not always Fair: An Evaluation of Gender Bias for three commercial Machine Translation Systems ( http://arxiv.org/abs/2306.05882v2 ) ライセンス: Link先を確認 | Silvia Alma Piazzolla, Beatrice Savoldi, Luisa Bentivogli, | (参考訳) 機械翻訳(MT)は品質を著しく向上させ続けており、より大規模に採用されている。
その結果、分析はより微妙な側面、複雑な現象、そしてMTツールの普及による潜在的なリスクにリダイレクトされた。
本稿では,Google Translate,DeepL,Modern MTの3つの商用MTシステムについて,特にジェンダー翻訳と偏見に着目し,綿密な評価を行う。
3つの言語ペア(英語/スペイン語、英語/イタリア語、英語/フランス語)に対して、このようなシステムの振る舞いを、いくつかのレベルの粒度と、翻訳において自然に生じる様々なジェンダー現象について精査する。
本研究は, オンラインMTツールの現状を把握し, 3つのシステムの性別翻訳における大きな相違点を明らかにし, 全体的な翻訳品質に関わらず, それぞれのシステムが様々なバイアスを呈示することを示した。
Machine Translation (MT) continues to make significant strides in quality and is increasingly adopted on a larger scale. Consequently, analyses have been redirected to more nuanced aspects, intricate phenomena, as well as potential risks that may arise from the widespread use of MT tools. Along this line, this paper offers a meticulous assessment of three commercial MT systems - Google Translate, DeepL, and Modern MT - with a specific focus on gender translation and bias. For three language pairs (English/Spanish, English/Italian, and English/French), we scrutinize the behavior of such systems at several levels of granularity and on a variety of naturally occurring gender phenomena in translation. Our study takes stock of the current state of online MT tools, by revealing significant discrepancies in the gender translation of the three systems, with each system displaying varying degrees of bias despite their overall translation quality. | 翻訳日:2024-03-28 23:22:06 公開日:2024-03-26 |
# 一般モデルに対するランダム化群ラスソ推定器を用いた選択推論
Selective inference using randomized group lasso estimators for general models ( http://arxiv.org/abs/2306.13829v3 ) ライセンス: Link先を確認 | Yiling Huang, Sarah Pirenne, Snigdha Panigrahi, Gerda Claeskens, | (参考訳) 分散と損失関数を多用したグループラッソ推定器の選択的推論法を開発した。
この方法は指数関数族分布と、例えば、過分散数データに対する準様モデリングの使用を含み、分類的またはグループ化された共変量および連続共変量を可能にする。
ランダム化群正規化最適化問題について検討した。
追加のランダム化により、群付き共変量の選択のイベントを条件付ける際に、選択推論に適していることを示す選択後可能性を構築することができる。
この可能性はまた、群ラッソによる選択を考慮に入れた選択点推定器も提供する。
選択されたモデルにおける回帰パラメータの信頼領域は、ウォルド型領域の形式をとり、境界体積を持つことを示す。
国立衛生栄養検査調査のデータから、その挙動と他の方法との好適な比較をシミュレーションしながら、グループラッソの選択的推論法を概説する。
Selective inference methods are developed for group lasso estimators for use with a wide class of distributions and loss functions. The method includes the use of exponential family distributions, as well as quasi-likelihood modeling for overdispersed count data, for example, and allows for categorical or grouped covariates as well as continuous covariates. A randomized group-regularized optimization problem is studied. The added randomization allows us to construct a post-selection likelihood which we show to be adequate for selective inference when conditioning on the event of the selection of the grouped covariates. This likelihood also provides a selective point estimator, accounting for the selection by the group lasso. Confidence regions for the regression parameters in the selected model take the form of Wald-type regions and are shown to have bounded volume. The selective inference method for grouped lasso is illustrated on data from the national health and nutrition examination survey while simulations showcase its behaviour and favorable comparison with other methods. | 翻訳日:2024-03-28 23:12:22 公開日:2024-03-26 |
# ファクトファクトファクトのシミュレーション
Simulating counterfactuals ( http://arxiv.org/abs/2306.15328v3 ) ライセンス: Link先を確認 | Juha Karvanen, Santtu Tikka, Matti Vihola, | (参考訳) 擬似推論は、現実の世界といくつかの証拠を共有する平行世界における仮説的介入を考察する。
証拠が多様体上の条件分布を明記するなら、反事実は解析的に解析可能である。
離散変数と連続変数の両方に条件を設定できる対実分布から値をシミュレートするアルゴリズムを提案する。
提案アルゴリズムは,漸近的に有効な推論につながる粒子フィルタとして提示可能であることを示す。
このアルゴリズムはクレジット・スコアリングにおける公平性解析に適用される。
Counterfactual inference considers a hypothetical intervention in a parallel world that shares some evidence with the factual world. If the evidence specifies a conditional distribution on a manifold, counterfactuals may be analytically intractable. We present an algorithm for simulating values from a counterfactual distribution where conditions can be set on both discrete and continuous variables. We show that the proposed algorithm can be presented as a particle filter leading to asymptotically valid inference. The algorithm is applied to fairness analysis in credit-scoring. | 翻訳日:2024-03-28 23:12:22 公開日:2024-03-26 |
# シンセティック・ヒューマングループ活動から学ぶ
Learning from Synthetic Human Group Activities ( http://arxiv.org/abs/2306.16772v5 ) ライセンス: Link先を確認 | Che-Jui Chang, Danrui Li, Deep Patel, Parth Goel, Honglu Zhou, Seonghyeon Moon, Samuel S. Sohn, Sejong Yoon, Vladimir Pavlovic, Mubbasir Kapadia, | (参考訳) 複雑なヒューマンインタラクションとグループ活動の研究は、人間中心のコンピュータビジョンの焦点となっている。
しかし、関連するタスクの進捗は、現実のシナリオから大規模ラベル付きデータセットを取得するという課題によって妨げられることが多い。
この制限に対処するため,マルチビューマルチパーソン・ヒューマン・アトミック・アクションとグループ・アクティビティのための合成データ・ジェネレータであるM3Actを導入する。
Unity EngineによってパワーアップされたM3Actは、複数のセマンティックグループ、高度に多様性があり、フォトリアリスティックなイメージ、そして一対一、多対一、多群条件で人間中心のタスクの学習を容易にする包括的なアノテーションセットを備えている。
3つの実験でM3Actの利点を実証した。
その結果、我々の合成データセットは、いくつかの下流手法の性能を大幅に改善し、実際のデータセットを置き換えることでコストを削減できることが示唆された。
特に、M3ActはDanceTrackデータセットの最先端のMOTRv2を改善し、リーダボードを10位から2位までホップする。
さらに、M3Actは、制御可能な3Dグループアクティビティ生成のための新しい研究を開始した。
複数のメトリクスを定義し、新しいタスクの競争基準を提案する。
私たちのコードとデータは、プロジェクトのページで利用可能です。
The study of complex human interactions and group activities has become a focal point in human-centric computer vision. However, progress in related tasks is often hindered by the challenges of obtaining large-scale labeled datasets from real-world scenarios. To address the limitation, we introduce M3Act, a synthetic data generator for multi-view multi-group multi-person human atomic actions and group activities. Powered by Unity Engine, M3Act features multiple semantic groups, highly diverse and photorealistic images, and a comprehensive set of annotations, which facilitates the learning of human-centered tasks across single-person, multi-person, and multi-group conditions. We demonstrate the advantages of M3Act across three core experiments. The results suggest our synthetic dataset can significantly improve the performance of several downstream methods and replace real-world datasets to reduce cost. Notably, M3Act improves the state-of-the-art MOTRv2 on DanceTrack dataset, leading to a hop on the leaderboard from 10th to 2nd place. Moreover, M3Act opens new research for controllable 3D group activity generation. We define multiple metrics and propose a competitive baseline for the novel task. Our code and data are available at our project page: http://cjerry1243.github.io/M3Act. | 翻訳日:2024-03-28 23:12:22 公開日:2024-03-26 |
# 進行時間ニューラル場と高次位相相関
High-Rate Phase Association with Travel Time Neural Fields ( http://arxiv.org/abs/2307.07572v3 ) ライセンス: Link先を確認 | Cheng Shi, Maarten V. de Hoop, Ivan Dokmanić, | (参考訳) マルチステーション地震計による地域地震活動の理解は、到着相と震源の地震を関連付ける能力に依存している。
深層学習に基づく位相検出は、たとえマイナス等級であっても、地震雲から小さな、高い速度の到着を検出する。
この新たなデータは、地震力学に関する重要な洞察を与える可能性があるが、これは挑戦的な関連課題である。
粗大に近似された固定波速度モデルに依存する既存の手法は、未知の波速度の複雑さを無視できない未探索の高密度な状態において失敗する。
我々は、深層生成モデリングとニューラルフィールドに基づくハイレートアソシエーションフレームワークであるHarpaを紹介した。
Harpaは、到着シーケンスの比較に最適なトランスポートを使用することで、波動物理学を取り入れている。
したがって、未知の波動速度に対して頑健であり、波動速度モデルを相関の副産物として推定する。
現実的な複雑な合成モデルを用いた実験では、ハルパは高次構造において正確な最初の地震相関連フレームワークであり、探査地球科学の新しい道のりを開拓し、地震の理解を改善した。
Our understanding of regional seismicity from multi-station seismograms relies on the ability to associate arrival phases with their originating earthquakes. Deep-learning-based phase detection now detects small, high-rate arrivals from seismicity clouds, even at negative magnitudes. This new data could give important insight into earthquake dynamics, but it is presents a challenging association task. Existing techniques relying on coarsely approximated, fixed wave speed models fail in this unexplored dense regime where the complexity of unknown wave speed cannot be ignored. We introduce Harpa, a high-rate association framework built on deep generative modeling and neural fields. Harpa incorporates wave physics by using optimal transport to compare arrival sequences. It is thus robust to unknown wave speeds and estimates the wave speed model as a by-product of association. Experiments with realistic, complex synthetic models show that Harpa is the first seismic phase association framework which is accurate in the high-rate regime, paving the way for new avenues in exploratory Earth science and improved understanding of seismicity. | 翻訳日:2024-03-28 23:12:22 公開日:2024-03-26 |
# HOOD:FMCWレーダを用いたリアルタイム人間プレゼンスとアウト・オブ・ディストリビューション検出
HOOD: Real-Time Human Presence and Out-of-Distribution Detection Using FMCW Radar ( http://arxiv.org/abs/2308.02396v2 ) ライセンス: Link先を確認 | Sabri Mustafa Kahya, Muhammet Sami Yavuz, Eckehard Steinbach, | (参考訳) ミリ波周波数変調連続波レーダ(FMCW)による屋内での人間の存在検出は、移動と静止両方のクラッタによる課題に直面している。
本研究は60GHz短距離FMCWレーダを用いた頑健でリアルタイムな人的存在・分布外検出法を提案する。
HOODは、人間の存在とOOD検出を同時に1つのパイプラインで解決する。
我々のソリューションは、再構成に基づくアーキテクチャに依存し、レーダーマクロとマイクロレンジドップラー画像(RDI)で動作する。
HOODは人間の存在を正確に検知することを目的としている。
HOODはOOD検出器でもあるため、人間の不在時にOODとして移動または静止した乱れを検知し、現在のシーンの出力を「存在しない」と予測することを目的としている。
HOODは多様なシナリオでよく機能し、その効果をさまざまな人間の活動や状況にわたって示す。
60GHzの短距離FMCWレーダーで収集したデータセットでは、平均94.36%のAUROCを達成した。
さらに, HOODがSOTA(State-of-the-art (SOTA) OOD検出法より, 一般的なOOD検出指標よりも優れていることを示す。
重要な点として、HOODはRaspberry Pi 3B+とARM Cortex-A53 CPUに完全にフィットする。
人間の存在検出実験のビデオは、https://muskahya.github.io/HOODで公開されています。
Detecting human presence indoors with millimeter-wave frequency-modulated continuous-wave (FMCW) radar faces challenges from both moving and stationary clutter. This work proposes a robust and real-time capable human presence and out-of-distribution (OOD) detection method using 60 GHz short-range FMCW radar. HOOD solves the human presence and OOD detection problems simultaneously in a single pipeline. Our solution relies on a reconstruction-based architecture and works with radar macro and micro range-Doppler images (RDIs). HOOD aims to accurately detect the presence of humans in the presence or absence of moving and stationary disturbers. Since HOOD is also an OOD detector, it aims to detect moving or stationary clutters as OOD in humans' absence and predicts the current scene's output as "no presence." HOOD performs well in diverse scenarios, demonstrating its effectiveness across different human activities and situations. On our dataset collected with a 60 GHz short-range FMCW radar, we achieve an average AUROC of 94.36%. Additionally, our extensive evaluations and experiments demonstrate that HOOD outperforms state-of-the-art (SOTA) OOD detection methods in terms of common OOD detection metrics. Importantly, HOOD also perfectly fits on Raspberry Pi 3B+ with an ARM Cortex-A53 CPU, which showcases its versatility across different hardware environments. Videos of our human presence detection experiments are available at: https://muskahya.github.io/HOOD | 翻訳日:2024-03-28 23:02:36 公開日:2024-03-26 |
# フェデレーション学習における近似および重み付きデータ再構成攻撃
Approximate and Weighted Data Reconstruction Attack in Federated Learning ( http://arxiv.org/abs/2308.06822v2 ) ライセンス: Link先を確認 | Yongcun Song, Ziqi Wang, Enrique Zuazua, | (参考訳) Federated Learning(FL)は分散学習パラダイムであり、複数のクライアントがプライベートデータを共有せずに機械学習モデルの構築に協力できる。
FLは設計上はプライバシ保護と見なされているが、最近のデータ再構成攻撃では、FLで共有されるパラメータに基づいて攻撃者がクライアントのトレーニングデータを復元できることが示されている。
しかしながら、既存のほとんどのメソッドは、クライアントが複数のローカルトレーニングステップの後にモデルパラメータを共有する、最も広く使用される水平フェデレーション(FedAvg)シナリオに対処できない。
この問題に対処するために,クライアントのローカルトレーニングプロセスの中間モデル更新を生成することにより,FedAvgシナリオの攻撃を可能にする補間に基づく近似手法を提案する。
そこで我々は,再構成データの質を向上させるため,層重み付き損失関数を設計する。
我々は、ベイズ最適化によって調整された重みで、ニューラルネットワーク構造に関する異なるレイヤの更新をモデル化するために、異なる重みを割り当てる。
最後に, 画像データ再構成における評価基準の大幅な改善が示すように, 提案した近似重み付き攻撃法 (AWA) が他の最先端手法よりも優れていることを示す実験結果を得た。
Federated Learning (FL) is a distributed learning paradigm that enables multiple clients to collaborate on building a machine learning model without sharing their private data. Although FL is considered privacy-preserved by design, recent data reconstruction attacks demonstrate that an attacker can recover clients' training data based on the parameters shared in FL. However, most existing methods fail to attack the most widely used horizontal Federated Averaging (FedAvg) scenario, where clients share model parameters after multiple local training steps. To tackle this issue, we propose an interpolation-based approximation method, which makes attacking FedAvg scenarios feasible by generating the intermediate model updates of the clients' local training processes. Then, we design a layer-wise weighted loss function to improve the data quality of reconstruction. We assign different weights to model updates in different layers concerning the neural network structure, with the weights tuned by Bayesian optimization. Finally, experimental results validate the superiority of our proposed approximate and weighted attack (AWA) method over the other state-of-the-art methods, as demonstrated by the substantial improvement in different evaluation metrics for image data reconstructions. | 翻訳日:2024-03-28 23:02:36 公開日:2024-03-26 |
# 皮質回路における信頼度と二階誤差
Confidence and second-order errors in cortical circuits ( http://arxiv.org/abs/2309.16046v3 ) ライセンス: Link先を確認 | Arno Granier, Mihai A. Petrovici, Walter Senn, Katharina A. Wilmes, | (参考訳) 大脳皮質予測誤差の最小化は、知覚、行動、学習の基礎となる大脳皮質の重要な計算目標と考えられている。
しかし、この過程において大脳皮質がどのように形成され、不確実性に関する情報を使用するべきかはまだ不明である。
ここでは、皮質領域が他の領域や感覚の流れの活動を予測するだけでなく、予測における信頼(逆不確実性)を共同で投影しなければならないという仮定の下で、予測誤差を最小限に抑える神経力学を公式に導出する。
結果として生じる神経力学では、ボトムアップとトップダウンの皮質の流れの統合はベイズ原理に従って信頼に基づいて動的に変調される。
さらに、この理論は皮質二階誤差の存在を予測し、信頼性と実際の性能を比較する。
これらの誤りは、古典的な予測誤差と共に皮質階層を通して伝播し、信頼の定式化に寄与するシナプスの重みを学習するために使用される。
本稿では,この理論を皮質回路に詳細にマッピングし,関連する機能的解釈を議論し,実験的研究の潜在的方向性を示す。
Minimization of cortical prediction errors has been considered a key computational goal of the cerebral cortex underlying perception, action and learning. However, it is still unclear how the cortex should form and use information about uncertainty in this process. Here, we formally derive neural dynamics that minimize prediction errors under the assumption that cortical areas must not only predict the activity in other areas and sensory streams but also jointly project their confidence (inverse expected uncertainty) in their predictions. In the resulting neuronal dynamics, the integration of bottom-up and top-down cortical streams is dynamically modulated based on confidence in accordance with the Bayesian principle. Moreover, the theory predicts the existence of cortical second-order errors, comparing confidence and actual performance. These errors are propagated through the cortical hierarchy alongside classical prediction errors and are used to learn the weights of synapses responsible for formulating confidence. We propose a detailed mapping of the theory to cortical circuitry, discuss entailed functional interpretations and provide potential directions for experimental work. | 翻訳日:2024-03-28 23:02:36 公開日:2024-03-26 |
# PyDCM:持続可能性のための強化学習を備えたカスタムデータセンターモデル
PyDCM: Custom Data Center Models with Reinforcement Learning for Sustainability ( http://arxiv.org/abs/2310.03906v8 ) ライセンス: Link先を確認 | Avisek Naug, Antonio Guillen, Ricardo Luna Gutiérrez, Vineet Gundecha, Dejan Markovikj, Lekhapriya Dheeraj Kashyap, Lorenz Krause, Sahand Ghorbanpour, Sajad Mousavi, Ashwin Ramesh Babu, Soumyendu Sarkar, | (参考訳) 持続可能性や二酸化炭素排出量削減の国際的重点化が進む中、政府や企業はデータセンターの設計と運用に対するアプローチを再考するよう迫られている。
高エネルギー消費と指数関数的に大きな計算ワークロードを考えると、データセンターは特に冷却やITエネルギー利用といった分野において、電力消費を最適化する主要な候補である。
この追求の大きな課題は、エンドツーエンドのパイプラインを提供する構成可能でスケーラブルなサーマルデータセンタモデルがないことだ。
データセンターは、幾何学的な構成と熱散逸が熱モデリングを困難にする複数のITコンポーネントで構成されている。
本稿では,Pythonで実装されたカスタマイズ可能なデータセンターモデルであるPyDCMを提案する。
ベクトル化熱計算を用いることで、PyDCMのオーダーは現在のEnergy Plusのモデリング実装よりも桁違いに(30倍)速くなり、CPUの数に比例してスケールする。
また、PyDCMは、Gymnasiumラッパーを介してDeep Reinforcement Learningを使用することで、データセンターの冷却を最適化し、さまざまなデータセンター設計プロトタイプをテストするためのユーザフレンドリなプラットフォームを提供する。
The increasing global emphasis on sustainability and reducing carbon emissions is pushing governments and corporations to rethink their approach to data center design and operation. Given their high energy consumption and exponentially large computational workloads, data centers are prime candidates for optimizing power consumption, especially in areas such as cooling and IT energy usage. A significant challenge in this pursuit is the lack of a configurable and scalable thermal data center model that offers an end-to-end pipeline. Data centers consist of multiple IT components whose geometric configuration and heat dissipation make thermal modeling difficult. This paper presents PyDCM, a customizable Data Center Model implemented in Python, that allows users to create unique configurations of IT equipment with custom server specifications and geometric arrangements of IT cabinets. The use of vectorized thermal calculations makes PyDCM orders of magnitude faster (30 times) than current Energy Plus modeling implementations and scales sublinearly with the number of CPUs. Also, PyDCM enables the use of Deep Reinforcement Learning via the Gymnasium wrapper to optimize data center cooling and offers a user-friendly platform for testing various data center design prototypes. | 翻訳日:2024-03-28 22:52:43 公開日:2024-03-26 |
# デュアルスペックモジュール量子コンピュータ用イン真空高速開口イメージングによるイオントラップ
Ion Trap with In-Vacuum High Numerical Aperture Imaging for a Dual-Species Modular Quantum Computer ( http://arxiv.org/abs/2310.07058v2 ) ライセンス: Link先を確認 | Allison L. Carter, Jameson O'Reilly, George Toh, Sagnik Saha, Mikhail Shalaev, Isabella Goetting, Christopher Monroe, | (参考訳) 量子システム間のフォトニック相互接続は、スケーラブルな量子コンピューティングと量子ネットワークの両方において中心的な役割を果たす。
光子によるリモート量子ビットの絡み合いは、多くのプラットフォームで実証されているが、光子リンクをモジュラー量子コンピュータに統合するためには、絡み合いの発生率を改善することが重要である。
本稿では,量子ネットワークにおける光子収集効率が最も高いイオントラップシステムを提案する。
我々は、一対の真空非球面レンズを用いて、それぞれ0.8の数値開口を持ち、$^{138}$Ba$^+$イオンから放出される493nm光子の10%を単一モードファイバーに結合させる。
また、レンズのイオン位置と運動に対する近位効果を緩和できることを示した。
Photonic interconnects between quantum systems will play a central role in both scalable quantum computing and quantum networking. Entanglement of remote qubits via photons has been demonstrated in many platforms; however, improving the rate of entanglement generation will be instrumental for integrating photonic links into modular quantum computers. We present an ion trap system that has the highest reported free-space photon collection efficiency for quantum networking. We use a pair of in-vacuum aspheric lenses, each with a numerical aperture of 0.8, to couple 10% of the 493 nm photons emitted from a $^{138}$Ba$^+$ ion into single-mode fibers. We also demonstrate that proximal effects of the lenses on the ion position and motion can be mitigated. | 翻訳日:2024-03-28 22:52:43 公開日:2024-03-26 |
# 最近の名前付きエンティティ認識と関係分類法に関する数ショット学習に焦点を当てた調査
A Few-Shot Learning Focused Survey on Recent Named Entity Recognition and Relation Classification Methods ( http://arxiv.org/abs/2310.19055v2 ) ライセンス: Link先を確認 | Sakher Khalil Alqaaidi, Elika Bozorgi, Afsaneh Shams, Krzysztof Kochut, | (参考訳) 名前付きエンティティ認識(NER)と関係分類(RC)は、構造化されていないテキストから情報を抽出し、機械可読フォーマットにフォーマットする重要なステップである。
本稿では,エンティティ認識と関係分類に対処する最近の深層学習モデルについて,数発の学習性能に着目して検討する。
本調査は,テキストマイニングの最近の技術を知る研究者や,生テキストから構造化情報を取り出す研究者に有用である。
Named Entity Recognition (NER) and Relation Classification (RC) are important steps in extracting information from unstructured text and formatting it into a machine-readable format. We present a survey of recent deep learning models that address named entity recognition and relation classification, with focus on few-shot learning performance. Our survey is helpful for researchers in knowing the recent techniques in text mining and extracting structured information from raw text. | 翻訳日:2024-03-28 22:52:43 公開日:2024-03-26 |
# 変形性物体追跡のための高速点雲メッシュ再構成
Fast Point Cloud to Mesh Reconstruction for Deformable Object Tracking ( http://arxiv.org/abs/2311.02749v3 ) ライセンス: Link先を確認 | Elham Amin Mansour, Hehui Zheng, Robert K. Katzschmann, | (参考訳) 私たちを取り巻く世界は、私たちが知覚する柔らかい物体に満ちており、器用な手の動きで変形しています。
ロボットハンドが柔らかい物体を制御するためには、変形物体のオンライン状態フィードバックを取得する必要がある。
RGB-Dカメラは閉鎖された点雲を30Hzの速度で収集できるが、これは連続的に追跡可能な物体の表面を表すものではない。
そこで本研究では,物体の非変形状態におけるメッシュであるテンプレートメッシュと同一物体の変形点雲とを入力として,テンプレートメッシュを変形点雲と整合するように形成する手法を開発した。
点雲からのメッシュの再構成は、3次元再構成と4次元再構成の下でコンピュータグラフィックスの分野で長い間研究されてきたが、ロボット工学アプリケーションに必要な速度と一般化性は欠如している。
我々のモデルはポイントクラウドオートエンコーダとReal-NVPアーキテクチャを用いて設計されている。
トレーニングされたモデルでは,3000頂点のテンプレートメッシュと5,000点の変形点雲で58Hzの速度でメッシュ再構築と追跡を行うことができ,実験では軟質材料(シザー,ハンマー,泡瓦,クリーザーボトル,オレンジ,サイコロ)でできていると推定される6種類の対象カテゴリの変形に対して一般化可能である。
オブジェクトメッシュは、YCBベンチマークデータセットから取得される。
ダウンストリームアプリケーションの例としては、操作されたオブジェクトの状態からオンラインフィードバックを必要とするロボットハンドの制御アルゴリズムがある。
さらに,本手法のトラッキング能力は,マーカーレス手法による変形物体の同定に有効である。
今後の作業では、トレーニングされたモデルを6つのオブジェクトカテゴリを超えて一般化し、さらに現実世界のデフォーミングポイントクラウドに拡張します。
The world around us is full of soft objects we perceive and deform with dexterous hand movements. For a robotic hand to control soft objects, it has to acquire online state feedback of the deforming object. While RGB-D cameras can collect occluded point clouds at a rate of 30Hz, this does not represent a continuously trackable object surface. Hence, in this work, we developed a method that takes as input a template mesh which is the mesh of an object in its non-deformed state and a deformed point cloud of the same object, and then shapes the template mesh such that it matches the deformed point cloud. The reconstruction of meshes from point clouds has long been studied in the field of Computer graphics under 3D reconstruction and 4D reconstruction, however, both lack the speed and generalizability needed for robotics applications. Our model is designed using a point cloud auto-encoder and a Real-NVP architecture. Our trained model can perform mesh reconstruction and tracking at a rate of 58Hz on a template mesh of 3000 vertices and a deformed point cloud of 5000 points and is generalizable to the deformations of six different object categories which are assumed to be made of soft material in our experiments (scissors, hammer, foam brick, cleanser bottle, orange, and dice). The object meshes are taken from the YCB benchmark dataset. An instance of a downstream application can be the control algorithm for a robotic hand that requires online feedback from the state of the manipulated object which would allow online grasp adaptation in a closed-loop manner. Furthermore, the tracking capacity of our method can help in the system identification of deforming objects in a marker-free approach. In future work, we will extend our trained model to generalize beyond six object categories and additionally to real-world deforming point clouds. | 翻訳日:2024-03-28 22:42:58 公開日:2024-03-26 |
# トポロジカル量子場理論を超えるトポロジカル秩序
Topological Orders Beyond Topological Quantum Field Theories ( http://arxiv.org/abs/2311.03353v3 ) ライセンス: Link先を確認 | P. Vojta, G. Ortiz, Z. Nussinov, | (参考訳) 量子トポロジカル秩序を示すシステムは、量子コンピューティングスキームに非常に魅力的なロバストな特性を持つ。
トポロジカル場の理論は、トポロジカルな順序を示す系の4つの性質を捉えるのに強力であることが証明されている。
ここでは、この共通パースペクティブの外にあるシステムについて検討し、距離依存相互作用性エノンを持つトポロジカル秩序を示すモデルの豊富なクラスを示す。
示すように、いくつかのケースでは、空白の低エネルギー励起は、システム全体を密にカバーするエノンから成り立っている。
このことは、一般にトポロジカル場の量子論では説明されない振る舞いをもたらす。
従来の(ランダウ)注文を表示するシステムに双対性を持たせることにより,これらのモデルを検証した。
提案手法は,一般ランドウ型理論を同じ空間次元の位相次数を持つ双対モデルにマッピングする一般的な手法を可能にする。
我々のモデルの低エネルギー部分空間は、表面符号よりも熱的効果に対してより弾力性を持たせることができる。
Systems displaying quantum topological order feature robust characteristics that are very attractive to quantum computing schemes. Topological quantum field theories have proven to be powerful in capturing the quintessential attributes of systems displaying topological order including, in particular, their anyon excitations. Here, we investigate systems that lie outside this common purview, and present a rich class of models exhibiting topological orders with distance-dependent interacting anyons. As we illustrate, in some instances, the gapped lowest-energy excitations are comprised of anyons that densely cover the entire system. This leads to behaviors not typically described by topological quantum field theories. We examine these models by performing dualities to systems displaying conventional (i.e., Landau) orders. Our approach enables a general method for mapping generic Landau-type theories to dual models with topological order of the same spatial dimension. The low-energy subspaces of our models can be made more resilient to thermal effects than those of surface codes. | 翻訳日:2024-03-28 22:42:58 公開日:2024-03-26 |
# 離散時間量子ウォークを用いた量子磁気計測
Quantum magnetometry using discrete-time quantum walk ( http://arxiv.org/abs/2311.15801v2 ) ライセンス: Link先を確認 | Kunal Shukla, C. M. Chandrashekar, | (参考訳) 量子磁気学は、古典的な磁場では達成できない精度と精度で磁場を測定するために量子資源を使用する。
本稿では,マルチパス干渉が中心となる離散時間量子ウォーク(DTQW)を用いた量子磁気学の手法を提案する。
1次元格子上にDTQWを実装するスピン半粒子のダイナミクスは磁場の影響を受け、DTQWの制御されたダイナミクスは磁場の強さを推定するのに役立つ。
磁場の影響を測るために、粒子の位置確率分布(PD)のばらつきを調べ、それを用いて、量子ウォークに最大影響を及ぼす磁場の方向を決定する。
次に、粒子の位置の量子フィッシャー情報(QFI)やフィッシャー情報(FI)などの統計ツールを使用し、磁場に対するシステムの感度を評価する。
位置とスピン測定を用いて磁場の強度を推定できることが判明した。
50の時間ステップで量子ウォークを行う電子の計算は、推定値が0.1ピコテスラのルート平均二乗誤差を持つことを示している。
さらに、所望の磁場を測定するために、システムの感度を調整できる。
以上の結果から,このシステムは最適量子磁気学のツールとして利用できることが示唆された。
Quantum magnetometry uses quantum resources to measure magnetic fields with precision and accuracy that cannot be achieved by its classical counterparts. In this paper, we propose a scheme for quantum magnetometry using discrete-time quantum walk (DTQW) where multi-path interference plays a central role. The dynamics of a spin-half particle implementing DTQW on a one-dimensional lattice gets affected by magnetic fields, and the controlled dynamics of DTQW help in estimating the fields' strength. To gauge the effects of the field, we study the variance of the particle's position probability distribution (PD) and use it to determine the direction of the magnetic field maximally affecting the quantum walk. We then employ statistical tools like quantum Fisher information (QFI) and Fisher information (FI) of the particle's position and spin measurements to assess the system's sensitivity to the magnetic fields. We find that one can use the position and spin measurements to estimate the strengths of the magnetic fields. Calculations for an electron implementing quantum walk of fifty time steps show that the estimate had a root-mean-square error of the order of 0.1 picoTesla. Moreover, the sensitivity of our system can be tuned to measure any desired magnetic field. Our results indicate that the system can be used as a tool for optimal quantum magnetometry. | 翻訳日:2024-03-28 22:33:12 公開日:2024-03-26 |
# CLAMP: 対照的なLanguage Model Prompt-tuning
CLAMP: Contrastive LAnguage Model Prompt-tuning ( http://arxiv.org/abs/2312.01629v2 ) ライセンス: Link先を確認 | Piotr Teterwak, Ximeng Sun, Bryan A. Plummer, Kate Saenko, Ser-Nam Lim, | (参考訳) 大規模言語モデル(LLM)は多くの機械学習問題に対する強力な汎用インタフェースとして登場した。
最近の研究は、比較的少量のインストラクションチューニングデータを使用して、画像キャプション、視覚的質問応答、視覚チャットなどの生成的視覚タスクにLLMを適用している。
本稿では,現代LLMが画像のカテゴリ分類にも適応できるかどうかを考察する。
まず、ゼロショット画像分類における生成タスクに調整されたマルチモーダルLCMを評価し、CLIPのような特殊なモデルよりも性能がはるかに低いことを示す。
そこで我々は,CLIPと同じコントラスト画像キャプションマッチング目的を用いたLCMの光微調整手法を提案する。
以上の結果から,LLMは画像分類性能が良好であることが示唆された。
我々のアプローチは最先端のmLLMを13%上回り、LLMの生成能力を保ちながら、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
LLMの初期化は、視覚前訓練データで表現されていない領域の分類に特に役立っているようである。
Large language models (LLMs) have emerged as powerful general-purpose interfaces for many machine learning problems. Recent work has adapted LLMs to generative visual tasks like image captioning, visual question answering, and visual chat, using a relatively small amount of instruction-tuning data. In this paper, we explore whether modern LLMs can also be adapted to classifying an image into a set of categories. First, we evaluate multimodal LLMs that are tuned for generative tasks on zero-shot image classification and find that their performance is far below that of specialized models like CLIP. We then propose an approach for light fine-tuning of LLMs using the same contrastive image-caption matching objective as CLIP. Our results show that LLMs can, indeed, achieve good image classification performance when adapted this way. Our approach beats state-of-the-art mLLMs by 13% and slightly outperforms contrastive learning with a custom text model, while also retaining the LLM's generative abilities. LLM initialization appears to particularly help classification in domains under-represented in the visual pre-training data. | 翻訳日:2024-03-28 22:33:12 公開日:2024-03-26 |
# SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM
SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM ( http://arxiv.org/abs/2312.02126v2 ) ライセンス: Link先を確認 | Nikhil Keetha, Jay Karhade, Krishna Murthy Jatavallabhula, Gengshan Yang, Sebastian Scherer, Deva Ramanan, Jonathon Luiten, | (参考訳) ロボット工学や拡張現実の応用には、高密度同時位置決めとマッピング(SLAM)が不可欠である。
しかしながら、現在の手法は、しばしば、シーンを表す非体積的あるいは暗黙的な方法によって妨げられる。
この研究はSplaTAMを導入し、これは初めて、露骨な体積表現(つまり3Dガウス)を活用して、既存の手法の能力を超越した単一のRGB-Dカメラからの高忠実度再構成を可能にするアプローチである。
SplaTAMは、基礎となるガウス表現に合わせて、単純なオンライントラッキングとマッピングシステムを採用している。
シルエットマスクを使用して、シーン密度の存在を優雅に捉えている。
この組み合わせにより、高速レンダリングや高密度な最適化、領域が以前にマップされているかどうかの迅速な決定、よりガウス的な追加による構造化された写像拡張など、事前表現よりもいくつかの利点が期待できる。
広汎な実験により、SplaTAMはカメラポーズ推定、マップ構築、既存手法に対する新規ビュー合成において最大2倍の優れた性能を達成し、より没入性の高い高忠実SLAMアプリケーションへの道を開いた。
Dense simultaneous localization and mapping (SLAM) is crucial for robotics and augmented reality applications. However, current methods are often hampered by the non-volumetric or implicit way they represent a scene. This work introduces SplaTAM, an approach that, for the first time, leverages explicit volumetric representations, i.e., 3D Gaussians, to enable high-fidelity reconstruction from a single unposed RGB-D camera, surpassing the capabilities of existing methods. SplaTAM employs a simple online tracking and mapping system tailored to the underlying Gaussian representation. It utilizes a silhouette mask to elegantly capture the presence of scene density. This combination enables several benefits over prior representations, including fast rendering and dense optimization, quickly determining if areas have been previously mapped, and structured map expansion by adding more Gaussians. Extensive experiments show that SplaTAM achieves up to 2x superior performance in camera pose estimation, map construction, and novel-view synthesis over existing methods, paving the way for more immersive high-fidelity SLAM applications. | 翻訳日:2024-03-28 22:33:12 公開日:2024-03-26 |
# 基礎モデルのバッチ型低ランク適応
Batched Low-Rank Adaptation of Foundation Models ( http://arxiv.org/abs/2312.05677v2 ) ライセンス: Link先を確認 | Yeming Wen, Swarat Chaudhuri, | (参考訳) ローランク適応 (LoRA) は, トレーニング可能な低ランク行列を組み込むことにより, 微調整基礎モデルに注目されている。
LoRAには多くの利点があるが、多様なグローバルユーザベースへのリアルタイムサービスの適用性は、複数のタスク固有のアダプタを効率的に扱うことができないことによる制約がある。
これにより、受信するリクエストごとにパーソナライズされたタスク固有の適応を必要とするシナリオのパフォーマンスボトルネックが課される。
この制約を緩和するために、我々はFast LoRA (FLoRA) を導入する。Fast LoRAは、ミニバッチ内の各入力例を、その固有の低ランク適応重みに関連付けることができ、不均一な要求の効率的なバッチ化を可能にするフレームワークである。
8言語にまたがるMultiPL-Eコード生成ベンチマークと6言語にまたがる多言語音声認識タスクにおいて,FLoRAがLoRAの性能上の利点を保っていることを実証的に示す。
Low-Rank Adaptation (LoRA) has recently gained attention for fine-tuning foundation models by incorporating trainable low-rank matrices, thereby reducing the number of trainable parameters. While LoRA offers numerous advantages, its applicability for real-time serving to a diverse and global user base is constrained by its incapability to handle multiple task-specific adapters efficiently. This imposes a performance bottleneck in scenarios requiring personalized, task-specific adaptations for each incoming request. To mitigate this constraint, we introduce Fast LoRA (FLoRA), a framework in which each input example in a minibatch can be associated with its unique low-rank adaptation weights, allowing for efficient batching of heterogeneous requests. We empirically demonstrate that FLoRA retains the performance merits of LoRA, showcasing competitive results on the MultiPL-E code generation benchmark spanning over 8 languages and a multilingual speech recognition task across 6 languages. | 翻訳日:2024-03-28 22:23:24 公開日:2024-03-26 |
# MP5: アクティブ・パーセプションによるMinecraftのマルチモーダルなオープンエンド・エボダイドシステム
MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception ( http://arxiv.org/abs/2312.07472v4 ) ライセンス: Link先を確認 | Yiran Qin, Enshen Zhou, Qichang Liu, Zhenfei Yin, Lu Sheng, Ruimao Zhang, Yu Qiao, Jing Shao, | (参考訳) 人間のような方法で、長期のオープンワールドタスクを解決できるエンボディシステムを設計することは、長年の目標である。
しかし、既存のアプローチは通常、これらのタスクの論理的分解と文脈的実行によって引き起こされる複雑な困難に悩まされる。
この目的のために我々は,課題のあるMinecraftシミュレータ上に構築されたオープンエンドマルチモーダル・エンボディドシステムMP5を紹介した。これは,実現可能なサブオブジェクトを分解し,高度な状況認識計画を作成し,目標条件付き能動認識スキームとの頻繁な通信により実施する。
具体的には、MP5はMLLM(Multimodal Large Language Models)の最近の進歩の上に開発されており、システムはスケジュールや協調が可能な機能モジュールに変調され、最終的に定義済みのコンテキスト依存タスクとプロセス依存タスクを解決する。
大規模な実験により、MP5は困難なプロセス依存タスクで22%の成功率、コンテキストに大きく依存するタスクで91%の成功率を達成することが証明された。
さらに、MP5は、全く新しい多くのオープンエンドタスクに対処する驚くべき能力を示す。
It is a long-lasting goal to design an embodied system that can solve long-horizon open-world tasks in human-like ways. However, existing approaches usually struggle with compound difficulties caused by the logic-aware decomposition and context-aware execution of these tasks. To this end, we introduce MP5, an open-ended multimodal embodied system built upon the challenging Minecraft simulator, which can decompose feasible sub-objectives, design sophisticated situation-aware plans, and perform embodied action control, with frequent communication with a goal-conditioned active perception scheme. Specifically, MP5 is developed on top of recent advances in Multimodal Large Language Models (MLLMs), and the system is modulated into functional modules that can be scheduled and collaborated to ultimately solve pre-defined context- and process-dependent tasks. Extensive experiments prove that MP5 can achieve a 22% success rate on difficult process-dependent tasks and a 91% success rate on tasks that heavily depend on the context. Moreover, MP5 exhibits a remarkable ability to address many open-ended tasks that are entirely novel. | 翻訳日:2024-03-28 22:23:24 公開日:2024-03-26 |
# FoundationPose:新しいオブジェクトの6D Pose推定と追跡を統一化
FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects ( http://arxiv.org/abs/2312.08344v2 ) ライセンス: Link先を確認 | Bowen Wen, Wei Yang, Jan Kautz, Stan Birchfield, | (参考訳) 本稿では,6次元オブジェクトのポーズ推定と追跡のための統合基盤モデルであるFoundationPoseについて述べる。
本手法は,CADモデルが提供された場合や,少数の参照画像が取得された場合であっても,微調整をせずに,新しいオブジェクトに対するテスト時に即座に適用することができる。
これら2つのセットアップ間のギャップをニューラルな暗黙表現でブリッジし、効果的に新規なビュー合成を可能にし、下流のポーズ推定モジュールを同じ統一フレームワークの下で不変に保ちます。
強い一般化性は、大規模合成訓練によって達成され、大きな言語モデル(LLM)、新しいトランスフォーマーベースのアーキテクチャ、コントラスト学習の定式化によって支援される。
難解なシナリオとオブジェクトを含む複数の公開データセットに対する大規模な評価は、我々の統一アプローチが各タスクに特化した既存のメソッドを大きなマージンで上回っていることを示している。
さらに、仮定が減っているにもかかわらず、インスタンスレベルのメソッドに匹敵する結果も達成します。
プロジェクトページ: https://nvlabs.github.io/FoundationPose/
We present FoundationPose, a unified foundation model for 6D object pose estimation and tracking, supporting both model-based and model-free setups. Our approach can be instantly applied at test-time to a novel object without fine-tuning, as long as its CAD model is given, or a small number of reference images are captured. We bridge the gap between these two setups with a neural implicit representation that allows for effective novel view synthesis, keeping the downstream pose estimation modules invariant under the same unified framework. Strong generalizability is achieved via large-scale synthetic training, aided by a large language model (LLM), a novel transformer-based architecture, and contrastive learning formulation. Extensive evaluation on multiple public datasets involving challenging scenarios and objects indicate our unified approach outperforms existing methods specialized for each task by a large margin. In addition, it even achieves comparable results to instance-level methods despite the reduced assumptions. Project page: https://nvlabs.github.io/FoundationPose/ | 翻訳日:2024-03-28 22:23:24 公開日:2024-03-26 |
# 生活場面:3次元環境変化における多目的再局在と再構成
Living Scenes: Multi-object Relocalization and Reconstruction in Changing 3D Environments ( http://arxiv.org/abs/2312.09138v2 ) ライセンス: Link先を確認 | Liyuan Zhu, Shengyu Huang, Konrad Schindler, Iro Armeni, | (参考訳) 動的3Dシーン理解の研究は、主に密集した観測から短期的な変化追跡に焦点が当てられているが、スパース観測による長期的変化にはほとんど注目されていない。
このギャップを、進化する環境における多目的再局在化と再構成のための新しいアプローチであるMoREで解決する。
われわれはこれらの環境を「生きたシーン」とみなし、異なる地点で撮影されたスキャンを3次元のオブジェクトインスタンスに変換する問題を考察した。
本手法のコアとなるのは, 合成データに基づいて訓練された単一エンコーダデコーダネットワークにおけるSE(3)-同変表現である。
この表現により、インスタンスのマッチング、登録、再構築をシームレスに行うことができます。
また,同じインスタンスから発生した点雲の蓄積を,異なる時点の複数のスキャンで容易に行えるような共同最適化アルゴリズムも導入する。
提案手法は, 実世界の合成および実世界のデータに対して検証し, エンド・ツー・エンドのパフォーマンスと個別のサブタスクの両方において最先端の性能を示す。
Research into dynamic 3D scene understanding has primarily focused on short-term change tracking from dense observations, while little attention has been paid to long-term changes with sparse observations. We address this gap with MoRE, a novel approach for multi-object relocalization and reconstruction in evolving environments. We view these environments as "living scenes" and consider the problem of transforming scans taken at different points in time into a 3D reconstruction of the object instances, whose accuracy and completeness increase over time. At the core of our method lies an SE(3)-equivariant representation in a single encoder-decoder network, trained on synthetic data. This representation enables us to seamlessly tackle instance matching, registration, and reconstruction. We also introduce a joint optimization algorithm that facilitates the accumulation of point clouds originating from the same instance across multiple scans taken at different points in time. We validate our method on synthetic and real-world data and demonstrate state-of-the-art performance in both end-to-end performance and individual subtasks. | 翻訳日:2024-03-28 22:23:24 公開日:2024-03-26 |
# 構成帰納的不変量に基づくニューラルネットワーク制御システムの検証
Compositional Inductive Invariant Based Verification of Neural Network Controlled Systems ( http://arxiv.org/abs/2312.10842v2 ) ライセンス: Link先を確認 | Yuhao Zhou, Stavros Tripakis, | (参考訳) ニューラルネットワークの安全クリティカルシステムへの統合は、近年大きな可能性を秘めている。
しかし、NNCS(Neural Network Controlled Systems)の安全性を効果的に検証するという課題が続いている。
本稿では,インダクティブ不変法を利用したNNCSの安全性検証手法を提案する。
NNCSの文脈における帰納的不変量の帰納性を検証することは、ニューラルネットワークのスケールと非線形性のために難しい。
提案手法は,帰納的証明義務をより小さく,よりトラクタブルなサブプロブレムに分解することで,この検証プロセスを管理可能にする。
提案手法と並行して,必要な分解述語を自動的に推測することにより,与えられた候補の帰納性を自動的に検証できるアルゴリズムを提案する。
このアルゴリズムはベースライン法を著しく上回り、ケーススタディにおける実行時間を大幅に短縮し、検証時間を時間(またはタイムアウト)から秒に短縮する。
The integration of neural networks into safety-critical systems has shown great potential in recent years. However, the challenge of effectively verifying the safety of Neural Network Controlled Systems (NNCS) persists. This paper introduces a novel approach to NNCS safety verification, leveraging the inductive invariant method. Verifying the inductiveness of a candidate inductive invariant in the context of NNCS is hard because of the scale and nonlinearity of neural networks. Our compositional method makes this verification process manageable by decomposing the inductiveness proof obligation into smaller, more tractable subproblems. Alongside the high-level method, we present an algorithm capable of automatically verifying the inductiveness of given candidates by automatically inferring the necessary decomposition predicates. The algorithm significantly outperforms the baseline method and shows remarkable reductions in execution time in our case studies, shortening the verification time from hours (or timeout) to seconds. | 翻訳日:2024-03-28 22:23:24 公開日:2024-03-26 |
# 分散Webグラフを用いた誤情報源の検出と発見
Detection and Discovery of Misinformation Sources using Attributed Webgraphs ( http://arxiv.org/abs/2401.02379v3 ) ライセンス: Link先を確認 | Peter Carragher, Evan M. Williams, Kathleen M. Carley, | (参考訳) ウェブサイト信頼性ラベルは、誤情報検出のほとんどすべての研究を支えている。
しかし、誤報ソースは過渡的な行動を示すことが多く、多くのラベル付きリストが時代とともに時代遅れになっている。
本稿では,検索エンジン最適化(SEO)属性がニュースサイトの信頼性を予測する強力な信号を提供することを示す。
本稿では、ラベル付きニュースドメインと、アウトリンクおよびバックリンクドメインへの接続を含む、新しい属性付きWebグラフデータセットを提案する。
これらの属性付きWebグラフを用いてニュースサイト信頼性を検出するグラフニューラルネットワークの成功を実証し、ベースラインニュースサイト信頼性分類器が政治ニューズデータセット上で現在のSoTA手法より優れており、F1スコアが0.96であることを示す。
最後に,未知の誤報ニュースソースを発見するための新しいグラフベースアルゴリズムを提案し,評価する。
Website reliability labels underpin almost all research in misinformation detection. However, misinformation sources often exhibit transient behavior, which makes many such labeled lists obsolete over time. We demonstrate that Search Engine Optimization (SEO) attributes provide strong signals for predicting news site reliability. We introduce a novel attributed webgraph dataset with labeled news domains and their connections to outlinking and backlinking domains. We demonstrate the success of graph neural networks in detecting news site reliability using these attributed webgraphs, and show that our baseline news site reliability classifier outperforms current SoTA methods on the PoliticalNews dataset, achieving an F1 score of 0.96. Finally, we introduce and evaluate a novel graph-based algorithm for discovering previously unknown misinformation news sources. | 翻訳日:2024-03-28 22:13:36 公開日:2024-03-26 |
# 運用研究のための人工知能:運用研究プロセスの革新
Artificial Intelligence for Operations Research: Revolutionizing the Operations Research Process ( http://arxiv.org/abs/2401.03244v2 ) ライセンス: Link先を確認 | Zhenan Fan, Bissan Ghaddar, Xinglu Wang, Linzi Xing, Yong Zhang, Zirui Zhou, | (参考訳) 人工知能(AI)技術の急速な進歩により、オペレーティングリサーチ(OR)を含む様々な分野に革命をもたらす新たな機会が開かれた。
本稿では、パラメータ生成、モデル定式化、モデル最適化など、複数の段階にわたる有効性と効率を高めるために、ORプロセス(AI4OR)におけるAIの統合について検討する。
本稿では,AIがORを変換する可能性について概観し,その可能性を検討することによって,AIに強化されたORメソッドやツールの開発において,さらなる研究とイノベーションを刺激することを目的とする。
AIとORの相乗効果は、多数のドメインで大幅な進歩と新しいソリューションを推進し、最終的にはより効率的で効率的な意思決定につながる。
The rapid advancement of artificial intelligence (AI) techniques has opened up new opportunities to revolutionize various fields, including operations research (OR). This survey paper explores the integration of AI within the OR process (AI4OR) to enhance its effectiveness and efficiency across multiple stages, such as parameter generation, model formulation, and model optimization. By providing a comprehensive overview of the state-of-the-art and examining the potential of AI to transform OR, this paper aims to inspire further research and innovation in the development of AI-enhanced OR methods and tools. The synergy between AI and OR is poised to drive significant advancements and novel solutions in a multitude of domains, ultimately leading to more effective and efficient decision-making. | 翻訳日:2024-03-28 22:13:36 公開日:2024-03-26 |
# 事前学習された人間の言語モデルの比較:グループ、個人的傾向、あるいはその両方として人間の文脈より優れているか?
Comparing Pre-trained Human Language Models: Is it Better with Human Context as Groups, Individual Traits, or Both? ( http://arxiv.org/abs/2401.12492v2 ) ライセンス: Link先を確認 | Nikita Soni, Niranjan Balasubramanian, H. Andrew Schwartz, Dirk Hovy, | (参考訳) 人間のコンテキストを言語モデルに組み込むことが、人間中心の自然言語処理の次のフロンティアである。
現在、グループワイド属性(例:45歳以上)または個々の特性の2つの事前学習方法が存在する。
個々の特性をモデリングすることで、よりパーソナライズされた表現が可能になるが、より複雑なモデリングとデータが必要である。
これまでのところ、事前学習のアプローチがどのタスクに役立つのかは定かではない。
我々は、事前学習モデルと人間の文脈の比較を行う。
1)グループ属性
2)個人使用者,及び
3) ユーザレベルのタスクとドキュメントレベルのタスクを組み合わせたアプローチ。
グループと個人の両方の特徴による事前学習は、年齢推定と性格評価という2つのユーザレベルの回帰タスクを著しく改善することがわかった。
個々のユーザの事前トレーニングは、スタンスやトピック検出といった3つの文書レベルの分類タスクを大幅に改善する。
過去のユーザーデータを使わずにダウンストリームタスクでもうまく機能する。
以上の結果から,どちらの手法も特定のユースケースを持ち,人間中心言語モデリングの新たな道を開くことが示唆された。
Incorporating human context into language models is the next frontier for human-centered natural language processing. Currently, two pre-training methods exist: group-wise attributes (e.g., over-45-year-olds) or individual traits. Group attributes are coarse -- not all 45-year-olds write the same way -- while modeling individual traits allows for a more personalized representation, but requires more complex modeling and data. So far, it is unclear which pre-training approach benefits what tasks. We compare pre-training models with human context via 1) group attributes, 2) individual users, and 3) a combined approach on 5 user- and document-level tasks. We find that pre-training with both group and individual features significantly improves the two user-level regression tasks like age estimation and personality assessment. Pre-training on individual users significantly improves the three document-level classification tasks like stance and topic detection. It even does well for downstream tasks without historical user data. Our results suggest both approaches have specific use cases, opening new avenues for human-centered language modeling. | 翻訳日:2024-03-28 22:13:36 公開日:2024-03-26 |
# GPT-4の評価 : USMLEを用いたケーススタディ
GPT-4's assessment of its performance in a USMLE-based case study ( http://arxiv.org/abs/2402.09654v2 ) ライセンス: Link先を確認 | Uttam Dhakal, Aniket Kumar Singh, Suman Devkota, Yogesh Sapkota, Bishal Lamichhane, Suprinsa Paudyal, Chandra Dhakal, | (参考訳) 本研究は、医療応用におけるGPT-4の評価について検討する。
米国医学ライセンス試験 (USMLE) のアンケート調査から得られた質問に対して, 簡単なプロンプト法を用いてLCMを刺激し, 質問に反応する前にその信頼度を評価することを課題とした。
質問票は,フィードバック(WF)とフィードバック(NF)のない質問(NF)の2つに分類した。
モデルは各質問の前後に絶対的および相対的信頼スコアを提供するよう求められた。
WF群とNF群の信頼性の変動を統計ツールを用いて解析した。
さらに,WF群とNF群のパフォーマンス変動を観測するために,逐次解析を行った。
結果は、フィードバックは相対的な信頼に影響を及ぼすが、継続的に増加または減少しないことを示している。
LLMのパフォーマンスを理解することは、医療などのセンシティブな分野でその有用性を探求する上で最重要である。
この研究は、医療におけるAIの信頼性、特にGPT-4のようなLCMの信頼性に関する継続的な議論に寄与し、AI支援医療教育と意思決定支援を強化するためにフィードバックメカニズムをどのように最適化するかについての洞察を提供する。
This study investigates GPT-4's assessment of its performance in healthcare applications. A simple prompting technique was used to prompt the LLM with questions taken from the United States Medical Licensing Examination (USMLE) questionnaire and it was tasked to evaluate its confidence score before posing the question and after asking the question. The questionnaire was categorized into two groups-questions with feedback (WF) and questions with no feedback(NF) post-question. The model was asked to provide absolute and relative confidence scores before and after each question. The experimental findings were analyzed using statistical tools to study the variability of confidence in WF and NF groups. Additionally, a sequential analysis was conducted to observe the performance variation for the WF and NF groups. Results indicate that feedback influences relative confidence but doesn't consistently increase or decrease it. Understanding the performance of LLM is paramount in exploring its utility in sensitive areas like healthcare. This study contributes to the ongoing discourse on the reliability of AI, particularly of LLMs like GPT-4, within healthcare, offering insights into how feedback mechanisms might be optimized to enhance AI-assisted medical education and decision support. | 翻訳日:2024-03-28 22:03:50 公開日:2024-03-26 |
# 決定論的Bethe状態準備
Deterministic Bethe state preparation ( http://arxiv.org/abs/2403.03283v2 ) ライセンス: Link先を確認 | David Raveh, Rafael I. Nepomechie, | (参考訳) 我々は,スピン-1/2 XXZ量子スピン鎖の正確な固有状態を含む任意の$U(1)$-eigenstateを量子コンピュータ上に生成する明示的な量子回路を提案する。
このアルゴリズムは決定論的であり、補助量子ビットを必要とせず、QR分解を必要としない。
この回路は、$\binom{L}{M}-1$マルチコントロールローテーションゲートと$2M(L-M)$CNOTゲートを用いて、$M$ダウンスピンのそのような$L$量子状態を作成する。
We present an explicit quantum circuit that prepares an arbitrary $U(1)$-eigenstate on a quantum computer, including the exact eigenstates of the spin-1/2 XXZ quantum spin chain with either open or closed boundary conditions. The algorithm is deterministic, does not require ancillary qubits, and does not require QR decompositions. The circuit prepares such an $L$-qubit state with $M$ down-spins using $\binom{L}{M}-1$ multi-controlled rotation gates and $2M(L-M)$ CNOT-gates. | 翻訳日:2024-03-28 21:54:06 公開日:2024-03-26 |
# 効率的なDNN推論のための分布対応対数-電位符号化のアルゴリズムハードウェア共同設計
Algorithm-Hardware Co-Design of Distribution-Aware Logarithmic-Posit Encodings for Efficient DNN Inference ( http://arxiv.org/abs/2403.05465v2 ) ライセンス: Link先を確認 | Akshat Ramachandran, Zishen Wan, Geonhwa Jeong, John Gustafson, Tushar Krishna, | (参考訳) 整数、固定点、浮動小数点データ型を用いた従来のディープニューラルネットワーク(DNN)量子化手法は、低精度で多様なDNNパラメータの分布を捉えるのに苦労し、大きなシリコンオーバーヘッドと集中的な量子化対応トレーニングを必要とすることが多い。
本研究では,LPビットフィールドをパラメータ化することにより,DNNの重み/活性化分布に動的に適応するポジットにインスパイアされた,適応的でハードウェアフレンドリなデータ型であるLogarithmic Posits(LP)を紹介する。
我々はまた,新しい遺伝的アルゴリズムに基づくLP量子化(LPQ)フレームワークを開発し,新しいグローバルなコントラスト的目的を通じて,量子化モデルと完全精度モデルとの表現のばらつきを減らしながら,最適な層次LPパラメータを求める。
さらに,計算データパスにLPを組み込んだ処理要素(PE)からなる混合精度LPアクセラレータ(LPA)アーキテクチャを設計する。
我々のアルゴリズムとハードウェアの共設計は、様々なCNNおよびViTモデルにおいて、平均<1%の精度でトップ1の精度が低下することを示した。
また、異なるデータ型を用いた最先端量子化加速器と比較して、単位面積当たりのパフォーマンスが約2倍向上し、エネルギー効率が2.2倍向上する。
Traditional Deep Neural Network (DNN) quantization methods using integer, fixed-point, or floating-point data types struggle to capture diverse DNN parameter distributions at low precision, and often require large silicon overhead and intensive quantization-aware training. In this study, we introduce Logarithmic Posits (LP), an adaptive, hardware-friendly data type inspired by posits that dynamically adapts to DNN weight/activation distributions by parameterizing LP bit fields. We also develop a novel genetic-algorithm based framework, LP Quantization (LPQ), to find optimal layer-wise LP parameters while reducing representational divergence between quantized and full-precision models through a novel global-local contrastive objective. Additionally, we design a unified mixed-precision LP accelerator (LPA) architecture comprising of processing elements (PEs) incorporating LP in the computational datapath. Our algorithm-hardware co-design demonstrates on average <1% drop in top-1 accuracy across various CNN and ViT models. It also achieves ~ 2x improvements in performance per unit area and 2.2x gains in energy efficiency compared to state-of-the-art quantization accelerators using different data types. | 翻訳日:2024-03-28 21:44:21 公開日:2024-03-26 |
# Sabiá-2: ポルトガルの大規模言語モデルの新世代
Sabiá-2: A New Generation of Portuguese Large Language Models ( http://arxiv.org/abs/2403.09887v2 ) ライセンス: Link先を確認 | Thales Sales Almeida, Hugo Abonizio, Rodrigo Nogueira, Ramon Pires, | (参考訳) ポルトガル語のテキストで訓練された大規模言語モデルのファミリーであるSabi\'a-2を紹介する。
モデルは、ブラジルの大学へのエントリーレベル試験、専門認定試験、会計学、経済学、工学、法学、医学などの様々な分野の大学院レベルの試験など、様々な試験で評価される。
以上の結果から,これまでの最良モデルであるSabi\'a-2 Mediumは,64点中23点においてGPT-4の成績と一致し,64点中58点においてGPT-3.5を上回っていることが明らかとなった。
特に、特化はサイズを拡大することなくモデルの性能に大きな影響を与えるため、GPT-4の10倍安いトークンあたりの価格でSabi\'a-2 Mediumを提供することができます。
最後に、我々は数学とコーディングが改善を必要とする重要な能力であることを突き止めた。
We introduce Sabi\'a-2, a family of large language models trained on Portuguese texts. The models are evaluated on a diverse range of exams, including entry-level tests for Brazilian universities, professional certification exams, and graduate-level exams for various disciplines such as accounting, economics, engineering, law and medicine. Our results reveal that our best model so far, Sabi\'a-2 Medium, matches or surpasses GPT-4's performance in 23 out of 64 exams and outperforms GPT-3.5 in 58 out of 64 exams. Notably, specialization has a significant impact on a model's performance without the need to increase its size, allowing us to offer Sabi\'a-2 Medium at a price per token that is 10 times cheaper than GPT-4. Finally, we identified that math and coding are key abilities that need improvement. | 翻訳日:2024-03-28 21:44:21 公開日:2024-03-26 |
# 生体用光学画像再生のためのステップキャリブレーション拡散法
Step-Calibrated Diffusion for Biomedical Optical Image Restoration ( http://arxiv.org/abs/2403.13680v2 ) ライセンス: Link先を確認 | Yiwei Lyu, Sung Jik Cha, Cheng Jiang, Asadur Chowdury, Xinhai Hou, Edward Harake, Akhil Kondepudi, Christian Freudiger, Honglak Lee, Todd C. Hollon, | (参考訳) 高品質で高解像度の医療画像は臨床医療に不可欠である。
ラマンベースの生体医用光学画像は、非電離赤外線を使ってヒトの組織をリアルタイムで評価し、早期がんの検出、脳腫瘍の診断、および術中組織分析に使用される。
残念なことに、光学イメージングはレーザー散乱と吸収による画像劣化に弱いため、診断ミスや誤った治療が生じる可能性がある。
光画像の復元は、画像劣化の原因が多要素的、確率的、組織依存であるため、コンピュータビジョンの課題である。
本稿では、画像復元問題を拡散ベース画像生成タスクの完了ステップとみなす不対面画像復元法であるResorative Step-Calibrated Diffusion(RSCD)を提案する。
RSCDはステップキャリブレータモデルを用いて画像劣化の深刻度と画像復元の逆拡散過程の完了に必要なステップ数を動的に決定する。
RSCDは、光学画像の復元のための画像品質と知覚評価指標の両方において、他の広く使われている未使用画像復元方法よりも優れている。
医用画像の専門家は、盲点比較実験でRSCDを用いて復元した画像を常に好んでおり、幻覚は最小限から無限に報告している。
最後に、RSCDは、脳腫瘍の自動診断や深部組織イメージングなど、下流臨床画像のタスクの性能を向上させることを示す。
私たちのコードはhttps://github.com/MLNeurosurg/restorative_step-calibrated_diffusionで利用可能です。
High-quality, high-resolution medical imaging is essential for clinical care. Raman-based biomedical optical imaging uses non-ionizing infrared radiation to evaluate human tissues in real time and is used for early cancer detection, brain tumor diagnosis, and intraoperative tissue analysis. Unfortunately, optical imaging is vulnerable to image degradation due to laser scattering and absorption, which can result in diagnostic errors and misguided treatment. Restoration of optical images is a challenging computer vision task because the sources of image degradation are multi-factorial, stochastic, and tissue-dependent, preventing a straightforward method to obtain paired low-quality/high-quality data. Here, we present Restorative Step-Calibrated Diffusion (RSCD), an unpaired image restoration method that views the image restoration problem as completing the finishing steps of a diffusion-based image generation task. RSCD uses a step calibrator model to dynamically determine the severity of image degradation and the number of steps required to complete the reverse diffusion process for image restoration. RSCD outperforms other widely used unpaired image restoration methods on both image quality and perceptual evaluation metrics for restoring optical images. Medical imaging experts consistently prefer images restored using RSCD in blinded comparison experiments and report minimal to no hallucinations. Finally, we show that RSCD improves performance on downstream clinical imaging tasks, including automated brain tumor diagnosis and deep tissue imaging. Our code is available at https://github.com/MLNeurosurg/restorative_step-calibrated_diffusion. | 翻訳日:2024-03-28 21:34:33 公開日:2024-03-26 |
# マルチタスク条件ニューラルネットワークを用いたフォノン顕微鏡によるバッチ間キャリブレーションによるがん細胞検出
Interpretable cancer cell detection with phonon microscopy using multi-task conditional neural networks for inter-batch calibration ( http://arxiv.org/abs/2403.17992v1 ) ライセンス: Link先を確認 | Yijie Zheng, Rafael Fuentes-Dominguez, Matt Clark, George S. D. Gordon, Fernando Perez-Cota, | (参考訳) 人工知能(AI)の進歩は、がん細胞を識別するためにフォノン顕微鏡(高周波超音波)データから基礎となる情報を明らかにする大きな可能性を示している。
しかし、この技術は、各実験の技術的バリエーションが避けられないことから生じる「バッチ効果」に悩まされ、AIモデルが必然的に学習する可能性のある相反する変数を生み出します。
そこで我々は,複数タスクの条件付きニューラルネットワークフレームワークを提案し,境界変数を除去し,時間分解されたフォノン信号の正確なセル分類を行うことにより,バッチ間キャリブレーションを同時に実現した。
背景, 健康, 癌領域の分類において, 比較精度89.22%, 平均クロスバリデーション精度89.07%, 評価精度89.07%を達成し, 異なる実験バッチの訓練, 検証を行うことにより, アプローチの有効性を検証した。
複数のバッチ修正に必要な単純なバッチ情報だけで0.5秒で分類を行うことができる。
さらに,本モデルを拡張して復号信号の再構成を行い,音速,音の減衰,細胞接着などの病気状態を示す健全な特徴を物理的に解釈する。
Advances in artificial intelligence (AI) show great potential in revealing underlying information from phonon microscopy (high-frequency ultrasound) data to identify cancerous cells. However, this technology suffers from the 'batch effect' that comes from unavoidable technical variations between each experiment, creating confounding variables that the AI model may inadvertently learn. We therefore present a multi-task conditional neural network framework to simultaneously achieve inter-batch calibration, by removing confounding variables, and accurate cell classification of time-resolved phonon-derived signals. We validate our approach by training and validating on different experimental batches, achieving a balanced precision of 89.22% and an average cross-validated precision of 89.07% for classifying background, healthy and cancerous regions. Classification can be performed in 0.5 seconds with only simple prior batch information required for multiple batch corrections. Further, we extend our model to reconstruct denoised signals, enabling physical interpretation of salient features indicating disease state including sound velocity, sound attenuation and cell-adhesion to substrate. | 翻訳日:2024-03-28 21:24:43 公開日:2024-03-26 |
# 人工知能と自然知の混合:統計力学からAIへ、乱流へ
Mixing Artificial and Natural Intelligence: From Statistical Mechanics to AI and Back to Turbulence ( http://arxiv.org/abs/2403.17993v1 ) ライセンス: Link先を確認 | Michael, Chertkov, | (参考訳) この論文は、特に乱流研究に焦点を当てた科学研究におけるAIの役割を反映し、特に非平衡統計力学に根ざした拡散モデルを通して、AIの進化について考察する。
これは、ディープニューラルネットワークの革新的利用を通じて、ラグランジアンモデルによる乱流の減少に対するAIの重大な影響を浮き彫りにしている。
さらに、乱流研究における様々なAI応用をレビューし、AIと統計流体力学の同時進行における潜在的な課題と機会を概説する。
この議論は、AIと乱流の研究が複雑に絡み合っており、両方の分野においてより深い洞察と進歩をもたらす未来へのステージを定めている。
The paper reflects on the future role of AI in scientific research, with a special focus on turbulence studies, and examines the evolution of AI, particularly through Diffusion Models rooted in non-equilibrium statistical mechanics. It underscores the significant impact of AI on advancing reduced, Lagrangian models of turbulence through innovative use of deep neural networks. Additionally, the paper reviews various other AI applications in turbulence research and outlines potential challenges and opportunities in the concurrent advancement of AI and statistical hydrodynamics. This discussion sets the stage for a future where AI and turbulence research are intricately intertwined, leading to more profound insights and advancements in both fields. | 翻訳日:2024-03-28 21:24:43 公開日:2024-03-26 |
# ICCV 1st Perception Test Challenge 2023のポイントトラッキング課題の解法
Solution for Point Tracking Task of ICCV 1st Perception Test Challenge 2023 ( http://arxiv.org/abs/2403.17994v1 ) ライセンス: Link先を確認 | Hongpeng Pan, Yang Yang, Zhongtian Fu, Yuxuan Zhang, Shian Du, Yi Xu, Xiangyang Ji, | (参考訳) 本報告では,任意の物理面をビデオから追跡するTAPタスクの改良手法を提案する。
既存のいくつかのアプローチでは、スムーズな運動軌跡を得るための時間的関係を考慮し、TAPを探索してきたが、それでも時間的予測による累積誤差に悩まされている。
この問題に対処するために,静的カメラによって撮影されたビデオの静的点追跡の修正に焦点を当てた,信頼性の高い静的点を持つTAP(TAPIR+)を提案する。
提案手法は, 静止カメラ撮影による映像シーケンスの同定が可能な, 1) 多粒度カメラモーション検出という2つの重要な要素を含む。
2) 移動物体から静的点を分離する1つの移動物体セグメンテーション法によるCMRに基づく点軌道予測
最終テストでは0.46のスコアで1位にランクインした。
This report proposes an improved method for the Tracking Any Point (TAP) task, which tracks any physical surface through a video. Several existing approaches have explored the TAP by considering the temporal relationships to obtain smooth point motion trajectories, however, they still suffer from the cumulative error caused by temporal prediction. To address this issue, we propose a simple yet effective approach called TAP with confident static points (TAPIR+), which focuses on rectifying the tracking of the static point in the videos shot by a static camera. To clarify, our approach contains two key components: (1) Multi-granularity Camera Motion Detection, which could identify the video sequence by the static camera shot. (2) CMR-based point trajectory prediction with one moving object segmentation approach to isolate the static point from the moving object. Our approach ranked first in the final test with a score of 0.46. | 翻訳日:2024-03-28 21:24:43 公開日:2024-03-26 |
# ワッサースタイングラフマッチングを考慮した半スーパービジョン画像キャプション
Semi-Supervised Image Captioning Considering Wasserstein Graph Matching ( http://arxiv.org/abs/2403.17995v1 ) ライセンス: Link先を確認 | Yang Yang, | (参考訳) 画像キャプションは、与えられた画像のキャプションを自動的に生成し、重要な課題は、視覚的特徴から自然言語的特徴へのマッピング関数の学習である。
既存のアプローチは、主に教師付きであり、すなわち、各画像はトレーニングセットに対応する文を持っている。
しかし、画像を記述するには、常に膨大な人力を必要とするため、通常、記述された画像(例えば、画像とテキストのペア)が限られており、現実世界のアプリケーションでは、多数の未記述画像が存在する。
これによりジレンマは「セミ・スーパーバイズド・イメージ・キャプション」と呼ばれる。
そこで本稿では,Wasserstein Graph Matching (SSIC-WGM) を考慮した半監督画像のキャプション手法を提案する。
従来の単一モーダル半教師付き手法とは異なり、半教師付きクロスモーダル学習の難しさは、異種モーダル間で中間的に同等な情報を構築することにある。
本稿では、SSIC-WGMが成功したシーングラフを中間情報として採用し、生成された文を2つの側面から制約する。
1)モーダル間の整合性。
SSIC-WGMは、原画像のシーングラフと生成された文をそれぞれ構築し、その後、ワッセルシュタイン距離を用いて異なるグラフの領域埋め込みの類似性をよりよく測定する。
2) モード内整合性。
SSIC-WGMは、生画像のデータ拡張技術を用いて、拡張画像と生成された文間の一貫性を制約する。
その結果、SSIC-WGMは、非記述画像の効率的な利用のために、クロスモーダルな擬似監督と構造不変測度を組み合わせて、より合理的なマッピング関数を学習する。
Image captioning can automatically generate captions for the given images, and the key challenge is to learn a mapping function from visual features to natural language features. Existing approaches are mostly supervised ones, i.e., each image has a corresponding sentence in the training set. However, considering that describing images always requires a huge of manpower, we usually have limited amount of described images (i.e., image-text pairs) and a large number of undescribed images in real-world applications. Thereby, a dilemma is the "Semi-Supervised Image Captioning". To solve this problem, we propose a novel Semi-Supervised Image Captioning method considering Wasserstein Graph Matching (SSIC-WGM), which turns to adopt the raw image inputs to supervise the generated sentences. Different from traditional single modal semi-supervised methods, the difficulty of semi-supervised cross-modal learning lies in constructing intermediately comparable information among heterogeneous modalities. In this paper, SSIC-WGM adopts the successful scene graphs as intermediate information, and constrains the generated sentences from two aspects: 1) inter-modal consistency. SSIC-WGM constructs the scene graphs of the raw image and generated sentence respectively, then employs the wasserstein distance to better measure the similarity between region embeddings of different graphs. 2) intra-modal consistency. SSIC-WGM takes the data augmentation techniques for the raw images, then constrains the consistency among augmented images and generated sentences. Consequently, SSIC-WGM combines the cross-modal pseudo supervision and structure invariant measure for efficiently using the undescribed images, and learns more reasonable mapping function. | 翻訳日:2024-03-28 21:24:43 公開日:2024-03-26 |
# テキストはMASS: テキストビデオ検索のための確率的埋め込みとしてのモデリング
Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval ( http://arxiv.org/abs/2403.17998v1 ) ライセンス: Link先を確認 | Jiamian Wang, Guohao Sun, Pichao Wang, Dongfang Liu, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao, | (参考訳) ビデオクリップの普及により、テキストビデオ検索への関心が高まっている。
最近の進歩は、類似性を計算するために一貫した埋め込み表現を頼りに、テキストとビデオのための共同埋め込み空間を確立することに焦点を当てている。
しかし、既存のデータセットのテキスト内容は概して短く簡潔であり、ビデオの冗長なセマンティクスを完全に記述することは困難である。
それに対応して、単一のテキスト埋め込みは、ビデオ埋め込みをキャプチャし、検索を強化するために、表現力が少なくなる可能性がある。
本研究では,テキストを確率的埋め込みとしてモデル化し,柔軟で弾力性のあるセマンティックレンジでテキストを埋め込み,テキストマスを生成する,新しい確率的テキストモデリング手法T-MASSを提案する。
具体的には,テキスト・ビデオ・ペアにテキスト・マスのスケールを適応させるために,類似性を考慮した半径モジュールを導入する。
さらに、トレーニング中にテキストの質量をさらに制御するためのサポートテキスト正規化を設計し、開発する。
推論パイプラインはまた、テキスト質量を完全に活用して正確な検索を行うように調整されている。
実証的な証拠は、T-MASSは関係するテキストビデオペアを効果的に惹きつけるだけでなく、関係するペアに対して正確なテキスト埋め込みを決定できることを示している。
実験の結果,ベースラインよりもT-MASSが有意に改善した(R@1で3%~6.3%)。
また、T-MASSはMSRVTT、SMDC、DiDeMo、VATEX、Charadesを含む5つのベンチマークデータセットで最先端のパフォーマンスを達成する。
The increasing prevalence of video clips has sparked growing interest in text-video retrieval. Recent advances focus on establishing a joint embedding space for text and video, relying on consistent embedding representations to compute similarity. However, the text content in existing datasets is generally short and concise, making it hard to fully describe the redundant semantics of a video. Correspondingly, a single text embedding may be less expressive to capture the video embedding and empower the retrieval. In this study, we propose a new stochastic text modeling method T-MASS, i.e., text is modeled as a stochastic embedding, to enrich text embedding with a flexible and resilient semantic range, yielding a text mass. To be specific, we introduce a similarity-aware radius module to adapt the scale of the text mass upon the given text-video pairs. Plus, we design and develop a support text regularization to further control the text mass during the training. The inference pipeline is also tailored to fully exploit the text mass for accurate retrieval. Empirical evidence suggests that T-MASS not only effectively attracts relevant text-video pairs while distancing irrelevant ones, but also enables the determination of precise text embeddings for relevant pairs. Our experimental results show a substantial improvement of T-MASS over baseline (3% to 6.3% by R@1). Also, T-MASS achieves state-of-the-art performance on five benchmark datasets, including MSRVTT, LSMDC, DiDeMo, VATEX, and Charades. | 翻訳日:2024-03-28 21:24:43 公開日:2024-03-26 |
# 零アンシラによる高速量子整数乗算
Fast quantum integer multiplication with zero ancillas ( http://arxiv.org/abs/2403.18006v1 ) ライセンス: Link先を確認 | Gregory D. Kahanamoku-Meyer, Norman Y. Yao, | (参考訳) 数値の重ね合わせの乗法は、多くの量子アルゴリズムのコア演算である。
乗算の標準的な方法(古典と量子の両方)は、入力のサイズが2次である。
漸近的に少ないゲートを持つ量子回路が開発されたが、一般的には大きなオーバーヘッド、特にアンシラ量子ビットの数を示す。
本研究では,0個のアンシラ量子ビットを持つ準四進時間量子乗算のための新しいパラダイムを導入する。
我々のアルゴリズムは、任意の$\epsilon > 0$に対して$\mathcal{O}(n^{1+\epsilon})$の漸近ゲート数を達成する。
Shorのアルゴリズムのサブルーチンとして使われ、我々の手法は直ちに$\mathcal{O}(n^{2+\epsilon})$ Gatesと$2n + \mathcal{O}(\log n)$ qubitsのファクタリング回路を得る。
Regevの最近のファクタリングアルゴリズムで使用されるゲートカウントは$\mathcal{O}(n^{1.5+\epsilon})$である。
最後に、我々のアルゴリズムは、古典的に検証可能な量子上の優位性のために、我々が知っている最小の回路を含む、実際に関連する問題のサイズで以前の提案を上回る可能性を実証する。
The multiplication of superpositions of numbers is a core operation in many quantum algorithms. The standard method for multiplication (both classical and quantum) has a runtime quadratic in the size of the inputs. Quantum circuits with asymptotically fewer gates have been developed, but generally exhibit large overheads, especially in the number of ancilla qubits. In this work, we introduce a new paradigm for sub-quadratic-time quantum multiplication with zero ancilla qubits -- the only qubits involved are the input and output registers themselves. Our algorithm achieves an asymptotic gate count of $\mathcal{O}(n^{1+\epsilon})$ for any $\epsilon > 0$; with practical choices of parameters, we expect scalings as low as $\mathcal{O}(n^{1.3})$. Used as a subroutine in Shor's algorithm, our technique immediately yields a factoring circuit with $\mathcal{O}(n^{2+\epsilon})$ gates and only $2n + \mathcal{O}(\log n)$ qubits; to our knowledge, this is by far the best qubit count of any factoring circuit with a sub-cubic number of gates. Used in Regev's recent factoring algorithm, the gate count is $\mathcal{O}(n^{1.5+\epsilon})$. Finally, we demonstrate that our algorithm has the potential to outperform previous proposals at problem sizes relevant in practice, including yielding the smallest circuits we know of for classically-verifiable quantum advantage. | 翻訳日:2024-03-28 21:24:43 公開日:2024-03-26 |
# 低絡み状態の典型的熱化
Typical thermalization of low-entanglement states ( http://arxiv.org/abs/2403.18007v1 ) ライセンス: Link先を確認 | Christian Bertoni, Clara Wassner, Giacomo Guarnieri, Jens Eisert, | (参考訳) 閉量子系のユニタリ進化から熱化を証明することは、現在でも部分的に解決されている最も古い問題の一つである。
いくつかの試みは、固有状態熱化仮説と呼ばれる様々な定式化に繋がった。
しかしながら、後者は、特定のエネルギーウィンドウの周囲に高度に集中しており、そのため、自然の物理的環境において操作可能な多くの種類の状態は説明できないと仮定し、熱化のテストや量子シミュレーションのための多くの実験計画を含む。
本研究では,これらの状態が運用上の意義を持つ正確な条件下で熱化されることを実証する。
より具体的には、初期状態の絡み合いが低いとき、局所的な熱化につながる局所ハミルトニアン上の無作為なエネルギー平滑化(英語版) (un random energy smoothing) を定義する。
最後に、そのような変換はギブス状態にも、穏やかな条件下でも、短時間のダイナミクスにも影響しないことを示す。
Proving thermalization from the unitary evolution of a closed quantum system is one of the oldest questions that is still nowadays only partially resolved. Several efforts have led to various formulations of what is called the eigenstate thermalization hypothesis. The latter, however, assume initial states which are highly concentrated around a specific energy window and, as such, cannot account for a large class of states that are of paramount importance and that are operationally accessible in natural physical settings, including many experimental schemes for testing thermalization and for quantum simulation: low-entanglement states. In this work, we prove thermalization of these states under precise conditions that have operational significance. More specifically, we define a random energy smoothing - motivated by arguments of unavoidable finite resolution - on local Hamiltonians that lead to local thermalization when the initial state has low entanglement. Finally we show that such transformation affects neither the Gibbs state locally nor, under a mild condition, the short time dynamics. | 翻訳日:2024-03-28 21:24:43 公開日:2024-03-26 |
# 量子計測の力学モデルにおける客観的観測値の平衡
Equilibration of objective observables in a dynamical model of quantum measurements ( http://arxiv.org/abs/2403.18016v1 ) ライセンス: Link先を確認 | Sophie Engineer, Tom Rivlin, Sabine Wollmann, Mehul Malik, Maximilian P. E. Lock, | (参考訳) 量子測定を理解するという課題は、現代物理学の基本的な問題として残っている。
特に、波動関数の急激でエネルギーを含まない崩壊は、古典的な熱力学の法則と矛盾しているように見える。
この矛盾は、測定自体を熱力学の第2法則によって引き起こされるエントロピーの増加過程と考えることで解決できる。
この提案は「測定-平衡仮説」と呼ばれ、古典世界の出現を説明するために導かれた量子ダーウィン主義の枠組みに基づいている。
したがって、測定結果は閉系平衡によるユニタリ力学から客観的に現れる。
このフレームワーク内での作業は、システムの計測統計を客観的に最もよく符号化する‘textit{`objectifying observables'} の集合を構築し、観測者が誤った測定結果を得る確率を定量化するための測定誤差を確立する。
この誤差境界を用いて、オブザーバブルのオブザーバブルは、測定されたシステムにおける結果統計を保存するハミルトニアンの集合の下で、平均的に容易に平衡することを示す。
この集合に対してランダムな行列モデルを用いて測定誤差境界を数値的に決定し、環境が粗粒化されていわゆるオブザーバシステムとなると、誤差は環境サイズの増加とともにゼロに近づく。
このことは、客観的な測定結果の出現のための環境の粗粒化の必要性を示している。
The challenge of understanding quantum measurement persists as a fundamental issue in modern physics. Particularly, the abrupt and energy-non-conserving collapse of the wave function appears to contradict classical thermodynamic laws. The contradiction can be resolved by considering measurement itself to be an entropy-increasing process, driven by the second law of thermodynamics. This proposal, dubbed the Measurement-Equilibration Hypothesis, builds on the Quantum Darwinism framework derived to explain the emergence of the classical world. Measurement outcomes thus emerge objectively from unitary dynamics via closed-system equilibration. Working within this framework, we construct the set of \textit{`objectifying observables'} that best encode the measurement statistics of a system in an objective manner, and establish a measurement error bound to quantify the probability an observer will obtain an incorrect measurement outcome. Using this error bound, we show that the objectifying observables readily equilibrate on average under the set of Hamiltonians which preserve the outcome statistics on the measured system. Using a random matrix model for this set, we numerically determine the measurement error bound, finding that the error only approaches zero with increasing environment size when the environment is coarse-grained into so-called observer systems. This indicates the necessity of coarse-graining an environment for the emergence of objective measurement outcomes. | 翻訳日:2024-03-28 21:24:43 公開日:2024-03-26 |
# DORE:ポルトガルの定義生成のためのデータセット
DORE: A Dataset For Portuguese Definition Generation ( http://arxiv.org/abs/2403.18018v1 ) ライセンス: Link先を確認 | Anna Beatriz Dimas Furtado, Tharindu Ranasinghe, Frédéric Blain, Ruslan Mitkov, | (参考訳) 定義モデリング(英: Definition modelling、DM)とは、特定の単語の辞書定義を自動的に生成するタスクである。
DMが可能な計算システムは、幅広い観客に利益をもたらす多くのアプリケーションを提供できる。
DMは教師付き自然言語生成問題であると考えられており、これらのシステムは機械学習(ML)モデルをトレーニングするために大きな注釈付きデータセットを必要とする。
いくつかのDMデータセットが英語や他の高ソース言語向けにリリースされた。
ポルトガル語は、ほとんどの自然言語処理タスクにおいて、ミッド/ハイリソース言語と見なされており、2億人以上のネイティブスピーカーによって話されているが、ポルトガル語用のDMデータセットは存在しない。
本研究では,10万以上の定義を含むPoRtuguEse用定義モデルリングの最初のデータセットであるDOREを導入することで,このギャップを埋める。
また、DOREに基づく深層学習に基づくDMモデルの評価を行い、その結果を報告する。
本論文のデータセットと知見は,より広い文脈におけるポルトガル語の研究と研究を促進する。
Definition modelling (DM) is the task of automatically generating a dictionary definition for a specific word. Computational systems that are capable of DM can have numerous applications benefiting a wide range of audiences. As DM is considered a supervised natural language generation problem, these systems require large annotated datasets to train the machine learning (ML) models. Several DM datasets have been released for English and other high-resource languages. While Portuguese is considered a mid/high-resource language in most natural language processing tasks and is spoken by more than 200 million native speakers, there is no DM dataset available for Portuguese. In this research, we fill this gap by introducing DORE; the first dataset for Definition MOdelling for PoRtuguEse containing more than 100,000 definitions. We also evaluate several deep learning based DM models on DORE and report the results. The dataset and the findings of this paper will facilitate research and study of Portuguese in wider contexts. | 翻訳日:2024-03-28 21:24:43 公開日:2024-03-26 |
# クラスタ定義による単語使用グラフの強化
Enriching Word Usage Graphs with Cluster Definitions ( http://arxiv.org/abs/2403.18024v1 ) ライセンス: Link先を確認 | Mariia Fedorova, Andrey Kutuzov, Nikolay Arefyev, Dominik Schlechtweg, | (参考訳) 本稿では、単語使用グラフ(WUG)のデータセットを提示し、複数の言語用の既存のWUGを、意味定義として機能するクラスタラベルで豊かにする。
それらは、微調整エンコーダ-デコーダ言語モデルによってスクラッチから生成される。
評価の結果、これらの定義はWordNetから選択した2つのベースラインシステムよりもWUGの既存のクラスタとよく一致していることがわかった。
同時に、このメソッドは使いやすく、新しい言語への拡張も容易である。
結果として得られたリッチなデータセットは、説明可能なセマンティックチェンジモデリングに移行する上で非常に役立ちます。
We present a dataset of word usage graphs (WUGs), where the existing WUGs for multiple languages are enriched with cluster labels functioning as sense definitions. They are generated from scratch by fine-tuned encoder-decoder language models. The conducted human evaluation has shown that these definitions match the existing clusters in WUGs better than the definitions chosen from WordNet by two baseline systems. At the same time, the method is straightforward to use and easy to extend to new languages. The resulting enriched datasets can be extremely helpful for moving on to explainable semantic change modeling. | 翻訳日:2024-03-28 21:24:43 公開日:2024-03-26 |
# マスク特異的損失による事前学習型言語モデル感度の向上:バイオメディカルNERを事例として
Improving Pre-trained Language Model Sensitivity via Mask Specific losses: A case study on Biomedical NER ( http://arxiv.org/abs/2403.18025v1 ) ライセンス: Link先を確認 | Micheal Abaho, Danushka Bollegala, Gary Leeming, Dan Joyce, Iain E Buchan, | (参考訳) 言語モデル(LM)を新しいドメインに適応させることは、ドメイン固有のデータに基づいて事前訓練されたLM(PLM)を微調整することでしばしば達成される。
ファインチューニングは、LMに新しい知識を導入し、ターゲットドメインタスクを理解し、効率的に実行できるようにする。
しかし、微調整は、ソースドメインとターゲットドメインの間の幅広い相違(例えば、単語の意味)を無視している場合、不注意に非感受性となる。
例えば、慢性的な言葉やプレッシャーのような単語は、社会的会話において軽快に扱われることがあるが、臨床的には、これらの単語は通常、関心の表現である。
微調整におけるドメイン固有語の重要性を適切に重み付けすることで,対象ドメインの知識を効率的に獲得する手法であるマスク特化言語モデリング(MSLM)を提案する。
MSLMはDS-termsとジェネリックワードを併用してマスク固有の損失を学習し、ジェネリックワードと比較して不正確なDS-termsを予測するために、LMがより大きな罰則を課すことを保証する。
分析の結果,MSLMはDS項の感度と検出を改善した。
実験により,最適なマスキング速度はLMだけでなく,データセットやシーケンスの長さにも依存することが示された。
提案するマスキング戦略は,スパンマスクやPMIマスクなどの高度なマスキング戦略よりも優れている。
Adapting language models (LMs) to novel domains is often achieved through fine-tuning a pre-trained LM (PLM) on domain-specific data. Fine-tuning introduces new knowledge into an LM, enabling it to comprehend and efficiently perform a target domain task. Fine-tuning can however be inadvertently insensitive if it ignores the wide array of disparities (e.g in word meaning) between source and target domains. For instance, words such as chronic and pressure may be treated lightly in social conversations, however, clinically, these words are usually an expression of concern. To address insensitive fine-tuning, we propose Mask Specific Language Modeling (MSLM), an approach that efficiently acquires target domain knowledge by appropriately weighting the importance of domain-specific terms (DS-terms) during fine-tuning. MSLM jointly masks DS-terms and generic words, then learns mask-specific losses by ensuring LMs incur larger penalties for inaccurately predicting DS-terms compared to generic words. Results of our analysis show that MSLM improves LMs sensitivity and detection of DS-terms. We empirically show that an optimal masking rate not only depends on the LM, but also on the dataset and the length of sequences. Our proposed masking strategy outperforms advanced masking strategies such as span- and PMI-based masking. | 翻訳日:2024-03-28 21:24:43 公開日:2024-03-26 |
# 多施設顕微鏡協調ネットワーク構築の基礎としての生成的対向ネットワークに基づくシステム間生物学的画質向上
Cross-system biological image quality enhancement based on the generative adversarial network as a foundation for establishing a multi-institute microscopy cooperative network ( http://arxiv.org/abs/2403.18026v1 ) ライセンス: Link先を確認 | Dominik Panek, Carina Rząca, Maksymilian Szczypior, Joanna Sorysz, Krzysztof Misztal, Zbigniew Baster, Zenon Rajfur, | (参考訳) 生物学的システムの高品質蛍光イメージングは、光漂白や光毒性などのプロセスによって制限され、多くの場合、最新の世代の顕微鏡へのアクセスが制限される。
さらに、低時間分解能は生体系における運動のぼかし効果をもたらす可能性がある。
本研究は,低品質 (LQ) の等価値に基づいて高品質 (HQ) 画像を得る問題に対する,ディープラーニング (DL) 生成的・敵対的アプローチを提案する。
共焦点顕微鏡(HQ画像)と広視野蛍光顕微鏡(LQ画像)の2つの異なる顕微鏡システム間のコントラスト伝達のためのGAN(generative-adversarial Network)を提案する。
我々のモデルでは、そのような転送が可能であることを証明し、低平均二乗誤差(MSE)、高構造類似度指数(SSIM)、高ピーク信号-雑音比(PSNR)を特徴とするHQ生成画像の受信を可能にする。
MSE,SSIM,PSNRはそれぞれ6x10-4,0.9413,31.87である。
対照的に、LQとHQの真理値の平均値はMSE、SSIM、PSNRそれぞれ0.0071、0.8304、21.48となる。
そこで,SSIMとPSNRでは,それぞれ14%から49%の顕著な増加が観察された。
これらの結果は、他の単系統のクロスモダリティ研究とともに、クロスシステム生物学的画像品質向上のさらなる実装のための概念実証を提供する。
High-quality fluorescence imaging of biological systems is limited by processes like photobleaching and phototoxicity, and also in many cases, by limited access to the latest generations of microscopes. Moreover, low temporal resolution can lead to a motion blur effect in living systems. Our work presents a deep learning (DL) generative-adversarial approach to the problem of obtaining high-quality (HQ) images based on their low-quality (LQ) equivalents. We propose a generative-adversarial network (GAN) for contrast transfer between two different separate microscopy systems: a confocal microscope (producing HQ images) and a wide-field fluorescence microscope (producing LQ images). Our model proves that such transfer is possible, allowing us to receive HQ-generated images characterized by low mean squared error (MSE) values, high structural similarity index (SSIM), and high peak signal-to-noise ratio (PSNR) values. For our best model in the case of comparing HQ-generated images and HQ-ground truth images, the median values of the metrics are 6x10-4, 0.9413, and 31.87, for MSE, SSIM, and PSNR, respectively. In contrast, in the case of comparison between LQ and HQ ground truth median values of the metrics are equal to 0.0071, 0.8304, and 21.48 for MSE, SSIM, and PSNR respectively. Therefore, we observe a significant increase ranging from 14% to 49% for SSIM and PSNR respectively. These results, together with other single-system cross-modality studies, provide proof of concept for further implementation of a cross-system biological image quality enhancement. | 翻訳日:2024-03-28 21:24:43 公開日:2024-03-26 |
# 部分観測による種発生パターンの予測
Predicting species occurrence patterns from partial observations ( http://arxiv.org/abs/2403.18028v1 ) ライセンス: Link先を確認 | Hager Radi Abdelwahed, Mélisande Teng, David Rolnick, | (参考訳) 生物多様性と気候危機の相互関係に対処するためには、種の発生場所とこれらのパターンがどのように変化しているかを理解する必要がある。
しかし、ほとんどの種の観測データは非常に限られており、利用可能なデータの量は分類群によって大きく異なる。
種発生パターンの予測問題について紹介する。
(a)衛星画像、及び
(b)他の種の発生に関する既知の情報。
そこで本研究では,サトバタフライ(SatButterfly)について,サトバタフライ(SatButterfly)という,サトバタフライの衛星画像,環境データ,観察データのデータセットを紹介した。
この課題に対処するために,見いだされた部分的な観測データの利用を可能にする種発生パターンを予測するための一般モデルR-Tranを提案する。
R-Tranは、分類群(鳥類)と分類群(鳥類と蝶)の双方で、部分的な情報で種の出現率を予測する他の方法よりも優れていることが判明した。
我々のアプローチは、豊富なデータを持つ種から、少ないデータを持つ種への洞察を、共生する生態系をモデル化することで、新たな視点を開拓する。
To address the interlinked biodiversity and climate crises, we need an understanding of where species occur and how these patterns are changing. However, observational data on most species remains very limited, and the amount of data available varies greatly between taxonomic groups. We introduce the problem of predicting species occurrence patterns given (a) satellite imagery, and (b) known information on the occurrence of other species. To evaluate algorithms on this task, we introduce SatButterfly, a dataset of satellite images, environmental data and observational data for butterflies, which is designed to pair with the existing SatBird dataset of bird observational data. To address this task, we propose a general model, R-Tran, for predicting species occurrence patterns that enables the use of partial observational data wherever found. We find that R-Tran outperforms other methods in predicting species encounter rates with partial information both within a taxon (birds) and across taxa (birds and butterflies). Our approach opens new perspectives to leveraging insights from species with abundant data to other species with scarce data, by modelling the ecosystems in which they co-occur. | 翻訳日:2024-03-28 21:24:43 公開日:2024-03-26 |
# EinExprs:記号表現としてのテンソルネットワークの収縮経路
EinExprs: Contraction Paths of Tensor Networks as Symbolic Expressions ( http://arxiv.org/abs/2403.18030v1 ) ライセンス: Link先を確認 | Sergio Sanchez-Ramirez, Jofre Vallès-Muns, Artur Garcia-Saez, | (参考訳) テンソルネットワークは、頂点がテンソルを表す和表現のグラフ表現であり、エッジはテンソル指標またはベクトル空間を表す。
本稿では,契約パス最適化のためのJuliaパッケージであるEinExprs.jlを紹介する。
本稿では,記号表現に基づくテンソルネットワークの縮退経路の表現を提案する。
このパッケージを使用することで、ユーザはGreedyアルゴリズムやハイパーグラフパーティショニング問題に基づくアプローチなど、さまざまなメソッドのコレクションを選択することができる。
我々は、このライブラリを、Tensor Networksが最先端の手法を提供する有名な例であるRandom Quantum Circuits(RQC)のシミュレーションから得られた例でベンチマークする。
Tensor Networks are graph representations of summation expressions in which vertices represent tensors and edges represent tensor indices or vector spaces. In this work, we present EinExprs.jl, a Julia package for contraction path optimization that offers state-of-art optimizers. We propose a representation of the contraction path of a Tensor Network based on symbolic expressions. Using this package the user may choose among a collection of different methods such as Greedy algorithms, or an approach based on the hypergraph partitioning problem. We benchmark this library with examples obtained from the simulation of Random Quantum Circuits (RQC), a well known example where Tensor Networks provide state-of-the-art methods. | 翻訳日:2024-03-28 21:14:58 公開日:2024-03-26 |
# 後方翻訳による機械翻訳における構文的・意味的近接性の影響
The Impact of Syntactic and Semantic Proximity on Machine Translation with Back-Translation ( http://arxiv.org/abs/2403.18031v1 ) ライセンス: Link先を確認 | Nicolas Guerin, Shane Steinert-Threlkeld, Emmanuel Chemla, | (参考訳) 教師なしオンザフライ翻訳と多言語事前学習は、教師なしニューラルネットワーク翻訳の主要な方法である。
しかし理論的には、この方法は一般には機能しない。
そこで, 人工言語を用いた制御実験を行い, 語彙, 構文, 意味的特性を網羅し, 言語特性の逆翻訳が効果的な学習方法となるかを検証した。
私たちは、大衆の信念に反して、そのことを見つける
(i)パラレルワード頻度分布
(二)一部共有語彙、及び
(iii)言語間の類似した構文構造は、バック翻訳の成功を説明するには不十分である。
しかし、言語間の類似の語彙場である粗い意味信号でさえ、バックトランスレーションによって2言語間のアライメントを改善することを示す。
言語間で平行なリッチなセマンティック依存関係は、バックトランスレーションに基づく教師なし手法の成功の根底にあると推測する。
全体として、教師なし機械翻訳の成功は分析的に保証されるには程遠いものだった。
むしろ、世界中の言語が深い類似点を共有しているという別の証拠であり、これらの類似点のどれが教師なし、言語横断的なツールの開発に役立つかを示すことを願っている。
Unsupervised on-the-fly back-translation, in conjunction with multilingual pretraining, is the dominant method for unsupervised neural machine translation. Theoretically, however, the method should not work in general. We therefore conduct controlled experiments with artificial languages to determine what properties of languages make back-translation an effective training method, covering lexical, syntactic, and semantic properties. We find, contrary to popular belief, that (i) parallel word frequency distributions, (ii) partially shared vocabulary, and (iii) similar syntactic structure across languages are not sufficient to explain the success of back-translation. We show however that even crude semantic signal (similar lexical fields across languages) does improve alignment of two languages through back-translation. We conjecture that rich semantic dependencies, parallel across languages, are at the root of the success of unsupervised methods based on back-translation. Overall, the success of unsupervised machine translation was far from being analytically guaranteed. Instead, it is another proof that languages of the world share deep similarities, and we hope to show how to identify which of these similarities can serve the development of unsupervised, cross-linguistic tools. | 翻訳日:2024-03-28 21:14:58 公開日:2024-03-26 |
# SpectralWaste Dataset: 廃棄物ソーティング自動化のためのマルチモーダルデータ
SpectralWaste Dataset: Multimodal Data for Waste Sorting Automation ( http://arxiv.org/abs/2403.18033v1 ) ライセンス: Link先を確認 | Sara Casao, Fernando Peña, Alberto Sabater, Rosa Castillón, Darío Suárez, Eduardo Montijano, Ana C. Murillo, | (参考訳) 非生分解性廃棄物の増加は世界的に懸念されている。
リサイクル施設は重要な役割を担っているが, ごみ処理やオブジェクト変形といったごみリサイクルラインの複雑な特性によって自動化が妨げられている。
さらに、これらの環境に公開されているラベル付きデータの欠如は、堅牢な認識システムの開発を困難にしている。
実際の廃棄物処理シナリオにおけるオブジェクトセグメンテーションに対するマルチモーダル認識の利点について検討する。
まず,高スペクトル画像と従来のRGB画像の同期処理を行うプラスチック廃棄物選別施設から収集した最初のデータセットであるSpectralWasteについて述べる。
このデータセットには、プラントのソートに一般的に現れるいくつかのカテゴリのオブジェクトのラベルが含まれており、管理ラインのセキュリティや再利用など、いくつかの理由から、メインのゴミフローから検出および分離する必要がある。
さらに、異なるオブジェクトセグメンテーションアーキテクチャを用いたパイプラインを提案し、データセット上の代替品を評価し、マルチモーダルおよびユニモーダルの両方の選択肢に対して広範な分析を行う。
本評価では, リアルタイム処理における効率性と適合性に特に注目し, 計算オーバーヘッドを伴わずに, 現実的な産業環境において, HSIがRGBのみの認識をいかに向上させるかを示す。
The increase in non-biodegradable waste is a worldwide concern. Recycling facilities play a crucial role, but their automation is hindered by the complex characteristics of waste recycling lines like clutter or object deformation. In addition, the lack of publicly available labeled data for these environments makes developing robust perception systems challenging. Our work explores the benefits of multimodal perception for object segmentation in real waste management scenarios. First, we present SpectralWaste, the first dataset collected from an operational plastic waste sorting facility that provides synchronized hyperspectral and conventional RGB images. This dataset contains labels for several categories of objects that commonly appear in sorting plants and need to be detected and separated from the main trash flow for several reasons, such as security in the management line or reuse. Additionally, we propose a pipeline employing different object segmentation architectures and evaluate the alternatives on our dataset, conducting an extensive analysis for both multimodal and unimodal alternatives. Our evaluation pays special attention to efficiency and suitability for real-time processing and demonstrates how HSI can bring a boost to RGB-only perception in these realistic industrial settings without much computational overhead. | 翻訳日:2024-03-28 21:14:58 公開日:2024-03-26 |
# 双方向一貫性モデル
Bidirectional Consistency Models ( http://arxiv.org/abs/2403.18035v1 ) ライセンス: Link先を確認 | Liangchen Li, Jiajun He, | (参考訳) 拡散モデル(DM)は、確率フロー常微分方程式(PF ODE)に沿って移動するプロセスであるランダムベクトルを反復的に認知することで、驚くほど高品質なサンプルを生成することができる。
興味深いことに、DMは、補間や画像編集といった下流タスクのキー操作であるPFODEに沿って後方に移動することで、入力画像からノイズへの変換も可能である。
しかし、このプロセスの反復的な性質は、その速度を制限し、より広範な応用を妨げる。
近年、PF ODEの積分を近似することにより、反復処理の必要性を回避し、一貫性モデル(CM)がこの課題に対処するために現れている。
しかし、明示的なODEソルバが存在しないことは、反転過程を複雑にする。
これを解決するために,PF ODE に沿った前方と後方の両方のトラバースが可能な単一ニューラルネットワークを学習し,ひとつのフレームワーク内で生成タスクと反転タスクを効率的に統一する双方向一貫性モデル (BCM) を導入する。
特に,提案手法では,1ステップ生成と逆変換が可能であり,さらに生成品質の向上や再構成誤差の低減のために追加ステップを使用することが可能である。
さらに,モデルの双方向一貫性を活用することで,生成した画像コンテンツを保存しながらFIDを向上させるサンプリング戦略を導入する。
我々はさらに、補間や塗装などの下流タスクにおいて、我々のモデル能力を示すとともに、圧縮画像のブラインド復元やブラックボックスの敵攻撃の防御など、潜在的な応用のデモンストレーションを行う。
Diffusion models (DMs) are capable of generating remarkably high-quality samples by iteratively denoising a random vector, a process that corresponds to moving along the probability flow ordinary differential equation (PF ODE). Interestingly, DMs can also invert an input image to noise by moving backward along the PF ODE, a key operation for downstream tasks such as interpolation and image editing. However, the iterative nature of this process restricts its speed, hindering its broader application. Recently, Consistency Models (CMs) have emerged to address this challenge by approximating the integral of the PF ODE, thereby bypassing the need to iterate. Yet, the absence of an explicit ODE solver complicates the inversion process. To resolve this, we introduce the Bidirectional Consistency Model (BCM), which learns a single neural network that enables both forward and backward traversal along the PF ODE, efficiently unifying generation and inversion tasks within one framework. Notably, our proposed method enables one-step generation and inversion while also allowing the use of additional steps to enhance generation quality or reduce reconstruction error. Furthermore, by leveraging our model's bidirectional consistency, we introduce a sampling strategy that can enhance FID while preserving the generated image content. We further showcase our model's capabilities in several downstream tasks, such as interpolation and inpainting, and present demonstrations of potential applications, including blind restoration of compressed images and defending black-box adversarial attacks. | 翻訳日:2024-03-28 21:14:58 公開日:2024-03-26 |
# あなたが言うように、できる限り干渉する:シーンのアクシデンスを伴う言語誘導型ヒューマンモーションジェネレーション
Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance ( http://arxiv.org/abs/2403.18036v1 ) ライセンス: Link先を確認 | Zan Wang, Yixin Chen, Baoxiong Jia, Puhao Li, Jinlu Zhang, Jingze Zhang, Tengyu Liu, Yixin Zhu, Wei Liang, Siyuan Huang, | (参考訳) テキスト・ツー・モーション・シンセサイザーの大幅な進歩にもかかわらず、3D環境内で言語誘導された人間の動きを生成することは重大な課題である。
これらの課題は主に
一 自然言語・3Dシーン・人間の動作を共同でモデル化できる強力な生成モデルがないこと。
(II) 生成モデルの集中的データ要求は, 包括的, 高品質, 言語シーン・モーション・データセットの不足と対比した。
これらの課題に対処するために、シーンアベイランスを中間表現として活用し、3Dシーングラウンドと条件付きモーション生成を効果的にリンクする新しい2段階フレームワークを提案する。
我々のフレームワークは、明示的な空白マップを予測するためのAffordance Diffusion Model(ADM)と、可塑性な人間の動きを生成するためのAffordance-to-Motion Diffusion Model(AMDM)から構成される。
ランドスケープ・アベイランス・マップの活用により,多モーダル・コンディション・シグナル下での人体動作生成の困難さを克服し,特に言語・シーン・モーション・ペアを欠いた限られたデータを用いたトレーニングを行う。
我々の大規模な実験は、HumanML3DやHUMANISEなど、確立されたベンチマークのベースラインを一貫して上回っていることを示している。
さらに,前例のない記述やシーンを特徴とする特別にキュレートされた評価セットに対して,モデルが持つ異常な一般化能力を検証する。
Despite significant advancements in text-to-motion synthesis, generating language-guided human motion within 3D environments poses substantial challenges. These challenges stem primarily from (i) the absence of powerful generative models capable of jointly modeling natural language, 3D scenes, and human motion, and (ii) the generative models' intensive data requirements contrasted with the scarcity of comprehensive, high-quality, language-scene-motion datasets. To tackle these issues, we introduce a novel two-stage framework that employs scene affordance as an intermediate representation, effectively linking 3D scene grounding and conditional motion generation. Our framework comprises an Affordance Diffusion Model (ADM) for predicting explicit affordance map and an Affordance-to-Motion Diffusion Model (AMDM) for generating plausible human motions. By leveraging scene affordance maps, our method overcomes the difficulty in generating human motion under multimodal condition signals, especially when training with limited data lacking extensive language-scene-motion pairs. Our extensive experiments demonstrate that our approach consistently outperforms all baselines on established benchmarks, including HumanML3D and HUMANISE. Additionally, we validate our model's exceptional generalization capabilities on a specially curated evaluation set featuring previously unseen descriptions and scenes. | 翻訳日:2024-03-28 21:14:58 公開日:2024-03-26 |
# TGGLinesPlus:画像からの線検出のための頑健なトポロジカルグラフ誘導型コンピュータビジョンアルゴリズム
TGGLinesPlus: A robust topological graph-guided computer vision algorithm for line detection from images ( http://arxiv.org/abs/2403.18038v1 ) ライセンス: Link先を確認 | Liping Yang, Joshua Driscol, Ming Gong, Shujie Wang, Catherine G. Potts, | (参考訳) ライン検出は画像処理、コンピュータビジョン、マシンインテリジェンスにおいて古典的で重要な問題である。
線検出には、画像ベクトル化(例:文書認識とアートデザイン)、屋内マッピング、重要な社会問題(例:衛星画像からの海氷破壊線抽出)など、多くの重要な応用がある。
多くの線検出アルゴリズムや手法が開発されているが、頑健で直感的な手法はいまだに欠けている。
本稿では,線検出のためのトポロジカルグラフ誘導アルゴリズムTGGLinesPlusを提案し,実装した。
我々は,TGGLinesPlusアルゴリズムの柔軟性を実証した。
また,従来の5種類のライン検出手法を用いてアルゴリズムをベンチマークし,TGGLinesPlusのロバスト性を実証した。
私たちは、TGGLinesPlusのオープンソース実装が、空間科学が重要な多くのアプリケーションに刺激を与え、道を開いたいと考えています。
Line detection is a classic and essential problem in image processing, computer vision and machine intelligence. Line detection has many important applications, including image vectorization (e.g., document recognition and art design), indoor mapping, and important societal challenges (e.g., sea ice fracture line extraction from satellite imagery). Many line detection algorithms and methods have been developed, but robust and intuitive methods are still lacking. In this paper, we proposed and implemented a topological graph-guided algorithm, named TGGLinesPlus, for line detection. Our experiments on images from a wide range of domains have demonstrated the flexibility of our TGGLinesPlus algorithm. We also benchmarked our algorithm with five classic and state-of-the-art line detection methods and the results demonstrate the robustness of TGGLinesPlus. We hope our open-source implementation of TGGLinesPlus will inspire and pave the way for many applications where spatial science matters. | 翻訳日:2024-03-28 21:14:58 公開日:2024-03-26 |
# 大規模変換のためのグローバルポイントクラウド登録ネットワーク
Global Point Cloud Registration Network for Large Transformations ( http://arxiv.org/abs/2403.18040v1 ) ライセンス: Link先を確認 | Hanz Cuevas-Velasquez, Alejandro Galán-Cuenca, Antonio Javier Gallego, Marcelo Saval-Calvo, Robert B. Fisher, | (参考訳) 3次元データ登録は、自動運転車の環境のマッピングや、アバター作成のためのオブジェクトや人々をモデル化するなど、多くの異なるアプリケーションにおいて重要な、確立されながら難しい問題である。
登録とは、一致した対応と変換推定によって複数のデータを同じ座標系にマッピングする過程を指す。
新たな提案では、この目的のためにディープラーニングアーキテクチャの利点を活用して、データのための最高の機能を学び、より良いマッチングを提供し、その結果を得る。
しかしながら、最先端技術は通常、比較的小さな変換の場合に焦点を当てるが、特定のアプリケーションや現実的で実践的な環境では、大きな変換が非常に一般的である。
本稿では,ReLaTo(Registration for Large Transformations)について述べる。
この提案では、新しいSoftmaxプーリング層を用いて、2つの点集合間の相互一致的な対応を見つけ、最も確実な一致をサンプリングする。
これらのマッチは、重み付き特異値分解(SVD)を用いて粗大かつグローバルな登録を推定するために使用される。
次に、得られた一致と潜伏特徴の両方に目標誘導復調ステップを適用し、局所的幾何を考慮した最終的な微妙な登録を推定する。
これらのステップは、特に大きな変換の場合において、このタスクに一般的に使用される2つのデータセット(ModelNet40とKITTI)における10の最先端の登録方法を改善することが示されているエンドツーエンドアプローチに従って実行される。
Three-dimensional data registration is an established yet challenging problem that is key in many different applications, such as mapping the environment for autonomous vehicles, and modeling objects and people for avatar creation, among many others. Registration refers to the process of mapping multiple data into the same coordinate system by means of matching correspondences and transformation estimation. Novel proposals exploit the benefits of deep learning architectures for this purpose, as they learn the best features for the data, providing better matches and hence results. However, the state of the art is usually focused on cases of relatively small transformations, although in certain applications and in a real and practical environment, large transformations are very common. In this paper, we present ReLaTo (Registration for Large Transformations), an architecture that faces the cases where large transformations happen while maintaining good performance for local transformations. This proposal uses a novel Softmax pooling layer to find correspondences in a bilateral consensus manner between two point sets, sampling the most confident matches. These matches are used to estimate a coarse and global registration using weighted Singular Value Decomposition (SVD). A target-guided denoising step is then applied to both the obtained matches and latent features, estimating the final fine registration considering the local geometry. All these steps are carried out following an end-to-end approach, which has been shown to improve 10 state-of-the-art registration methods in two datasets commonly used for this task (ModelNet40 and KITTI), especially in the case of large transformations. | 翻訳日:2024-03-28 21:14:58 公開日:2024-03-26 |
# 低次元線形パラメータ変動近似のための深層ポリトピックオートエンコーダと非線形フィードバック設計
Deep polytopic autoencoders for low-dimensional linear parameter-varying approximations and nonlinear feedback design ( http://arxiv.org/abs/2403.18044v1 ) ライセンス: Link先を確認 | Jan Heiland, Yongho Kim, Steffen W. R. Werner, | (参考訳) ポリトープオートエンコーダは、ポリトープの状態の低次元パラメトリゼーションを提供する。
非線形PDEに対して、これは低次元線形パラメータ変化(LPV)近似に容易に適用でき、状態依存リカティ方程式への解の直列展開を通じて効率的な非線形コントローラ設計に利用されてきた。
本研究では,制御用多目的オートエンコーダを開発し,非線形系のLPV近似の観点から,標準線形アプローチよりも優れた性能を示し,そのアーキテクチャにより,余分な計算作業で高次級数展開が可能となることを示す。
本稿では,大規模システムの非線形制御系設計における本手法の特性と可能性について述べる。
Polytopic autoencoders provide low-dimensional parametrizations of states in a polytope. For nonlinear PDEs, this is readily applied to low-dimensional linear parameter-varying (LPV) approximations as they have been exploited for efficient nonlinear controller design via series expansions of the solution to the state-dependent Riccati equation. In this work, we develop a polytopic autoencoder for control applications and show how it outperforms standard linear approaches in view of LPV approximations of nonlinear systems and how the particular architecture enables higher order series expansions at little extra computational effort. We illustrate the properties and potentials of this approach to computational nonlinear controller design for large-scale systems with a thorough numerical study. | 翻訳日:2024-03-28 21:14:58 公開日:2024-03-26 |
# 二重基底状態エネルギー分割(または即時フリップ率) 暗黙の明示を描画する
Double well ground state energy splitting (or instanton flipping rate); rendering the implicit explicit ( http://arxiv.org/abs/2403.18050v1 ) ライセンス: Link先を確認 | J. H. Hannay, | (参考訳) 量子トンネルの第一の例は、対称二重井戸ポテンシャルの準古典的な「エネルギー分割」、あるいは等価にインスタントンの反転速度である。
奇妙なことに、(滑らかな)ポテンシャル関数の観点から、基底状態エネルギー分裂の許容された表現は、古典力学から得られる完全な明示性には追われていない。
この暗黙性はここで修正される。
A prime example of quantum tunnelling is the semiclassical 'energy splitting' of the levels of a symmetrical double well potential, or equivalently the flipping rate of an instanton. Curiously the accepted expression for the ground state energy splitting in terms of the (smooth) potential function has not been pursued to the full explicitness available from classical mechanics. This implicitness is rectified here. | 翻訳日:2024-03-28 21:14:58 公開日:2024-03-26 |
# Supervisory Prompt Training
Supervisory Prompt Training ( http://arxiv.org/abs/2403.18051v1 ) ライセンス: Link先を確認 | Jean Ghislain Billa, Min Oh, Liang Du, | (参考訳) LLM(Large Language Models)の性能はプロンプトの品質に大きく依存している。
本稿では,SPT(Supervisory Prompt Training)という新しいアプローチを提案する。
SPTは、デュアルLLMシステムを使用して、非常に効果的なプロンプトを生成する。
本システムでは,1つのLCM,ジェネレータがタスクを実行し,もう1つのリフレクタがフィードバックを提供し,改良されたプロンプトを生成する。
以前の手法とは対照的に、ジェネレータと修正器は協調して、時間とともにプロンプトを継続的に改善する。
また,プロンプトの文レベルの有効性を測定するために,「textit{impact scores」という概念を導入する。
LLMの幻覚レベルを4つのベンチマークで検証した。
特に、GSM8K上のGPT-4の精度を65.8\%から94.1\%(28.3\%)に向上することができた。
SPT は LLM を改良し、性能の向上と幻覚の低減を図り、従来のモデルファインチューニングに代わる効率的でスケーラブルな代替手段を提供する。
The performance of Large Language Models (LLMs) relies heavily on the quality of prompts, which are often manually engineered and task-specific, making them costly and non-scalable. We propose a novel approach, Supervisory Prompt Training (SPT). SPT automates the generation of highly effective prompts using a dual LLM system. In this system, one LLM, the generator, performs a task while the other, the corrector, provides feedback and generates improved prompts. In contrast to earlier techniques, both the generator and corrector collaboratively and continuously improve their prompts over time. We also introduce the concept of \textit{impact scores} to measure the sentence-level effectiveness of the prompts. Our method was tested on four benchmarks, testing the level of hallucinations in LLMs. Notably, we were able to increase the accuracy of GPT-4 on GSM8K from 65.8\% to 94.1\% (28.3\% increase). SPT advances LLMs by refining prompts to enhance performance and reduce hallucinations, offering an efficient and scalable alternative to traditional model fine-tuning. | 翻訳日:2024-03-28 21:14:58 公開日:2024-03-26 |
# 電波天文学におけるモデル不確実性定量化を用いたR2D2画像再構成
R2D2 image reconstruction with model uncertainty quantification in radio astronomy ( http://arxiv.org/abs/2403.18052v1 ) ライセンス: Link先を確認 | Amir Aghabiglou, Chung San Chu, Arwa Dabbech, Yves Wiaux, | (参考訳) 高ダイナミックレンジイメージングのためのResidual-to-Residual DNNシリーズ(R2D2)は、天文学におけるRIイメージングのために最近導入された。
R2D2の再構成は一連の残像として形成され、前回の反復のイメージ推定と関連するデータを入力として取り込むディープニューラルネットワーク(DNN)の出力として反復的に推定される。
本研究では,R2D2画像推定プロセスのロバスト性について,その一連の学習モデルに関連する不確実性について検討する。
アンサンブル平均化アプローチを採用することで、各イテレーションにおけるトレーニングプロセスのランダムなDNN初期化から、複数のシリーズをトレーニングすることができる。
結果の複数のR2D2インスタンスは ``R2D2 sample'' を生成するために利用することもできる。
RIイメージングに焦点をあて、望遠鏡固有のアプローチを採用し、複数のR2D2インスタンスを訓練し、超大型アレイ(VLA)の最も一般的な観測環境を網羅した。
シミュレーションと実データ実験がそれを裏付ける。
(i)R2D2の画像推定能力は最先端のアルゴリズムよりも優れている。
(二)その超高速再構成能力(少数のDNNのシリーズから始まる)は、大規模な画像次元においても、複数の再構成サンプルと不確実性マップの計算を実用的なものにする。
(iii)非常に低いモデルの不確実性によって特徴づけられる。
The ``Residual-to-Residual DNN series for high-Dynamic range imaging'' (R2D2) approach was recently introduced for Radio-Interferometric (RI) imaging in astronomy. R2D2's reconstruction is formed as a series of residual images, iteratively estimated as outputs of Deep Neural Networks (DNNs) taking the previous iteration's image estimate and associated data residual as inputs. In this work, we investigate the robustness of the R2D2 image estimation process, by studying the uncertainty associated with its series of learned models. Adopting an ensemble averaging approach, multiple series can be trained, arising from different random DNN initializations of the training process at each iteration. The resulting multiple R2D2 instances can also be leveraged to generate ``R2D2 samples'', from which empirical mean and standard deviation endow the algorithm with a joint estimation and uncertainty quantification functionality. Focusing on RI imaging, and adopting a telescope-specific approach, multiple R2D2 instances were trained to encompass the most general observation setting of the Very Large Array (VLA). Simulations and real-data experiments confirm that: (i) R2D2's image estimation capability is superior to that of the state-of-the-art algorithms; (ii) its ultra-fast reconstruction capability (arising from series with only few DNNs) makes the computation of multiple reconstruction samples and of uncertainty maps practical even at large image dimension; (iii) it is characterized by a very low model uncertainty. | 翻訳日:2024-03-28 21:14:58 公開日:2024-03-26 |
# 拡張性協調グラフを用いた自己クラスタリング階層型マルチエージェント強化学習
Self-Clustering Hierarchical Multi-Agent Reinforcement Learning with Extensible Cooperation Graph ( http://arxiv.org/abs/2403.18056v1 ) ライセンス: Link先を確認 | Qingxu Fu, Tenghai Qiu, Jianqiang Yi, Zhiqiang Pu, Xiaolin Ai, | (参考訳) マルチエージェント強化学習(MARL)は多くの協調的課題の解決に成功している。
しかし、古典的非階層的MARLアルゴリズムは、階層的協調動作を必要とする様々な複雑なマルチエージェント問題にまだ対処できない。
非階層的アルゴリズムで学んだ協調的知識とポリシーは暗黙的であり、解釈できないため、既存の知識の統合が制限される。
本稿では,階層型協調グラフ学習(HCGL)と呼ばれる新しい階層型MARLモデルを提案する。
HCGLには3つのコンポーネントがある: 自己クラスタ化協調を実現する動的拡張協力グラフ(ECG)、ECGのトポロジを調整するグラフ演算子のグループ、これらのグラフ演算子を訓練するためのMARLオプティマイザ。
HCGLの他のMARLモデルとの大きな違いは、エージェントの挙動がポリシーニューラルネットワークの代わりにECGのトポロジーによって導かれることである。
ECGはエージェントノード層、クラスタノード層、ターゲットノード層からなる3層グラフである。
環境条件の変化に応じてECGトポロジを操作するため、4つのグラフ演算子をトレーニングし、ECGのエッジ接続を動的に調整する。
ECGの階層的特徴は、プリミティブアクション(エージェントによって実行されるアクション)と協調アクション(クラスタによって実行されるアクション)を統一されたアクション空間にマージするユニークなアプローチを提供し、基本的な協調的知識を拡張可能なインターフェースに統合することを可能にする。
実験では, HCGLモデルは, スパース報酬を伴うマルチエージェントベンチマークにおいて, 優れた性能を示した。
また、HCGLはゼロショット転送の成功率の高い大規模シナリオに容易に移行可能であることを検証する。
Multi-Agent Reinforcement Learning (MARL) has been successful in solving many cooperative challenges. However, classic non-hierarchical MARL algorithms still cannot address various complex multi-agent problems that require hierarchical cooperative behaviors. The cooperative knowledge and policies learned in non-hierarchical algorithms are implicit and not interpretable, thereby restricting the integration of existing knowledge. This paper proposes a novel hierarchical MARL model called Hierarchical Cooperation Graph Learning (HCGL) for solving general multi-agent problems. HCGL has three components: a dynamic Extensible Cooperation Graph (ECG) for achieving self-clustering cooperation; a group of graph operators for adjusting the topology of ECG; and an MARL optimizer for training these graph operators. HCGL's key distinction from other MARL models is that the behaviors of agents are guided by the topology of ECG instead of policy neural networks. ECG is a three-layer graph consisting of an agent node layer, a cluster node layer, and a target node layer. To manipulate the ECG topology in response to changing environmental conditions, four graph operators are trained to adjust the edge connections of ECG dynamically. The hierarchical feature of ECG provides a unique approach to merge primitive actions (actions executed by the agents) and cooperative actions (actions executed by the clusters) into a unified action space, allowing us to integrate fundamental cooperative knowledge into an extensible interface. In our experiments, the HCGL model has shown outstanding performance in multi-agent benchmarks with sparse rewards. We also verify that HCGL can easily be transferred to large-scale scenarios with high zero-shot transfer success rates. | 翻訳日:2024-03-28 21:14:58 公開日:2024-03-26 |
# 大規模不均一マルチエージェントシステムのための優先順位付きリーグ強化学習
Prioritized League Reinforcement Learning for Large-Scale Heterogeneous Multiagent Systems ( http://arxiv.org/abs/2403.18057v1 ) ライセンス: Link先を確認 | Qingxu Fu, Zhiqiang Pu, Min Chen, Tenghai Qiu, Jianqiang Yi, | (参考訳) 大規模な異種マルチエージェントシステムは、多様な能力を持つエージェントやシステム全体のコストなど、現実世界の様々な現実的な要因を特徴としている。
均質系と比較して、異質系は重要な実用上の利点をもたらす。
それにもかかわらず、彼らはまた、非定常問題に対処し、異なるタイプのエージェントの不均衡数を管理することを含む、マルチエージェント強化学習の課題も提示している。
大規模不均一協調問題に対処する優先的不均一リーグ強化学習(PHLRL)法を提案する。
PHLRLは、エージェントが訓練中に調査した様々なポリシーの記録を維持し、将来の政策最適化を支援する様々なポリシーからなる異種リーグを確立する。
さらに,異なる種類のエージェントの数の違いによって生じるギャップを補うために,優先順位付けされたポリシー勾配アプローチを設計する。
次に,Unreal Engineを用いて,大規模マルチエージェント操作 (LSMO) と呼ばれる大規模な異種協調ベンチマークを設計する。
実験により、PHLRLはLSMOのQTRANやQPLEXなど最先端の手法より優れていることを示す。
Large-scale heterogeneous multiagent systems feature various realistic factors in the real world, such as agents with diverse abilities and overall system cost. In comparison to homogeneous systems, heterogeneous systems offer significant practical advantages. Nonetheless, they also present challenges for multiagent reinforcement learning, including addressing the non-stationary problem and managing an imbalanced number of agents with different types. We propose a Prioritized Heterogeneous League Reinforcement Learning (PHLRL) method to address large-scale heterogeneous cooperation problems. PHLRL maintains a record of various policies that agents have explored during their training and establishes a heterogeneous league consisting of diverse policies to aid in future policy optimization. Furthermore, we design a prioritized policy gradient approach to compensate for the gap caused by differences in the number of different types of agents. Next, we use Unreal Engine to design a large-scale heterogeneous cooperation benchmark named Large-Scale Multiagent Operation (LSMO), which is a complex two-team competition scenario that requires collaboration from both ground and airborne agents. We use experiments to show that PHLRL outperforms state-of-the-art methods, including QTRAN and QPLEX in LSMO. | 翻訳日:2024-03-28 21:14:58 公開日:2024-03-26 |
# COIG-CQIA:中国におけるインストラクションの微調整に必要な品質
COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning ( http://arxiv.org/abs/2403.18058v1 ) ライセンス: Link先を確認 | Yuelin Bai, Xinrun Du, Yiming Liang, Yonggang Jin, Ziqiang Liu, Junting Zhou, Tianyu Zheng, Xincheng Zhang, Nuo Ma, Zekun Wang, Ruibin Yuan, Haihong Wu, Hongquan Lin, Wenhao Huang, Jiajun Zhang, Wenhu Chen, Chenghua Lin, Jie Fu, Min Yang, Shiwen Ni, Ge Zhang, | (参考訳) 近年、特に英語に焦点を当てた大規模言語モデル(LLM)が大幅に進歩している。
これらの進歩により、これらのLSMは前例のない精度と流布度で複雑な命令を理解し、実行できるようになった。
しかし、これらの進歩にもかかわらず、中国の指導指導の発展には大きなギャップが残っている。
中国語の独特の言語的特徴と文化的な深さは、チューニングタスクの指導に挑戦する。
既存のデータセットは、英語中心のLLMから派生したものか、現実の中国人ユーザのインタラクションパターンに適合するのに不適である。
このギャップを埋めるために、高品質な中国語命令チューニングデータセットであるCOIG-CQIAを導入する。
我々の目標は、モデル行動と人間の相互作用をよりよく整合させる、多種多様な命令チューニングデータセットを構築することである。
そこで我々は,Q&Aコミュニティ,Wiki,試験,既存のNLPデータセットなど,中国インターネット上のさまざまな情報源から高品質な人文コーパスを収集した。
このコーパスは厳格にフィルタリングされ、慎重に処理され、COIG-CQIAデータセットを形成した。
さらに,CQIAの様々なサブセット上で,詳細な評価と分析を行い,様々なスケールのモデルを訓練する。
本実験から得られた知見は,中国語の指導訓練データセットの選択と開発に有用な知見を提供する。
また、CQIA-Subsetでトレーニングされたモデルは、知識とセキュリティのベンチマークと同様に、人間の評価において競合する結果が得られることがわかった。
データはhttps://huggingface.co/datasets/m-a-p/COIG-CQIAで公開されている。
Recently, there have been significant advancements in large language models (LLMs), particularly focused on the English language. These advancements have enabled these LLMs to understand and execute complex instructions with unprecedented accuracy and fluency. However, despite these advancements, there remains a noticeable gap in the development of Chinese instruction tuning. The unique linguistic features and cultural depth of the Chinese language pose challenges for instruction tuning tasks. Existing datasets are either derived from English-centric LLMs or are ill-suited for aligning with the interaction patterns of real-world Chinese users. To bridge this gap, we introduce COIG-CQIA, a high-quality Chinese instruction tuning dataset. Our aim is to build a diverse, wide-ranging instruction-tuning dataset to better align model behavior with human interactions. To this end, we collect a high-quality human-written corpus from various sources on the Chinese Internet, including Q&A communities, Wikis, examinations, and existing NLP datasets. This corpus was rigorously filtered and carefully processed to form the COIG-CQIA dataset. Furthermore, we train models of various scales on different subsets of CQIA, following in-depth evaluation and analyses. The findings from our experiments offer valuable insights for selecting and developing Chinese instruction-tuning datasets. We also find that models trained on CQIA-Subset achieve competitive results in human assessment as well as knowledge and security benchmarks. Data are available at https://huggingface.co/datasets/m-a-p/COIG-CQIA | 翻訳日:2024-03-28 21:14:58 公開日:2024-03-26 |
# 平衡状態からの効率的なハミルトン再構成
Efficient Hamiltonian reconstruction from equilibrium states ( http://arxiv.org/abs/2403.18061v1 ) ライセンス: Link先を確認 | Adam Artymowicz, | (参考訳) 熱平衡における量子状態のハミルトニアンと温度を、制限された一連の測定値を用いて復元する新しいアルゴリズムについて述べる。
このアルゴリズムは、熱力学的安定性の観点から解釈する自由エネルギー最小化に基づく半定値制約を課すことによって機能する。
我々は,100kbitのスピンチェーン上で最近傍のハミルトニアンを学習する問題について,アルゴリズムのベンチマークを行った。
We describe a novel algorithm that recovers the Hamiltonian and temperature of a quantum state in thermal equilibrium using a restricted set of measurements. The algorithm works by imposing a semidefinite constraint based on free energy minimization, which we interpret in terms of thermodynamic stability. We benchmark the algorithm on the problem of learning a nearest-neighbour Hamiltonian on a 100-qubit spin chain. | 翻訳日:2024-03-28 21:14:58 公開日:2024-03-26 |
# ShapeGrasp: 幾何分解による大規模言語モデルによるゼロショットタスク指向グラフ作成
ShapeGrasp: Zero-Shot Task-Oriented Grasping with Large Language Models through Geometric Decomposition ( http://arxiv.org/abs/2403.18062v1 ) ライセンス: Link先を確認 | Samuel Li, Sarthak Bhagat, Joseph Campbell, Yaqi Xie, Woojun Kim, Katia Sycara, Simon Stepputtis, | (参考訳) 不慣れな物体のタスク指向の把握は、動的家庭環境におけるロボットにとって必要なスキルである。
対象物体の形状や構造を直感的に把握する能力に触発されて,対象物体の幾何学的分解を,幾何学的属性や空間的関係を含むグラフ構造で表現する単純な凸形状に活用する,新しいゼロショットタスク指向の把握手法を提案する。
このアプローチでは、ゼロショットタスク指向の把握を容易にするために、最小限の必須情報(オブジェクト名と意図したタスク)を使用します。
我々は,大言語モデルの常識推論機能を利用して,分割された各部分に意味的意味を動的に割り当て,次に意図したタスクに対して各部分の有用性を推論する。
実世界のロボットプラットフォーム上での広範な実験を通して、我々の把握アプローチの分解と推論パイプラインは、ケースの92%で正しい部分を選択し、評価したタスクの82%でオブジェクトを把握できることを実証した。
追加のビデオ、実験、コード、データは、プロジェクトのWebサイト(https://shapegrasp.github.io/)で公開されています。
Task-oriented grasping of unfamiliar objects is a necessary skill for robots in dynamic in-home environments. Inspired by the human capability to grasp such objects through intuition about their shape and structure, we present a novel zero-shot task-oriented grasping method leveraging a geometric decomposition of the target object into simple, convex shapes that we represent in a graph structure, including geometric attributes and spatial relationships. Our approach employs minimal essential information - the object's name and the intended task - to facilitate zero-shot task-oriented grasping. We utilize the commonsense reasoning capabilities of large language models to dynamically assign semantic meaning to each decomposed part and subsequently reason over the utility of each part for the intended task. Through extensive experiments on a real-world robotics platform, we demonstrate that our grasping approach's decomposition and reasoning pipeline is capable of selecting the correct part in 92% of the cases and successfully grasping the object in 82% of the tasks we evaluate. Additional videos, experiments, code, and data are available on our project website: https://shapegrasp.github.io/. | 翻訳日:2024-03-28 21:05:06 公開日:2024-03-26 |
# スペクトル畳み込み変換器:ビジョン変換器における実対複素多視点スペクトル演算器の調和
Spectral Convolutional Transformer: Harmonizing Real vs. Complex Multi-View Spectral Operators for Vision Transformer ( http://arxiv.org/abs/2403.18063v1 ) ライセンス: Link先を確認 | Badri N. Patro, Vinay P. Namboodiri, Vijay S. Agneeswaran, | (参考訳) 視覚で使用されるトランスフォーマーは、ViT、PVT、Swinといった様々なアーキテクチャを通して研究されている。
これらは注意機構の改善と効率の向上に役立ちました。
異なることに、ローカル情報を含める必要性が感じられ、CPVTやCvTのようなトランスフォーマーに畳み込みが組み込まれた。
グローバル情報は複雑なフーリエベースを使用してキャプチャされ、AFNO、GFNet、Spectformerといった様々な方法でグローバルトークンの混合を実現する。
我々は、ローカル、グローバル、および長距離依存という3つの多様なデータビューの組み合わせを提唱する。
また、ハートレー変換によって得られる実領域スペクトル表現のみを用いて、最も単純な大域表現についても検討する。
ローカル情報をキャプチャするために、初期層に畳み込み演算子を使用します。
これら2つのコントリビューションにより、パラメータ数を削減しつつ、最先端手法よりも優れた性能を提供するスペクトル畳み込み変換器(SCT)を最適化し、得られる。
SCT-C-Largeは85.9\%、SCT-C-Hugeは86.4\%である。
我々は,CIFAR-10,CIFAR-100,Oxford Flower,Stanford Carなどのデータセットを用いた移動学習におけるSCTの評価を行った。
また、下流タスク、すなわち、MSCOCOデータセット上のインスタンスセグメンテーションのSCTを評価する。
プロジェクトのページは、このWebページにある。
\url{https://github.com/badripatro/sct}
Transformers used in vision have been investigated through diverse architectures - ViT, PVT, and Swin. These have worked to improve the attention mechanism and make it more efficient. Differently, the need for including local information was felt, leading to incorporating convolutions in transformers such as CPVT and CvT. Global information is captured using a complex Fourier basis to achieve global token mixing through various methods, such as AFNO, GFNet, and Spectformer. We advocate combining three diverse views of data - local, global, and long-range dependence. We also investigate the simplest global representation using only the real domain spectral representation - obtained through the Hartley transform. We use a convolutional operator in the initial layers to capture local information. Through these two contributions, we are able to optimize and obtain a spectral convolution transformer (SCT) that provides improved performance over the state-of-the-art methods while reducing the number of parameters. Through extensive experiments, we show that SCT-C-small gives state-of-the-art performance on the ImageNet dataset and reaches 84.5\% top-1 accuracy, while SCT-C-Large reaches 85.9\% and SCT-C-Huge reaches 86.4\%. We evaluate SCT on transfer learning on datasets such as CIFAR-10, CIFAR-100, Oxford Flower, and Stanford Car. We also evaluate SCT on downstream tasks i.e. instance segmentation on the MSCOCO dataset. The project page is available on this webpage.\url{https://github.com/badripatro/sct} | 翻訳日:2024-03-28 21:05:06 公開日:2024-03-26 |
# 海洋破片の追跡・検出における深層学習の応用状況:調査
State of the art applications of deep learning within tracking and detecting marine debris: A survey ( http://arxiv.org/abs/2403.18067v1 ) ライセンス: Link先を確認 | Zoe Moorton, Dr. Zeyneb Kurt, Dr. Wai Lok Woo, | (参考訳) 深層学習技術は、約20年間、海洋ごみ問題の中で研究されてきたが、研究の大部分は、過去5年間に急速に発展してきた。
我々は,海洋破片の深層学習の最も最近かつ重要な貢献のうち,28点について,より深く,最新の概要と分析を行う。
研究論文の相互参照から、YOLOファミリーは、他のすべてのオブジェクト検出方法よりも優れていますが、この分野では、現在、水中の破片の包括的なデータベースは、機械学習では利用できないという分類学的に合意している、多くの重要な貢献があります。
小さなデータセットをキュレートしてラベル付けし、バイナリ分類タスクでYOLOv5をテストしたところ、精度が低く、偽陽性率が高いことが分かり、包括的なデータベースの重要性を強調しました。
この調査は今後40以上の研究勧告とオープンチャレンジで締めくくります。
Deep learning techniques have been explored within the marine litter problem for approximately 20 years but the majority of the research has developed rapidly in the last five years. We provide an in-depth, up to date, summary and analysis of 28 of the most recent and significant contributions of deep learning in marine debris. From cross referencing the research paper results, the YOLO family significantly outperforms all other methods of object detection but there are many respected contributions to this field that have categorically agreed that a comprehensive database of underwater debris is not currently available for machine learning. Using a small dataset curated and labelled by us, we tested YOLOv5 on a binary classification task and found the accuracy was low and the rate of false positives was high; highlighting the importance of a comprehensive database. We conclude this survey with over 40 future research recommendations and open challenges. | 翻訳日:2024-03-28 21:05:06 公開日:2024-03-26 |
# マルコフ連鎖モンテカルロを用いた非線形モデルのゴール指向ベイズ最適実験設計
Goal-Oriented Bayesian Optimal Experimental Design for Nonlinear Models using Markov Chain Monte Carlo ( http://arxiv.org/abs/2403.18072v1 ) ライセンス: Link先を確認 | Shijie Zhong, Wanggang Shen, Tommie Catanach, Xun Huan, | (参考訳) 最適実験設計(OED)は、実験データの価値を定量化し、最大化する体系的なアプローチを提供する。
ベイズ的アプローチでは、従来のOEDはモデルパラメータの期待情報ゲイン(EIG)を最大化する。
しかし、パラメータ自体ではなく、非線形な方法でパラメータに依存する予測的興味量(QoIs)に興味を持つことが多い。
本稿では、非線形観測および予測モデルに適した予測目標指向OED(GO-OED)の計算フレームワークを提案する。
特に,マルコフ連鎖モンテカルロを用いたQoI EIGのネスト型モンテカルロ推定器を提案する。
GO-OED設計はベイズ最適化を用いて設計空間上のEIGを最大化する。
本稿では, 従来の非GO-OED法との相違を, 各種試験問題と対流拡散場におけるソースインバージョンに対するセンサ配置の適用を通して示す。
Optimal experimental design (OED) provides a systematic approach to quantify and maximize the value of experimental data. Under a Bayesian approach, conventional OED maximizes the expected information gain (EIG) on model parameters. However, we are often interested in not the parameters themselves, but predictive quantities of interest (QoIs) that depend on the parameters in a nonlinear manner. We present a computational framework of predictive goal-oriented OED (GO-OED) suitable for nonlinear observation and prediction models, which seeks the experimental design providing the greatest EIG on the QoIs. In particular, we propose a nested Monte Carlo estimator for the QoI EIG, featuring Markov chain Monte Carlo for posterior sampling and kernel density estimation for evaluating the posterior-predictive density and its Kullback-Leibler divergence from the prior-predictive. The GO-OED design is then found by maximizing the EIG over the design space using Bayesian optimization. We demonstrate the effectiveness of the overall nonlinear GO-OED method, and illustrate its differences versus conventional non-GO-OED, through various test problems and an application of sensor placement for source inversion in a convection-diffusion field. | 翻訳日:2024-03-28 21:05:06 公開日:2024-03-26 |
# すべてのショットカウント:ビデオの繰り返しカウントにexemplarsを使う
Every Shot Counts: Using Exemplars for Repetition Counting in Videos ( http://arxiv.org/abs/2403.18074v1 ) ライセンス: Link先を確認 | Saptarshi Sinha, Alexandros Stergiou, Dima Damen, | (参考訳) ビデオの繰り返し回数は、ビデオ内で繰り返される行動や動きの回数を推測する。
本稿では,対象ビデオ内の繰り返しにまたがる映像の視覚的対応を見出すための例題に基づくアプローチを提案する。
提案したEvery Shot Counts (ESCounts) モデルは,注目度に基づくエンコーダデコーダであり,同じビデオや異なるビデオの例と並行して,様々な長さのビデオをエンコードする。
トレーニングでは、ESCountsはビデオ内の模範者と高い対応の場所を後退させる。
タンデム法では, 一般反復運動の表現を符号化する潜在子を学習し, 模範のないゼロショット推論に使用する。
一般的に使用されるデータセット(RepCount、Countix、UCFRep)に対する大規模な実験では、ESCountsが3つのデータセットすべてで最先端のパフォーマンスを得ることを示した。
RepCount では、ESCounts はオフ・バイ・ワンを 0.39 から 0.56 に増加させ、平均絶対誤差を 0.38 から 0.21 に減少させる。
詳細な説明は、我々の方法の有効性をさらに示している。
Video repetition counting infers the number of repetitions of recurring actions or motion within a video. We propose an exemplar-based approach that discovers visual correspondence of video exemplars across repetitions within target videos. Our proposed Every Shot Counts (ESCounts) model is an attention-based encoder-decoder that encodes videos of varying lengths alongside exemplars from the same and different videos. In training, ESCounts regresses locations of high correspondence to the exemplars within the video. In tandem, our method learns a latent that encodes representations of general repetitive motions, which we use for exemplar-free, zero-shot inference. Extensive experiments over commonly used datasets (RepCount, Countix, and UCFRep) showcase ESCounts obtaining state-of-the-art performance across all three datasets. On RepCount, ESCounts increases the off-by-one from 0.39 to 0.56 and decreases the mean absolute error from 0.38 to 0.21. Detailed ablations further demonstrate the effectiveness of our method. | 翻訳日:2024-03-28 21:05:06 公開日:2024-03-26 |
# 正規形競技における平衡への道
Paths to Equilibrium in Normal-Form Games ( http://arxiv.org/abs/2403.18079v1 ) ライセンス: Link先を確認 | Bora Yongacoglu, Gürdal Arslan, Lacra Pavel, Serdar Yüksel, | (参考訳) マルチエージェント強化学習(MARL)では、エージェントは時間をかけて繰り返し対話し、新しいデータが到着すると戦略を見直し、一連の戦略プロファイルを生成する。
本稿では、強化学習におけるポリシー更新に触発された一対の制約を満たす戦略の列について検討する。
この制約は単に、最適化エージェントが戦略を切り替えるのではなく、他の最適化エージェントをいかなる方法でも制約しないので、探索が可能であることを要求している。
この性質を持つ列は充足経路と呼ばれ、多くのMARLアルゴリズムで自然に現れる。
あるゲームと初期戦略プロファイルに対して、均衡戦略で終了する満足なパスを構築することは、常に可能であるか?
この問題の解決は、MARLアルゴリズムのクラスの性能や制限に影響を及ぼす。
有限正規形式ゲームの混合拡張に対する肯定論において、この疑問に答える。
%であった。
In multi-agent reinforcement learning (MARL), agents repeatedly interact across time and revise their strategies as new data arrives, producing a sequence of strategy profiles. This paper studies sequences of strategies satisfying a pairwise constraint inspired by policy updating in reinforcement learning, where an agent who is best responding in period $t$ does not switch its strategy in the next period $t+1$. This constraint merely requires that optimizing agents do not switch strategies, but does not constrain the other non-optimizing agents in any way, and thus allows for exploration. Sequences with this property are called satisficing paths, and arise naturally in many MARL algorithms. A fundamental question about strategic dynamics is such: for a given game and initial strategy profile, is it always possible to construct a satisficing path that terminates at an equilibrium strategy? The resolution of this question has implications about the capabilities or limitations of a class of MARL algorithms. We answer this question in the affirmative for mixed extensions of finite normal-form games.% | 翻訳日:2024-03-28 21:05:06 公開日:2024-03-26 |
# EgoPoseFormer: Egocentric Human Pose Estimationのためのシンプルなベースライン
EgoPoseFormer: A Simple Baseline for Egocentric 3D Human Pose Estimation ( http://arxiv.org/abs/2403.18080v1 ) ライセンス: Link先を確認 | Chenhongyi Yang, Anastasia Tkach, Shreyas Hampali, Linguang Zhang, Elliot J. Crowley, Cem Keskin, | (参考訳) EgoPoseFormerは、ステレオ・エゴセントリックな人間のポーズ推定のための、シンプルだが効果的なトランスフォーマーベースモデルである。
自己中心型ポーズ推定における主な課題は、自己隠蔽や頭部搭載カメラの視野制限(FOV)に起因する関節視認性を克服することである。
提案手法は,2段階のポーズ推定パラダイムを取り入れることで,この課題を克服する。第1段階では,大域的な情報を活用して各関節の粗い位置を推定し,第2段階では,細粒な立体視覚特徴を利用して粗い位置を洗練させるDETR方式のトランスフォーマーを用いる。
さらに,変形可能なステレオ操作により,変換器の多面的特徴を効果的に処理し,各関節を正確に3次元的にローカライズすることができる。
提案手法をステレオUnrealEgoデータセット上で評価し,計算効率が良く,MPJPEを27.4mm(45%改善),モデルパラメータが7.9%,FLOPが13.1%に改善した。
意外なことに、適切なトレーニング手法により、私たちの第一段階のポーズ提案ネットワークでさえ、従来の技術よりも優れたパフォーマンスを達成できることがわかりました。
また,SceneEgoデータセット上での最先端性能を実現し,60.7%のモデルパラメータと36.4%のFLOPを持つ既存手法と比較して,MPJPEを25.5mm(21%改善)改善した。
We present EgoPoseFormer, a simple yet effective transformer-based model for stereo egocentric human pose estimation. The main challenge in egocentric pose estimation is overcoming joint invisibility, which is caused by self-occlusion or a limited field of view (FOV) of head-mounted cameras. Our approach overcomes this challenge by incorporating a two-stage pose estimation paradigm: in the first stage, our model leverages the global information to estimate each joint's coarse location, then in the second stage, it employs a DETR style transformer to refine the coarse locations by exploiting fine-grained stereo visual features. In addition, we present a deformable stereo operation to enable our transformer to effectively process multi-view features, which enables it to accurately localize each joint in the 3D world. We evaluate our method on the stereo UnrealEgo dataset and show it significantly outperforms previous approaches while being computationally efficient: it improves MPJPE by 27.4mm (45% improvement) with only 7.9% model parameters and 13.1% FLOPs compared to the state-of-the-art. Surprisingly, with proper training techniques, we find that even our first-stage pose proposal network can achieve superior performance compared to previous arts. We also show that our method can be seamlessly extended to monocular settings, which achieves state-of-the-art performance on the SceneEgo dataset, improving MPJPE by 25.5mm (21% improvement) compared to the best existing method with only 60.7% model parameters and 36.4% FLOPs. | 翻訳日:2024-03-28 21:05:06 公開日:2024-03-26 |
# カオス量子井戸におけるアンチスケーリング
Antiscarring in Chaotic Quantum Wells ( http://arxiv.org/abs/2403.18081v1 ) ライセンス: Link先を確認 | J. Keski-Rahkonen, A. M. Graf, E. J. Heller, | (参考訳) カオスは多くの自然現象において重要な役割を担っているが、その量子的性質はいまだ大きく解明されていない。
興味深い量子カオス現象の1つは、古典的な周期軌道の近傍で量子確率密度が増大する単一粒子波動関数のスカーリングである。
これらの量子障害は古典的カオスの量子的抑制を示し、古典的量子関係を従来の限界を超えて探索するユニークな方法を提供する。
本研究では,隣接する固有状態群をスラックするエルゴディディディティ定理を確立し,反スカーリング(反スカーリング)の側面を明らかにする。
その後、これらの2つの概念を乱れた量子井戸の変分傷に応用し、最終的にそれらのより広い意味を議論し、この現象を観測するための潜在的実験的アプローチを提案する。
Chaos plays a crucial role in numerous natural phenomena, but its quantum nature has remained large elusive. One intriguing quantum-chaotic phenomenon is the scarring of a single-particle wavefunction, where the quantum probability density is enhanced in the vicinity of a classical periodic orbit. These quantum scars illustrate the quantum suppression of classical chaos, offering a unique way to explore the classical-quantum relationship beyond conventional limits. In this study, we establish an ergodicity theorem for slacking a group of adjacent eigenstates, revealing the aspect of antiscarring -- the reduction of probability density along a periodic orbit generating the corresponding scars. We thereafter apply these two concepts to variational scars in a disordered quantum well, and finally discuss their broader implications, suggesting potential experimental approaches to observe this phenomenon. | 翻訳日:2024-03-28 21:05:06 公開日:2024-03-26 |
# OCAI: Occlusion と Consistency Aware Interpolation による光フロー推定の改善
OCAI: Improving Optical Flow Estimation by Occlusion and Consistency Aware Interpolation ( http://arxiv.org/abs/2403.18092v1 ) ライセンス: Link先を確認 | Jisoo Jeong, Hong Cai, Risheek Garrepalli, Jamie Menjay Lin, Munawar Hayat, Fatih Porikli, | (参考訳) 地上構造ラベルの不足は、一般化可能かつ堅牢な光フロー推定モデルを開発する上で大きな課題となる。
現在の手法はデータ拡張に依存しているが、ラベル付きビデオシーケンスで利用可能な豊富な情報を十分に活用していない。
本稿では,中間映像フレームと光フローを同時に生成することで,ロバストなフレーム補間を支援するOCAIを提案する。
前向きのワープアプローチを利用することで、OCAIはオクルージョン認識を用いて画素値の曖昧さを解消し、光学フローの前方の整合性を活用して欠落値を満たす。
さらに,補間フレーム上に教師学生スタイルの半教師付き学習手法を導入する。
一対のラベルのないフレームと教師モデルの予測された光学的流れを用いて、補間されたフレームとフローを生成し、学生モデルを訓練する。
教師の体重は、生徒の指数移動平均値を用いて維持される。
我々は,Sintel や KITTI などの既存のベンチマークにおいて,知覚的に優れた補間品質と光フロー精度を実証した。
The scarcity of ground-truth labels poses one major challenge in developing optical flow estimation models that are both generalizable and robust. While current methods rely on data augmentation, they have yet to fully exploit the rich information available in labeled video sequences. We propose OCAI, a method that supports robust frame interpolation by generating intermediate video frames alongside optical flows in between. Utilizing a forward warping approach, OCAI employs occlusion awareness to resolve ambiguities in pixel values and fills in missing values by leveraging the forward-backward consistency of optical flows. Additionally, we introduce a teacher-student style semi-supervised learning method on top of the interpolated frames. Using a pair of unlabeled frames and the teacher model's predicted optical flow, we generate interpolated frames and flows to train a student model. The teacher's weights are maintained using Exponential Moving Averaging of the student. Our evaluations demonstrate perceptually superior interpolation quality and enhanced optical flow accuracy on established benchmarks such as Sintel and KITTI. | 翻訳日:2024-03-28 21:05:06 公開日:2024-03-26 |
# 法律文書検索の強化:大規模言語モデルを用いた多相的アプローチ
Enhancing Legal Document Retrieval: A Multi-Phase Approach with Large Language Models ( http://arxiv.org/abs/2403.18093v1 ) ライセンス: Link先を確認 | Hai-Long Nguyen, Duc-Minh Nguyen, Tan-Minh Nguyen, Ha-Thanh Nguyen, Thi-Hai-Yen Vuong, Ken Satoh, | (参考訳) GPT-3.5、GPT-4、LLaMAのような数十億のパラメータを持つ大規模言語モデルはますます普及している。
多くの研究が、これらのLSMのパワーを様々な研究に活用するための効果的なプロンプト技術について研究している。
Retrievalは、特に法律データ領域において、多数の法律記事と相当な長さの法律記事のために、Promptingテクニックを直接適用するために難しいタスクを課している。
本研究は, BM25プレグレードとBERTリグレードの2段階のサポートに先立って, 検索システムの最終段階に位置づけることにより, プロンプトの可能性を最大化することに焦点を当てた。
COLIEE 2023データセットの実験では、LLMのプロンプト技術を検索システムに組み込むことで、検索精度が大幅に向上することが示された。
しかし、誤り解析は、まだ解決が必要な検索システムにおいて、いくつかの既存の問題を明らかにしている。
Large language models with billions of parameters, such as GPT-3.5, GPT-4, and LLaMA, are increasingly prevalent. Numerous studies have explored effective prompting techniques to harness the power of these LLMs for various research problems. Retrieval, specifically in the legal data domain, poses a challenging task for the direct application of Prompting techniques due to the large number and substantial length of legal articles. This research focuses on maximizing the potential of prompting by placing it as the final phase of the retrieval system, preceded by the support of two phases: BM25 Pre-ranking and BERT-based Re-ranking. Experiments on the COLIEE 2023 dataset demonstrate that integrating prompting techniques on LLMs into the retrieval system significantly improves retrieval accuracy. However, error analysis reveals several existing issues in the retrieval system that still need resolution. | 翻訳日:2024-03-28 21:05:06 公開日:2024-03-26 |
# 個人化されたビデオベース手指分類法 : 脊髄損傷者への適用
A Personalized Video-Based Hand Taxonomy: Application for Individuals with Spinal Cord Injury ( http://arxiv.org/abs/2403.18094v1 ) ライセンス: Link先を確認 | Mehdy Dousty, David J. Fleet, José Zariffa, | (参考訳) ハンドファンクションは、私たちの相互作用と生活の質に不可欠です。
脊髄損傷(SCI)は手機能に障害があり、独立性を低下させる。
家庭や地域社会における機能評価には,手の機能障害のある個人に対する手つかみ分類が必要である。
このような分類法の開発は、標準的な分類体系における未表現の把握タイプ、損傷レベルの不均一なデータ分布、限られたデータによって困難である。
本研究の目的は,セマンティッククラスタリングを用いて,エゴセントリックビデオにおける支配的な手の動きを自動的に識別することである。
頚椎SCI患者19人の家庭で収集したエゴセントリックなビデオ記録を用いて,意味的意味を持った把握行動のクラスタリングを行った。
姿勢と外観データを統合した深層学習モデルを用いて、パーソナライズされた手分類を作成した。
定量分析により、クラスター純度は67.6%+-24.2%で、18.0%+-21.8%の冗長性を示す。
質的評価により,映像コンテンツに意味のあるクラスターが認められた。
この方法論は、野生のハンドファンクションを分析するための柔軟で効果的な戦略を提供する。
研究者や臨床医は、手の機能を評価し、機密性の高い評価を支援し、介入計画を調整するための効率的なツールを提供する。
Hand function is critical for our interactions and quality of life. Spinal cord injuries (SCI) can impair hand function, reducing independence. A comprehensive evaluation of function in home and community settings requires a hand grasp taxonomy for individuals with impaired hand function. Developing such a taxonomy is challenging due to unrepresented grasp types in standard taxonomies, uneven data distribution across injury levels, and limited data. This study aims to automatically identify the dominant distinct hand grasps in egocentric video using semantic clustering. Egocentric video recordings collected in the homes of 19 individual with cervical SCI were used to cluster grasping actions with semantic significance. A deep learning model integrating posture and appearance data was employed to create a personalized hand taxonomy. Quantitative analysis reveals a cluster purity of 67.6% +- 24.2% with with 18.0% +- 21.8% redundancy. Qualitative assessment revealed meaningful clusters in video content. This methodology provides a flexible and effective strategy to analyze hand function in the wild. It offers researchers and clinicians an efficient tool for evaluating hand function, aiding sensitive assessments and tailored intervention plans. | 翻訳日:2024-03-28 21:05:06 公開日:2024-03-26 |
# 人-ロボット間相互作用低減のための多帯域時間ビデオフィルタ
Efficient Multi-Band Temporal Video Filter for Reducing Human-Robot Interaction ( http://arxiv.org/abs/2403.18096v1 ) ライセンス: Link先を確認 | Lawrence O'Gorman, | (参考訳) 移動ロボットは、ナビゲーションを行うためのセンサーを備えているが、人間のインタラクションを避ける計画を立てることで、パス完了時の効率を向上させることができる。
インフラカメラは、効率的な時間とルートを選択するために、アクティビティ分析をコンパイルするために、人間の活動を継続的にキャプチャすることができる。
本研究では,グローバルパス計画法と局所ナビゲーション法において,2次元の短期的および長期的活動を効率的に抽出するカスケード時間フィルタリング法について述べる。
時間フィルタは、独立して応用されるか、オブジェクト認識も必要である場合、より計算に高価なニューラルネットワーク処理のアクティビティゲーティングを行うための事前フィルタとして使用できる。
テストベッド32カメラネットワークでは,このハイブリッド方式が毎秒8倍のスループット向上を実現し,システムの消費電力を6.5倍削減できることを示す。
また、ROSロボットソフトウェア開発フレームワークにおける静的オブジェクトのコストマップが、時間的フィルタから決定される動的領域でどのように拡張されているかを示す。
Although mobile robots have on-board sensors to perform navigation, their efficiency in completing paths can be enhanced by planning to avoid human interaction. Infrastructure cameras can capture human activity continuously for the purpose of compiling activity analytics to choose efficient times and routes. We describe a cascade temporal filtering method to efficiently extract short- and long-term activity in two time dimensions, isochronal and chronological, for use in global path planning and local navigation respectively. The temporal filter has application either independently, or, if object recognition is also required, it can be used as a pre-filter to perform activity-gating of the more computationally expensive neural network processing. For a testbed 32-camera network, we show how this hybrid approach can achieve over 8 times improvement in frames per second throughput and 6.5 times reduction of system power use. We also show how the cost map of static objects in the ROS robot software development framework is augmented with dynamic regions determined from the temporal filter. | 翻訳日:2024-03-28 21:05:06 公開日:2024-03-26 |
# GPTと言語障壁: 言語横断的法的QA試験
GPTs and Language Barrier: A Cross-Lingual Legal QA Examination ( http://arxiv.org/abs/2403.18098v1 ) ライセンス: Link先を確認 | Ha-Thanh Nguyen, Hiroaki Yamada, Ken Satoh, | (参考訳) 本稿では,COLIEE Task 4 データセットを用いた言語間法的質問応答(QA)システムにおける生成事前学習変換(GPT)の適用について検討する。
COLIEEタスク4では、文脈として機能するステートメントと関連する法的記事のセットが与えられ、そのステートメントが法的に有効であるかどうか、すなわち、提供されたコンテクストの記事から推測できるかどうかを判断することが目的である。
英語と日本語のプロンプトとデータの4つの組み合わせをベンチマークすることにより、多言語法的QAシナリオにおけるGPTのパフォーマンスに関する貴重な洞察を提供し、法領域におけるより効率的で正確な言語間QAソリューションの開発に寄与する。
In this paper, we explore the application of Generative Pre-trained Transformers (GPTs) in cross-lingual legal Question-Answering (QA) systems using the COLIEE Task 4 dataset. In the COLIEE Task 4, given a statement and a set of related legal articles that serve as context, the objective is to determine whether the statement is legally valid, i.e., if it can be inferred from the provided contextual articles or not, which is also known as an entailment task. By benchmarking four different combinations of English and Japanese prompts and data, we provide valuable insights into GPTs' performance in multilingual legal QA scenarios, contributing to the development of more efficient and accurate cross-lingual QA solutions in the legal domain. | 翻訳日:2024-03-28 21:05:06 公開日:2024-03-26 |
# クラウドコンピューティングと機械学習によるインテリジェントなIoT監視と制御の推進
Driving Intelligent IoT Monitoring and Control through Cloud Computing and Machine Learning ( http://arxiv.org/abs/2403.18100v1 ) ライセンス: Link先を確認 | Hanzhe Li, Xiangxiang Wang, Yuan Feng, Yaqian Qi, Jingxiao Tian, | (参考訳) この記事では、クラウドコンピューティングと機械学習によるインテリジェントなiotモニタリングと制御の推進方法について説明する。
iotとクラウドは、ネットワーク内のセンサーデバイスとして大量のデータを生成し続けているため、収集されたデータは、統計分析、予測、データ分析のためにクラウドに送られ、ビジネス目的を達成する。
しかし、クラウドコンピューティングモデルは距離によって制限されているため、インターネット接続の品質が重要な操作に向いていない環境では問題となる可能性がある。
したがって、エッジコンピューティングは、分散コンピューティングアーキテクチャとして、処理アプリケーション、データ、サービスの場所をネットワークの中央ノードからネットワークの論理エッジノードに移し、クラウド処理やデータの分析への依存を減らし、ニアエンドのデータ処理と分析を行う。
iotとエッジコンピューティングの組み合わせは、レイテンシを低減し、効率を改善し、セキュリティを高め、インテリジェントシステムの開発を促進する。
また、iotモニタリングと制御技術の開発、iotモニタリングと制御におけるエッジコンピューティングの適用、データ解析と故障検出における機械学習の役割についても紹介する。
最後に, 産業, 農業, 医療, その他の分野におけるインテリジェントなモノのインターネットモニタリング・制御システムの適用と効果を, 実例および実験研究を通じて実証した。
This article explores how to drive intelligent iot monitoring and control through cloud computing and machine learning. As iot and the cloud continue to generate large and diverse amounts of data as sensor devices in the network, the collected data is sent to the cloud for statistical analysis, prediction, and data analysis to achieve business objectives. However, because the cloud computing model is limited by distance, it can be problematic in environments where the quality of the Internet connection is not ideal for critical operations. Therefore, edge computing, as a distributed computing architecture, moves the location of processing applications, data and services from the central node of the network to the logical edge node of the network to reduce the dependence on cloud processing and analysis of data, and achieve near-end data processing and analysis. The combination of iot and edge computing can reduce latency, improve efficiency, and enhance security, thereby driving the development of intelligent systems. The paper also introduces the development of iot monitoring and control technology, the application of edge computing in iot monitoring and control, and the role of machine learning in data analysis and fault detection. Finally, the application and effect of intelligent Internet of Things monitoring and control system in industry, agriculture, medical and other fields are demonstrated through practical cases and experimental studies. | 翻訳日:2024-03-28 21:05:06 公開日:2024-03-26 |
# 説明可能なクラスタ化に向けて - 制約付き宣言に基づくアプローチ
Towards Explainable Clustering: A Constrained Declarative based Approach ( http://arxiv.org/abs/2403.18101v1 ) ライセンス: Link先を確認 | Mathieu Guilbert, Christel Vrain, Thi-Bich-Hanh Dao, | (参考訳) 説明可能なAIのドメインは、すべての機械学習分野に関心を持ち、ドメインの専門家が結果を検証しなければならない教師なしのタスクであるクラスタリングにおいて、より重要である。
従来のクラスタリング基準では高品質で説明可能なクラスタリングの実現を目指しており,これらの2つの次元はクラスタリングを構築する際に考慮する必要がある,と論じている。
クラスタリングに関する優れたグローバルな説明は、オブジェクト(カバレッジ)を記述しつつ、他のクラスタ(識別)と区別する能力を考慮して、各クラスタの特徴を与えるべきだと考えています。
さらに,様々なレベルで,期待されるクラスタリングの構造や説明に基づいて,専門家の知識を活用することを目指す。
本フレームワークでは,クラスタの説明はパターンの集合であり,制約によって表現される構造的知識やドメイン的知識を統合するExplainabilty-driven Cluster Selectionを用いた宣言的クラスタリングのための,ECSと呼ばれる新しい解釈可能な制約付きクラスタリング手法を提案する。
これは、異なるレベル(クラスタ/クラスタリング)で形式化されたカバレッジと差別の概念に基づいており、それぞれがパラメータ化されたしきい値を通じて例外を許容している。
提案手法では,分割の集合の生成,クラスタ毎の頻繁なパターンの計算,制約に違反するクラスタのプルーニング,解釈可能なクラスタ構築のためのクラスタと関連するパターンの選択という4つのステップに依存している。
この最後のステップは組合せであり、我々はそれを解くために制約プログラミング(CP)モデルを開発した。
この手法は,CPモデルの前と後の両方において,ユーザの制約という形で事前知識を統合することができる。
The domain of explainable AI is of interest in all Machine Learning fields, and it is all the more important in clustering, an unsupervised task whose result must be validated by a domain expert. We aim at finding a clustering that has high quality in terms of classic clustering criteria and that is explainable, and we argue that these two dimensions must be considered when building the clustering. We consider that a good global explanation of a clustering should give the characteristics of each cluster taking into account their abilities to describe its objects (coverage) while distinguishing it from the other clusters (discrimination). Furthermore, we aim at leveraging expert knowledge, at different levels, on the structure of the expected clustering or on its explanations. In our framework an explanation of a cluster is a set of patterns, and we propose a novel interpretable constrained clustering method called ECS for declarative clustering with Explainabilty-driven Cluster Selection that integrates structural or domain expert knowledge expressed by means of constraints. It is based on the notion of coverage and discrimination that are formalized at different levels (cluster / clustering), each allowing for exceptions through parameterized thresholds. Our method relies on four steps: generation of a set of partitions, computation of frequent patterns for each cluster, pruning clusters that violates some constraints, and selection of clusters and associated patterns to build an interpretable clustering. This last step is combinatorial and we have developed a Constraint-Programming (CP) model to solve it. The method can integrate prior knowledge in the form of user constraints, both before or in the CP model. | 翻訳日:2024-03-28 21:05:06 公開日:2024-03-26 |
# 凸性のオペラ的理論
The operadic theory of convexity ( http://arxiv.org/abs/2403.18102v1 ) ライセンス: Link先を確認 | Redi Haderi, Cihan Okay, Walker H. Stern, | (参考訳) 本稿では、PROP上の代数の項で凸性を特徴づけ、凸集合の圏上でテンソル積のような対称モノイド構造を確立する。
これら2つの構造と$\scr{O}$-モノイド圏の理論を用いて、ax$\scr{O}$-モノイド関手を凸集合としてグロタンディークの構成を記述し証明する。
この構成を、Baez, Fritz, Leinsterのエントロピーのカテゴリー的特徴付けと、単純分布の枠組みにおける量子的文脈性の研究に適用する。
In this article, we characterize convexity in terms of algebras over a PROP, and establish a tensor-product-like symmetric monoidal structure on the category of convex sets. Using these two structures, and the theory of $\scr{O}$-monoidal categories, we state and prove a Grothendieck construction for lax $\scr{O}$-monoidal functors into convex sets. We apply this construction to the categorical characterization of entropy of Baez, Fritz, and Leinster, and to the study of quantum contextuality in the framework of simplicial distributions. | 翻訳日:2024-03-28 20:55:22 公開日:2024-03-26 |
# 画像と視覚の拡散モデルに関するチュートリアル
Tutorial on Diffusion Models for Imaging and Vision ( http://arxiv.org/abs/2403.18103v1 ) ライセンス: Link先を確認 | Stanley H. Chan, | (参考訳) 近年のジェネレーティブツールの驚くべき成長は、テキスト・ツー・イメージ・ジェネレーションやテキスト・ツー・ビデオ・ジェネレーションに多くのエキサイティングな応用をもたらした。
これらの生成ツールの根底にある原理は拡散の概念であり、これは以前のアプローチでは困難と考えられていたいくつかの欠点を克服した特別なサンプリングメカニズムである。
このチュートリアルの目的は拡散モデルの基礎となる基本的なアイデアについて議論することである。
本チュートリアルの対象者には,拡散モデルの研究や,他の問題を解決するためにこれらのモデルを適用することに関心がある大学生や大学院生が含まれる。
The astonishing growth of generative tools in recent years has empowered many exciting applications in text-to-image generation and text-to-video generation. The underlying principle behind these generative tools is the concept of diffusion, a particular sampling mechanism that has overcome some shortcomings that were deemed difficult in the previous approaches. The goal of this tutorial is to discuss the essential ideas underlying the diffusion models. The target audience of this tutorial includes undergraduate and graduate students who are interested in doing research on diffusion models or applying these models to solve other problems. | 翻訳日:2024-03-28 20:55:22 公開日:2024-03-26 |
# フルレンジ・ヘッド・ポーズ推定のための数学的基礎と補正
Mathematical Foundation and Corrections for Full Range Head Pose Estimation ( http://arxiv.org/abs/2403.18104v1 ) ライセンス: Link先を確認 | Huei-Chung Hu, Xuyang Wu, Yuan Wang, Yi Fang, Hsin-Tai Wu, | (参考訳) 頭部ポーズ推定(HPE)に関する多くの研究は、顔のキーポイントまたは頭部領域の画像から直接オイラー角を抽出するアルゴリズムまたはニューラルネットワークに基づくアプローチを提供する。
しかし、多くの研究は座標系とオイラーあるいはタイト・ブライアン角の明確な定義を提供しられなかった。
回転行列が座標系に依存することはよく知られている事実であり、ヨー、ロール、ピッチ角はその適用順序に敏感である。
正確な定義がなければ、出力ヘッドポーズの正しさと、先行作業で使用されるルーチンの描画の検証が困難になる。
本稿では,300W-LPデータセットで定義されたEuler角,3DDFA-v2,6D-RepNet,WHENetなどの頭部ポーズ推定,およびEuler角の描画ルーチンの有効性について詳しく検討した。
必要であれば、提供されたコードから座標系とヨー、ロール、ピッチのシーケンスを推測する。
本稿では,(1)提供されたソースコードから座標系を推定するコードとアルゴリズム,(2)正確な回転行列とオイラー角度を抽出するコードとアルゴリズム,(2)回転系から他の回転行列へポーズを変換するコードとアルゴリズム,(3)回転行列を2次元拡張する新しい公式,(4)回転行列とポーズの正しい描画ルーチンの導出とコードを提案する。
本稿では,Wikipedia と SciPy の右利き座標系による回転定義の実現可能性についても論じる。
Numerous works concerning head pose estimation (HPE) offer algorithms or proposed neural network-based approaches for extracting Euler angles from either facial key points or directly from images of the head region. However, many works failed to provide clear definitions of the coordinate systems and Euler or Tait-Bryan angles orders in use. It is a well-known fact that rotation matrices depend on coordinate systems, and yaw, roll, and pitch angles are sensitive to their application order. Without precise definitions, it becomes challenging to validate the correctness of the output head pose and drawing routines employed in prior works. In this paper, we thoroughly examined the Euler angles defined in the 300W-LP dataset, head pose estimation such as 3DDFA-v2, 6D-RepNet, WHENet, etc, and the validity of their drawing routines of the Euler angles. When necessary, we infer their coordinate system and sequence of yaw, roll, pitch from provided code. This paper presents (1) code and algorithms for inferring coordinate system from provided source code, code for Euler angle application order and extracting precise rotation matrices and the Euler angles, (2) code and algorithms for converting poses from one rotation system to another, (3) novel formulae for 2D augmentations of the rotation matrices, and (4) derivations and code for the correct drawing routines for rotation matrices and poses. This paper also addresses the feasibility of defining rotations with right-handed coordinate system in Wikipedia and SciPy, which makes the Euler angle extraction much easier for full-range head pose research. | 翻訳日:2024-03-28 20:55:22 公開日:2024-03-26 |
# 教育のための大規模言語モデル:調査と展望
Large Language Models for Education: A Survey and Outlook ( http://arxiv.org/abs/2403.18105v1 ) ライセンス: Link先を確認 | Shen Wang, Tianlong Xu, Hang Li, Chaoli Zhang, Joleen Liang, Jiliang Tang, Philip S. Yu, Qingsong Wen, | (参考訳) LLM(Large Language Models)の出現は、教育の領域における新たな可能性の時代をもたらした。
本稿では,多面的視点から学習環境におけるLLMの様々な技術について要約し,学生と教師の援助,適応学習,商業ツールについて述べる。
各視点の技術的進歩を体系的にレビューし、関連するデータセットとベンチマークを整理し、教育におけるLSMの展開に伴うリスクと課題を特定する。
さらに、将来的な研究の機会を概説し、将来有望な方向性を明らかにする。
本調査は、LLMの力を利用して教育実践を変革し、より効果的なパーソナライズされた学習環境を育むための、教育者、研究者、政策立案者のための総合的な技術図を提供することを目的とする。
The advent of Large Language Models (LLMs) has brought in a new era of possibilities in the realm of education. This survey paper summarizes the various technologies of LLMs in educational settings from multifaceted perspectives, encompassing student and teacher assistance, adaptive learning, and commercial tools. We systematically review the technological advancements in each perspective, organize related datasets and benchmarks, and identify the risks and challenges associated with deploying LLMs in education. Furthermore, we outline future research opportunities, highlighting the potential promising directions. Our survey aims to provide a comprehensive technological picture for educators, researchers, and policymakers to harness the power of LLMs to revolutionize educational practices and foster a more effective personalized learning environment. | 翻訳日:2024-03-28 20:55:22 公開日:2024-03-26 |
# 気候データ管理の必要性:気候データガバナンスに関する10の緊張と反省
The Need for Climate Data Stewardship: 10 Tensions and Reflections regarding Climate Data Governance ( http://arxiv.org/abs/2403.18107v1 ) ライセンス: Link先を確認 | Stefaan Verhulst, | (参考訳) データフィケーション(Datafication) — データ生成の増加とデータ分析の進歩 — は、気候変動のような世界的な課題を管理し、対処する新たな可能性を提供する。
しかし、政策作成に新たなデータソースを採用することは、不平等の悪化、バイアスの導入、アクセスのギャップの創出など、さまざまなリスクをもたらす。
本稿では,気候データに関連する10のコア・テンションと,その気候データガバナンスへの影響を,データソースや利害関係者の多様性から質,アクセス,地域ニーズとグローバル・インペラティブ間のバランスの取組みに至るまで,明確に述べる。
これらの緊張状況を調べることで、この論文は、公共の利益のために気候データの可能性を活用するために、マルチステークホルダーガバナンス、データスチュワードシップ、公平なデータプラクティスへのパラダイムシフトを提唱する。
データスチュワードがこれらの課題をナビゲートし、責任あるデータエコロジーを育み、究極的には、気候変動やより広範な社会問題に対するより持続的で公正なアプローチに寄与する上で、重要な役割を担っている。
Datafication -- the increase in data generation and advancements in data analysis -- offers new possibilities for governing and tackling worldwide challenges such as climate change. However, employing new data sources in policymaking carries various risks, such as exacerbating inequalities, introducing biases, and creating gaps in access. This paper articulates ten core tensions related to climate data and its implications for climate data governance, ranging from the diversity of data sources and stakeholders to issues of quality, access, and the balancing act between local needs and global imperatives. Through examining these tensions, the article advocates for a paradigm shift towards multi-stakeholder governance, data stewardship, and equitable data practices to harness the potential of climate data for public good. It underscores the critical role of data stewards in navigating these challenges, fostering a responsible data ecology, and ultimately contributing to a more sustainable and just approach to climate action and broader social issues. | 翻訳日:2024-03-28 20:55:22 公開日:2024-03-26 |
# 医療モデルを拡張したセグメンテーション
Segment Any Medical Model Extended ( http://arxiv.org/abs/2403.18114v1 ) ライセンス: Link先を確認 | Yihao Liu, Jiaming Zhang, Andres Diaz-Pinto, Haowei Li, Alejandro Martin-Gomez, Amir Kheradmand, Mehran Armand, | (参考訳) SAM(Segment Anything Model)はその一般化性から、医用画像のセグメンテーションに携わる研究者から大きな注目を集めている。
しかし、研究者たちはSAMが最先端の非境界モデルと比較して医療画像のパフォーマンスに制限があることを発見した。
いずれにせよ、コミュニティは医療画像の分析のためにSAMを拡張し、微調整し、修正し、評価する可能性があると考えている。
SAMの変種が提案される4つの方向に焦点を当てた作品が増えている。
この目的のために、統一されたプラットフォームは、医療画像の基盤モデルの境界を押し進め、医療画像セグメンテーションにおけるSAMとその変種の使用、修正、検証を容易にする。
本研究では,新しいSAMモデルを統合し,より高速な通信プロトコルを採用し,新しいインタラクティブモードに対応し,モデルのサブコンポーネントの微調整を可能にするプラットフォームであるSAMM Extended (SAMME)を紹介する。
これらの機能はSAMのような基礎モデルの可能性を拡大し、画像誘導療法、複合現実インタラクション、ロボットナビゲーション、データ拡張などのアプリケーションに変換することができる。
The Segment Anything Model (SAM) has drawn significant attention from researchers who work on medical image segmentation because of its generalizability. However, researchers have found that SAM may have limited performance on medical images compared to state-of-the-art non-foundation models. Regardless, the community sees potential in extending, fine-tuning, modifying, and evaluating SAM for analysis of medical imaging. An increasing number of works have been published focusing on the mentioned four directions, where variants of SAM are proposed. To this end, a unified platform helps push the boundary of the foundation model for medical images, facilitating the use, modification, and validation of SAM and its variants in medical image segmentation. In this work, we introduce SAMM Extended (SAMME), a platform that integrates new SAM variant models, adopts faster communication protocols, accommodates new interactive modes, and allows for fine-tuning of subcomponents of the models. These features can expand the potential of foundation models like SAM, and the results can be translated to applications such as image-guided therapy, mixed reality interaction, robotic navigation, and data augmentation. | 翻訳日:2024-03-28 20:55:22 公開日:2024-03-26 |
# QuakeSet:Sentinel-1による地震観測のためのデータセットと低リソースモデル
QuakeSet: A Dataset and Low-Resource Models to Monitor Earthquakes through Sentinel-1 ( http://arxiv.org/abs/2403.18116v1 ) ライセンス: Link先を確認 | Daniele Rege Cambrin, Paolo Garza, | (参考訳) 地震モニタリングは, 被害地域, 地震の深刻度を迅速に把握し, 最終的に被害を推定し, 復旧に必要な行動を計画するために必要である。
地震の強度と震源を観測するために地震局を用いるのは、遠隔地を扱う場合に限られている(世界規模キャピラリーのカバーはできない)。
全ての被害地域の識別と分析は、伝統的な駅で監視されていない地域を支援するために義務付けられている。
危機管理におけるソーシャルメディアイメージの利用は,様々な状況において有効であることが証明されている。
しかし, 地震時に通信インフラを利用する可能性や, 地域住民の存在によっても制限されている。
さらに, ソーシャルメディア画像やメッセージは, 地震の実際の重大度とその特性を効果的に推定するためには利用できない。
世界中の変化を監視する衛星の使用は、可視スペクトルや土地インフラの存在、被災地域の人々によって制限されない機器を活用できる可能性がある。
本研究では,Sentinel-1から得られた画像と,地震のモニタリングを支援するための一連のタスクからなる新しいデータセットを提案する。
これらのデータと合わせて,機械学習モデルとディープラーニングモデルをベースラインとして提供し,地震解析におけるMLモデルの有効性を評価する。
Earthquake monitoring is necessary to promptly identify the affected areas, the severity of the events, and, finally, to estimate damages and plan the actions needed for the restoration process. The use of seismic stations to monitor the strength and origin of earthquakes is limited when dealing with remote areas (we cannot have global capillary coverage). Identification and analysis of all affected areas is mandatory to support areas not monitored by traditional stations. Using social media images in crisis management has proven effective in various situations. However, they are still limited by the possibility of using communication infrastructures in case of an earthquake and by the presence of people in the area. Moreover, social media images and messages cannot be used to estimate the actual severity of earthquakes and their characteristics effectively. The employment of satellites to monitor changes around the globe grants the possibility of exploiting instrumentation that is not limited by the visible spectrum, the presence of land infrastructures, and people in the affected areas. In this work, we propose a new dataset composed of images taken from Sentinel-1 and a new series of tasks to help monitor earthquakes from a new detailed view. Coupled with the data, we provide a series of traditional machine learning and deep learning models as baselines to assess the effectiveness of ML-based models in earthquake analysis. | 翻訳日:2024-03-28 20:55:22 公開日:2024-03-26 |
# TDIP: リアルタイムメルトプールモニタリングソリューションTunable Deep Image Processing
TDIP: Tunable Deep Image Processing, a Real Time Melt Pool Monitoring Solution ( http://arxiv.org/abs/2403.18117v1 ) ライセンス: Link先を確認 | Javid Akhavan, Youmna Mahmoud, Ke Xu, Jiaqi Lyu, Souran Manoochehri, | (参考訳) 産業4.0の時代には、特に金属AM(Additive Manufacturing)が、高度に複雑な地形を製作する革新的で費用対効果の高いアプローチによって、重要な貢献者となった。
その可能性にもかかわらず、この業界は依然としてリアルタイムなプロセス監視アルゴリズムを欠いている。
この分野での最近の進歩は、製造過程でのメルトプール(MP)シグネチャには、プロセスのダイナミクスや品質に関する重要な情報が含まれていることを示唆している。
この情報を得るために、高速カメラベースの視覚モジュールのような様々な感覚的アプローチがオンライン製造監視に用いられている。
しかし、多くの従来の深度分析では、記録された全てのデータを同時に処理することはできない。
従来の画像処理(ImP)ソリューションは、ターゲットとなる調整可能なアプローチを提供するが、収束確実性と収束速度の間にはトレードオフがある。
その結果、従来の手法はMPモニタリングのような動的に変化するアプリケーションには適していない。
そこで本稿では,Tunable Deep Image Processing (TDIP) 方式の実装を提案する。
提案モデルは、まず、調整可能な特徴と方法論を持つImPアルゴリズムを再現するように訓練されている。
TDIPモデルはさらに改良され、視覚入力とプロセスパラメータに基づくMPジオメトリと製造品質が考慮される。
TDIPモデルは、品質、幾何学、MPシグネチャの推定と分離のために、96%以上のR2スコアで94%以上の推定精度を達成した。
TDIPモデルは毎秒500枚の画像を処理でき、従来の方法では1枚の画像に数分かかる。
この大幅な処理時間の短縮により、プロセスと品質評価のリアルタイムなビジョンベースの監視の統合が可能になる。
In the era of Industry 4.0, Additive Manufacturing (AM), particularly metal AM, has emerged as a significant contributor due to its innovative and cost-effective approach to fabricate highly intricate geometries. Despite its potential, this industry still lacks real-time capable process monitoring algorithms. Recent advancements in this field suggest that Melt Pool (MP) signatures during the fabrication process contain crucial information about process dynamics and quality. To obtain this information, various sensory approaches, such as high-speed cameras-based vision modules are employed for online fabrication monitoring. However, many conventional in-depth analyses still cannot process all the recorded data simultaneously. Although conventional Image Processing (ImP) solutions provide a targeted tunable approach, they pose a trade-off between convergence certainty and convergence speed. As a result, conventional methods are not suitable for a dynamically changing application like MP monitoring. Therefore, this article proposes the implementation of a Tunable Deep Image Processing (TDIP) method to address the data-rich monitoring needs in real-time. The proposed model is first trained to replicate an ImP algorithm with tunable features and methodology. The TDIP model is then further improved to account for MP geometries and fabrication quality based on the vision input and process parameters. The TDIP model achieved over 94% estimation accuracy with more than 96% R2 score for quality, geometry, and MP signature estimation and isolation. The TDIP model can process 500 images per second, while conventional methods taking a few minutes per image. This significant processing time reduction enables the integration of vision-based monitoring in real-time for processes and quality estimation. | 翻訳日:2024-03-28 20:55:22 公開日:2024-03-26 |
# EgoLifter:エゴセントリックな知覚のためのオープンワールド3Dセグメンテーション
EgoLifter: Open-world 3D Segmentation for Egocentric Perception ( http://arxiv.org/abs/2403.18118v1 ) ライセンス: Link先を確認 | Qiao Gu, Zhaoyang Lv, Duncan Frost, Simon Green, Julian Straub, Chris Sweeney, | (参考訳) 本稿では,エゴセントリックセンサーから撮影したシーンを自動的に分割して,個々の3Dオブジェクトの完全な分解を行う新しいシステムであるEgoLifterを提案する。
このシステムはエゴセントリックなデータに特化して設計されており、シーンには自然(非走査)の動きから数百の物体が写っている。
EgoLifterは3Dガウスアンを3Dシーンとオブジェクトの基本的な表現として採用し、Segment Anything Model(SAM)のセグメンテーションマスクを弱い監督力として使用して、任意の特定のオブジェクト分類のないオブジェクトインスタンスの柔軟で迅速な定義を学習する。
エゴ中心のビデオにおける動的オブジェクトの課題に対処するため、我々は3D再構成における動的オブジェクトのフィルタリングを学習する過渡予測モジュールを設計した。
その結果、完全に自動化されたパイプラインで、3Dオブジェクトインスタンスを全体を構成する3Dガウスアンのコレクションとして再構築することができる。
我々は、Aria Digital Twinデータセットに新しいベンチマークを作成し、自然の自我中心の入力から、オープンワールドの3Dセグメンテーションにおける最先端のパフォーマンスを定量的に示す。
EgoLifterを様々なエゴセントリックな活動データセット上で実行し、大規模に3Dエゴセントリックな知覚を実現する方法の約束を示す。
In this paper we present EgoLifter, a novel system that can automatically segment scenes captured from egocentric sensors into a complete decomposition of individual 3D objects. The system is specifically designed for egocentric data where scenes contain hundreds of objects captured from natural (non-scanning) motion. EgoLifter adopts 3D Gaussians as the underlying representation of 3D scenes and objects and uses segmentation masks from the Segment Anything Model (SAM) as weak supervision to learn flexible and promptable definitions of object instances free of any specific object taxonomy. To handle the challenge of dynamic objects in ego-centric videos, we design a transient prediction module that learns to filter out dynamic objects in the 3D reconstruction. The result is a fully automatic pipeline that is able to reconstruct 3D object instances as collections of 3D Gaussians that collectively compose the entire scene. We created a new benchmark on the Aria Digital Twin dataset that quantitatively demonstrates its state-of-the-art performance in open-world 3D segmentation from natural egocentric input. We run EgoLifter on various egocentric activity datasets which shows the promise of the method for 3D egocentric perception at scale. | 翻訳日:2024-03-28 20:55:22 公開日:2024-03-26 |
# Don't Trust: Verify -- オートフォーマライゼーションによるLLM定量推論の根拠
Don't Trust: Verify -- Grounding LLM Quantitative Reasoning with Autoformalization ( http://arxiv.org/abs/2403.18120v1 ) ライセンス: Link先を確認 | Jin Peng Zhou, Charles Staats, Wenda Li, Christian Szegedy, Kilian Q. Weinberger, Yuhuai Wu, | (参考訳) GoogleのMinervaやOpenAIのGPTファミリーのような大規模言語モデル(LLM)は、数学的な量的推論問題を解く能力がますます高まっている。
しかし、彼らは推論ステップや解答において、不正確な論理的および計算的誤りを犯している。
本稿では, LLM のトレーニングコーパスが形式数学の例を十分に多く含んでいれば(例えば,Isabelle の形式的定理証明環境),形式的数学的文を形式的イザベル符号に自動変換し, 内部整合性のために自動的に検証することができる。これにより, 形式化されたバージョンが内部あるいは形式化された問題文と矛盾する解を自動的に除去する機構が提供される。我々は, GSM8K , MATH および MultiArith のデータセット上で本手法を評価し,本手法がバニラの多数決投票よりも一貫したヒューリスティックな手法であることを示す。
我々の実験では、すべてのデータセットとLLMモデルサイズで結果が一貫して改善されます。
コードはhttps://github.com/jinpz/dtv.comにある。
Large language models (LLM), such as Google's Minerva and OpenAI's GPT families, are becoming increasingly capable of solving mathematical quantitative reasoning problems. However, they still make unjustified logical and computational errors in their reasoning steps and answers. In this paper, we leverage the fact that if the training corpus of LLMs contained sufficiently many examples of formal mathematics (e.g. in Isabelle, a formal theorem proving environment), they can be prompted to translate i.e. autoformalize informal mathematical statements into formal Isabelle code -- which can be verified automatically for internal consistency. This provides a mechanism to automatically reject solutions whose formalized versions are inconsistent within themselves or with the formalized problem statement. We evaluate our method on GSM8K, MATH and MultiArith datasets and demonstrate that our approach provides a consistently better heuristic than vanilla majority voting -- the previously best method to identify correct answers, by more than 12% on GSM8K. In our experiments it improves results consistently across all datasets and LLM model sizes. The code can be found at https://github.com/jinpz/dtv. | 翻訳日:2024-03-28 20:55:22 公開日:2024-03-26 |
# ChatGPTロールプレイデータセット:ユーザの動機とモデル自然性の分析
ChatGPT Role-play Dataset: Analysis of User Motives and Model Naturalness ( http://arxiv.org/abs/2403.18121v1 ) ライセンス: Link先を確認 | Yufei Tao, Ameeta Agrawal, Judit Dombi, Tetyana Sydorenko, Jung In Lee, | (参考訳) ChatGPTのようなインタラクティブな大規模言語モデルの最近の進歩は、様々な領域に革命をもたらしたが、自然とロールプレイの会話設定におけるそれらの振る舞いは、まだ解明されていない。
そこで本研究では,ChatGPTの会話における振る舞いを,通常とロールプレイの両方で分析することで深く研究することで,このギャップに対処する。
ユーザモチベーションとモデル自然性を付加した広範囲の人間とAIの会話のデータセットを導入して検討する。
i)人間が会話型AIモデルとどのように関わり、そして
(ii)AIモデルの反応がいかに自然か。
本研究は,ChatGPTと対話する際のユーザのモチベーションの多様性を強調し,人間とAIの自然な会話の微妙なダイナミクスだけでなく,人間とAIのコミュニケーションの有効性向上のための新たな手段を提供する。
Recent advances in interactive large language models like ChatGPT have revolutionized various domains; however, their behavior in natural and role-play conversation settings remains underexplored. In our study, we address this gap by deeply investigating how ChatGPT behaves during conversations in different settings by analyzing its interactions in both a normal way and a role-play setting. We introduce a novel dataset of broad range of human-AI conversations annotated with user motives and model naturalness to examine (i) how humans engage with the conversational AI model, and (ii) how natural are AI model responses. Our study highlights the diversity of user motives when interacting with ChatGPT and variable AI naturalness, showing not only the nuanced dynamics of natural conversations between humans and AI, but also providing new avenues for improving the effectiveness of human-AI communication. | 翻訳日:2024-03-28 20:55:22 公開日:2024-03-26 |
# 知らない人のために:デジタル新参者のための技術質問のデータセットを構築する
For those who don't know (how) to ask: Building a dataset of technology questions for digital newcomers ( http://arxiv.org/abs/2403.18125v1 ) ライセンス: Link先を確認 | Evan Lucas, Kelly S. Steelman, Leo C. Ureel, Charles Wallace, | (参考訳) 大規模言語モデル(LLM)の台頭は、デジタル技術を学ぶための豊富な新しい機会を生み出してきたが、このテクノロジーのマージンの多くは、適切な質問をすることを妨げる語彙的または概念的な障壁のために、能力を得、維持するのに苦労している。
LLMが生成したコンテンツとLLMが解答する能力の事実性を理解するために多くの努力がなされてきたが、不明瞭さや非標準言語クエリがモデル出力にどの程度影響するかはよく分かっていない。
我々は,デジタル新参者や外部者の質問を収集するデータセットの作成を提案する。
本稿では,本データセットの今後の活用について概説する。
While the rise of large language models (LLMs) has created rich new opportunities to learn about digital technology, many on the margins of this technology struggle to gain and maintain competency due to lexical or conceptual barriers that prevent them from asking appropriate questions. Although there have been many efforts to understand factuality of LLM-created content and ability of LLMs to answer questions, it is not well understood how unclear or nonstandard language queries affect the model outputs. We propose the creation of a dataset that captures questions of digital newcomers and outsiders, utilizing data we have compiled from a decade's worth of one-on-one tutoring. In this paper we lay out our planned efforts and some potential uses of this dataset. | 翻訳日:2024-03-28 20:55:22 公開日:2024-03-26 |
# Pseudo Log-Likelihood 法の補正
A Correction of Pseudo Log-Likelihood Method ( http://arxiv.org/abs/2403.18127v1 ) ライセンス: Link先を確認 | Shi Feng, Nuoya Xiong, Zhijie Zhang, Wei Chen, | (参考訳) Pseudo log-likelihood (Pseudo log-likelihood) は、コンテキストブレイト、ソーシャルネットワークの最大化、因果ブレイトなど様々な分野で使用される最大推定(MLE)手法の一種である。
しかし、以前の文献 \citep{li2017provably, zhang2022online, xiong2022combinatorial, feng2023combinatorial1, feng2023combinatorial2} では、対数様の関数は有界でないかもしれない。
本稿では、最大擬似対数類似度推定が失敗し、次に、アルゴリズムを正すための解を \citep{li2017, zhang2022online, xiong2022combinatorial, feng2023combinatorial1, feng2023combinatorial2} で示す。
Pseudo log-likelihood is a type of maximum likelihood estimation (MLE) method used in various fields including contextual bandits, influence maximization of social networks, and causal bandits. However, in previous literature \citep{li2017provably, zhang2022online, xiong2022combinatorial, feng2023combinatorial1, feng2023combinatorial2}, the log-likelihood function may not be bounded, which may result in the algorithm they proposed not well-defined. In this paper, we give a counterexample that the maximum pseudo log-likelihood estimation fails and then provide a solution to correct the algorithms in \citep{li2017provably, zhang2022online, xiong2022combinatorial, feng2023combinatorial1, feng2023combinatorial2}. | 翻訳日:2024-03-28 20:55:22 公開日:2024-03-26 |
# HealthGAT:グラフ注意ネットワークを用いた電子健康記録のノード分類
HealthGAT: Node Classifications in Electronic Health Records using Graph Attention Networks ( http://arxiv.org/abs/2403.18128v1 ) ライセンス: Link先を確認 | Fahmida Liza Piya, Mehak Gupta, Rahmatollah Beheshti, | (参考訳) 電子健康記録(EHR)は医療における様々な用途で広く使われているが、ほとんどのアプリケーションは生の(タブラル)フォーマットでEHRを使用する。
生データや単純なデータ前処理を頼りにすることで、EHRを使用した下流タスクのパフォーマンスや適用性を大幅に制限することができる。
この課題に対処するために、従来のグラフベースの手法を超越した、階層的なアプローチでEHRから埋め込みを生成する新しいグラフアテンションネットワークフレームワークHealthGATを提案する。
本モデルでは,医療コードへの埋め込みを反復的に洗練し,EHRデータ解析の改善を実現している。
また、データに埋め込まれた豊富な医療知識を活用するために、カスタマイズされたEMH中心の補助訓練タスクも導入する。
このアプローチは、複雑な医療関係を包括的に分析し、標準データ表現技術よりも大幅に進歩する。
HealthGATは、確立した方法論に対する包括的な評価を通じて、様々な医療シナリオにおいてその効果を実証してきた。
具体的には,ノード分類や,可読度予測や診断分類などの下流タスクにおいて,優れた性能を示す。
私たちのコードはhttps://github.com/healthylaife/HealthGATで利用可能です。
While electronic health records (EHRs) are widely used across various applications in healthcare, most applications use the EHRs in their raw (tabular) format. Relying on raw or simple data pre-processing can greatly limit the performance or even applicability of downstream tasks using EHRs. To address this challenge, we present HealthGAT, a novel graph attention network framework that utilizes a hierarchical approach to generate embeddings from EHR, surpassing traditional graph-based methods. Our model iteratively refines the embeddings for medical codes, resulting in improved EHR data analysis. We also introduce customized EHR-centric auxiliary pre-training tasks to leverage the rich medical knowledge embedded within the data. This approach provides a comprehensive analysis of complex medical relationships and offers significant advancement over standard data representation techniques. HealthGAT has demonstrated its effectiveness in various healthcare scenarios through comprehensive evaluations against established methodologies. Specifically, our model shows outstanding performance in node classification and downstream tasks such as predicting readmissions and diagnosis classifications. Our code is available at https://github.com/healthylaife/HealthGAT | 翻訳日:2024-03-28 20:55:22 公開日:2024-03-26 |
# 双線形システムのロバスト固定端移動に対する反復2次計画の収束性
Convergence of Iterative Quadratic Programming for Robust Fixed-Endpoint Transfer of Bilinear Systems ( http://arxiv.org/abs/2403.18131v1 ) ライセンス: Link先を確認 | Luke S. Baker, Andre Luiz P. de Lima, Anatoly Zlotnik, Jr-Shin Li, | (参考訳) 本稿では,2つの連続的なパラメータによってインデックス付けされたバイリニアアンサンブル系の固定終点転送のためのオープンループ最小ノルム制御合成法を提案する。
1つのアンサンブルパラメータがダイナミクスの均質で線形な部分をスケールし、2番目のパラメータは適用された制御入力が不均一で双線型なダイナミクスに与える影響をスケールする。
このタイプの力学系は、ロバストな量子制御パルス合成によって動機付けられ、そこではアンサンブルパラメータは、制御ハミルトニアンにおける自由ハミルトニアンの不確かさと、制御ハミルトニアンにおける不均一性に対応する。
パラメータ空間におけるアンサンブル状態の多項式近似と時間領域における進化方程式の離散化を,0次ホールド制御に対応する行列指数の積を用いて行う。
ダイナミクスは、制御と軌道の反復について連続的に線形化され、反復が収束するまで目標を連続的に改善する制御に摂動を計算する2次プログラムの列を定式化する。
2段階の計算を用いて、まず所望の端末状態への転送を保証し、次に制御関数のノルムを最小化する。
この方法は、核磁気共鳴で現れるブロッホ系における正準一様移動問題や、超低温原子干渉法で現れるラマン・ナト系における物質波分割問題に対して実証される。
We present a computational method for open-loop minimum-norm control synthesis for fixed-endpoint transfer of bilinear ensemble systems that are indexed by two continuously varying parameters. We suppose that one ensemble parameter scales the homogeneous, linear part of the dynamics, and the second parameter scales the effect of the applied control inputs on the inhomogeneous, bilinear dynamics. This class of dynamical systems is motivated by robust quantum control pulse synthesis, where the ensemble parameters correspond to uncertainty in the free Hamiltonian and inhomogeneity in the control Hamiltonian, respectively. Our computational method is based on polynomial approximation of the ensemble state in parameter space and discretization of the evolution equations in the time domain using a product of matrix exponentials corresponding to zero-order hold controls over the time intervals. The dynamics are successively linearized about control and trajectory iterates to formulate a sequence of quadratic programs for computing perturbations to the control that successively improve the objective until the iteration converges. We use a two-stage computation to first ensure transfer to the desired terminal state, and then minimize the norm of the control function. The method is demonstrated for the canonical uniform transfer problem for the Bloch system that appears in nuclear magnetic resonance, as well as the matter-wave splitting problem for the Raman-Nath system that appears in ultra-cold atom interferometry. | 翻訳日:2024-03-28 20:55:22 公開日:2024-03-26 |
# 将来のデータシミュレーションによるデータフリークラス増分学習アルゴリズムの勧告
Recommendation of data-free class-incremental learning algorithms by simulating future data ( http://arxiv.org/abs/2403.18132v1 ) ライセンス: Link先を確認 | Eva Feillet, Adrian Popescu, Céline Hudelot, | (参考訳) クラスインクリメンタルな学習は、クラスのバッチで構成されるシーケンシャルなデータストリームを扱う。
過去のクラスからのサンプルを格納できないという問題に対処するために、様々なアルゴリズムが提案されている。
しかし、これらのアルゴリズムの相対的な性能はインクリメンタルな設定に依存するため、ユーザ定義設定に適したアルゴリズムを選択することはオープンな問題である。
そこで本研究では,将来的なデータストリームをシミュレートするアルゴリズムレコメンデーション手法を提案する。
クラスの初期セットが与えられたら、生成モデルを利用して、同じビジュアルドメインから将来のクラスをシミュレートする。
シミュレーションストリーム上の最近のアルゴリズムを評価し,ユーザ定義のインクリメンタルな設定において,最高のパフォーマンスを示すアルゴリズムを推奨する。
本稿では,6つのアルゴリズムと6つのインクリメンタル設定を用いた3つの大規模データセットに対する提案手法の有効性について述べる。
提案手法は競争基準よりも優れており,各設定において最適なアルゴリズムを選択するオラクルに近い性能である。
この作業は、漸進的な学習の実践的な展開を促進するのに役立ちます。
Class-incremental learning deals with sequential data streams composed of batches of classes. Various algorithms have been proposed to address the challenging case where samples from past classes cannot be stored. However, selecting an appropriate algorithm for a user-defined setting is an open problem, as the relative performance of these algorithms depends on the incremental settings. To solve this problem, we introduce an algorithm recommendation method that simulates the future data stream. Given an initial set of classes, it leverages generative models to simulate future classes from the same visual domain. We evaluate recent algorithms on the simulated stream and recommend the one which performs best in the user-defined incremental setting. We illustrate the effectiveness of our method on three large datasets using six algorithms and six incremental settings. Our method outperforms competitive baselines, and performance is close to that of an oracle choosing the best algorithm in each setting. This work contributes to facilitate the practical deployment of incremental learning. | 翻訳日:2024-03-28 18:55:29 公開日:2024-03-26 |
# AE SemRL:オートエンコーダによるセマンティックアソシエーションルールの学習
AE SemRL: Learning Semantic Association Rules with Autoencoders ( http://arxiv.org/abs/2403.18133v1 ) ライセンス: Link先を確認 | Erkan Karabulut, Victoria Degeler, Paul Groth, | (参考訳) アソシエーションルールマイニング(アソシエーションルールマイニング、英: Association Rule Mining、ARM)は、データ特徴間の関連を論理ルールの形で学習するタスクである。
高次元数値データ(例えば、スマート環境における多数のセンサからの時系列データ)からの相関ルールのマイニングは、計算集約的な作業である。
本研究では,時系列データ(AE SemRL)から関連ルールを学習し,抽出するためのオートエンコーダに基づく手法を提案する。
さらに、時系列データソースに関連する意味情報の存在下では、セマンティクスは一般化可能で説明可能な関連ルールの学習を容易にすることができると論じる。
AE SemRLは、追加のセマンティックな特徴を持つ時系列データを豊かにしているが、高次元データから学習関連ルールを作成することができる。
提案手法は,Autoencoderによって作成された潜在表現から意味的関連性ルールを抽出し,多くのシナリオにおいて最先端のARMアプローチよりも数百倍高速な実行時間を有することを示す。
この研究は、表現から関連を抽出する新たな方法を進め、この分野のさらなる研究を刺激する可能性を秘めていると信じている。
Association Rule Mining (ARM) is the task of learning associations among data features in the form of logical rules. Mining association rules from high-dimensional numerical data, for example, time series data from a large number of sensors in a smart environment, is a computationally intensive task. In this study, we propose an Autoencoder-based approach to learn and extract association rules from time series data (AE SemRL). Moreover, we argue that in the presence of semantic information related to time series data sources, semantics can facilitate learning generalizable and explainable association rules. Despite enriching time series data with additional semantic features, AE SemRL makes learning association rules from high-dimensional data feasible. Our experiments show that semantic association rules can be extracted from a latent representation created by an Autoencoder and this method has in the order of hundreds of times faster execution time than state-of-the-art ARM approaches in many scenarios. We believe that this study advances a new way of extracting associations from representations and has the potential to inspire more research in this field. | 翻訳日:2024-03-28 18:55:29 公開日:2024-03-26 |
# スライド画像の表現と分類のための統合的グラフ変換フレームワーク
Integrative Graph-Transformer Framework for Histopathology Whole Slide Image Representation and Classification ( http://arxiv.org/abs/2403.18134v1 ) ライセンス: Link先を確認 | Zhan Shi, Jingwei Zhang, Jun Kong, Fusheng Wang, | (参考訳) デジタル病理学では、ギガピクセルWSIをスライドレベルでのみラベル付けするWSI分類タスクにおいて、多重インスタンス学習(MIL)戦略が広く用いられている。
しかし、既存の注意に基づくMILアプローチは、周囲の組織タイル間のコンテキスト情報や内在的な空間的関係をしばしば見落とし、グラフベースのMILフレームワークは長距離依存を認識する能力に制限がある。
本稿では,新しいグラフトランスフォーマ統合(GTI)ブロックを通じて,コンテキスト対応リレーショナル特徴とグローバルWSI表現を同時にキャプチャする統合グラフトランスフォーマフレームワークを提案する。
具体的には、各GTIブロックは、ローカルインスタンスレベルで隣り合う関係をモデル化するグラフ畳み込みネットワーク(GCN)層と、広範囲な特徴埋め込みから包括的グローバル情報をキャプチャする効率的なグローバルアテンションモデルから構成される。
TCGA-NSCLC、TCGA-RCC、BRIGHTの3つの公開WSIデータセットに対する大規模な実験は、現在の最先端のMIL手法よりも我々のアプローチの優位性を実証し、精度は1.0%から2.6%、AUROCは0.7%-1.6%向上した。
In digital pathology, the multiple instance learning (MIL) strategy is widely used in the weakly supervised histopathology whole slide image (WSI) classification task where giga-pixel WSIs are only labeled at the slide level. However, existing attention-based MIL approaches often overlook contextual information and intrinsic spatial relationships between neighboring tissue tiles, while graph-based MIL frameworks have limited power to recognize the long-range dependencies. In this paper, we introduce the integrative graph-transformer framework that simultaneously captures the context-aware relational features and global WSI representations through a novel Graph Transformer Integration (GTI) block. Specifically, each GTI block consists of a Graph Convolutional Network (GCN) layer modeling neighboring relations at the local instance level and an efficient global attention model capturing comprehensive global information from extensive feature embeddings. Extensive experiments on three publicly available WSI datasets: TCGA-NSCLC, TCGA-RCC and BRIGHT, demonstrate the superiority of our approach over current state-of-the-art MIL methods, achieving an improvement of 1.0% to 2.6% in accuracy and 0.7%-1.6% in AUROC. | 翻訳日:2024-03-28 18:55:29 公開日:2024-03-26 |
# セキュアなGNN: バックドアトレーニンググラフの説明に基づく識別
Securing GNNs: Explanation-Based Identification of Backdoored Training Graphs ( http://arxiv.org/abs/2403.18136v1 ) ライセンス: Link先を確認 | Jane Downer, Ren Wang, Binghui Wang, | (参考訳) グラフニューラルネットワーク(GNN)は、多くのドメインで人気を集めているが、パフォーマンスと倫理的応用を損なう可能性のあるバックドア攻撃に弱い。
これらの攻撃の検出は、GNN分類タスクの信頼性と安全性を維持するために重要であるが、効果的な検出技術は欠如している。
最初の調査の結果、グラフレベルの説明は限られた洞察を与えることができるが、バックドアトリガーの検出における効果は矛盾し、不完全であることがわかった。
このギャップを埋めるために、我々はGNN説明機構の二次出力を抽出し変換し、バックドア攻撃をより効果的に検出する7つの新しい指標を設計する。
さらに,我々のアプローチを厳格に評価するための適応攻撃を開発した。
提案手法を複数のベンチマークデータセットで検証し, 各種攻撃モデルに対して有効性を検討した。
提案手法は, バックドア攻撃に対するGNNの安全性向上に寄与し, 高い検出性能を達成できることが示唆された。
Graph Neural Networks (GNNs) have gained popularity in numerous domains, yet they are vulnerable to backdoor attacks that can compromise their performance and ethical application. The detection of these attacks is crucial for maintaining the reliability and security of GNN classification tasks, but effective detection techniques are lacking. Following an initial investigation, we observed that while graph-level explanations can offer limited insights, their effectiveness in detecting backdoor triggers is inconsistent and incomplete. To bridge this gap, we extract and transform secondary outputs of GNN explanation mechanisms, designing seven novel metrics that more effectively detect backdoor attacks. Additionally, we develop an adaptive attack to rigorously evaluate our approach. We test our method on multiple benchmark datasets and examine its efficacy against various attack models. Our results show that our method can achieve high detection performance, marking a significant advancement in safeguarding GNNs against backdoor attacks. | 翻訳日:2024-03-28 18:55:29 公開日:2024-03-26 |
# 拡散確率モデルに基づく擬似MRI誘導PET画像再構成法
Pseudo-MRI-Guided PET Image Reconstruction Method Based on a Diffusion Probabilistic Model ( http://arxiv.org/abs/2403.18139v1 ) ライセンス: Link先を確認 | Weijie Gan, Huidong Xie, Carl von Gall, Günther Platsch, Michael T. Jurkiewicz, Andrea Andrade, Udunna C. Anazodo, Ulugbek S. Kamilov, Hongyu An, Jorge Cabello, | (参考訳) MRI情報を用いて解剖学的にPET再建を行ったところ,PET画像の画質が向上する可能性が示唆された。
しかし、これらの改善は、ペアMRI情報によるPETスキャンに限られている。
本研究では,FDG-PET脳画像からT1強調MRI(deep-MRI)画像を推定するために拡散確率モデル(DPM)を用いた。
次にDPM生成T1w-MRIを用いてPET再建を誘導する。
このモデルは脳のFDGスキャンでトレーニングされ、複数のレベルのカウントを含むデータセットでテストされた。
深部MRI像は取得したMRI像よりやや劣化していた。
PET画像の画質について、異なる脳領域における関心度分析の結果、PET画像は、取得した画像と深部MRI画像の両方を用いて再構成され、OSEMと比較して画質が向上した。
決定されたデータセットを分析して、同じ結論が得られた。
2人の医師が行った主観的評価では、OSEMはMRI誘導PET画像よりも一貫して悪化しており、MRI誘導PET画像と有意差は認められなかった。
この概念の証明は、DPMベースのMRI画像からPET再構成を誘導することが可能であり、MRIのない解剖学的にガイドされたPET再構成において、前者の強度などの再構成パラメータを変更することが可能であることを示している。
Anatomically guided PET reconstruction using MRI information has been shown to have the potential to improve PET image quality. However, these improvements are limited to PET scans with paired MRI information. In this work we employed a diffusion probabilistic model (DPM) to infer T1-weighted-MRI (deep-MRI) images from FDG-PET brain images. We then use the DPM-generated T1w-MRI to guide the PET reconstruction. The model was trained with brain FDG scans, and tested in datasets containing multiple levels of counts. Deep-MRI images appeared somewhat degraded than the acquired MRI images. Regarding PET image quality, volume of interest analysis in different brain regions showed that both PET reconstructed images using the acquired and the deep-MRI images improved image quality compared to OSEM. Same conclusions were found analysing the decimated datasets. A subjective evaluation performed by two physicians confirmed that OSEM scored consistently worse than the MRI-guided PET images and no significant differences were observed between the MRI-guided PET images. This proof of concept shows that it is possible to infer DPM-based MRI imagery to guide the PET reconstruction, enabling the possibility of changing reconstruction parameters such as the strength of the prior on anatomically guided PET reconstruction in the absence of MRI. | 翻訳日:2024-03-28 18:55:29 公開日:2024-03-26 |
# Juru: ブラジルの法的な大規模言語モデル
Juru: Legal Brazilian Large Language Model from Reputable Sources ( http://arxiv.org/abs/2403.18140v1 ) ライセンス: Link先を確認 | Roseval Malaquias Junior, Ramon Pires, Roseli Romero, Rodrigo Nogueira, | (参考訳) 大規模言語モデルの事前学習に伴う高い計算コストは研究を制限している。
ドメインの特殊化と高品質なデータによる事前訓練という2つの戦略がこの問題に対処するために現れている。
これらの戦略を探求するため、ブラジルの信頼できる法的資料から19億のユニークなトークンを持つSabi\'a-2 Smallモデルを選定し、法学および一般知識試験に関する数点の評価を行った。
我々のモデルであるJuruは、事前学習データの少ない量でドメイン特殊化の利点を実証する。
しかし、この専門化は、同じ言語の他の知識領域のパフォーマンス低下を犠牲にしている。
本研究は,事前学習データ選択が大規模言語モデルの性能を高め,これらのモデルの低コストな探索を可能にすることを示す科学的根拠の増大に寄与する。
The high computational cost associated with pretraining large language models limits their research. Two strategies have emerged to address this issue: domain specialization and pretraining with high-quality data. To explore these strategies, we specialized the Sabi\'a-2 Small model with 1.9 billion unique tokens from reputable Brazilian legal sources and conducted few-shot evaluations on legal and general knowledge exams. Our model, Juru, demonstrates the benefits of domain specialization with a reduced amount of pretraining data. However, this specialization comes at the expense of degrading performance in other knowledge areas within the same language. This study contributes to the growing body of scientific evidence showing that pretraining data selection may enhance the performance of large language models, enabling the exploration of these models at a lower cost. | 翻訳日:2024-03-28 18:55:29 公開日:2024-03-26 |
# HERTA: グラフニューラルネットワークの高効率かつ厳密なトレーニングアルゴリズム
HERTA: A High-Efficiency and Rigorous Training Algorithm for Unfolded Graph Neural Networks ( http://arxiv.org/abs/2403.18142v1 ) ライセンス: Link先を確認 | Yongyi Yang, Jiaming Yang, Wei Hu, Michał Dereziński, | (参考訳) グラフニューラルネットワーク(GNN)の亜種として、Unfolded GNNは従来の設計よりも高い解釈性と柔軟性を提供する。
それでも、トレーニングコストに関しては、スケーラビリティ上の課題に悩まされている。
スケーラビリティ問題に対処する多くの手法が提案されているが、それらは最悪の収束保証なしに、解法ごとの効率に主に焦点をあてている。
さらに、これらのメソッドは、通常、元のモデルにコンポーネントを追加または変更するので、Unfolded GNNの解釈性を損なう可能性がある。
本稿では,HERTA: A High-Efficiency and Rigorous Training Algorithm for Unfolded GNNsを提案する。
重要なことに、HERTAは元のモデルの最適値に収束し、アンフォールドGNNの解釈可能性を維持する。
さらに、HERTAの副産物として、既存のスペクトルスペーサーよりもアルゴリズムの厳密な境界を保証する正規化および正規化グラフラプラシアンに適用可能な新しいスペクトルスペーサー法を提案する。
実世界のデータセットの実験は、HERTAの優位性と、様々な損失関数やオプティマイザへの適応性を検証する。
As a variant of Graph Neural Networks (GNNs), Unfolded GNNs offer enhanced interpretability and flexibility over traditional designs. Nevertheless, they still suffer from scalability challenges when it comes to the training cost. Although many methods have been proposed to address the scalability issues, they mostly focus on per-iteration efficiency, without worst-case convergence guarantees. Moreover, those methods typically add components to or modify the original model, thus possibly breaking the interpretability of Unfolded GNNs. In this paper, we propose HERTA: a High-Efficiency and Rigorous Training Algorithm for Unfolded GNNs that accelerates the whole training process, achieving a nearly-linear time worst-case training guarantee. Crucially, HERTA converges to the optimum of the original model, thus preserving the interpretability of Unfolded GNNs. Additionally, as a byproduct of HERTA, we propose a new spectral sparsification method applicable to normalized and regularized graph Laplacians that ensures tighter bounds for our algorithm than existing spectral sparsifiers do. Experiments on real-world datasets verify the superiority of HERTA as well as its adaptability to various loss functions and optimizers. | 翻訳日:2024-03-28 18:55:29 公開日:2024-03-26 |
# リークと学習:フェデレーションラーニングから漏洩したデータを使って、攻撃者の訓練用クックブック
Leak and Learn: An Attacker's Cookbook to Train Using Leaked Data from Federated Learning ( http://arxiv.org/abs/2403.18144v1 ) ライセンス: Link先を確認 | Joshua C. Zhao, Ahaan Dabholkar, Atul Sharma, Saurabh Bagchi, | (参考訳) フェデレートラーニング(Federated Learning)は、クライアントデータのプライバシを保護するために導入された分散学習パラダイムである。
それにもかかわらず、以前の研究によると、サーバの攻撃者はクライアントのアップデートだけを使用してプライベートなトレーニングデータを再構築できる。
これらの攻撃はデータ再構成攻撃と呼ばれ、勾配反転(GI)と線形層リーク攻撃(LLL)の2つの主要なカテゴリに分類される。
しかし、これらの攻撃がプライバシーを侵害する効果を実証しているにもかかわらず、以前の研究は下流タスクにおける再構成データの有用性を調査していない。
本研究では,学習レンズによるデータ再構成攻撃と,漏洩したデータを用いたモデルの改良について検討する。
本研究では,悪質な訓練モデルにおけるGI攻撃とLLL攻撃の有効性を,良質なフェデレーション学習戦略よりも正確に示す。
反対に、このトレーニング品質の増大は、再構成品質の制限やリーク画像の総数が少ないにもかかわらず起こりうる。
最後に、これらの攻撃の限界を下流訓練、個別にGI攻撃、LLL攻撃に示す。
Federated learning is a decentralized learning paradigm introduced to preserve privacy of client data. Despite this, prior work has shown that an attacker at the server can still reconstruct the private training data using only the client updates. These attacks are known as data reconstruction attacks and fall into two major categories: gradient inversion (GI) and linear layer leakage attacks (LLL). However, despite demonstrating the effectiveness of these attacks in breaching privacy, prior work has not investigated the usefulness of the reconstructed data for downstream tasks. In this work, we explore data reconstruction attacks through the lens of training and improving models with leaked data. We demonstrate the effectiveness of both GI and LLL attacks in maliciously training models using the leaked data more accurately than a benign federated learning strategy. Counter-intuitively, this bump in training quality can occur despite limited reconstruction quality or a small total number of leaked images. Finally, we show the limitations of these attacks for downstream training, individually for GI attacks and for LLL attacks. | 翻訳日:2024-03-28 18:55:29 公開日:2024-03-26 |
# マルチロボット計画実行のためのリアルタイムスケジューリングアルゴリズム
A Real-Time Rescheduling Algorithm for Multi-robot Plan Execution ( http://arxiv.org/abs/2403.18145v1 ) ライセンス: Link先を確認 | Ying Feng, Adittyo Paul, Zhe Chen, Jiaoyang Li, | (参考訳) マルチエージェントパス探索における研究の1つの分野は、実行中にエージェントが遅延した場合に、いかに効率的に再計画が達成できるかを決定することである。
1つの選択肢は、エージェントの通過順序、すなわちエージェントが同じ場所を訪れたシーケンスを再スケジュールすることである。
そこで本研究では,最適通過順序を求めるために設計されたA*スタイルのアルゴリズムであるSwitchable-Edge Search (SES)を提案する。
本研究では,SESの最適性を証明し,シミュレーションによる効率評価を行う。
SESの最良の変種は、小規模および中規模の問題では1秒未満で、大規模問題ではベースラインの最大4倍の速度で実行される。
One area of research in multi-agent path finding is to determine how replanning can be efficiently achieved in the case of agents being delayed during execution. One option is to reschedule the passing order of agents, i.e., the sequence in which agents visit the same location. In response, we propose Switchable-Edge Search (SES), an A*-style algorithm designed to find optimal passing orders. We prove the optimality of SES and evaluate its efficiency via simulations. The best variant of SES takes less than 1 second for small- and medium-sized problems and runs up to 4 times faster than baselines for large-sized problems. | 翻訳日:2024-03-28 18:55:29 公開日:2024-03-26 |
# 分枝, コンカー, ベイズ決定木サンプリングを併用する
Divide, Conquer, Combine Bayesian Decision Tree Sampling ( http://arxiv.org/abs/2403.18147v1 ) ライセンス: Link先を確認 | Jodie A. Cochrane, Adrian Wills, Sarah J. Johnson, | (参考訳) 決定木は、その柔軟性と解釈可能性のために予測モデルとして一般的に使用される。
本稿では,ベイズ推定手法を用いて決定木予測の不確かさを定量化する。
これらのアプローチでは、木構造空間と、各木構造に関連する決定パラメータの空間の両方を探索する必要があるため、これは難しい。
これはマルコフ連鎖モンテカルロ (MCMC) 法を用いて処理され、所望のベイズ推定値からサンプルを提供するマルコフ連鎖が構築されている。
重要なことは、構造と決定パラメータは密結合であり、ツリー構造の小さな変化は、正確な予測を提供するために、非常に異なる決定パラメータを要求することができる。
既存のMCMCアプローチの課題は、ツリー構造と効率的なサンプリングをもたらす決定パラメータの両方において、共同的な変更を提案することである。
本稿では,各木構造が一意な決定パラメータの集合に関連付けられているという,異なるアプローチをとる。
提案したアプローチはDCC-Treeと題され、確率的プログラムのための Zhou et al [23] と、ハミルトンモンテカルロ (HMC) に基づく決定木サンプリングのための Cochrane et al [4] にインスパイアされている。
その結果,DCC-Tree は他の HMC ベースの手法と相容れない性能を示し,既存のベイズ木法より優れた性能を示し,一貫性の向上とプロポゾス毎の複雑さの低減を図っている。
Decision trees are commonly used predictive models due to their flexibility and interpretability. This paper is directed at quantifying the uncertainty of decision tree predictions by employing a Bayesian inference approach. This is challenging because these approaches need to explore both the tree structure space and the space of decision parameters associated with each tree structure. This has been handled by using Markov Chain Monte Carlo (MCMC) methods, where a Markov Chain is constructed to provide samples from the desired Bayesian estimate. Importantly, the structure and the decision parameters are tightly coupled; small changes in the tree structure can demand vastly different decision parameters to provide accurate predictions. A challenge for existing MCMC approaches is proposing joint changes in both the tree structure and the decision parameters that result in efficient sampling. This paper takes a different approach, where each distinct tree structure is associated with a unique set of decision parameters. The proposed approach, entitled DCC-Tree, is inspired by the work in Zhou et al. [23] for probabilistic programs and Cochrane et al. [4] for Hamiltonian Monte Carlo (HMC) based sampling for decision trees. Results show that DCC-Tree performs comparably to other HMC-based methods and better than existing Bayesian tree methods while improving on consistency and reducing the per-proposal complexity. | 翻訳日:2024-03-28 18:55:29 公開日:2024-03-26 |
# 大規模言語モデルが共感的と知覚される応答を生み出す
Large Language Models Produce Responses Perceived to be Empathic ( http://arxiv.org/abs/2403.18148v1 ) ライセンス: Link先を確認 | Yoon Kyung Lee, Jina Suh, Hongli Zhan, Junyi Jessy Li, Desmond C. Ong, | (参考訳) 大規模言語モデル(LLM)は、共感を示すサポートメッセージを書くなど、多くのタスクにおいて驚くべきパフォーマンスを示している。
ここでは、職場の状況、育児、関係性、その他の不安や怒りに満ちた状況など、一般的な生活経験を説明する投稿に対して、これらのモデルが共感的なメッセージを生成した。
2つの研究 (N=192, 202) において, 複数のモデル (GPT4 Turbo, Llama2, Mistral) で記述された様々な反応を示し, それらの反応の共感性について評価した。
その結果, LLM生成応答は人文応答よりも共感的であった。
言語学的分析は、これらのモデルが句読点、絵文字、特定の単語を使用すれば、区別された予測可能な「スタイル」で書くことも示している。
これらの結果は、共感が重要である文脈において、人間のピアサポートを強化するためにLLMを使うことの可能性を強調している。
Large Language Models (LLMs) have demonstrated surprising performance on many tasks, including writing supportive messages that display empathy. Here, we had these models generate empathic messages in response to posts describing common life experiences, such as workplace situations, parenting, relationships, and other anxiety- and anger-eliciting situations. Across two studies (N=192, 202), we showed human raters a variety of responses written by several models (GPT4 Turbo, Llama2, and Mistral), and had people rate these responses on how empathic they seemed to be. We found that LLM-generated responses were consistently rated as more empathic than human-written responses. Linguistic analyses also show that these models write in distinct, predictable ``styles", in terms of their use of punctuation, emojis, and certain words. These results highlight the potential of using LLMs to enhance human peer support in contexts where empathy is important. | 翻訳日:2024-03-28 18:55:29 公開日:2024-03-26 |
# コンパクトな高速度インダクタンスキャビティアレイにおけるトポロジーを用いたバンドエンジニアリングと障害の研究
Band engineering and study of disorder using topology in compact high kinetic inductance cavity arrays ( http://arxiv.org/abs/2403.18150v1 ) ライセンス: Link先を確認 | Vincent Jouanny, Simone Frasca, Vera Jo Weibel, Leo Peyruchat, Marco Scigliuzzo, Fabian Oppliger, Franco De Palma, Davide Sbroggio, Guillaume Beaulieu, Oded Zilberberg, Pasquale Scarlino, | (参考訳) 超伝導マイクロ波メタマテリアルは、量子光学と情報科学に大きな可能性をもたらし、センシングと増幅のための先進的な量子技術の開発を可能にする。
回路量子力学の文脈では、そのようなメタマテリアルは結合キャビティアレイ(CCAs)として実装することができる。
拡張性を高めるために量子デバイスを小型化する継続的な取り組みにおいて、低障害を保ちながらCCAのフットプリントを最小化することが最重要となる。
本研究では,高温超伝導NbN薄膜を用いた小型CCAアーキテクチャを提案し,高インピーダンスCCA(\sim1.5$ k$\Omega$)を実現するとともに,共振器のフットプリントを低減した。
最大100個の共振器を備えた1次元CCAを設計し,複数のバンドギャップを示すことで,その汎用性とスケーラビリティを実証する。
さらに,共振器周波数の0.22^{+0.04}_{-0.03}\%$を抽出する対称性保護トポロジカルSSHモードを用いてCCAの障害を定量的に検討した。
我々のプラットフォームは、超強結合エミッタを用いた多体物理学のアナログ量子シミュレーションのためのエキサイティングな新しい展望を開く。
Superconducting microwave metamaterials offer enormous potential for quantum optics and information science, enabling the development of advanced quantum technologies for sensing and amplification. In the context of circuit quantum electrodynamics, such metamaterials can be implemented as coupled cavity arrays (CCAs). In the continuous effort to miniaturize quantum devices for increasing scalability, minimizing the footprint of CCAs while preserving low disorder becomes paramount. In this work, we present a compact CCA architecture leveraging superconducting NbN thin films presenting high kinetic inductance, which enables high-impedance CCA ($\sim1.5$ k$\Omega$), while reducing the resonator footprint. We demonstrate its versatility and scalability by engineering one-dimensional CCAs with up to 100 resonators and exhibiting multiple bandgaps. Additionally, we quantitatively investigate disorder in the CCAs using symmetry-protected topological SSH modes, from which we extract a resonator frequency scattering of $0.22^{+0.04}_{-0.03}\%$. Our platform opens up exciting new prospects for analog quantum simulations of many-body physics with ultrastrongly coupled emitters. | 翻訳日:2024-03-28 18:55:29 公開日:2024-03-26 |
# CNNビジョン分類器とマルチトランスフォーマーテキストデコーダを用いた肺細胞画像の自動生成:予備的検討
Automated Report Generation for Lung Cytological Images Using a CNN Vision Classifier and Multiple-Transformer Text Decoders: Preliminary Study ( http://arxiv.org/abs/2403.18151v1 ) ライセンス: Link先を確認 | Atsushi Teramoto, Ayano Michiba, Yuka Kiriyama, Tetsuya Tsukamoto, Kazuyoshi Imaizumi, Hiroshi Fujita, | (参考訳) 細胞診は肺癌の診断において重要な役割を担っている。
肺細胞診は、標本の細胞形態学的特徴とそれに伴う所見を報告することを含み、非常に負担のかかる作業である。
本研究では,肺細胞診画像のレポート生成手法を提案する。
良性肺細胞診は71例,悪性肺細胞診は135例であった。
得られたサンプル画像からパッチ画像を抽出し,各画像にレポート生成のためのデータセットを割り当てた。
提案手法は視覚モデルとテキストデコーダから構成される。
前者では、所定の画像を良性又は悪性と分類するために畳み込みニューラルネットワーク(CNN)を用い、中間層から画像に関連する特徴を抽出する。
良性および悪性細胞の独立したテキストデコーダを作成し、CNN分類結果に従ってテキストデコーダを切り替える。
テキストデコーダは、CNNから得られた特徴をレポート生成に使用するTransformerを使用して構成される。
評価結果から, 自動良性および悪性の症例分類では, 感度は100%, 特異性は96.4%であった。
生成したテキストの文法とスタイルは、既存のLCMベースの画像キャプション法やシングルテキストデコーダアブレーションモデルと比較して、ゴールド標準とよく一致していることを確認した。
これらの結果は,肺細胞診の分類と報告に有用であることが示唆された。
Cytology plays a crucial role in lung cancer diagnosis. Pulmonary cytology involves cell morphological characterization in the specimen and reporting the corresponding findings, which are extremely burdensome tasks. In this study, we propose a report-generation technique for lung cytology images. In total, 71 benign and 135 malignant pulmonary cytology specimens were collected. Patch images were extracted from the captured specimen images, and the findings were assigned to each image as a dataset for report generation. The proposed method consists of a vision model and a text decoder. In the former, a convolutional neural network (CNN) is used to classify a given image as benign or malignant, and the features related to the image are extracted from the intermediate layer. Independent text decoders for benign and malignant cells are prepared for text generation, and the text decoder switches according to the CNN classification results. The text decoder is configured using a Transformer that uses the features obtained from the CNN for report generation. Based on the evaluation results, the sensitivity and specificity were 100% and 96.4%, respectively, for automated benign and malignant case classification, and the saliency map indicated characteristic benign and malignant areas. The grammar and style of the generated texts were confirmed as correct and in better agreement with gold standard compared to existing LLM-based image-captioning methods and single-text-decoder ablation model. These results indicate that the proposed method is useful for pulmonary cytology classification and reporting. | 翻訳日:2024-03-28 18:55:29 公開日:2024-03-26 |
# 財務データアノテータとしての大規模言語モデル:有効性と効率に関する研究
Large Language Models as Financial Data Annotators: A Study on Effectiveness and Efficiency ( http://arxiv.org/abs/2403.18152v1 ) ライセンス: Link先を確認 | Toyin Aguda, Suchetha Siddagangappa, Elena Kochkina, Simerjot Kaur, Dongsheng Wang, Charese Smiley, Sameena Shah, | (参考訳) ラベル付きデータセットを財務に収集することは、ドメインエキスパートの不足とそれを利用するコストの高騰によって困難である。
大規模言語モデル(LLM)は、一般的なドメインデータセット上のデータアノテーションタスクにおいて顕著なパフォーマンスを示してきたが、ドメイン固有のデータセットに対するそれらの有効性はまだ未定である。
このギャップに対処するため,金融文書中の関係を抽出する効率的なデータアノテータとしてのLCMの可能性を検討する。
我々は,3つのLPM (GPT-4, PaLM 2, MPT Instruct) が生成するアノテーションを,専門家のアノテータやクラウドワーカーと比較した。
我々は,現在最先端のLLMが,非熟練のクラウドワーカーに十分な代替手段であることを実証した。
様々なプロンプトとパラメータ設定を用いてモデルを解析し、それらのグループに属する特定の例を提供することで、各関係グループに対してプロンプトをカスタマイズすることが最重要であることを示す。
さらに,専門家の注意を要する可能性のある出力を特定するために,信頼性指標(LLM-RelIndex)を導入する。
最後に、幅広い時間、コスト、エラー分析を行い、ドメイン固有の設定で自動アノテーションの収集と使用を推奨します。
Collecting labeled datasets in finance is challenging due to scarcity of domain experts and higher cost of employing them. While Large Language Models (LLMs) have demonstrated remarkable performance in data annotation tasks on general domain datasets, their effectiveness on domain specific datasets remains underexplored. To address this gap, we investigate the potential of LLMs as efficient data annotators for extracting relations in financial documents. We compare the annotations produced by three LLMs (GPT-4, PaLM 2, and MPT Instruct) against expert annotators and crowdworkers. We demonstrate that the current state-of-the-art LLMs can be sufficient alternatives to non-expert crowdworkers. We analyze models using various prompts and parameter settings and find that customizing the prompts for each relation group by providing specific examples belonging to those groups is paramount. Furthermore, we introduce a reliability index (LLM-RelIndex) used to identify outputs that may require expert attention. Finally, we perform an extensive time, cost and error analysis and provide recommendations for the collection and usage of automated annotations in domain-specific settings. | 翻訳日:2024-03-28 18:55:29 公開日:2024-03-26 |
# ビデオコピー検出におけるショートビデオ共有サービスの効果
The Effects of Short Video-Sharing Services on Video Copy Detection ( http://arxiv.org/abs/2403.18158v1 ) ライセンス: Link先を確認 | Rintaro Yanagi, Yamato Okamoto, Shuhei Yokoo, Shin'ichi Satoh, | (参考訳) 10秒から30秒間のビデオを投稿できる短いビデオ共有サービス(YouTube Shorts、TikTokなど)が近年注目を集めている。
しかし、従来のビデオコピー検出(VCD)手法は主に一般的なビデオ共有サービス(YouTubeやBilibiliなど)に焦点を当てており、ビデオコピー検出に対する短いビデオ共有サービスの影響はいまだ不明である。
短いビデオ共有サービスにおいて、違法にコピーされたビデオは、特にその時間長において、サービス固有の特性を持つので、それらのサービスのVCDの長所と短所を解析する必要がある。
本稿では,短いビデオ共有サービス特性を持つデータセットを構築することにより,VCDに対する短いビデオ共有サービスの効果を検討する。
我々の新しいデータセットは、参照ビデオと固定された短時間のクエリビデオを持つために、公開されているデータセットから自動的に構築され、このような自動化手順により、本論文の再現性とデータプライバシ保護が保証される。
セグメントレベルとビデオレベルに着目した実験結果から,「ビデオ共有サービスにおけるセグメントレベルVCDは一般のビデオ共有サービスよりも難しい」「ビデオ共有サービスにおけるビデオレベルVCDは一般ビデオ共有サービスよりも容易」,「ビデオアライメントコンポーネントは短ビデオ共有サービスにおける検出性能を主に抑制している」の3つの効果が示された。
The short video-sharing services that allow users to post 10-30 second videos (e.g., YouTube Shorts and TikTok) have attracted a lot of attention in recent years. However, conventional video copy detection (VCD) methods mainly focus on general video-sharing services (e.g., YouTube and Bilibili), and the effects of short video-sharing services on video copy detection are still unclear. Considering that illegally copied videos in short video-sharing services have service-distinctive characteristics, especially in those time lengths, the pros and cons of VCD in those services are required to be analyzed. In this paper, we examine the effects of short video-sharing services on VCD by constructing a dataset that has short video-sharing service characteristics. Our novel dataset is automatically constructed from the publicly available dataset to have reference videos and fixed short-time-length query videos, and such automation procedures assure the reproducibility and data privacy preservation of this paper. From the experimental results focusing on segment-level and video-level situations, we can see that three effects: "Segment-level VCD in short video-sharing services is more difficult than those in general video-sharing services", "Video-level VCD in short video-sharing services is easier than those in general video-sharing services", "The video alignment component mainly suppress the detection performance in short video-sharing services". | 翻訳日:2024-03-28 18:55:29 公開日:2024-03-26 |
# 大規模言語モデルのための信号伝搬解析による量子化知識蒸留の改善
Oh! We Freeze: Improving Quantized Knowledge Distillation via Signal Propagation Analysis for Large Language Models ( http://arxiv.org/abs/2403.18159v1 ) ライセンス: Link先を確認 | Kartikeya Bhardwaj, Nilesh Prasad Pandey, Sweta Priyadarshi, Kyunggeun Lee, Jun Ma, Harris Teague, | (参考訳) 大規模言語モデル(LLM)や拡散モデルといった大きな生成モデルは、それぞれNLPとコンピュータビジョンの分野に革命をもたらした。
しかし、その遅い推論、高い計算とメモリ要求は、エッジデバイスへのデプロイを困難にしている。
本研究では,知識蒸留(KD-QAT)を用いた軽量量子化対応微調整手法を提案する。
低ビット量子化誤差に対するKD-QATベースのアプローチの脆弱性をよりよく理解するために、トレーニング中の勾配伝播を実証的に研究することで、KD-QATの安定性に関する洞察を提供する。
そこで本研究では, KD-QAT プロセスの安定化のための簡単な手法である ov-freeze を提案する。
最後に、一般的な7B LLaMAv2-Chatモデルを4ビット量子化レベルで実験し、ovフリーズが近距離浮動小数点精度、すなわちCommonsense Reasoningベンチマークで0.7%の精度の損失をもたらすことを示す。
Large generative models, such as large language models (LLMs) and diffusion models have as revolutionized the fields of NLP and computer vision respectively. However, their slow inference, high computation and memory requirement makes it challenging to deploy them on edge devices. In this study, we propose a light-weight quantization aware fine tuning technique using knowledge distillation (KD-QAT) to improve the performance of 4-bit weight quantized LLMs using commonly available datasets to realize a popular language use case, on device chat applications. To improve this paradigm of finetuning, as main contributions, we provide insights into stability of KD-QAT by empirically studying the gradient propagation during training to better understand the vulnerabilities of KD-QAT based approaches to low-bit quantization errors. Based on our insights, we propose ov-freeze, a simple technique to stabilize the KD-QAT process. Finally, we experiment with the popular 7B LLaMAv2-Chat model at 4-bit quantization level and demonstrate that ov-freeze results in near float-point precision performance, i.e., less than 0.7% loss of accuracy on Commonsense Reasoning benchmarks. | 翻訳日:2024-03-28 18:45:45 公開日:2024-03-26 |
# メンタルヘルスにおける大規模言語モデルの可能性とリスク
The opportunities and risks of large language models in mental health ( http://arxiv.org/abs/2403.14814v2 ) ライセンス: Link先を確認 | Hannah R. Lawrence, Renee A. Schneider, Susan B. Rubin, Maja J. Mataric, Daniel J. McDuff, Megan Jones Bell, | (参考訳) メンタルヘルスの国際レートは上昇しており、既存のメンタルヘルスのモデルが需要を満たすために適切に拡大しないという認識が高まっている。
大規模言語モデル(LLM)の出現は、メンタルヘルスをサポートする新しい大規模ソリューションを作成するという彼らの約束に関して、非常に楽観的になっている。
ナッセンスにもかかわらず、LSMはメンタルヘルス関連のタスクにすでに適用されている。
本稿では, LLMを用いたメンタルヘルス教育, 評価, 介入のための取り組みについて, 現状の文献を要約し, 地域ごとのポジティブな影響を浮き彫りにしている。
次に、LLMのメンタルヘルスへの応用に関連するリスクを強調し、これらのリスクを軽減するための戦略の導入を奨励する。
メンタルヘルス支援に対する緊急の要求は、メンタルヘルス LLM の開発、テスト、展開の責任とバランスをとらなければならない。
特に重要なのは、メンタルヘルスのLLMが、メンタルヘルスのために微調整され、メンタルヘルスのエクイティが向上し、倫理基準に準拠し、メンタルヘルスに関する経験を持つ人々を含む人々が、開発からデプロイメントまでのあらゆる段階に関わっていることを保証することである。
これらの努力の優先順位付けは、メンタルヘルスに対する潜在的な害を最小限に抑え、LLMが世界中のメンタルヘルスに肯定的な影響を与える可能性を最大化する。
Global rates of mental health concerns are rising and there is increasing realization that existing models of mental healthcare will not adequately expand to meet the demand. With the emergence of large language models (LLMs) has come great optimism regarding their promise to create novel, large-scale solutions to support mental health. Despite their nascence, LLMs have already been applied to mental health-related tasks. In this review, we summarize the extant literature on efforts to use LLMs to provide mental health education, assessment, and intervention and highlight key opportunities for positive impact in each area. We then highlight risks associated with LLMs application to mental health and encourage adoption of strategies to mitigate these risks. The urgent need for mental health support must be balanced with responsible development, testing, and deployment of mental health LLMs. Especially critical is ensuring that mental health LLMs are fine-tuned for mental health, enhance mental health equity, adhere to ethical standards, and that people, including those with lived experience with mental health concerns, are involved in all stages from development through deployment. Prioritizing these efforts will minimize potential harms to mental health and maximize the likelihood that LLMs will positively impact mental health globally. | 翻訳日:2024-03-28 11:38:34 公開日:2024-03-26 |
# Snail: セキュアな単一イテレーションローカライゼーション
Snail: Secure Single Iteration Localization ( http://arxiv.org/abs/2403.14916v2 ) ライセンス: Link先を確認 | James Choncholas, Pujith Kachana, André Mateus, Gregoire Phillips, Ada Gavrilovska, | (参考訳) ローカライゼーション(Localization)とは、画像と環境マップからカメラの位置と向きを決定するコンピュータビジョンタスクである。
まず、画像とマップが信頼できない第三者にローカライゼーションをオフロードしたいクライアントによって保持されている場合と、画像とマップが信頼できない第三者によって別々に保持されている場合の2つのシナリオをサポートするプライバシー保護方式でローカライゼーションを行う方法を提案する。
画像とマップが機密である場合には、プライバシ保護のローカライゼーションが必要であり、オフロードはデバイス上の電力を保持し、他のタスクのためのリソースを解放する。
そこで我々は,既存のローカライゼーション手法とマルチパーティ計算(MPC),特にガーブラード回路を統合し,最近の研究成果が脆弱である既存の難読化ベースのアプローチとは対照的に,証明ベースのセキュリティ保証を提供する。
本稿では,2つのローカライゼーション手法,ガーブロード回路に適したローカライゼーションのベースラインデータ公開型適応と,新しいシングルイテレーションローカライゼーションを提案する。
本手法は,入力画像,マップ,出力の機密性を保ちながら,通信ラウンドの増加を犠牲にして全体の性能を向上するが,ラウンド当たりの計算量や通信量を削減できる。
単一イテレーションのローカライゼーションは、入力画像、環境マップ、位置、またはサーバのオフロードに対する向きを明らかにすることなく、最初のロボットで実際の使用をオフロードすることが可能なローカライゼーションへのガーブレード回路の簡単な応用よりも2桁以上高速である。
Localization is a computer vision task by which the position and orientation of a camera is determined from an image and environmental map. We propose a method for performing localization in a privacy preserving manner supporting two scenarios: first, when the image and map are held by a client who wishes to offload localization to untrusted third parties, and second, when the image and map are held separately by untrusting parties. Privacy preserving localization is necessary when the image and map are confidential, and offloading conserves on-device power and frees resources for other tasks. To accomplish this we integrate existing localization methods and secure multi-party computation (MPC), specifically garbled circuits, yielding proof-based security guarantees in contrast to existing obfuscation-based approaches which recent related work has shown vulnerable. We present two approaches to localization, a baseline data-oblivious adaptation of localization suitable for garbled circuits and our novel Single Iteration Localization. Our technique improves overall performance while maintaining confidentiality of the input image, map, and output pose at the expense of increased communication rounds but reduced computation and communication required per round. Single Iteration Localization is over two orders of magnitude faster than a straightforward application of garbled circuits to localization enabling real-world usage in the first robot to offload localization without revealing input images, environmental map, position, or orientation to offload servers. | 翻訳日:2024-03-28 11:38:34 公開日:2024-03-26 |
# オープン環境におけるオブジェクト検出器:課題、解決策、展望
Object Detectors in the Open Environment: Challenges, Solutions, and Outlook ( http://arxiv.org/abs/2403.16271v2 ) ライセンス: Link先を確認 | Siyuan Liang, Wei Wang, Ruoyu Chen, Aishan Liu, Boxi Wu, Ee-Chien Chang, Xiaochun Cao, Dacheng Tao, | (参考訳) 基礎モデルの出現に伴い、深層学習に基づくオブジェクト検出器は、クローズドセットのシナリオで実用的なユーザビリティを示してきた。
しかし、現実世界のタスクでは、オブジェクト検出器は、しばしばオープンな環境で動作し、モデル学習に影響を与える重要な要因(例えば、データ分散、目的)が頻繁に変化している。
オープン環境のダイナミックで複雑な性質は、オブジェクト検出器に新しくて恐ろしい挑戦をもたらす。
残念ながら、現在のオープン環境におけるオブジェクト検出器の研究は、それらの特徴、課題、およびそれに対応するソリューションの包括的な分析を欠いている。
本稿では,オープン環境における物体検出装置の総合的なレビューと解析を行うことにより,このギャップを埋めることを目的とする。
当初我々は、既存の検出パイプラインにおける重要な構造コンポーネントの制限を特定し、データ/ターゲットの変化の次元に基づいて、4つの四分法(領域外、カテゴリ外、堅牢な学習、漸進的な学習)を含むオープン環境オブジェクト検出挑戦フレームワークを提案しました。
提案するフレームワークにおける課題の4つごとに,その概要と課題の体系的な説明と分析を行い,対応するソリューションを体系的にレビューし,複数の広く採用されているデータセットに対してその性能をベンチマークする。
また,オープンな問題と今後の研究への潜在的道筋についても議論する。
本研究の目的は、オープン環境オブジェクト検出器に関連する課題と解決策について、新しく、包括的で体系的な理解を提供することであり、現実のシナリオにおけるより堅牢なアプリケーションの開発を促進することである。
この調査に関連するプロジェクトはhttps://github.com/LiangSiyuan21/OEOD_Survey.comにある。
With the emergence of foundation models, deep learning-based object detectors have shown practical usability in closed set scenarios. However, for real-world tasks, object detectors often operate in open environments, where crucial factors (e.g., data distribution, objective) that influence model learning are often changing. The dynamic and intricate nature of the open environment poses novel and formidable challenges to object detectors. Unfortunately, current research on object detectors in open environments lacks a comprehensive analysis of their distinctive characteristics, challenges, and corresponding solutions, which hinders their secure deployment in critical real-world scenarios. This paper aims to bridge this gap by conducting a comprehensive review and analysis of object detectors in open environments. We initially identified limitations of key structural components within the existing detection pipeline and propose the open environment object detector challenge framework that includes four quadrants (i.e., out-of-domain, out-of-category, robust learning, and incremental learning) based on the dimensions of the data / target changes. For each quadrant of challenges in the proposed framework, we present a detailed description and systematic analysis of the overarching goals and core difficulties, systematically review the corresponding solutions, and benchmark their performance over multiple widely adopted datasets. In addition, we engage in a discussion of open problems and potential avenues for future research. This paper aims to provide a fresh, comprehensive, and systematic understanding of the challenges and solutions associated with open-environment object detectors, thus catalyzing the development of more solid applications in real-world scenarios. A project related to this survey can be found at https://github.com/LiangSiyuan21/OEOD_Survey. | 翻訳日:2024-03-28 11:38:34 公開日:2024-03-26 |
# MEDDAP: 多様化パイプラインによる医療データセットの強化
MEDDAP: Medical Dataset Enhancement via Diversified Augmentation Pipeline ( http://arxiv.org/abs/2403.16335v2 ) ライセンス: Link先を確認 | Yasamin Medghalchi, Niloufar Zakariaei, Arman Rahmim, Ilker Hacihaliloglu, | (参考訳) ディープニューラルネットワーク(DNN)の有効性は、利用可能なトレーニングデータの豊富さと正確性に大きく依存している。
しかし、特に医療従事者がすでに業務に従事している場合において、大規模なデータ収集や注釈付けは費用がかかり、時間もかかることが多い。
さらに, 医療領域において, 異なる装置の設定やトランスデューサの手動操作によって異なる超音波画像を扱う場合, 画像キャプチャの様々なシナリオにおいて, モデルが堅牢であることを保証することが重要である。
この課題に対処するため、我々はMEDDAPと呼ばれる新しいパイプラインを導入し、Stable Diffusion(SD)モデルを利用して既存の小さなデータセットを拡張し、新しい情報付きラベル付きサンプルを自動的に生成する。
SDの事前訓練されたチェックポイントは、通常、自然なイメージに基づいており、医療画像のためにそれらをトレーニングするには、重いパラメータのためにかなりのGPUリソースが必要である。
この課題を克服するために,超音波応用に特化した新しい微調整法であるUSLoRA(Ultrasound Low-Rank Adaptation)を導入する。
USLoRAはSD内の重量を選択的に微調整することを可能にし、SDのUNet部分のみを完全微調整するのに対してパラメータは0.1 %未満である。
データセットの多様性を高めるために、私たちは異なる形容詞を生成プロセスのプロンプトに組み込んで、異なる画像間での強度変化に対する分類器の認識を減らした。
このアプローチは、乳がんに関する臨床医の意思決定プロセスに触発され、腫瘍の形状が強度よりも重要な役割を担っていることが多い。
結論として、私たちのパイプラインは、元のデータセットでトレーニングされた分類器を上回るだけでなく、目に見えないデータセットに遭遇する際の優れたパフォーマンスも示しています。
ソースコードはhttps://github.com/yasamin-med/MEDDAPで入手できる。
The effectiveness of Deep Neural Networks (DNNs) heavily relies on the abundance and accuracy of available training data. However, collecting and annotating data on a large scale is often both costly and time-intensive, particularly in medical cases where practitioners are already occupied with their duties. Moreover, ensuring that the model remains robust across various scenarios of image capture is crucial in medical domains, especially when dealing with ultrasound images that vary based on the settings of different devices and the manual operation of the transducer. To address this challenge, we introduce a novel pipeline called MEDDAP, which leverages Stable Diffusion (SD) models to augment existing small datasets by automatically generating new informative labeled samples. Pretrained checkpoints for SD are typically based on natural images, and training them for medical images requires significant GPU resources due to their heavy parameters. To overcome this challenge, we introduce USLoRA (Ultrasound Low-Rank Adaptation), a novel fine-tuning method tailored specifically for ultrasound applications. USLoRA allows for selective fine-tuning of weights within SD, requiring fewer than 0.1\% of parameters compared to fully fine-tuning only the UNet portion of SD. To enhance dataset diversity, we incorporate different adjectives into the generation process prompts, thereby desensitizing the classifiers to intensity changes across different images. This approach is inspired by clinicians' decision-making processes regarding breast tumors, where tumor shape often plays a more crucial role than intensity. In conclusion, our pipeline not only outperforms classifiers trained on the original dataset but also demonstrates superior performance when encountering unseen datasets. The source code is available at https://github.com/yasamin-med/MEDDAP. | 翻訳日:2024-03-28 11:38:34 公開日:2024-03-26 |
# 足のロコマニピュレーションのための視覚全体制御
Visual Whole-Body Control for Legged Loco-Manipulation ( http://arxiv.org/abs/2403.16967v2 ) ライセンス: Link先を確認 | Minghuan Liu, Zixuan Chen, Xuxin Cheng, Yandong Ji, Ruihan Yang, Xiaolong Wang, | (参考訳) そこで本研究では,ロボットアームを装着したロボットによる移動操作の問題点について検討する。
ロボットの脚は、通常移動のために使用されるが、全身制御を行うことで操作能力を増幅する機会を提供する。
つまり、ロボットは足と腕を同時に制御し、ワークスペースを拡張する。
視覚的観察により全身制御を自律的に行うことのできる枠組みを提案する。
当社のアプローチであるVisual Whole-Body Control(VBC)は、すべての自由度を用いて、エンドエフェクタマニピュレータの位置を追跡する低レベルポリシーと、視覚入力に基づいてエンドエフェクタ位置を提案する高レベルポリシーで構成されている。
シミュレーションにおける両レベルのポリシーをトレーニングし、実際のロボット展開のためのSim2Real転送を実行する。
さまざまな構成(高さ、位置、方向)と環境において、さまざまなオブジェクトを拾う際に、大規模な実験を行い、ベースラインよりも大幅に改善した。
プロジェクトページ: https://wholebody-b1.github.io
We study the problem of mobile manipulation using legged robots equipped with an arm, namely legged loco-manipulation. The robot legs, while usually utilized for mobility, offer an opportunity to amplify the manipulation capabilities by conducting whole-body control. That is, the robot can control the legs and the arm at the same time to extend its workspace. We propose a framework that can conduct the whole-body control autonomously with visual observations. Our approach, namely Visual Whole-Body Control(VBC), is composed of a low-level policy using all degrees of freedom to track the end-effector manipulator position and a high-level policy proposing the end-effector position based on visual inputs. We train both levels of policies in simulation and perform Sim2Real transfer for real robot deployment. We perform extensive experiments and show significant improvements over baselines in picking up diverse objects in different configurations (heights, locations, orientations) and environments. Project page: https://wholebody-b1.github.io | 翻訳日:2024-03-28 11:38:34 公開日:2024-03-26 |
# 信頼度追従検出:リアルタイム追従検出システムの高速化
Confidence-Triggered Detection: Accelerating Real-time Tracking-by-detection Systems ( http://arxiv.org/abs/1902.00615v3 ) ライセンス: Link先を確認 | Zhicheng Ding, Zhixin Lai, Siyang Li, Edward Wong, | (参考訳) リアルタイム物体追跡は、ディープラーニング手法の計算要求によってさらに悪化する課題である、速度と精度の微妙なバランスを必要とする。
本稿では,中間状態によく似たフレームに対するオブジェクト検出を戦略的に回避し,トラッカーの信頼度を生かしたCTD(Confidence-Triggered Detection)を提案する。
CTDは追跡速度を向上するだけでなく、既存の追跡アルゴリズムを超越して精度も維持する。
種々のトラッカー信頼度しきい値の広範な評価を通じて,トラッキング速度と精度の最適なトレードオフを特定し,パラメータの微調整と実世界のシナリオにおけるCTDの実用性向上に重要な洞察を与える。
各種検出モデルを用いた実験により,CTDフレームワークの堅牢性と汎用性を実証し,資源制約環境におけるリアルタイムトラッキングの実現の可能性を示した。
Real-time object tracking necessitates a delicate balance between speed and accuracy, a challenge exacerbated by the computational demands of deep learning methods. In this paper, we propose Confidence-Triggered Detection (CTD), an innovative approach that strategically bypasses object detection for frames closely resembling intermediate states, leveraging tracker confidence scores. CTD not only enhances tracking speed but also preserves accuracy, surpassing existing tracking algorithms. Through extensive evaluation across various tracker confidence thresholds, we identify an optimal trade-off between tracking speed and accuracy, providing crucial insights for parameter fine-tuning and enhancing CTD's practicality in real-world scenarios. Our experiments across diverse detection models underscore the robustness and versatility of the CTD framework, demonstrating its potential to enable real-time tracking in resource-constrained environments. | 翻訳日:2024-03-28 02:25:02 公開日:2024-03-26 |
# 変数係数を持つ偏微分方程式のベイズ的データ駆動発見
Bayesian data-driven discovery of partial differential equations with variable coefficients ( http://arxiv.org/abs/2102.01432v2 ) ライセンス: Link先を確認 | Aoxue Chen, Yifan Du, Liyao Mars Gao, Guang Lin, | (参考訳) 偏微分方程式 (Partial Differential Equations, PDE) の発見は、応用科学と工学にとって不可欠な課題である。
しかし、データ駆動によるPDEの発見は一般に困難であり、主に発見された方程式のノイズに対する感度とモデル選択の複雑さから生じる。
本研究では,変数係数を用いたPDE発見のための高度なベイズスパース学習アルゴリズムを提案する。
具体的には、ベイズ群ラッソ回帰をスパイク・アンド・スラブ先行 (tBGL-SS) を用いて適用し、ギブス試料を用いてPDE係数の後方推定を行う。
このアプローチは、有効な不確実性定量化を伴う点推定のロバスト性を高めるだけでなく、近似MCMC法として係数しきい値の統合を通じてベイズ推論からの計算負担を緩和する。
さらに,不確かさの定量化から,モデル選択におけるベイズ的総誤差バー基準を提案し,根元平均平方法や赤池情報基準などの古典的指標より優れていることを示す。
この手法の能力は、参照シミュレーションから得られた解データから空間的あるいは時間的に異なる係数を持つ古典的ベンチマークPDEの発見によって示される。
実験の結果, tBGL-SS法は, 雑音環境下でのベースライン法よりも頑健であり, 正規化経路に沿ったモデル選択基準が良好であることがわかった。
The discovery of Partial Differential Equations (PDEs) is an essential task for applied science and engineering. However, data-driven discovery of PDEs is generally challenging, primarily stemming from the sensitivity of the discovered equation to noise and the complexities of model selection. In this work, we propose an advanced Bayesian sparse learning algorithm for PDE discovery with variable coefficients, predominantly when the coefficients are spatially or temporally dependent. Specifically, we apply threshold Bayesian group Lasso regression with a spike-and-slab prior (tBGL-SS) and leverage a Gibbs sampler for Bayesian posterior estimation of PDE coefficients. This approach not only enhances the robustness of point estimation with valid uncertainty quantification but also relaxes the computational burden from Bayesian inference through the integration of coefficient thresholds as an approximate MCMC method. Moreover, from the quantified uncertainties, we propose a Bayesian total error bar criteria for model selection, which outperforms classic metrics including the root mean square and the Akaike information criterion. The capability of this method is illustrated by the discovery of several classical benchmark PDEs with spatially or temporally varying coefficients from solution data obtained from the reference simulations. In the experiments, we show that the tBGL-SS method is more robust than the baseline methods under noisy environments and provides better model selection criteria along the regularization path. | 翻訳日:2024-03-28 02:25:02 公開日:2024-03-26 |
# 階層的注意を伴う視覚変換器
Vision Transformers with Hierarchical Attention ( http://arxiv.org/abs/2106.03180v5 ) ライセンス: Link先を確認 | Yun Liu, Yu-Huan Wu, Guolei Sun, Le Zhang, Ajad Chhatkuli, Luc Van Gool, | (参考訳) 本稿では,バニラ視覚変換器におけるMHSA(Multi-Head Self-Attention)に関連する計算・空間の複雑さに対処する。
この目的のために,階層型MHSA (H-MHSA) を提案する。
具体的には、まず入力画像を通常行われているパッチに分割し、各パッチをトークンとして見る。
提案したH-MHSAは,局所パッチ内のトークン関係を学習し,局所的関係モデルとして機能する。
その後、小さなパッチはより大きなパッチにマージされ、H-MHSAはマージされたトークンの少数に対するグローバルな依存関係をモデル化する。
最終的に、局所的および大域的注意機能は集約され、強力な表現能力を持つ特徴を得る。
各ステップで限られた数のトークンにのみ注目するので、計算負荷は劇的に減少する。
したがって、H-MHSAはきめ細かい情報を犠牲にすることなく、トークン間のグローバルな関係を効率的にモデル化することができる。
H-MHSAモジュールを組み込んだ階層型トランスフォーマーネットワーク(HAT-Net)のファミリを構築する。
本研究では,シーン理解におけるHAT-Netの優位性を示すために,画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションといった基本的なビジョンタスクについて広範な実験を行った。
したがって、HAT-Netはビジョントランスフォーマーの新しい視点を提供する。
コードと事前訓練されたモデルはhttps://github.com/yun-liu/HAT-Net.comで入手できる。
This paper tackles the high computational/space complexity associated with Multi-Head Self-Attention (MHSA) in vanilla vision transformers. To this end, we propose Hierarchical MHSA (H-MHSA), a novel approach that computes self-attention in a hierarchical fashion. Specifically, we first divide the input image into patches as commonly done, and each patch is viewed as a token. Then, the proposed H-MHSA learns token relationships within local patches, serving as local relationship modeling. Then, the small patches are merged into larger ones, and H-MHSA models the global dependencies for the small number of the merged tokens. At last, the local and global attentive features are aggregated to obtain features with powerful representation capacity. Since we only calculate attention for a limited number of tokens at each step, the computational load is reduced dramatically. Hence, H-MHSA can efficiently model global relationships among tokens without sacrificing fine-grained information. With the H-MHSA module incorporated, we build a family of Hierarchical-Attention-based Transformer Networks, namely HAT-Net. To demonstrate the superiority of HAT-Net in scene understanding, we conduct extensive experiments on fundamental vision tasks, including image classification, semantic segmentation, object detection, and instance segmentation. Therefore, HAT-Net provides a new perspective for vision transformers. Code and pretrained models are available at https://github.com/yun-liu/HAT-Net. | 翻訳日:2024-03-28 02:19:20 公開日:2024-03-26 |
# 軽量で安定なニューラル層
A Lightweight and Gradient-Stable Neural Layer ( http://arxiv.org/abs/2106.04088v4 ) ライセンス: Link先を確認 | Yueyao Yu, Yin Zhang, | (参考訳) ニューラルネットワークの資源効率とモデル展開性を向上させるため,世帯重み付けと絶対値活性化に基づくニューラルネットワークアーキテクチャを提案する。
完全に連結された$d$-neuronsと$d$出力の層と比較して、Han層はパラメータの数とそれに対応する計算複雑性を$O(d^2)$から$O(d)$に還元する。
ハン層構造は、層関数のジャコビアンは常に直交であることを保証するので、任意のハン層サブネットに対して勾配安定性(すなわち、勾配の消失や爆発的な問題のない)が保証される。
} 広汎な数値実験により,ハン層を戦略的に利用して完全に連結された(FC)層を置き換えることができ,一般化性能を維持したり改善したりしながら,モデルパラメータの数を削減できることがわかった。
また、いくつかの小さなスタイリングモデル上でHan層アーキテクチャの機能についても紹介し、その現在の制限について論じる。
To enhance resource efficiency and model deployability of neural networks, we propose a neural-layer architecture based on Householder weighting and absolute-value activating, called Householder-absolute neural layer or simply Han-layer. Compared to a fully connected layer with $d$-neurons and $d$ outputs, a Han-layer reduces the number of parameters and the corresponding computational complexity from $O(d^2)$ to $O(d)$. {The Han-layer structure guarantees that the Jacobian of the layer function is always orthogonal, thus ensuring gradient stability (i.e., free of gradient vanishing or exploding issues) for any Han-layer sub-networks.} Extensive numerical experiments show that one can strategically use Han-layers to replace fully connected (FC) layers, reducing the number of model parameters while maintaining or even improving the generalization performance. We will also showcase the capabilities of the Han-layer architecture on a few small stylized models, and discuss its current limitations. | 翻訳日:2024-03-28 02:19:20 公開日:2024-03-26 |
# 量子投影ゴーストイメージング
Quantum projection ghost imaging ( http://arxiv.org/abs/2108.01037v2 ) ライセンス: Link先を確認 | De-Zhong Cao, Su-Heng Zhang, Ya-Nan Zhao, Cheng Ren, Jun Zhang, Baolai Liang, Baoqing Sun, Kaige Wang, | (参考訳) 計算ゴーストイメージングの量子理論を確立し、特定の光子数バケット信号とDMDランダムパターンの量子統計的相関により、対象情報を再構成できる量子投影画像を提案する。
再構成された画像は、選択された光子数に応じて負または正となる。
特に、真空状態(ゼロナンバー)投影は、可視性とコントラスト-ノイズ比が良い負の画像を生成する。
量子プロジェクションイメージングの実験結果は、理論シミュレーションとよく一致し、同じ測定条件下では、真空プロジェクションイメージングは、低照度照明における従来の高速な1光子ゴーストイメージングよりも優れていることを示す。
We establish a quantum theory of computational ghost imaging and propose quantum projection imaging where object information can be reconstructed by quantum statistical correlation between a certain photon number of bucket signal and DMD random patterns. The reconstructed image can be negative or positive depending on the chosen photon number. In particular, the vacuum state (zero-number) projection produces a negative image with better visibility and contrast-to-noise ratio. The experimental results of quantum projection imaging agree well with theoretical simulations and show that, under the same measurement condition, vacuum projection imaging is superior to conventional and fast first-photon ghost imaging in low-light illumination. | 翻訳日:2024-03-28 02:19:20 公開日:2024-03-26 |
# ラベルなしデータによる半監督された群衆数
Semi-Supervised Crowd Counting from Unlabeled Data ( http://arxiv.org/abs/2108.13969v3 ) ライセンス: Link先を確認 | Haoran Duan, Fan Wan, Rui Sun, Zeyu Wang, Varun Ojha, Yu Guan, Hubert P. H. Shum, Bingzhang Hu, Yang Long, | (参考訳) 群衆の自動行動分析は、スマートシティの構築に役立つ日々の交通統計と計画を効果的に支援するために適用することができる。
最も重要な鍵の1つとして、群衆の数え上げが注目を集めている。
最近の研究は有望なパフォーマンスを達成したが、高価な群衆アノテーションで監督されたパラダイムに依存していた。
実世界の交通シナリオにおけるアノテーションのコストを軽減するため、我々は半教師付き学習フレームワークである$S^{4}\textit{Crowd}$を提案しました。
教師なし経路では,2つの「textit{self-supervised loss}」が提案され,スケールや照明などの群集の変動をシミュレートした。
また, 2次統計を抽出し, 質を向上した擬似ラベルを生成することにより, 差別的な群集情報を保存できる, 集団駆動の反復単位 \textit{Gated-Crowd-Recurrent-Unit (GCRU) を提案した。
教師なし情報と教師なし情報の両方を含む共同損失が提案され, 異なる訓練段階における教師なし情報と教師なし情報の重要性のバランスをとるために, 動的重み付け戦略が採用された。
半教師付き環境下で,4つの人気のある群集カウントデータセットについて広範な実験を行った。
実験結果は、S^{4}$Crowdフレームワークで提案された各コンポーネントの有効性を支持した。
本手法は,これらの群集カウントデータセットを用いた半教師付き学習手法において,競争性能を達成した。
Automatic Crowd behavior analysis can be applied to effectively help the daily transportation statistics and planning, which helps the smart city construction. As one of the most important keys, crowd counting has drawn increasing attention. Recent works achieved promising performance but relied on the supervised paradigm with expensive crowd annotations. To alleviate the annotation cost in real-world transportation scenarios, in this work we proposed a semi-supervised learning framework $S^{4}\textit{Crowd}$, which can leverage both unlabeled/labeled data for robust crowd counting. In the unsupervised pathway, two \textit{self-supervised losses} were proposed to simulate the crowd variations such as scale, illumination, based on which supervised information pseudo labels were generated and gradually refined. We also proposed a crowd-driven recurrent unit \textit{Gated-Crowd-Recurrent-Unit (GCRU)}, which can preserve discriminant crowd information by extracting second-order statistics, yielding pseudo labels with improved quality. A joint loss including both unsupervised/supervised information was proposed, and a dynamic weighting strategy was employed to balance the importance of the unsupervised loss and supervised loss at different training stages. We conducted extensive experiments on four popular crowd counting datasets in semi-supervised settings. Experimental results supported the effectiveness of each proposed component in our $S^{4}$Crowd framework. Our method achieved competitive performance in semi-supervised learning approaches on these crowd counting datasets. | 翻訳日:2024-03-28 02:19:20 公開日:2024-03-26 |
# ロボットハンドの操作を支援するハプティックグローブ強化用人間の意図に基づく姿勢推定と予測
Attention-based Estimation and Prediction of Human Intent to augment Haptic Glove aided Control of Robotic Hand ( http://arxiv.org/abs/2110.07953v2 ) ライセンス: Link先を確認 | Muneeb Ahmed, Rajesh Kumar, Qaim Abbas, Brejesh Lall, Arzad A. Kherani, Sudipto Mukherjee, | (参考訳) 手紙は、特定の関心の対象を手動で操作するロボットハンド(RH)のハプティックグローブ(HG)に基づく制御に焦点を当てている。
HGとRHの高次元運動信号は、固有変数を持つため、HGからRHへの運動信号の直接マッピングの確立が困難となる。
ロボットハンドで保持されている物体の目的のポーズに関連して,人間の制御器から取得した動作信号を定量化するための推定機構を提案する。
制御アルゴリズムが提示され、RHにおける合成意図を変換し、期待されたゴールポーズへのオブジェクトの移動を可能にする。
通信遅延の存在下での意図の合成の遅れは、推定された意図を予測する必要性につながる。
我々は、注意に基づく畳み込みニューラルネットワークエンコーダを利用して、特定のルックアヘッドに対する意図の軌跡を予測し、遅延を補う。
提案手法は, 形状, 質量, 材料が異なる対象に対して評価される。
ベンチマーク手法に対する5G駆動型実世界のロボットシステムにおける推定・予測機構の比較性能について述べる。
ヒトの意図を予測するテストMSEは、LSTMベースのベンチマークと比較して精度が97.3-98.7%向上したと報告されている。
The letter focuses on Haptic Glove (HG) based control of a Robotic Hand (RH) executing in-hand manipulation of certain objects of interest. The high dimensional motion signals in HG and RH possess intrinsic variability of kinematics resulting in difficulty to establish a direct mapping of the motion signals from HG onto the RH. An estimation mechanism is proposed to quantify the motion signal acquired from the human controller in relation to the intended goal pose of the object being held by the robotic hand. A control algorithm is presented to transform the synthesized intent at the RH and allow relocation of the object to the expected goal pose. The lag in synthesis of the intent in the presence of communication delay leads to a requirement of predicting the estimated intent. We leverage an attention-based convolutional neural network encoder to predict the trajectory of intent for a certain lookahead to compensate for the delays. The proposed methodology is evaluated across objects of different shapes, mass, and materials. We present a comparative performance of the estimation and prediction mechanisms on 5G-driven real-world robotic setup against benchmark methodologies. The test-MSE in prediction of human intent is reported to yield ~ 97.3 -98.7% improvement of accuracy in comparison to LSTM-based benchmark | 翻訳日:2024-03-28 02:19:20 公開日:2024-03-26 |
# タイムアウェアな文書埋め込みによる話題の検出と追跡
Topic Detection and Tracking with Time-Aware Document Embeddings ( http://arxiv.org/abs/2112.06166v2 ) ライセンス: Link先を確認 | Hang Jiang, Doug Beeferman, Weiquan Mao, Deb Roy, | (参考訳) メッセージが通信される時間は、トピック検出やトラッキング(TDT)など、多くの現実世界の自然言語処理タスクにおいて、メタデータの重要な部分である。
TDTシステムは、ニュース記事のコーパスをイベント毎にクラスタ化することを目的としており、そのコンテキストでは、同じイベントを記述したストーリーが、ほぼ同時に書かれた可能性が高い。
TDTの時間モデリングに関する以前の研究は、これを考慮に入れているが、イベントのセマンティックな性質と時間がどのように相互作用するかをうまく捉えていない。
例えば、熱帯の嵐の話は短い間隔で書かれる傾向があり、映画公開の話は数週間から数ヶ月にわたって現れることがある。
本研究では、時間的・テキスト的な情報をイベント検出のためのニュース文書の1つの表現に融合するニューラルな手法を設計する。
我々は、これらのタイムアウェアな文書埋め込みをトリプルトロスアーキテクチャで微調整し、そのモデルを下流のTDTシステムに統合し、2つのベンチマークTDTデータセットのシステム評価を行う。
振り返り設定では、クラスタリングアルゴリズムをタイムアウェアな埋め込みに適用し、News2013データセットのベースラインよりも大幅に改善したことを示す。
オンラインストリーミング環境では、既存の最先端のTDTパイプラインにドキュメントエンコーダを追加し、パフォーマンス全体のメリットを実証します。
我々は時間表現と融合アルゴリズムの戦略に関するアブレーション研究を行い、提案手法が代替戦略より優れていることを示す。
最後に,従来のTDTシステムよりも効率的に繰り返しイベントを処理する方法について検討する。
The time at which a message is communicated is a vital piece of metadata in many real-world natural language processing tasks such as Topic Detection and Tracking (TDT). TDT systems aim to cluster a corpus of news articles by event, and in that context, stories that describe the same event are likely to have been written at around the same time. Prior work on time modeling for TDT takes this into account, but does not well capture how time interacts with the semantic nature of the event. For example, stories about a tropical storm are likely to be written within a short time interval, while stories about a movie release may appear over weeks or months. In our work, we design a neural method that fuses temporal and textual information into a single representation of news documents for event detection. We fine-tune these time-aware document embeddings with a triplet loss architecture, integrate the model into downstream TDT systems, and evaluate the systems on two benchmark TDT data sets in English. In the retrospective setting, we apply clustering algorithms to the time-aware embeddings and show substantial improvements over baselines on the News2013 data set. In the online streaming setting, we add our document encoder to an existing state-of-the-art TDT pipeline and demonstrate that it can benefit the overall performance. We conduct ablation studies on the time representation and fusion algorithm strategies, showing that our proposed model outperforms alternative strategies. Finally, we probe the model to examine how it handles recurring events more effectively than previous TDT systems. | 翻訳日:2024-03-28 02:19:20 公開日:2024-03-26 |
# ブローケンワイヤ : CCS電気自動車充電のワイヤレス破壊
Brokenwire : Wireless Disruption of CCS Electric Vehicle Charging ( http://arxiv.org/abs/2202.02104v2 ) ライセンス: Link先を確認 | Sebastian Köhler, Richard Baker, Martin Strohmeier, Ivan Martinovic, | (参考訳) 本稿では,電気自動車(EV)の直流急速充電技術として最も広く利用されているコンバインド充電システムに対する新たな攻撃を提案する。
私たちの攻撃であるBrokenwireは、車両と充電器の間の必要な制御通信を中断し、充電セッションを中断します。
この攻撃は一時的な物理的近接しか必要とせず、遠隔地から無線で行うことができ、個々の車両や全艦隊を密かに同時に破壊することができる。
さらに、市販の無線ハードウェアと最小限の技術知識を搭載できる。
CSMA/CAの動作を活用することで、通信を妨害するためには、非常に弱い信号のみを被害者に誘導する必要がある。
悪用された振る舞いはHomePlug Green PHY、DIN 70121およびISO 15118標準の必須部分であり、すべての既知の実装がそれを示す。
われわれはまず、制御されたテストベッドで攻撃を調査し、実際の展開で8台の車両と20台の充電器に対してそれを実証した。
この攻撃は、ビルの床(例えば、多階建ての駐車場)、周囲のフェンス、そして「ドライブ・バイ・アタック(drive-by)」からの攻撃の間でも有効であることを示す。
所定の出力パワーに対して同時に攻撃できる車両数を推定するヒューリスティックモデルを提案する。
ブローケンワイヤは、世界中の道路で約1200万台の電気自動車のかなりの割合に直ちに影響し、民間および重要な公共サービス、さらには電気バス、トラック、小型船など、車両車両の電化の新しい波に大きな影響を与えている。
そのため、業界への開示を行い、影響を抑えるために展開できる様々な緩和技術について議論した。
We present a novel attack against the Combined Charging System, one of the most widely used DC rapid charging technologies for electric vehicles (EVs). Our attack, Brokenwire, interrupts necessary control communication between the vehicle and charger, causing charging sessions to abort. The attack requires only temporary physical proximity and can be conducted wirelessly from a distance, allowing individual vehicles or entire fleets to be disrupted stealthily and simultaneously. In addition, it can be mounted with off-the-shelf radio hardware and minimal technical knowledge. By exploiting CSMA/CA behavior, only a very weak signal needs to be induced into the victim to disrupt communication - exceeding the effectiveness of broadband noise jamming by three orders of magnitude. The exploited behavior is a required part of the HomePlug Green PHY, DIN 70121 & ISO 15118 standards and all known implementations exhibit it. We first study the attack in a controlled testbed and then demonstrate it against eight vehicles and 20 chargers in real deployments. We find the attack to be successful in the real world, at ranges up to 47 m, for a power budget of less than 1 W. We further show that the attack can work between the floors of a building (e.g., multi-story parking), through perimeter fences, and from `drive-by' attacks. We present a heuristic model to estimate the number of vehicles that can be attacked simultaneously for a given output power. Brokenwire has immediate implications for a substantial proportion of the around 12 million battery EVs on the roads worldwide - and profound effects on the new wave of electrification for vehicle fleets, both for private enterprise and crucial public services, as well as electric buses, trucks and small ships. As such, we conducted a disclosure to the industry and discussed a range of mitigation techniques that could be deployed to limit the impact. | 翻訳日:2024-03-28 02:19:20 公開日:2024-03-26 |
# 量子ラビ・ハミルトンの半古典的極限を定義する
Defining the semiclassical limit of the quantum Rabi Hamiltonian ( http://arxiv.org/abs/2203.17147v3 ) ライセンス: Link先を確認 | E. K. Twyeffort Irish, A. D. Armour, | (参考訳) 半古典的ラビモデルにおける量子から半古典的挙動への交差は、驚くべきことに、それでも完全で厳密な理解が欠けている。
ここでは、半古典的モデルを量子ハミルトニアンから直接導出するための形式主義が展開される。
置換されたフォック状態基底 $\lvert \alpha, n \rangle$ で作用すると、半古典的極限は $\lvert \alpha \to \infty$ と 0 との結合をとることによって得られる。
これにより、コヒーレント状態力学と半古典的ラビ振動の標準系と超強結合/駆動系の両方における相違が解決される。
さらに、量子-古典遷移の研究のためのフレームワークと、量子技術への潜在的な応用を提供する。
The crossover from quantum to semiclassical behavior in the seminal Rabi model of light-matter interaction still, surprisingly, lacks a complete and rigorous understanding. A formalism for deriving the semiclassical model directly from the quantum Hamiltonian is developed here. Working in a displaced Fock-state basis $\lvert \alpha, n \rangle$, the semiclassical limit is obtained by taking $\lvert \alpha \rvert \to \infty$ and the coupling to zero. This resolves the discrepancy between coherent-state dynamics and semiclassical Rabi oscillations in both standard and ultrastrong coupling/driving regimes. Furthermore, it provides a framework for studying the quantum-to-classical transition, with potential applications in quantum technologies. | 翻訳日:2024-03-28 02:19:20 公開日:2024-03-26 |
# 可変化を考慮した半平板ニュートン確率的近位点アルゴリズム
A Semismooth Newton Stochastic Proximal Point Algorithm with Variance Reduction ( http://arxiv.org/abs/2204.00406v3 ) ライセンス: Link先を確認 | Andre Milzarek, Fabian Schaipp, Michael Ulbrich, | (参考訳) 弱凸, 複合最適化問題に対して, 実装可能な確率的近位点(SPP)法を開発した。
確率的近位点アルゴリズムは分散低減機構を組み込んでおり、その結果のSPP更新は不正確な半滑らかなニュートンフレームワークを用いて解決される。
本研究では, SPP ステップの不完全性を考慮し, 確率的分散還元勾配法における既存の収束保証に従って, 詳細な収束結果を確立する。
数値実験により,提案アルゴリズムは他の最先端手法と良好に競合し,ステップサイズの選択に関して高いロバスト性を実現することが示された。
We develop an implementable stochastic proximal point (SPP) method for a class of weakly convex, composite optimization problems. The proposed stochastic proximal point algorithm incorporates a variance reduction mechanism and the resulting SPP updates are solved using an inexact semismooth Newton framework. We establish detailed convergence results that take the inexactness of the SPP steps into account and that are in accordance with existing convergence guarantees of (proximal) stochastic variance-reduced gradient methods. Numerical experiments show that the proposed algorithm competes favorably with other state-of-the-art methods and achieves higher robustness with respect to the step size selection. | 翻訳日:2024-03-28 02:19:20 公開日:2024-03-26 |
# FedCau: コミュニケーションと計算の効果的なフェデレーション学習のための積極的なストップポリシー
FedCau: A Proactive Stop Policy for Communication and Computation Efficient Federated Learning ( http://arxiv.org/abs/2204.07773v2 ) ライセンス: Link先を確認 | Afsaneh Mahmoudi, Hossein S. Ghadikolaei, José Mairton Barros Da Silva Júnior, Carlo Fischione, | (参考訳) 本稿では,無線機器の無線ネットワーク上でのフェデレート学習(FL)モデルの効率的な分散訓練について検討する。
分散トレーニングアルゴリズムの通信イテレーションは、デバイスのバックグラウンドトラフィック、パケット損失、混雑、あるいは遅延の影響により、大幅に劣化またはブロックされる可能性がある。
本稿では,コミュニケーション計算の影響を「料金」として抽象化し,この問題に対処するためのコスト認識型因果FLアルゴリズム~(FedCau)を提案する。
本稿では,トレーニング性能とネットワークコストをトレードオフする反復終了法を提案する。
本稿では、クライアントがスロット付きALOHA、衝突回避によるキャリアセンス多重アクセス(CSMA/CA)、直交周波数分割多重アクセス(OFDMA)プロトコルを使用する場合に適用する。
総費用がかかると、背景通信トラフィックやトレーニング問題の寸法が増大するにつれて、トレーニング性能が低下することを示す。
本研究は,不必要な通信計算コストを回避するために,最適コスト効率の維持基準を積極的に設計することの重要性を実証するものである。
MNISTデータセット上でFLのトレーニングと試験を行い,本手法の有効性を検証した。
最後に,本手法を文献から既存の通信効率の高いFL手法に適用し,さらなる効率性を実現する。
無線ネットワーク上での実用FLの成功には,コスト効率のよい停止基準が不可欠である。
This paper investigates efficient distributed training of a Federated Learning~(FL) model over a wireless network of wireless devices. The communication iterations of the distributed training algorithm may be substantially deteriorated or even blocked by the effects of the devices' background traffic, packet losses, congestion, or latency. We abstract the communication-computation impacts as an `iteration cost' and propose a cost-aware causal FL algorithm~(FedCau) to tackle this problem. We propose an iteration-termination method that trade-offs the training performance and networking costs. We apply our approach when clients use the slotted-ALOHA, the carrier-sense multiple access with collision avoidance~(CSMA/CA), and the orthogonal frequency-division multiple access~(OFDMA) protocols. We show that, given a total cost budget, the training performance degrades as either the background communication traffic or the dimension of the training problem increases. Our results demonstrate the importance of proactively designing optimal cost-efficient stopping criteria to avoid unnecessary communication-computation costs to achieve only a marginal FL training improvement. We validate our method by training and testing FL over the MNIST dataset. Finally, we apply our approach to existing communication efficient FL methods from the literature, achieving further efficiency. We conclude that cost-efficient stopping criteria are essential for the success of practical FL over wireless networks. | 翻訳日:2024-03-28 02:19:20 公開日:2024-03-26 |
# NEQRX:回路複雑性を低減した効率的な量子画像暗号化
NEQRX: Efficient Quantum Image Encryption with Reduced Circuit Complexity ( http://arxiv.org/abs/2204.07996v3 ) ライセンス: Link先を確認 | Rakesh Saini, Bikash K. Behera, Saif Al-Kuwari, Ahmed Farouk, | (参考訳) 暗号化は、情報処理システム内のデータセキュリティと認証を保証する上で重要な役割を果たす。
デジタル画像の普及が進むにつれ、この種のデータの保護がますます重要になっている。
しかし、複雑な数学的モデルに依存した既存のセキュリティプロトコルは、内部および外部の脅威から情報を効果的に保護する脆弱性を示す。
さらに、量子コンピューティングの出現は、古典的に暗号化されたデータを復号化できるため、大きな課題となる。
本稿では,一般化アフィン変換とロジスティックマップを組み合わせた量子画像暗号化アルゴリズムの効率的な実装手法を提案する。
我々は,キースキットと量子デバイスを用いた量子回路の評価を行い,暗号手法の検証を行った。
総合的な性能解析を通じて、選択した暗号アルゴリズムの効率を様々な基準で実証した。
さらに,回路の複雑化と量子コストの低減を目的としたハイブリッド手法を提案する。
Espressoアルゴリズムを応用し,アンシラ量子ビットを回路に組み込むことにより,セキュリティと効率を保ちながら,コストの50%削減を実現した。
最後に,各種ノイズ攻撃に対する暗号化手法のレジリエンスを評価するために,ロバストネスとセキュリティ分析を行った。
その結果,提案した量子画像暗号化技術はセキュアなソリューションであり,正確かつ測定可能な量子画像処理機能を提供することを確認した。
Cryptography plays an important role in ensuring data security and authentication within information processing systems. As the prevalence of digital imagery continues to grow, safeguarding this form of data becomes increasingly crucial. However, existing security protocols, reliant on complex mathematical models, exhibit vulnerabilities in effectively protecting information from both internal and external threats. Moreover, the forthcoming advent of quantum computing poses a significant challenge, as it could decrypt data encrypted by classical. In this paper, we propose an efficient implementation scheme for a quantum image encryption algorithm combining the generalized affine transform and logistic map. We evaluated developed quantum circuits using qiskit and quantum devices to validate the encryption technique. Through comprehensive performance analysis, we have demonstrated the efficiency of the chosen encryption algorithm across various criteria. Furthermore, we introduce a hybrid methodology aimed at mitigating circuit complexity and reducing quantum cost. Leveraging the Espresso algorithm and incorporating an ancilla qubit into the circuitry, we achieve a remarkable 50\% reduction in cost while maintaining security and efficiency. Finally, we conducted robustness and security analyses to assess the resilience of our encryption method against diverse noise attacks. The results confirm that our proposed quantum image encryption technique provides a secure solution and offers precise and measurable quantum image processing capabilities. | 翻訳日:2024-03-28 02:09:26 公開日:2024-03-26 |
# 包括的評価とリーダーシップによる長期文書ランキングモデルの性能理解
Understanding Performance of Long-Document Ranking Models through Comprehensive Evaluation and Leaderboarding ( http://arxiv.org/abs/2207.01262v2 ) ライセンス: Link先を確認 | Leonid Boytsov, David Akinpelu, Tianyi Lin, Fangwei Gao, Yutian Zhao, Jeffrey Huang, Eric Nyberg, | (参考訳) 我々は、長いドキュメント(FlashAttentionで訓練された最近のLongPモデルを含む)のランク付けのための20以上のTransformerモデルを評価し、それらを単純なFirstPベースライン(最初の512トークンに同じモデルを適用する)と比較した。
我々は、MS MARCO Documents v1を初等訓練セットとして使用し、ゼロショットシナリオおよび他のコレクションの微調整後のモデルの評価を行った。
標準コレクションを用いた最初の実験では、長いドキュメントモデルではFirstPが劣り、あるいはMRRやNDCGでは平均で5%上回ったことが分かりました。
そして、これは長いコンテキストを処理できないモデルによるものではなく、関連するパスの位置バイアスによるもので、最初の512の文書トークンの傾向にあったと推測した。
このバイアスが少なくとも2つのテストセットに存在するという証拠が発見され、これがMS MARCO FarRelevantという新しいコレクションを作る動機となったのです。
MS MARCO FarRelevantの実験では、より長いコンテキストとモデルパフォーマンスに限定的な変数を組み込むことのメリットはほとんど見つからなかったが、MARCO FarRelevantでは、モデル間の劇的な違いが明らかになった。
FirstPモデルは、ゼロショットと微調整の両方のシナリオにおいて、ほぼランダムベースラインレベルで実行された。
単純なアグリゲーションモデル(例えばMaxP)はゼロショット精度が良いが、微調整の利点はほとんどなかった。
他のほとんどのモデルはゼロショット性能が劣り(時々ランダムなベースラインレベルで)、微調整後に最大13-28\%の差を付けた。
したがって、位置バイアスは、より長い文書コンテキストを処理することの利点を減少させるだけでなく、関連するパスの分布が大幅に変化するとき、このバイアスにモデル過度に適合し、ゼロショット環境では性能が低下する。
当社のソフトウェアとMS MARCO FarRelevantを利用可能にしています。
We evaluated 20+ Transformer models for ranking of long documents (including recent LongP models trained with FlashAttention) and compared them with simple FirstP baselines (applying the same model to input truncated to the first 512 tokens). We used MS MARCO Documents v1 as a primary training set and evaluated models in the zero-shot scenario as well as after fine-tuning on other collections. In our initial experiments with standard collections we found that long-document models underperformed FirstP or outperformed it by at most 5% on average in terms of MRR or NDCG. We then conjectured that this was not due to models inability to process long context but rather due to a positional bias of relevant passages, which tended to be among the first 512 document tokens. We found evidence that this bias was, indeed, present in at least two test sets, which motivated us to create a new collection MS MARCO FarRelevant where the relevant passages were not present among the first 512 tokens. Unlike standard collections where we observed both little benefit from incorporating longer contexts and limited variability in model performance (within a few %), experiments on MS MARCO FarRelevant uncovered dramatic differences among models. FirstP models performed roughly at the random-baseline level in both zero-shot and fine-tuning scenarios. Simple aggregation models (e.g., MaxP) had good zero-shot accuracy but benefited little from fine-tuning. Most other models had poor zero-shot performance (sometimes at a random baseline level) but outstripped MaxP by as much 13-28\% after finetuning. Thus, positional bias not only diminishes benefits of processing longer document contexts but also leads to model overfitting to this bias and performing poorly in a zero-shot setting when a distribution of relevant passages changes substantially. We make our software and MS MARCO FarRelevant available. | 翻訳日:2024-03-28 02:09:26 公開日:2024-03-26 |
# P2ANet: テーブルテニスマッチ放送ビデオからのDense Action Detectionのためのデータセットとベンチマーク
P2ANet: A Dataset and Benchmark for Dense Action Detection from Table Tennis Match Broadcasting Videos ( http://arxiv.org/abs/2207.12730v2 ) ライセンス: Link先を確認 | Jiang Bian, Xuhong Li, Tao Wang, Qingzhong Wang, Jun Huang, Chen Liu, Jun Zhao, Feixiang Lu, Dejing Dou, Haoyi Xiong, | (参考訳) ビデオの分類やアクション検出など、ビデオ分析にディープラーニングが広く使われているが、スポーツビデオから素早く動く被験者による密集したアクション検出は依然として困難である。
本研究では,世界卓球選手権とオリンピアード大会のプロ卓球試合の放送映像から2,721本のビデオクリップを収録したスポーツビデオベンチマーク『TheName{} for \emph{\underline{P}}ing \emph{\underline{P}}ong-\emph{\underline{A}}ction detection』をリリースする。
テーブルテニスの専門家や審判の乗組員と共に特別に設計されたアノテーションツールボックスを使って、データセットに現れるすべてのピンポンアクションに対してきめ細かいアクションラベル(14クラス)を取得し、その2つのアクション検出問題 -- \emph{action Localization} と \emph{action Recognition} を定式化する。
動作ローカライズモデル (例えば, BSN, BSN++, BMN, TCANet) と動作ローカライズモデル (例えば, TSM, TSN, Video SwinTransformer, Slowfast) を, それぞれの問題に対して, \TheName{} を用いて評価する。
これらのモデルでは, ピンポン動作が高速な被写体では密度が高いが, 放送ビデオは25FPSしか持たないため, ローカライゼーションのAR-AN曲線下48C%, 認識の82C%の精度しか達成できない。
TheName{}は依然として困難なタスクであり、ビデオからの高密度なアクション検出のための特別なベンチマークとして使用できる。
While deep learning has been widely used for video analytics, such as video classification and action detection, dense action detection with fast-moving subjects from sports videos is still challenging. In this work, we release yet another sports video benchmark \TheName{} for \emph{\underline{P}}ing \emph{\underline{P}}ong-\emph{\underline{A}}ction detection, which consists of 2,721 video clips collected from the broadcasting videos of professional table tennis matches in World Table Tennis Championships and Olympiads. We work with a crew of table tennis professionals and referees on a specially designed annotation toolbox to obtain fine-grained action labels (in 14 classes) for every ping-pong action that appeared in the dataset, and formulate two sets of action detection problems -- \emph{action localization} and \emph{action recognition}. We evaluate a number of commonly-seen action recognition (e.g., TSM, TSN, Video SwinTransformer, and Slowfast) and action localization models (e.g., BSN, BSN++, BMN, TCANet), using \TheName{} for both problems, under various settings. These models can only achieve 48\% area under the AR-AN curve for localization and 82\% top-one accuracy for recognition since the ping-pong actions are dense with fast-moving subjects but broadcasting videos are with only 25 FPS. The results confirm that \TheName{} is still a challenging task and can be used as a special benchmark for dense action detection from videos. | 翻訳日:2024-03-28 02:09:26 公開日:2024-03-26 |
# 量子アルゴリズムの成功率推定のための量子脆弱性解析
Quantum Vulnerability Analysis to Accurate Estimate the Quantum Algorithm Success Rate ( http://arxiv.org/abs/2207.14446v2 ) ライセンス: Link先を確認 | Fang Qi, Kaitlin N. Smith, Travis LeCompte, Nianfeng Tzeng, Xu Yuan, Frederic T. Chong, Lu Peng, | (参考訳) 量子コンピュータは情報処理のエキサイティングな機会を提供するが、現在では完全には理解されていない計算中にノイズに悩まされている。
不完全なノイズモデルにより、量子プログラム成功率(SR)と実際の機械結果との相違が生じている。
例えば、成功確率(英: estimated probability of success、ESP)は、量子プログラムの性能を測定するために用いられる最先端の計量である。
ESPは、回路構造、量子状態、および各プログラムの実行に特有の量子コンピュータ特性のユニークな組み合わせを考慮できないため、予測が不十分である。
したがって、様々なノイズの影響を解明し、量子コンピュータの成功率を正確かつ堅牢に予測し、アプリケーションとデバイスのスケーリングを強調する、体系的なアプローチが緊急に必要である。
本稿では、量子アプリケーションにおけるエラーの影響を体系的に定量化し、現在の成功率(SR)推定器と実際の量子コンピュータ結果とのギャップに対処する量子脆弱性解析(QVA)を提案する。
QVAは、ターゲット量子計算の累積量子脆弱性(CQV)を決定し、ターゲット量子マシンに適用されたアルゴリズム全体に基づいて量子エラーの影響を定量化する。
CQVを3つの27量子ビット量子コンピュータ上でよく知られたベンチマークで評価することにより、CQVの成功率は、0.1%以上の実際のSRレートを持つベンチマークに対して、平均6倍の相対予測誤差で達成することで、成功の予測技術の推定確率よりも優れる。
研究者がコンパイル時に有望なコンパイル戦略を選択するのに役立つQVAの直接的な応用が提供されている。
While quantum computers provide exciting opportunities for information processing, they currently suffer from noise during computation that is not fully understood. Incomplete noise models have led to discrepancies between quantum program success rate (SR) estimates and actual machine outcomes. For example, the estimated probability of success (ESP) is the state-of-the-art metric used to gauge quantum program performance. The ESP suffers poor prediction since it fails to account for the unique combination of circuit structure, quantum state, and quantum computer properties specific to each program execution. Thus, an urgent need exists for a systematic approach that can elucidate various noise impacts and accurately and robustly predict quantum computer success rates, emphasizing application and device scaling. In this article, we propose quantum vulnerability analysis (QVA) to systematically quantify the error impact on quantum applications and address the gap between current success rate (SR) estimators and real quantum computer results. The QVA determines the cumulative quantum vulnerability (CQV) of the target quantum computation, which quantifies the quantum error impact based on the entire algorithm applied to the target quantum machine. By evaluating the CQV with well-known benchmarks on three 27-qubit quantum computers, the CQV success estimation outperforms the estimated probability of success state-of-the-art prediction technique by achieving on average six times less relative prediction error, with best cases at 30 times, for benchmarks with a real SR rate above 0.1%. Direct application of QVA has been provided that helps researchers choose a promising compiling strategy at compile time. | 翻訳日:2024-03-28 02:09:26 公開日:2024-03-26 |
# オピニオン市場モデル:ポジティティブ・インターベンションを用いた極高オピニオンスプレッドのステミング
Opinion Market Model: Stemming Far-Right Opinion Spread using Positive Interventions ( http://arxiv.org/abs/2208.06620v3 ) ライセンス: Link先を確認 | Pio Calderon, Rohit Ram, Marian-Andrei Rizoiu, | (参考訳) オンライン過激主義は、ヘイトスピーチの正規化、ユーザーの過激化、社会的分裂の増加など、深刻な社会的結果をもたらす。
これらの結果に対処するために、様々な緩和戦略が検討されている。
そのような戦略の1つは、肯定的な介入を使う: ある意見を高めるために意見エコシステムに注意を向ける制御された信号である。
肯定的介入の有効性を評価するため、オピニオン市場モデル(OMM)を導入し、オピニオン間相互作用と肯定的介入の役割を両立する2層オンライン世論エコシステムモデルを提案する。
市場注目市場の大きさは、多変量離散時間ホークスプロセスを用いて第1階層でモデル化され、第2階層では、市場シェアアトラクションモデルを用いて限られた注意を払って、意見が協調して市場シェアを競う。
合成データセット上で提案した推定手法の収束性を示す。
次に、2つの学習タスクでOMMをテストし、2つの実世界のデータセットを適用して市場シェアを予測し、オンラインアイテム間の潜伏関係を明らかにする。
最初のデータセットは、FacebookとTwitterの議論からなり、ブッシュファイアと気候変動に関する穏健かつ極右の意見を含んでいる。
第2のデータセットは、人気のVEVOアーティストのYouTubeとTwitterのアテンションボリュームをキャプチャする。
OMMは、両方のデータセットで最先端の予測モデルより優れており、潜在的な協調競合関係を捉えている。
本研究では,(1)森林火災における極右と中道の意見の自己強化と相互強化,(2)協力や長きにわたる詐欺などの現実世界の交流と相関するアーティスト関係を明らかにする。
最後に、OMMを肯定的な介入のためのテストベッドとして使用し、メディアカバレッジが極右意見の拡散をどう調節するかを示す。
Online extremism has severe societal consequences, including normalizing hate speech, user radicalization, and increased social divisions. Various mitigation strategies have been explored to address these consequences. One such strategy uses positive interventions: controlled signals that add attention to the opinion ecosystem to boost certain opinions. To evaluate the effectiveness of positive interventions, we introduce the Opinion Market Model (OMM), a two-tier online opinion ecosystem model that considers both inter-opinion interactions and the role of positive interventions. The size of the opinion attention market is modeled in the first tier using the multivariate discrete-time Hawkes process; in the second tier, opinions cooperate and compete for market share, given limited attention using the market share attraction model. We demonstrate the convergence of our proposed estimation scheme on a synthetic dataset. Next, we test OMM on two learning tasks, applying to two real-world datasets to predict attention market shares and uncover latent relationships between online items. The first dataset comprises Facebook and Twitter discussions containing moderate and far-right opinions about bushfires and climate change. The second dataset captures popular VEVO artists' YouTube and Twitter attention volumes. OMM outperforms the state-of-the-art predictive models on both datasets and captures latent cooperation-competition relations. We uncover (1) self- and cross-reinforcement between far-right and moderate opinions on the bushfires and (2) pairwise artist relations that correlate with real-world interactions such as collaborations and long-lasting feuds. Lastly, we use OMM as a testbed for positive interventions and show how media coverage modulates the spread of far-right opinions. | 翻訳日:2024-03-28 02:09:26 公開日:2024-03-26 |
# 分割、エンコーディング、集約による長いコード検索の処理
Tackling Long Code Search with Splitting, Encoding, and Aggregating ( http://arxiv.org/abs/2208.11271v3 ) ライセンス: Link先を確認 | Fan Hu, Yanlin Wang, Lun Du, Hongyu Zhang, Shi Han, Dongmei Zhang, Xirong Li, | (参考訳) 自然言語によるコード検索は、既存のコードスニペットの再利用に役立つ。
Transformerベースの事前トレーニングモデルのおかげで、コード検索のパフォーマンスは大幅に改善された。
しかし、マルチヘッド自己注意の2次複雑さのため、入力トークン長に制限がある。
V100のような標準GPUの効率的なトレーニングのために、GraphCodeBERT、CodeBERT、RoBERTa(コード)といった既存の事前訓練されたコードモデルは、デフォルトで256トークンを取得できるため、256トークンを超える長いコードの完全な情報を表現できない。
長いコード問題に対処するため、我々は、長いコードをコードブロックに分割し、これらのブロックを埋め込みにエンコードし、それらを集約して包括的な長いコード表現を得る新しいベースラインSEA(Split, Encode, Aggregate)を提案する。
SEAでは、Transformerベースの事前トレーニングモデルを直接使用して、内部構造を変更したり、再トレーニングしたりすることなく、長いコードをモデル化することができます。
また,Sparse Trasnformer法とSEAを比較した。
エンコーダとしてGraphCodeBERTを使用すると、SEAはコードSearchNetベンチマークでGraphCodeBERTよりも10.1%高い0.785という総合的な平均逆ランキングスコアを達成し、SEAを長いコード検索の強力なベースラインとして正当化する。
ソースコードと実験データは、https://github.com/fly-dragon211/SEA.comで公開されています。
Code search with natural language helps us reuse existing code snippets. Thanks to the Transformer-based pretraining models, the performance of code search has been improved significantly. However, due to the quadratic complexity of multi-head self-attention, there is a limit on the input token length. For efficient training on standard GPUs like V100, existing pretrained code models, including GraphCodeBERT, CodeBERT, RoBERTa (code), take the first 256 tokens by default, which makes them unable to represent the complete information of long code that is greater than 256 tokens. To tackle the long code problem, we propose a new baseline SEA (Split, Encode and Aggregate), which splits long code into code blocks, encodes these blocks into embeddings, and aggregates them to obtain a comprehensive long code representation. With SEA, we could directly use Transformer-based pretraining models to model long code without changing their internal structure and re-pretraining. We also compare SEA with sparse Trasnformer methods. With GraphCodeBERT as the encoder, SEA achieves an overall mean reciprocal ranking score of 0.785, which is 10.1% higher than GraphCodeBERT on the CodeSearchNet benchmark, justifying SEA as a strong baseline for long code search. Our source code and experimental data are available at: https://github.com/fly-dragon211/SEA. | 翻訳日:2024-03-28 02:09:26 公開日:2024-03-26 |
# 単一システムによる局所的リアリズムと非テクスチュアリティの同時的全反転の難解化
Simultaneous All-versus-Nothing Refutation of Local Realism and Noncontextuality by a Single System ( http://arxiv.org/abs/2208.11585v2 ) ライセンス: Link先を確認 | Min-Gang Zhou, Hua-Lei Yin, Zeng-Bing Chen, | (参考訳) 非局所性と文脈性の量子領域は、それぞれベルの定理とコーシェン=スペクターの定理によって記述され、古典理論の説明能力を超える現象を具現化している。
これらの領域は情報とコンピューティング技術の分野に変革をもたらす可能性がある。
本研究では、量子非局所性と文脈性の間の複雑な関係のより微妙な理解を育み、これらの2つのセミナル定理の妥当性を同時に示す「全対無」証明を公表する。
3つの一重項対とグリーンベルガー・ホルン・ザイリンガー状態解析器の能力を生かして、我々の証明は量子力学と隠れ変数理論の対立を他の観点から裏付けるだけでなく、既存の線形光学技術を利用して容易に検証することができる。
The quantum realms of nonlocality and contextuality are delineated by Bell's theorem and the Kochen-Specker theorem, respectively, embodying phenomena that surpass the explanatory capacities of classical theories. These realms hold transformative potential for the fields of information and computing technology. In this study, we unveil a ``all-versus-nothing" proof that concurrently illustrates the veracity of these two seminal theorems, fostering a more nuanced comprehension of the intricate relationship intertwining quantum nonlocality and contextuality. Leveraging the capabilities of three singlet pairs and a Greenberger-Horne-Zeilinger state analyzer, our proof not only substantiates the conflict between quantum mechanics and hidden-variable theories from another perspective, but can also be readily verifiable utilizing the existing linear optics technology. | 翻訳日:2024-03-28 02:09:26 公開日:2024-03-26 |
# 異なるプライベートな多変量中央値
Differentially private multivariate medians ( http://arxiv.org/abs/2210.06459v2 ) ライセンス: Link先を確認 | Kelly Ramsay, Aukosh Jagannath, Shoja'eddin Chenouri, | (参考訳) 最新のデータ分析には厳格なプライバシー保証を満たす統計ツールが必要である。
汚染に対する堅牢性は、差分プライバシーと結びついていることはよく知られている。
この事実にもかかわらず、微分プライベートかつロバストな多変量位置推定に多変量中央値を用いることは体系的に研究されていない。
我々は、本質的にシャープな、微分的にプライベートな多変量深度に基づく中央値に対する新しい有限サンプル性能保証を開発する。
この結果は、半空間(またはタキー)深度、空間深度、統合二重深度など、よく使われる深度関数をカバーしている。
Cauchyの限界の下では、重み付けされた位置推定のコストは、プライバシのコストよりも高いことを示している。
本稿では,d = 100までの大きさのガウス汚染モデルを用いて数値計算を行い,これを最先端のプライベート平均推定アルゴリズムと比較する。
本研究の副産物として,人口目標関数の最大化に関する指数的メカニズムの出力に対する濃度不等式を示す。
この境界は、穏やかな正則性条件を満たす客観的関数に適用される。
Statistical tools which satisfy rigorous privacy guarantees are necessary for modern data analysis. It is well-known that robustness against contamination is linked to differential privacy. Despite this fact, using multivariate medians for differentially private and robust multivariate location estimation has not been systematically studied. We develop novel finite-sample performance guarantees for differentially private multivariate depth-based medians, which are essentially sharp. Our results cover commonly used depth functions, such as the halfspace (or Tukey) depth, spatial depth, and the integrated dual depth. We show that under Cauchy marginals, the cost of heavy-tailed location estimation outweighs the cost of privacy. We demonstrate our results numerically using a Gaussian contamination model in dimensions up to d = 100, and compare them to a state-of-the-art private mean estimation algorithm. As a by-product of our investigation, we prove concentration inequalities for the output of the exponential mechanism about the maximizer of the population objective function. This bound applies to objective functions that satisfy a mild regularity condition. | 翻訳日:2024-03-28 02:09:26 公開日:2024-03-26 |
# 拡散に基づく生成モデルにおける最適制御視点
An optimal control perspective on diffusion-based generative modeling ( http://arxiv.org/abs/2211.01364v3 ) ライセンス: Link先を確認 | Julius Berner, Lorenz Richter, Karen Ullrich, | (参考訳) 我々は,最近開発された拡散確率モデルなど,確率微分方程式(SDE)に基づく確率最適制御と生成モデルとの接続を確立する。
特にハミルトン・ヤコビ・ベルマン方程式を導出し、基礎となるSDE限界の対数密度の進化を制御している。
この観点は、最適制御理論から生成的モデリングへのメソッドの転送を可能にする。
まず、下界の証拠が制御理論からよく知られた検証定理の直接的な帰結であることを示す。
さらに、経路空間における適切な測度間のKulback-Leibler分散の最小化として拡散に基づく生成モデルを定式化することができる。
最後に, 統計学や計算科学で頻繁に発生する問題である非正規化密度からの拡散に基づく新しいサンプリング法を開発した。
時間反転拡散サンプリング(DIS)は,複数の数値例において,他の拡散に基づくサンプリング手法よりも優れていることを示す。
We establish a connection between stochastic optimal control and generative models based on stochastic differential equations (SDEs), such as recently developed diffusion probabilistic models. In particular, we derive a Hamilton-Jacobi-Bellman equation that governs the evolution of the log-densities of the underlying SDE marginals. This perspective allows to transfer methods from optimal control theory to generative modeling. First, we show that the evidence lower bound is a direct consequence of the well-known verification theorem from control theory. Further, we can formulate diffusion-based generative modeling as a minimization of the Kullback-Leibler divergence between suitable measures in path space. Finally, we develop a novel diffusion-based method for sampling from unnormalized densities -- a problem frequently occurring in statistics and computational sciences. We demonstrate that our time-reversed diffusion sampler (DIS) can outperform other diffusion-based sampling approaches on multiple numerical examples. | 翻訳日:2024-03-28 01:59:27 公開日:2024-03-26 |
# 電子トンネル誘起長寿命発振の安定性
Stability of long-sustained oscillations induced by electron tunneling ( http://arxiv.org/abs/2211.04074v2 ) ライセンス: Link先を確認 | Jorge Tabanera-Bravo, Florian Vigneau, Juliette Monsel, Kushagra Aggarwal, Léa Bresque, Federico Fedele, Federico Cerisola, G. A. D. Briggs, Janet Anders, Alexia Aufèves, Juan M. R. Parrondo, Natalia Ares, | (参考訳) 自己振動は、定エネルギー源から周期運動を生成する効率的なメカニズムの結果である。
量子デバイスでは、これらの振動は単一の電子力学と機械運動の相互作用によって生じる可能性がある。
このメカニズムの複雑さのため、これらの自己振動は、ヒステリシスサイクルを引き起こす不安定な挙動を示す、あるいは消失する可能性がある。
これらのヒステリシスサイクルを観察し、単一および二重量子ドット構成の異なる状態の安定性を特徴づける。
特に、これらの振動は20秒以上安定しており、電子的および機械的特性の時間スケールを超える桁数であり、演奏時のメカニズムの堅牢性を明らかにしている。
Self-oscillations are the result of an efficient mechanism generating periodic motion from a constant power source. In quantum devices, these oscillations may arise due to the interaction between single electron dynamics and mechanical motion. We show that, due to the complexity of this mechanism, these self-oscillations may irrupt, vanish, or exhibit a bistable behaviour causing hysteresis cycles. We observe these hysteresis cycles and characterize the stability of different regimes in both single and double quantum dot configurations. In particular cases, we find these oscillations stable for over 20 seconds, many orders of magnitude above electronic and mechanical characteristic timescales, revealing the robustness of the mechanism at play. | 翻訳日:2024-03-28 01:59:27 公開日:2024-03-26 |
# 量子ジャンプを含む位相拡張
Topological extension including quantum jump ( http://arxiv.org/abs/2211.04233v5 ) ライセンス: Link先を確認 | Xiangyu Niu, Junjie Wang, | (参考訳) 非エルミート系とリンドブラッド形式マスター方程式は、散逸的モデリングにおける信頼できるツールとして常に見なされてきた。
興味深いことに、既存の文献はマスター方程式の量子ジャンプ項を無視して、同等の非エルミート・ハミルトン式を得ることが多い。
しかし、廃語の影響やこれら2つのアプローチの統一的な関係についての調査は行われていない。
本研究では,Su-Schrieffer-Heegerモデルについて,トポロジカルな視点から考察した。
系が量子ジャンプ事象を起こさないとき、対応する形状行列は、伝統的な非エルミート理論とは対照的に、同じ位相的性質を示す。
逆に、量子ジャンプの発生は相転移の位置の変化をもたらす。
本研究は、量子ジャンプ項の影響を定性的に分析し、量子システムにおけるそれらのユニークな役割を明らかにする。
Non-Hermitian systems and the Lindblad form master equation have always been regarded as reliable tools in dissipative modeling. Intriguingly, existing literature often obtains an equivalent non-Hermitian Hamiltonian by neglecting the quantum jumping terms in the master equation. However, there lacks investigation into the effects of discarded terms as well as the unified connection between these two approaches. In this study, we study the Su-Schrieffer-Heeger model with collective loss and gain from a topological perspective. When the system undergoes no quantum jump events, the corresponding shape matrix exhibits the same topological properties in contrast to the traditional non-Hermitian theory. Conversely, the occurrence of quantum jumps can result in a shift in the positions of the phase transition. Our study provides a qualitative analysis of the impact of quantum jumping terms and reveals their unique role in quantum systems. | 翻訳日:2024-03-28 01:59:27 公開日:2024-03-26 |
# ディープラーニングを用いたインバータのボルト/VAR制御則の最適設計
Optimal Design of Volt/VAR Control Rules of Inverters using Deep Learning ( http://arxiv.org/abs/2211.09557v2 ) ライセンス: Link先を確認 | Sarthak Gupta, Vassilis Kekatos, Spyros Chatzivasileiadis, | (参考訳) 配電網は、分散エネルギー資源(DER)からの可変電力注入によって誘導される急激な電圧変動に挑戦される。
電圧を規制するために、IEEE標準1547は各DERにVolt/VAR制御ルールに従って反応電力を注入することを推奨している。
標準はデフォルトの形状を示しているが、ルールはバスごとにカスタマイズできる。
この最適規則設計(ORD)の課題は、Volt/VARルールが非線形力学を導入し、安定性と定常電圧プロファイルのトレードオフが生じるため、困難である。
ORD は混合整数非線形プログラム (MINLP) として定式化されているが、問題サイズと好ましくはスケールしない。
より効率的な解を目指して,我々はORDを深層学習問題として再検討する。
アイデアは、Volt/VARのダイナミクスをエミュレートするDNNを設計することである。
DNNはグリッドシナリオを入力として、ルールパラメータを重みとして、平衡電圧を出力する。
最適ルールパラメータはDNNのトレーニングによって見つけることができ、出力は様々なシナリオで統一に近づく。
DNNはルールの最適化にのみ使用され、フィールドで使用されることはない。
単相および多相給電装置におけるVolt/VARダイナミクスの安定性条件と収束率についても検討・拡張する。
テストはDNNベースのORDの利点を示し、MINLPとベンチマークする。
Distribution grids are challenged by rapid voltage fluctuations induced by variable power injections from distributed energy resources (DERs). To regulate voltage, the IEEE Standard 1547 recommends each DER inject reactive power according to piecewise-affine Volt/VAR control rules. Although the standard suggests a default shape, the rule can be customized per bus. This task of optimal rule design (ORD) is challenging as Volt/VAR rules introduce nonlinear dynamics, and lurk trade-offs between stability and steady-state voltage profiles. ORD is formulated as a mixed-integer nonlinear program (MINLP), but scales unfavorably with the problem size. Towards a more efficient solution, we reformulate ORD as a deep learning problem. The idea is to design a DNN that emulates Volt/VAR dynamics. The DNN takes grid scenarios as inputs, rule parameters as weights, and outputs equilibrium voltages. Optimal rule parameters can be found by training the DNN so its output approaches unity for various scenarios. The DNN is only used to optimize rules and is never employed in the field. While dealing with ORD, we also review and expand on stability conditions and convergence rates for Volt/VAR dynamics on single- and multi-phase feeders. Tests showcase the merit of DNN-based ORD by benchmarking it against its MINLP counterpart. | 翻訳日:2024-03-28 01:59:27 公開日:2024-03-26 |
# 教師なしビデオオブジェクトセグメンテーションのためのデュアルプロトタイプアテンション
Dual Prototype Attention for Unsupervised Video Object Segmentation ( http://arxiv.org/abs/2211.12036v3 ) ライセンス: Link先を確認 | Suhwan Cho, Minhyeok Lee, Seunghoon Lee, Dogyoon Lee, Heeseung Choi, Ig-Jae Kim, Sangyoun Lee, | (参考訳) 教師なしビデオオブジェクトセグメンテーション(VOS)は、ビデオ中の最も有能なオブジェクトを検出し、セグメンテーションすることを目的としている。
教師なしVOSで使用される主要な技術は、
1)外見及び運動情報の協調
2) 異なるフレーム間の時間的融合。
本稿では,2つの新しいプロトタイプベースアテンション機構,IMA(Inter-modality attention)とフレーム間アテンション(inter-frame attention)を提案する。
IMAは、相互洗練に基づいて、異なるモダリティからコンテキスト情報を密に統合する。
IFAは、ビデオのグローバルなコンテキストをクエリフレームに注入し、複数のフレームから有用なプロパティをフル活用する。
評価実験の結果,提案手法は既存の手法よりもかなり優れていることがわかった。
提案した2つのコンポーネントは、アブレーション研究を通じて徹底的に検証されている。
Unsupervised video object segmentation (VOS) aims to detect and segment the most salient object in videos. The primary techniques used in unsupervised VOS are 1) the collaboration of appearance and motion information; and 2) temporal fusion between different frames. This paper proposes two novel prototype-based attention mechanisms, inter-modality attention (IMA) and inter-frame attention (IFA), to incorporate these techniques via dense propagation across different modalities and frames. IMA densely integrates context information from different modalities based on a mutual refinement. IFA injects global context of a video to the query frame, enabling a full utilization of useful properties from multiple frames. Experimental results on public benchmark datasets demonstrate that our proposed approach outperforms all existing methods by a substantial margin. The proposed two components are also thoroughly validated via ablative study. | 翻訳日:2024-03-28 01:59:27 公開日:2024-03-26 |
# 建築情報のマイニング:システムマッピング研究
Mining Architectural Information: A Systematic Mapping Study ( http://arxiv.org/abs/2212.13179v4 ) ライセンス: Link先を確認 | Musengamana Jean de Dieu, Peng Liang, Mojtaba Shahin, Chen Yang, Zengyang Li, | (参考訳) マイニングソフトウェアリポジトリ(MSR)はソフトウェア開発において重要な活動となっている。
近年,建築理解などの建築活動を支援するため,建築情報のマイニングが注目されている。
しかし、建築情報の発掘に関する文献は明らかになっていない。
結果として、アーキテクト活動を支援するためにどのようなアーキテクチャ情報をマイニングするためにどのようなアプローチを採用するべきかといった、最先端の研究結果を理解し、採用することの難しさを、実践者が引き起こす可能性がある。
また、研究者が特定された研究ギャップの課題や改善に気付くのを妨げている。
我々は,建築情報や発掘資料,建築活動の支援,使用済みのアプローチとツール,直面する課題の観点から,建築情報に関する文献を特定し,分析し,合成することを目的としている。
2006年1月から2022年12月にかけて、SMSが刊行された。
選抜された104の第一次研究のうち、建築記述が最も多く採掘された建築情報のうち7つのカテゴリが採掘され、11のカテゴリが建築情報を採掘するために活用され、うちバージョン管理システムがもっとも一般的な情報源である11のカテゴリが採掘された建築情報によって支援され、建築理解が最も支持された活動である建築情報によって11のアーキテクチャ活動が支援され、95のアプローチと56のツールが提案され、建築情報の採掘に利用された4つの課題が特定された。
このSMSは、研究者たちに今後の方向性を提供し、実践者がどのようなアーキテクチャ情報を使ってさまざまなアーキテクチャ活動を支援するかを知るための、どのようなアプローチとツールが使えるかを知るのに役立つ。
Mining Software Repositories (MSR) has become an essential activity in software development. Mining architectural information to support architecting activities, such as architecture understanding, has received significant attention in recent years. However, there is a lack of clarity on what literature on mining architectural information is available. Consequently, this may create difficulty for practitioners to understand and adopt the state-of-the-art research results, such as what approaches should be adopted to mine what architectural information in order to support architecting activities. It also hinders researchers from being aware of the challenges and remedies for the identified research gaps. We aim to identify, analyze, and synthesize the literature on mining architectural information in terms of architectural information and sources mined, architecting activities supported, approaches and tools used, and challenges faced. An SMS has been conducted on the literature published between January 2006 and December 2022. Of the 104 primary studies selected, 7 categories of architectural information have been mined, among which architectural description is the most mined architectural information; 11 categories of sources have been leveraged for mining architectural information, among which version control system is the most popular source; 11 architecting activities can be supported by the mined architectural information, among which architecture understanding is the most supported activity; 95 approaches and 56 tools were proposed and employed in mining architectural information; and 4 types of challenges in mining architectural information were identified. This SMS provides researchers with future directions and help practitioners be aware of what approaches and tools can be used to mine what architectural information from what sources to support various architecting activities. | 翻訳日:2024-03-28 01:59:27 公開日:2024-03-26 |
# 量子生成モデルの性能評価
A performance characterization of quantum generative models ( http://arxiv.org/abs/2301.09363v3 ) ライセンス: Link先を確認 | Carlos A. Riofrío, Oliver Mitevski, Caitlin Jones, Florian Krellner, Aleksandar Vučković, Joseph Doetsch, Johannes Klepsch, Thomas Ehmer, Andre Luckow, | (参考訳) 量子生成モデリング(Quantum Generative Modeling)は、産業関連アプリケーションへの関心が高まっている分野である。
この分野はまだ初期段階であり、多くの競合技術がある。
この研究は、これらの幅広いテクニックを体系的に比較し、どのモデルやテクニックをアプリケーションで使用するかを決定する際に量子コンピューティングの実践者を導く試みである。
我々は、量子生成モデリングに使用されるパラメトリック量子回路のアーキテクチャ的アンサーゼを根本的に比較する。
1.連続価値データサンプルを生成する連続アーキテクチャ、及び
2. 離散グリッドをサンプリングする離散アーキテクチャ。
我々は、min-max変換による正規化や確率積分変換による正規化など、異なるデータ変換の性能を比較する。
2つの一般的なトレーニング手法により、データセットの基盤となる確率分布を学習する。
1.量子回路ボルンマシン(QCBM)、及び
2)QGAN(Quantum Generative Adversarial Network)。
モデルパラメータの数が増加するにつれて、それらの性能とトレードオフについて検討し、同様に訓練された古典的ニューラルネットワークのベースラインについて述べる。
この研究は6つの低次元合成と2つの実財務データに対して行われた。
私たちの2つの重要な発見は以下のとおりです。
1. 全てのデータセットに対して、我々の量子モデルは、従来のものよりも類似または少ないパラメータを必要とする。
極端な場合、量子モデルは桁違いのパラメータを2つ必要とします。
2) 確率分布のコプラを学習する離散アーキテクチャの変種が, 他の手法よりも優れていることを実証的に見出した。
Quantum generative modeling is a growing area of interest for industry-relevant applications. With the field still in its infancy, there are many competing techniques. This work is an attempt to systematically compare a broad range of these techniques to guide quantum computing practitioners when deciding which models and techniques to use in their applications. We compare fundamentally different architectural ansatzes of parametric quantum circuits used for quantum generative modeling: 1. A continuous architecture, which produces continuous-valued data samples, and 2. a discrete architecture, which samples on a discrete grid. We compare the performance of different data transformations: normalization by the min-max transform or by the probability integral transform. We learn the underlying probability distribution of the data sets via two popular training methods: 1. quantum circuit Born machines (QCBM), and 2. quantum generative adversarial networks (QGAN). We study their performance and trade-offs as the number of model parameters increases, with the baseline of similarly trained classical neural networks. The study is performed on six low-dimensional synthetic and two real financial data sets. Our two key findings are that: 1. For all data sets, our quantum models require similar or fewer parameters than their classical counterparts. In the extreme case, the quantum models require two of orders of magnitude less parameters. 2. We empirically find that a variant of the discrete architecture, which learns the copula of the probability distribution, outperforms all other methods. | 翻訳日:2024-03-28 01:59:27 公開日:2024-03-26 |
# Android マルウェア検出における特徴とモデルの重要性: ML ベース手法の実証と実験的比較
Investigating Feature and Model Importance in Android Malware Detection: An Implemented Survey and Experimental Comparison of ML-Based Methods ( http://arxiv.org/abs/2301.12778v2 ) ライセンス: Link先を確認 | Ali Muzaffar, Hani Ragab Hassen, Hind Zantout, Michael A Lones, | (参考訳) Androidの人気は、マルウェアの共通のターゲットであることを意味している。
長年にわたり、機械学習モデルがマルウェアを良質なアプリケーションから効果的に識別できることが様々な研究で発見されている。
しかし、オペレーティングシステムが進化するにつれて、マルウェアもこれらの研究の発見に疑問を呈し、その多くは、小さく、時代遅れで、しばしば不均衡なデータセットを使用して非常に高い精度を報告している。
本稿では18の代表的な過去の作品を再実装し、124,000のアプリケーションからなるバランスのとれた、関連性の高い最新のデータセットを用いてそれらを再評価する。
また,既存の知識の穴を埋めるための新たな実験を行い,現代の環境におけるAndroidのマルウェア検出に最も有効な特徴とモデルを特定する。
静的解析のみで抽出した特徴を用いて, 高い検出精度(最大96.8%)を達成できることを示し, はるかに高価な動的解析を用いることで, より穏やかな利点(1%)が得られることを示した。
API呼び出しとオプコードが最も生産性の高い静的およびTCPネットワークトラフィックは、最も予測可能な動的機能を提供する。
ランダムフォレストは一般的に最も効果的なモデルであり、より複雑なディープラーニングアプローチよりも優れている。
静的機能と動的機能を直接組み合わせることは一般的には効果がないが、アンサンブルモデルは最高のモデルに匹敵するパフォーマンスをもたらすが、より脆弱な機能を使用する。
The popularity of Android means it is a common target for malware. Over the years, various studies have found that machine learning models can effectively discriminate malware from benign applications. However, as the operating system evolves, so does malware, bringing into question the findings of these previous studies, many of which report very high accuracies using small, outdated, and often imbalanced datasets. In this paper, we reimplement 18 representative past works and reevaluate them using a balanced, relevant, and up-to-date dataset comprising 124,000 applications. We also carry out new experiments designed to fill holes in existing knowledge, and use our findings to identify the most effective features and models to use for Android malware detection within a contemporary environment. We show that high detection accuracies (up to 96.8%) can be achieved using features extracted through static analysis alone, yielding a modest benefit (1%) from using far more expensive dynamic analysis. API calls and opcodes are the most productive static and TCP network traffic provide the most predictive dynamic features. Random forests are generally the most effective model, outperforming more complex deep learning approaches. Whilst directly combining static and dynamic features is generally ineffective, ensembling models separately leads to performances comparable to the best models but using less brittle features. | 翻訳日:2024-03-28 01:49:43 公開日:2024-03-26 |
# ニューラルコードモデル解釈のための因果論に向けて
Toward a Theory of Causation for Interpreting Neural Code Models ( http://arxiv.org/abs/2302.03788v4 ) ライセンス: Link先を確認 | David N. Palacio, Alejandro Velasco, Nathan Cooper, Alvaro Rodriguez, Kevin Moran, Denys Poshyvanyk, | (参考訳) コードのニューラル言語モデル(Neural Language Models of Code、NCM)は、研究プロトタイプから商用開発ツールまで、急速に進歩している。
そのため、そのようなモデルの能力と限界を理解することが重要になっている。
しかしながら、これらのモデルの能力は通常、実際のパフォーマンスの一部だけを明らかにする自動メトリクスを使用して測定される。
一般的には、NCMのパフォーマンスは有望であるように思われるが、現在、そのようなモデルがどのように決定を下すかは不明だ。
そこで本研究では,モデル予測を記述可能な NCM 固有のポストホック解釈法である $do_{code}$ を紹介する。
$do_{code}$は、言語指向の説明を可能にする因果推論に基づいている。
do_{code}$の理論的基盤は、異なるモデル特性を探索するために拡張可能であるが、プログラミング言語の性質におけるモデル挙動の説明を基礎として、突発的相関の影響を軽減することを目的とした具体的なインスタンス化を提供する。
do_{code}$の実用的メリットを実証するために,2つの人気のあるディープラーニングアーキテクチャと10のNCMに関するケーススタディを実行することで,我々のフレームワークが提供できる洞察について説明する。
このケーススタディの結果から,NCMはコード構文の変化に敏感であることが示唆された。
BERTライクなモデルを除いて、我々のNCMは、他のプログラミング言語の構造と比べて、曖昧なバイアスが少なく、コードのブロック(グレッグ括弧、括弧、セミコロン)に関連するトークンを統計的に予測することを学びます。
これらの知見は、NCMにおける共起バイアスの検出と緩和に有用な方法として$do_{code}$の可能性を示している。
Neural Language Models of Code, or Neural Code Models (NCMs), are rapidly progressing from research prototypes to commercial developer tools. As such, understanding the capabilities and limitations of such models is becoming critical. However, the abilities of these models are typically measured using automated metrics that often only reveal a portion of their real-world performance. While, in general, the performance of NCMs appears promising, currently much is unknown about how such models arrive at decisions. To this end, this paper introduces $do_{code}$, a post hoc interpretability method specific to NCMs that is capable of explaining model predictions. $do_{code}$ is based upon causal inference to enable programming language-oriented explanations. While the theoretical underpinnings of $do_{code}$ are extensible to exploring different model properties, we provide a concrete instantiation that aims to mitigate the impact of spurious correlations by grounding explanations of model behavior in properties of programming languages. To demonstrate the practical benefit of $do_{code}$, we illustrate the insights that our framework can provide by performing a case study on two popular deep learning architectures and ten NCMs. The results of this case study illustrate that our studied NCMs are sensitive to changes in code syntax. All our NCMs, except for the BERT-like model, statistically learn to predict tokens related to blocks of code (\eg brackets, parenthesis, semicolon) with less confounding bias as compared to other programming language constructs. These insights demonstrate the potential of $do_{code}$ as a useful method to detect and facilitate the elimination of confounding bias in NCMs. | 翻訳日:2024-03-28 01:49:43 公開日:2024-03-26 |
# ポアソン類似問題に対する暗黙GNNソルバー
An Implicit GNN Solver for Poisson-like problems ( http://arxiv.org/abs/2302.10891v3 ) ライセンス: Link先を確認 | Matthieu Nastorg, Michele Alessandro Bucci, Thibault Faney, Jean-Marc Gratien, Guillaume Charpiat, Marc Schoenauer, | (参考訳) 本稿では,境界条件が混在するポアソンPDE問題の解法として,新しいグラフニューラルネットワーク(GNN)アプローチである$\Psi$-GNNを提案する。
Implicit Layer Theoryを活用することで、$\Psi$-GNNは"無限の"ディープネットワークをモデル化する。
元々のアーキテクチャは、物理的なアプリケーションにとって重要な前提条件である境界条件を明示的に考慮し、最初に提供されたソリューションに適応することができる。
Psi$-GNNは、"物理インフォームド"損失を使用してトレーニングされ、トレーニングプロセスは設計によって安定しており、初期化には敏感である。
さらに、このアプローチの一貫性が理論的に証明され、その柔軟性と一般化効率が実験的に証明される:同じ学習モデルは、異なる境界条件だけでなく、様々な大きさの非構造化メッシュを正確に扱うことができる。
我々の知る限りでは、$\Psi$-GNNは、様々な非構造領域、境界条件、初期解を処理し、収束保証も提供できる物理インフォームドGNNベースの最初の方法である。
This paper presents $\Psi$-GNN, a novel Graph Neural Network (GNN) approach for solving the ubiquitous Poisson PDE problems with mixed boundary conditions. By leveraging the Implicit Layer Theory, $\Psi$-GNN models an "infinitely" deep network, thus avoiding the empirical tuning of the number of required Message Passing layers to attain the solution. Its original architecture explicitly takes into account the boundary conditions, a critical prerequisite for physical applications, and is able to adapt to any initially provided solution. $\Psi$-GNN is trained using a "physics-informed" loss, and the training process is stable by design, and insensitive to its initialization. Furthermore, the consistency of the approach is theoretically proven, and its flexibility and generalization efficiency are experimentally demonstrated: the same learned model can accurately handle unstructured meshes of various sizes, as well as different boundary conditions. To the best of our knowledge, $\Psi$-GNN is the first physics-informed GNN-based method that can handle various unstructured domains, boundary conditions and initial solutions while also providing convergence guarantees. | 翻訳日:2024-03-28 01:49:43 公開日:2024-03-26 |
# 物理情報ニューラルネットワークのアンサンブル学習--グラディエントブースティングアプローチ
Ensemble learning for Physics Informed Neural Networks: a Gradient Boosting approach ( http://arxiv.org/abs/2302.13143v2 ) ライセンス: Link先を確認 | Zhiwei Fang, Sifan Wang, Paris Perdikaris, | (参考訳) 物理学インフォームドニューラルネットワーク(PINN)の人気は着実に上昇しているが、この時点では、PINNはマルチスケールおよび特異摂動問題のシミュレーションには成功していない。
本研究では、物理情報ニューラルネットワーク(PINN)の性能を大幅に向上させる「段階的強化(gradient boosting)」と呼ばれる新たなトレーニングパラダイムを提案する。
与えられたPDEの解を1つのニューラルネットワークで直接学習するのではなく、ニューラルネットワークのシーケンスを用いてより優れた結果を得る。
このアプローチは、従来のPINNにとって大きな課題を提示する問題の解決を可能にします。
数値実験により,有限要素法やPINNとの比較など,様々なベンチマークによるアルゴリズムの有効性が示された。
さらに、この研究は、PINNでアンサンブル学習技術を採用するための扉を開き、PDEの解法をさらに改善する機会を提供する。
While the popularity of physics-informed neural networks (PINNs) is steadily rising, to this date, PINNs have not been successful in simulating multi-scale and singular perturbation problems. In this work, we present a new training paradigm referred to as "gradient boosting" (GB), which significantly enhances the performance of physics informed neural networks (PINNs). Rather than learning the solution of a given PDE using a single neural network directly, our algorithm employs a sequence of neural networks to achieve a superior outcome. This approach allows us to solve problems presenting great challenges for traditional PINNs. Our numerical experiments demonstrate the effectiveness of our algorithm through various benchmarks, including comparisons with finite element methods and PINNs. Furthermore, this work also unlocks the door to employing ensemble learning techniques in PINNs, providing opportunities for further improvement in solving PDEs. | 翻訳日:2024-03-28 01:49:43 公開日:2024-03-26 |
# 絵画のような画像を生成する拡散モデル:アウトラインファーストの分析理論
Diffusion Models Generate Images Like Painters: an Analytical Theory of Outline First, Details Later ( http://arxiv.org/abs/2303.02490v2 ) ライセンス: Link先を確認 | Binxu Wang, John J. Vastola, | (参考訳) 拡散生成モデルは純粋雑音を意味のある画像に変換するか?
様々な事前訓練された拡散モデル(安定拡散のような条件付き潜在空間モデルを含む)において、画像生成の根底にある逆拡散過程は以下の性質を持つことを観察する。
(i)個々の軌跡は低次元であり、2次元の「回転」に類似する傾向がある。
(二)レイアウトのような高分散シーンの特徴は早く現れる傾向にあり、低分散の詳細は後で現れる傾向にある。
(3)初期の摂動は、後の摂動よりも画像内容に大きな影響を与える傾向にある。
これらの現象を理解するために、ガウス分布の確率フローODEに対する閉形式解を導出し研究し、逆拡散状態が画像多様体上の徐々に特定された対象に向かって回転することを示す。
また、生成がまずアウトラインにコミットし、さらに詳細をきめ細やかにする必要があることも示しています。
本手法は,事前学習したモデルに対する画像生成の初期フェーズを正確に記述し,逆拡散ステップをスキップすることで画像生成をより効率的にすることができる。
最後に、安定拡散の像多様体を特徴づけるために、我々の解を用いる。
我々の視点は、GANによる生成と拡散の予期せぬ類似性を明らかにし、拡散と画像検索の概念的リンクを提供する。
How do diffusion generative models convert pure noise into meaningful images? In a variety of pretrained diffusion models (including conditional latent space models like Stable Diffusion), we observe that the reverse diffusion process that underlies image generation has the following properties: (i) individual trajectories tend to be low-dimensional and resemble 2D `rotations'; (ii) high-variance scene features like layout tend to emerge earlier, while low-variance details tend to emerge later; and (iii) early perturbations tend to have a greater impact on image content than later perturbations. To understand these phenomena, we derive and study a closed-form solution to the probability flow ODE for a Gaussian distribution, which shows that the reverse diffusion state rotates towards a gradually-specified target on the image manifold. It also shows that generation involves first committing to an outline, and then to finer and finer details. We find that this solution accurately describes the initial phase of image generation for pretrained models, and can in principle be used to make image generation more efficient by skipping reverse diffusion steps. Finally, we use our solution to characterize the image manifold in Stable Diffusion. Our viewpoint reveals an unexpected similarity between generation by GANs and diffusion and provides a conceptual link between diffusion and image retrieval. | 翻訳日:2024-03-28 01:49:43 公開日:2024-03-26 |
# 非翻訳不変直線格子上の2粒子散乱
Two-Particle Scattering on Non-Translation Invariant Line Lattices ( http://arxiv.org/abs/2303.04342v2 ) ライセンス: Link先を確認 | Luna Lima e Silva, Daniel Jost Brod, | (参考訳) 単一粒子量子ウォークはスパースグラフ上の単一粒子量子ウォークと直線格子上の2粒子散乱を組み合わせることで、普遍的な量子計算を行うのに十分である。
本研究では、翻訳不変性のない相互作用の族に対する直線格子上の2次元粒子散乱の問題を解き、ボース・ハッバード相互作用を極限ケースとして回復する。
その一般化のため、我々の体系的なアプローチは、一般グラフ上の多粒子散乱のより一般的な問題を解くための基礎を築き、それによって異なるまたは単純な量子ゲートやガジェットの設計が可能になる。
本研究の結果,行グラフのごく一部にのみ作用する場合に,CPHASEゲートを高忠実度で実現できることが示唆された。
Quantum walks have been used to develop quantum algorithms since their inception, and can be seen as an alternative to the usual circuit model; combining single-particle quantum walks on sparse graphs with two-particle scattering on a line lattice is sufficient to perform universal quantum computation. In this work we solve the problem of two- particle scattering on the line lattice for a family of interactions without translation invariance, recovering the Bose-Hubbard interaction as the limiting case. Due to its generality, our systematic approach lays the groundwork to solve the more general problem of multi-particle scattering on general graphs, which in turn can enable design of different or simpler quantum gates and gadgets. As a consequence of this work, we show that a CPHASE gate can be achieved with high fidelity when the interaction acts only on a small portion of the line graph. | 翻訳日:2024-03-28 01:49:43 公開日:2024-03-26 |
# 弱絡みは製品測定のみを用いて量子通信を改善する
Weak entanglement improves quantum communication using only product measurements ( http://arxiv.org/abs/2303.07907v3 ) ライセンス: Link先を確認 | Amélie Piveteau, Alastair A. Abbott, Sadiq Muhammad, Mohamed Bourennane, Armin Tavakoli, | (参考訳) 弱い絡み合った状態は、個々の光子を分離した干渉のない測定だけを用いて、キュービットチャネル上の通信を改善することができることを示す。
秘密共有と呼ばれる暗号プリミティブに対応する通信タスクを導入し、全てのステアブルな2ビット等方性状態が、製品測定のみを用いて成功率に量子的優位性をもたらすことを示す。
さらに、そのような測定により、量子ステアリングを含まない部分的に絡み合った状態から通信の利点が明らかになることを示す。
さらに、より洗練されながら標準的な部分的なベル状態分析に基づく確率的な秘密共有の変種を考えると、これは様々な非定常等方性状態に対しても有利であることを示す。
制御不能な状態における分極量子ビットの作成により、最も絡み合いのない量子ビットプロトコルを超えた秘密共有タスクの成功率の改善を実験的に実証した。
この結果から, 絡み合い支援量子通信における簡易かつスケーラブルな測定により, 大量のノイズを克服できることが判明した。
We show that weakly entangled states can improve communication over a qubit channel using only separate, interference-free, measurements of individual photons. We introduce a communication task corresponding to the cryptographic primitive known as secret sharing and show that all steerable two-qubit isotropic states provide a quantum advantage in the success rate using only product measurements. Furthermore, we show that such measurements can even reveal communication advantages from noisy partially entangled states that admit no quantum steering. We then go further and consider a stochastic variant of secret sharing based on more sophisticated, yet standard, partial Bell state analysers, and show that this reveals advantages also for a range of unsteerable isotropic states. By preparing polarisation qubits in unsteerable states, we experimentally demonstrate improved success rates of both secret sharing tasks beyond the best entanglement-unassisted qubit protocol. Our results reveal the capability of simple and scalable measurements in entanglement-assisted quantum communication to overcome large amounts of noise. | 翻訳日:2024-03-28 01:49:43 公開日:2024-03-26 |
# 大規模言語モデルは、言語使用において人間に似ていますか?
Do large language models resemble humans in language use? ( http://arxiv.org/abs/2303.08014v2 ) ライセンス: Link先を確認 | Zhenguang G. Cai, Xufeng Duan, David A. Haslett, Shuqi Wang, Martin J. Pickering, | (参考訳) ChatGPTやVicunaのような大規模言語モデル(LLM)は、言語を解釈し、生成する際、顕著な能力を示している。
しかし、内部の作業はブラックボックスのままであり、LLMやチャットボットが言語利用において人間的な特性を発達できるかどうかは不明である。
認知科学者は、多くの実験を考案し、人々が言語を理解し、どのように生成するかを説明することに大きく進歩した。
私たちはChatGPTとVicunaを、音から対話、事前登録、実験1回につき1000ラン(イテレーション)の12の実験に応用した。
ChatGPTとVicunaは、それぞれ12の実験のうち10と7で人間の言語使用パターンを再現した。
形式によって異なる意味を持つ不慣れな単語を関連づけたモデルは、最近遭遇した曖昧な単語の意味にアクセスし続け、最近の文構造を再利用し、動詞の意味論の関数として因果性に起因し、異なる意味にアクセスし、インターロケータの同一性に応じて異なる単語を検索した。
加えて、ChatGPTは、Vicunaではなく、ノイズによって腐敗した可能性があり、合理的な推論を引き合いに出し、文の中で見落とされた意味的な誤記を解釈する非解釈不可能な文である。
最後に、人間とは異なり、どちらのモデルも、より少ない情報的内容を伝えるために短い単語を使うことを好まなかったし、統語的曖昧さを解決するために文脈を使うこともしなかった。
これらの収束と発散がトランスフォーマーアーキテクチャからどのように引き起こされるかについて議論する。
全体として、これらの実験は、ChatGPT(およびVicuna)のようなLLMが人間の言語処理の多くの面で人間に似ていることを示した。
Large language models (LLMs) such as ChatGPT and Vicuna have shown remarkable capacities in comprehending and producing language. However, their internal workings remain a black box, and it is unclear whether LLMs and chatbots can develop humanlike characteristics in language use. Cognitive scientists have devised many experiments that probe, and have made great progress in explaining, how people comprehend and produce language. We subjected ChatGPT and Vicuna to 12 of these experiments ranging from sounds to dialogue, preregistered and with 1000 runs (i.e., iterations) per experiment. ChatGPT and Vicuna replicated the human pattern of language use in 10 and 7 out of the 12 experiments, respectively. The models associated unfamiliar words with different meanings depending on their forms, continued to access recently encountered meanings of ambiguous words, reused recent sentence structures, attributed causality as a function of verb semantics, and accessed different meanings and retrieved different words depending on an interlocutor's identity. In addition, ChatGPT, but not Vicuna, nonliterally interpreted implausible sentences that were likely to have been corrupted by noise, drew reasonable inferences, and overlooked semantic fallacies in a sentence. Finally, unlike humans, neither model preferred using shorter words to convey less informative content, nor did they use context to resolve syntactic ambiguities. We discuss how these convergences and divergences may result from the transformer architecture. Overall, these experiments demonstrate that LLMs such as ChatGPT (and Vicuna to a lesser extent) are humanlike in many aspects of human language processing. | 翻訳日:2024-03-28 01:49:43 公開日:2024-03-26 |
# Troika: 合成ゼロショット学習のためのマルチパスクロスモーダルトラクション
Troika: Multi-Path Cross-Modal Traction for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2303.15230v2 ) ライセンス: Link先を確認 | Siteng Huang, Biao Gong, Yutong Feng, Min Zhang, Yiliang Lv, Donglin Wang, | (参考訳) 近年のコンポジションゼロショット学習 (CZSL) 法は, コンポジションオブジェクト対にのみトレーニング可能なプロンプトを構築することで, 事前学習された視覚言語モデル (VLM) に適応している。
これらの手法は、目に見える構成の合同表現を学習することで、状態と対象の明示的なモデリングを無視し、事前学習された知識の活用と一般化を目に見えない構成に制限する。
本研究は、解の普遍性に特に焦点をあて、状態、対象、構成を協調的にモデル化する3つの識別分岐(マルチパス)を確立するCZSLモデルのための新しいパラダイムを提案する。
提示されたTroikaは、ブランチ固有のプロンプト表現と分解された視覚的特徴を一致させる実装です。
意味的に類似したマルチモーダル表現間のバイアスを校正するために、クロスモーダル・トラクション・モジュールをトロイカに考案し、プロンプト表現を現在の視覚コンテンツへとシフトさせる。
提案手法は,クローズドワールドとオープンワールドの両設定において,既存の手法を著しく上回っている。
コードはhttps://github.com/bighuang624/Troika.comから入手できる。
Recent compositional zero-shot learning (CZSL) methods adapt pre-trained vision-language models (VLMs) by constructing trainable prompts only for composed state-object pairs. Relying on learning the joint representation of seen compositions, these methods ignore the explicit modeling of the state and object, thus limiting the exploitation of pre-trained knowledge and generalization to unseen compositions. With a particular focus on the universality of the solution, in this work, we propose a novel paradigm for CZSL models that establishes three identification branches (i.e., Multi-Path) to jointly model the state, object, and composition. The presented Troika is our implementation that aligns the branch-specific prompt representations with decomposed visual features. To calibrate the bias between semantically similar multi-modal representations, we further devise a Cross-Modal Traction module into Troika that shifts the prompt representation towards the current visual content. We conduct extensive experiments on three popular benchmarks, where our method significantly outperforms existing methods in both closed-world and open-world settings. The code will be available at https://github.com/bighuang624/Troika. | 翻訳日:2024-03-28 01:49:43 公開日:2024-03-26 |
# PWESuite: 話し言葉の埋め込みとタスク
PWESuite: Phonetic Word Embeddings and Tasks They Facilitate ( http://arxiv.org/abs/2304.02541v4 ) ライセンス: Link先を確認 | Vilém Zouhar, Kalvin Chang, Chenxuan Cui, Nathaniel Carlson, Nathaniel Robinson, Mrinmaya Sachan, David Mortensen, | (参考訳) 単語を固定次元ベクトル空間にマッピングすることは、現代のNLPのバックボーンである。
ほとんどの単語埋め込み手法は意味情報をエンコードすることに成功したが、多くのタスクにおいて重要な音声情報を見落としている。
音声による単語の埋め込みを構築するために,音声特徴を用いた3つの手法を開発した。
既存の音声単語埋め込み手法の不整合性評価に対処するため,過去,現在,未来を正確に評価するためのタスクスイートも提案する。
本研究では,(1)単語検索や音声類似性との相関などの単語埋め込みの本質的な側面と,(2)韻律やコグネート検出,および音響類似性といったタスクにおける外在的性能を評価する。
われわれのタスクスイートは再現性を促進し、将来の音声埋め込み研究を刺激することを期待している。
Mapping words into a fixed-dimensional vector space is the backbone of modern NLP. While most word embedding methods successfully encode semantic information, they overlook phonetic information that is crucial for many tasks. We develop three methods that use articulatory features to build phonetically informed word embeddings. To address the inconsistent evaluation of existing phonetic word embedding methods, we also contribute a task suite to fairly evaluate past, current, and future methods. We evaluate both (1) intrinsic aspects of phonetic word embeddings, such as word retrieval and correlation with sound similarity, and (2) extrinsic performance on tasks such as rhyme and cognate detection and sound analogies. We hope our task suite will promote reproducibility and inspire future phonetic embedding research. | 翻訳日:2024-03-28 01:49:43 公開日:2024-03-26 |
# 安全な説明可能な計画
Safe Explicable Planning ( http://arxiv.org/abs/2304.03773v3 ) ライセンス: Link先を確認 | Akkamahadevi Hanni, Andrew Boateng, Yu Zhang, | (参考訳) 人間の期待は、他人や世界に対する理解から生まれる。
人間とAIの相互作用の文脈では、この理解は現実と一致しないかもしれない。
このギャップを埋める方法として導入された説明可能なプランニングは、人間の期待をエージェントの最適な行動と調和させることを目的としており、解釈可能な意思決定を容易にする。
しかし、未解決の重大な問題は、説明可能な計画における安全性を保証することだ。
そこで,本稿では,セーフ・エクスプリシブル・プランニング(SEP)を提案する。
SEPの目標は、特定の安全基準に固執しながら、人間の期待に沿う行動を見つけることである。
提案手法は,1つのモデルではなく複数のモデルから派生した複数の目的の考察を一般化し,パレートの安全な説明可能なポリシーを導出する。
パレート集合を見つけるための正確な方法と、パレート集合のポリシーの1つを見つけるより効率的なグリージー法の両方を提示する。
さらに、拡張性を改善するために、状態アグリゲーションに基づく近似的なソリューションを提供する。
これらの手法の望ましい理論的性質を検証するための公式な証明を提供する。
シミュレーションと物理ロボット実験による評価により,提案手法の有効性が検証された。
Human expectations arise from their understanding of others and the world. In the context of human-AI interaction, this understanding may not align with reality, leading to the AI agent failing to meet expectations and compromising team performance. Explicable planning, introduced as a method to bridge this gap, aims to reconcile human expectations with the agent's optimal behavior, facilitating interpretable decision-making. However, an unresolved critical issue is ensuring safety in explicable planning, as it could result in explicable behaviors that are unsafe. To address this, we propose Safe Explicable Planning (SEP), which extends the prior work to support the specification of a safety bound. The goal of SEP is to find behaviors that align with human expectations while adhering to the specified safety criterion. Our approach generalizes the consideration of multiple objectives stemming from multiple models rather than a single model, yielding a Pareto set of safe explicable policies. We present both an exact method, guaranteeing finding the Pareto set, and a more efficient greedy method that finds one of the policies in the Pareto set. Additionally, we offer approximate solutions based on state aggregation to improve scalability. We provide formal proofs that validate the desired theoretical properties of these methods. Evaluation through simulations and physical robot experiments confirms the effectiveness of our approach for safe explicable planning. | 翻訳日:2024-03-28 01:49:43 公開日:2024-03-26 |
# 主層横断の因果媒介分析における同定と多重ロバスト推定
Identification and multiply robust estimation in causal mediation analysis across principal strata ( http://arxiv.org/abs/2304.10025v3 ) ライセンス: Link先を確認 | Chao Cheng, Fan Li, | (参考訳) 治療後イベント(非コンプライアンス,臨床イベント,終末イベントなど)の存在下での因果仲裁の評価を検討する。
本研究は, 研究全体の自然媒介効果と, 治療後事象の有意な有意差を特徴とする各主要層について検討した。
我々は,各媒介推定値に対する効率的な影響関数を導出し,推定のための多重頑健な推定値の集合を動機付けている。
多重ロバストな推定器は4種類の誤特定の下で一貫し、すべてのニュアンスモデルが正しく特定されたときに効率的である。
シミュレーションと実データ例を2つ紹介する。
We consider assessing causal mediation in the presence of a post-treatment event (examples include noncompliance, a clinical event, or a terminal event). We identify natural mediation effects for the entire study population and for each principal stratum characterized by the joint potential values of the post-treatment event. We derive efficient influence functions for each mediation estimand, which motivate a set of multiply robust estimators for inference. The multiply robust estimators are consistent under four types of misspecifications and are efficient when all nuisance models are correctly specified. We illustrate our methods via simulations and two real data examples. | 翻訳日:2024-03-28 01:39:58 公開日:2024-03-26 |
# SINC:同時行動生成のための3次元人体運動の空間構成
SINC: Spatial Composition of 3D Human Motions for Simultaneous Action Generation ( http://arxiv.org/abs/2304.10417v3 ) ライセンス: Link先を確認 | Nikos Athanasiou, Mathis Petrovich, Michael J. Black, Gül Varol, | (参考訳) 我々のゴールは、同時動作を記述したテキスト入力が与えられた3次元の人間の動きを合成することである。
このような同時的な動きを「空間構成」と呼ぶ。
ある行動から別の行動へ移行しようとする時間的構成とは対照的に、空間的合成では、どの行動にどの身体部位が関与しているかを理解し、同時にそれらを動かすことができる必要がある。
動作と身体部位の対応が強力な言語モデルにエンコードされているという観察に触発され,GPT-3に「アクション・ネーム」に関わる身体部位は何か?」などのテキストを入力し,部品リストと少数ショット例も提供する。
このアクション部分マッピングを前提として,2つの動作の身体部分を組み合わせて,2つの動作を空間的に構成する最初の自動手法を確立する。
しかし、構成動作によるトレーニングデータは、常にコンビネータによって制限される。
そこで,本手法を用いて合成データを作成し,SINC(SImultaneous actioN compositions for 3D Human Motions)と呼ばれる最先端のテキスト・モーション生成モデルをトレーニングする。
実験では,GPT誘導合成データを用いたトレーニングにより,ベースライン上での空間組成生成が改善された。
私たちのコードはhttps://sinc.is.tue.mpg.de/で公開されています。
Our goal is to synthesize 3D human motions given textual inputs describing simultaneous actions, for example 'waving hand' while 'walking' at the same time. We refer to generating such simultaneous movements as performing 'spatial compositions'. In contrast to temporal compositions that seek to transition from one action to another, spatial compositing requires understanding which body parts are involved in which action, to be able to move them simultaneously. Motivated by the observation that the correspondence between actions and body parts is encoded in powerful language models, we extract this knowledge by prompting GPT-3 with text such as "what are the body parts involved in the action <action name>?", while also providing the parts list and few-shot examples. Given this action-part mapping, we combine body parts from two motions together and establish the first automated method to spatially compose two actions. However, training data with compositional actions is always limited by the combinatorics. Hence, we further create synthetic data with this approach, and use it to train a new state-of-the-art text-to-motion generation model, called SINC ("SImultaneous actioN Compositions for 3D human motions"). In our experiments, that training with such GPT-guided synthetic data improves spatial composition generation over baselines. Our code is publicly available at https://sinc.is.tue.mpg.de/. | 翻訳日:2024-03-28 01:39:58 公開日:2024-03-26 |
# 量子制御機械:量子プログラミングにおける制御フローの限界
Quantum Control Machine: The Limits of Control Flow in Quantum Programming ( http://arxiv.org/abs/2304.15000v5 ) ライセンス: Link先を確認 | Charles Yuan, Agnes Villanyi, Michael Carbin, | (参考訳) 因子化、探索、シミュレーションなどのタスクの量子アルゴリズムは、重ね合わせにおけるデータの値に依存する分岐や反復のような制御フローに依存している。
スイッチ、ループ、高階関数などの制御フローのためのハイレベルプログラミング抽象化は、古典的な言語で広く使われている。
対照的に、多くの量子言語は重ね合わせにおける制御フローの高レベルな抽象化を提供しておらず、そのような制御フローを実装するためにハードウェアレベルの論理ゲートを使用する必要がある。
このギャップの理由は、古典的なコンピュータがデータに依存するプログラムカウンタを使用して制御フローをサポートするのに対して、量子コンピュータの典型的なアーキテクチャは重ね合わせのデータに依存するプログラムカウンタを提供しないからである。
その結果、量子コンピュータ上で正しく実現可能な制御フロー抽象化の完全なセットはまだ確立されていない。
本研究では、量子コンピュータ上で正しく実現可能な制御フローの抽象化特性の完全な評価を行う。
まず,プログラムカウンタが重ね合わさっている量子コンピュータでも,従来の条件分岐命令を持ち上げて重ね合わさって量子アルゴリズムの制御フローを正しく実現できないことを証明する。
この定理は、古典プログラミングから量子プログラミングへの$\lambda$-calculusのような制御フローの一般的な抽象化を直接持ち上げる能力を否定している。
これに対し、制御フローが量子コンピュータ上で正しく実現可能な必要かつ十分な条件を提示する。
本稿では,これらの条件を満たすために制限された条件ジャンプを特徴とする命令セットアーキテクチャである量子制御機を紹介する。
この設計により、開発者は論理ゲートの代わりにプログラムカウンタを使用して量子アルゴリズムの制御フローを正しく表現できる。
Quantum algorithms for tasks such as factorization, search, and simulation rely on control flow such as branching and iteration that depends on the value of data in superposition. High-level programming abstractions for control flow, such as switches, loops, and higher-order functions, are ubiquitous in classical languages. By contrast, many quantum languages do not provide high-level abstractions for control flow in superposition, and instead require the use of hardware-level logic gates to implement such control flow. The reason for this gap is that whereas a classical computer supports control flow using a program counter that can depend on data, the typical architecture of a quantum computer does not provide a program counter that can depend on data in superposition. As a result, the complete set of control flow abstractions that can be correctly realized on a quantum computer has not yet been established. In this work, we provide a complete characterization of the properties of control flow abstractions that are correctly realizable on a quantum computer. First, we prove that even on a quantum computer whose program counter exists in superposition, one cannot correctly realize control flow in quantum algorithms by lifting the classical conditional jump instruction to work in superposition. This theorem denies the ability to directly lift general abstractions for control flow such as the $\lambda$-calculus from classical to quantum programming. In response, we present the necessary and sufficient conditions for control flow to be correctly realizable on a quantum computer. We introduce the quantum control machine, an instruction set architecture featuring a conditional jump that is restricted to satisfy these conditions. We show how this design enables a developer to correctly express control flow in quantum algorithms using a program counter in place of logic gates. | 翻訳日:2024-03-28 01:39:58 公開日:2024-03-26 |
# 機械学習形成エネルギーを用いたショットガン結晶構造予測
Shotgun crystal structure prediction using machine-learned formation energies ( http://arxiv.org/abs/2305.02158v3 ) ライセンス: Link先を確認 | Chang Liu, Hiromasa Tamaki, Tomoyasu Yokoyama, Kensuke Wakasugi, Satoshi Yotsuhashi, Minoru Kusaba, Ryo Yoshida, | (参考訳) 組み立てられた原子の安定あるいは準安定な結晶構造は、原子配置の空間上で定義されたエネルギー表面の大域的または局所的なミニマを見つけることで予測できる。
一般にこれは、単位セルに30以上の原子を含むような大規模システムでは実行不可能な、第1原理のエネルギー計算を繰り返す必要がある。
そこで我々は, 簡単な機械学習ワークフローを用いて, 結晶構造予測問題の解決に多大な進歩を遂げた; 第一原理エネルギー計算に機械学習サロゲートを用いて, 仮想的に生成した結晶構造の大規模なライブラリを用いて, 非定位単発スクリーニングを行った。
本手法は, 第一原理計算から得られた少数のトレーニングサンプルのみを用いて, 結晶前状態の高精度なエネルギー予測を可能にする伝達学習と, 有望かつ多種多様な結晶構造をスクリーニングするための生成モデルである。
ここでは、トレーニングサンプルの生成と、最終的に狭くなった結晶構造の最適化のために、第一原理計算を行った。
我々のショットガン法は, 第一原理計算の繰り返しに大きく依存する従来の手法に比べて計算量が少なく, 90種類の結晶構造の予測を含むベンチマークタスクにおいて, 92.2\%に達するという異常な予測精度を達成した。
Stable or metastable crystal structures of assembled atoms can be predicted by finding the global or local minima of the energy surface defined on the space of the atomic configurations. Generally, this requires repeated first-principles energy calculations that are impractical for large systems, such as those containing more than 30 atoms in the unit cell. Here, we have made significant progress in solving the crystal structure prediction problem with a simple but powerful machine-learning workflow; using a machine-learning surrogate for first-principles energy calculations, we performed non-iterative, single-shot screening using a large library of virtually created crystal structures. The present method relies on two key technical components: transfer learning, which enables a highly accurate energy prediction of pre-relaxed crystalline states given only a small set of training samples from first-principles calculations, and generative models to create promising and diverse crystal structures for screening. Here, first-principles calculations were performed only to generate the training samples, and for the optimization of a dozen or fewer finally narrowed-down crystal structures. Our shotgun method proved to be computationally less demanding compared to conventional methods, which heavily rely on iterations of first-principles calculations, and achieved an exceptional prediction accuracy, reaching 92.2\% in a benchmark task involving the prediction of 90 different crystal structures. | 翻訳日:2024-03-28 01:39:58 公開日:2024-03-26 |
# ChatGPTがSPADE(Sustainability, PrivAcy, Digital divide, Ethics)を必要としている: レビュー
ChatGPT Needs SPADE (Sustainability, PrivAcy, Digital divide, and Ethics) Evaluation: A Review ( http://arxiv.org/abs/2305.03123v2 ) ライセンス: Link先を確認 | Sunder Ali Khowaja, Parus Khuwaja, Kapal Dev, Weizheng Wang, Lewis Nkenyereye, | (参考訳) ChatGPTは、デバイス上で消費者が利用できるもう1つの大きな言語モデル(LLM)である。
近年,チャットGPTや他のLLMの有効性,効率性,統合性,感情性を示す研究が数多く発表されている。
対照的に、本研究では、サステナビリティ、プライバシ、ディジタルディビジョン、倫理といった、主に見落とされがちな重要な側面に焦点を当て、チャットGPTだけでなく、会話ボットのカテゴリにおけるその後の全てのエントリは、サステナビリティ、プリヴエイシー、デジタルディビジョン、倫理(SPADE)の評価を受けるべきであることを示唆している。
本稿では、上記の特徴に則って、チャットGPTにまつわる問題や懸念について詳細に論じる。
また,最近のEU AI 法について,SPADE の評価に従って簡潔に論じる。
我々は仮説を仮説化された事実とともに予備的なデータ収集と可視化によって支持する。
また、各懸念事項に対する緩和や勧告も提案する。
さらに、政府によって設計された場合、AIポリシー法に関するポリシーや勧告も提案する。
ChatGPT is another large language model (LLM) vastly available for the consumers on their devices but due to its performance and ability to converse effectively, it has gained a huge popularity amongst research as well as industrial community. Recently, many studies have been published to show the effectiveness, efficiency, integration, and sentiments of chatGPT and other LLMs. In contrast, this study focuses on the important aspects that are mostly overlooked, i.e. sustainability, privacy, digital divide, and ethics and suggests that not only chatGPT but every subsequent entry in the category of conversational bots should undergo Sustainability, PrivAcy, Digital divide, and Ethics (SPADE) evaluation. This paper discusses in detail the issues and concerns raised over chatGPT in line with aforementioned characteristics. We also discuss the recent EU AI Act briefly in accordance with the SPADE evaluation. We support our hypothesis by some preliminary data collection and visualizations along with hypothesized facts. We also suggest mitigations and recommendations for each of the concerns. Furthermore, we also suggest some policies and recommendations for AI policy act, if designed by the governments. | 翻訳日:2024-03-28 01:39:58 公開日:2024-03-26 |
# 近近距離アイシングモデルのためのニューラルネットワーク量子状態の教師付きトレーニング
Supervised Training of Neural-Network Quantum States for the Next Nearest Neighbor Ising model ( http://arxiv.org/abs/2305.03394v2 ) ライセンス: Link先を確認 | Zheyu Wu, Remmy Zen, Heitor P. Casagrande, Stéphane Bressan, Dario Poletti, | (参考訳) 異なるニューラルネットワークアーキテクチャは、量子状態を表現するために教師なしまたは教師付きで訓練することができる。
我々は、フィードフォワードニューラルネットワーク量子状態の教師付きトレーニングのための異なる戦略を探索し、比較する。
本研究は, ニューラルネットワーク量子状態の異なる状態におけるフィードフォワードの量子状態の性能を, 異なるハイパーパラメータ, 異なる2つの損失関数に対して実証的に, 比較的に評価し, それぞれが 'emph{mean-squared error} と 'emph{overlap} とよばれる。
我々は、その相の多様性に対する次のアレスト隣のIsingモデルを考察し、その常磁性、強磁性、対反強磁性相に焦点を当てる。
重なり合う損失関数は、ニューラルネットワークの再スケーリングを条件として、すべてのフェーズにわたるモデルのより良いトレーニングを可能にする。
Different neural network architectures can be unsupervisedly or supervisedly trained to represent quantum states. We explore and compare different strategies for the supervised training of feed forward neural network quantum states. We empirically and comparatively evaluate the performance of feed forward neural network quantum states in different phases of matter for variants of the architecture, for different hyper-parameters, and for two different loss functions, to which we refer as \emph{mean-squared error} and \emph{overlap}, respectively. We consider the next-nearest neighbor Ising model for the diversity of its phases and focus on its paramagnetic, ferromagnetic, and pair-antiferromagnetic phases. We observe that the overlap loss function allows better training of the model across all phases, provided a rescaling of the neural network. | 翻訳日:2024-03-28 01:39:58 公開日:2024-03-26 |
# 工学的アンシラリセットによる量子状態生成
Quantum state preparation via engineered ancilla resetting ( http://arxiv.org/abs/2305.08641v4 ) ライセンス: Link先を確認 | Daniel Alcalde Puente, Felix Motzoi, Tommaso Calarco, Giovanna Morigi, Matteo Rizzi, | (参考訳) 本研究では, フラストレーションのない親ハミルトニアンの基底状態を作成するために, 周期量子リセットを組み込んだプロトコルの有効性について検討する。
このプロトコルでは、ハミルトニアンを操り、システムとアシラリー自由度の間の局所的な結合を可能にする。
周期的な間隔で、補助システムは初期状態にリセットされる。
無限に短いリセット時間に対して、この力学は、定常状態が目標状態であるリンドブラディアンによって近似することができる。
しかし、有限リセット時間の間、スピン鎖とアンシラはリセット操作の間に絡み合う。
プロトコルの性能を評価するため,我々は,スピン-1 Affleck-Kennedy-Lieb-Tasaki状態の作成に焦点をあてて,行列積状態シミュレーションと量子軌道法を用いている。
我々の分析は、異なるリセット間隔下での収束時間、忠実度、エネルギー進化を考察する。
以上の結果から,アンシラ系の絡み合いはより高速な収束に不可欠であることが示唆された。
特に、プロトコルが最高に機能する最適なリセット時間が存在する。
簡単な近似を用いて、リセット手順中にシステムに適用されたマッピング演算子を最適に選択する方法の知見を提供する。
さらに、このプロトコルは、リセット時間とデフォーカスノイズの小さな偏差に対して顕著なレジリエンスを示す。
我々の研究は、量子リセットを用いたストロボスコピックマップが、マルコフ力学に依存する量子貯水池工学や量子状態ステアリングプロトコルといった代替手法よりも有利である可能性を示唆している。
In this theoretical investigation, we study the effectiveness of a protocol that incorporates periodic quantum resetting to prepare ground states of frustration-free parent Hamiltonians. This protocol uses a steering Hamiltonian that enables local coupling between the system and ancillary degrees of freedom. At periodic intervals, the ancillary system is reset to its initial state. For infinitesimally short reset times, the dynamics can be approximated by a Lindbladian whose steady state is the target state. For finite reset times, however, the spin chain and the ancilla become entangled between reset operations. To evaluate the performance of the protocol, we employ Matrix Product State simulations and quantum trajectory techniques, focusing on the preparation of the spin-1 Affleck-Kennedy-Lieb-Tasaki state. Our analysis considers convergence time, fidelity, and energy evolution under different reset intervals. Our numerical results show that ancilla system entanglement is essential for faster convergence. In particular, there exists an optimal reset time at which the protocol performs best. Using a simple approximation, we provide insights into how to optimally choose the mapping operators applied to the system during the reset procedure. Furthermore, the protocol shows remarkable resilience to small deviations in reset time and dephasing noise. Our study suggests that stroboscopic maps using quantum resetting may offer advantages over alternative methods, such as quantum reservoir engineering and quantum state steering protocols, which rely on Markovian dynamics. | 翻訳日:2024-03-28 01:39:58 公開日:2024-03-26 |
# 相関性を保つ:ビデオ拡散モデルに先立つノイズ
Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models ( http://arxiv.org/abs/2305.10474v3 ) ライセンス: Link先を確認 | Songwei Ge, Seungjun Nah, Guilin Liu, Tyler Poon, Andrew Tao, Bryan Catanzaro, David Jacobs, Jia-Bin Huang, Ming-Yu Liu, Yogesh Balaji, | (参考訳) 拡散モデルを用いた高品質な画像生成の著しい進歩にもかかわらず、フォトリアリスティックかつ時間的コヒーレントなアニメーションフレーム列の合成はまだ初期段階である。
画像生成のための数十億のデータセットが市販されているが、同じスケールの同様のビデオデータを集めることは依然として難しい。
また、ビデオ拡散モデルのトレーニングは、画像よりも計算コストがはるかに高い。
本研究では,ビデオ合成タスクの実用的な解決策として,ビデオデータを用いた事前学習画像拡散モデルの微調整について検討する。
映像拡散に先立って映像ノイズを鼻で拡大することにより,映像の音響特性が向上することがわかった。
念入りにデザインされたビデオノイズは、パフォーマンスを大幅に向上させる。
UCF-101 と MSR-VTT ベンチマークでSOTA のゼロショットテキスト・ビデオ結果が得られたことを,我々のモデルである Preserve Your Own correlation (PYoCo) が広範囲に検証した。
また、小規模のUCF-101ベンチマークでSOTAビデオ生成の品質を10\times$の小さなモデルで達成し、従来の技術に比べて計算量が大幅に少ない。
Despite tremendous progress in generating high-quality images using diffusion models, synthesizing a sequence of animated frames that are both photorealistic and temporally coherent is still in its infancy. While off-the-shelf billion-scale datasets for image generation are available, collecting similar video data of the same scale is still challenging. Also, training a video diffusion model is computationally much more expensive than its image counterpart. In this work, we explore finetuning a pretrained image diffusion model with video data as a practical solution for the video synthesis task. We find that naively extending the image noise prior to video noise prior in video diffusion leads to sub-optimal performance. Our carefully designed video noise prior leads to substantially better performance. Extensive experimental validation shows that our model, Preserve Your Own Correlation (PYoCo), attains SOTA zero-shot text-to-video results on the UCF-101 and MSR-VTT benchmarks. It also achieves SOTA video generation quality on the small-scale UCF-101 benchmark with a $10\times$ smaller model using significantly less computation than the prior art. | 翻訳日:2024-03-28 01:39:58 公開日:2024-03-26 |
# 多言語翻訳モデルとバイリンガル翻訳モデル間の表現格差の探索
Exploring Representational Disparities Between Multilingual and Bilingual Translation Models ( http://arxiv.org/abs/2305.14230v2 ) ライセンス: Link先を確認 | Neha Verma, Kenton Murray, Kevin Duh, | (参考訳) 多言語機械翻訳は、完全な多言語パラメータ共有により、多くの言語対におけるパラメータ効率と全体的な性能の両方に非常に有用であることが証明されている。
しかし、多言語モデルにおける一部の言語ペアは、特に1対多の翻訳設定において、バイリンガルモデルよりもパフォーマンスが悪く見える。
両言語モデルと1対多の多言語モデルとの表現の幾何学的差異について検討する。
具体的には、これらの表現の等方性を内在次元とアイソスコアを用いて計算し、表現が基底ベクトル空間の次元をどのように利用するかを測定する。
両モデルで同じ評価データを用いて、与えられた言語対に対して、その多言語モデルデコーダ表現は一貫して等方的ではなく、同等のバイリンガルモデルデコーダ表現よりも少ない次元を占有していることがわかった。
さらに,多言語デコーダ表現における異方性の多くは,言語固有の情報モデリングに起因し,表現能力に制限があることを示す。
Multilingual machine translation has proven immensely useful for both parameter efficiency and overall performance across many language pairs via complete multilingual parameter sharing. However, some language pairs in multilingual models can see worse performance than in bilingual models, especially in the one-to-many translation setting. Motivated by their empirical differences, we examine the geometric differences in representations from bilingual models versus those from one-to-many multilingual models. Specifically, we compute the isotropy of these representations using intrinsic dimensionality and IsoScore, in order to measure how the representations utilize the dimensions in their underlying vector space. Using the same evaluation data in both models, we find that for a given language pair, its multilingual model decoder representations are consistently less isotropic and occupy fewer dimensions than comparable bilingual model decoder representations. Additionally, we show that much of the anisotropy in multilingual decoder representations can be attributed to modeling language-specific information, therefore limiting remaining representational capacity. | 翻訳日:2024-03-28 01:39:58 公開日:2024-03-26 |
# 中国語テキストにおけるトピックセグメンテーションとアウトライン生成の促進--パラグラフレベルのトピック表現、コーパス、ベンチマーク
Advancing Topic Segmentation and Outline Generation in Chinese Texts: The Paragraph-level Topic Representation, Corpus, and Benchmark ( http://arxiv.org/abs/2305.14790v2 ) ライセンス: Link先を確認 | Feng Jiang, Weihao Liu, Xiaomin Chu, Peifeng Li, Qiaoming Zhu, Haizhou Li, | (参考訳) トピックセグメンテーションとアウトライン生成は、文書を一貫性のあるトピックセクションに分割し、対応するサブヘッダを生成し、文書の談話トピック構造を明らかにする。
文レベルのトピック構造と比較すると、段落レベルのトピック構造は文書全体のコンテキストをより高いレベルから素早く把握し、理解することができ、要約、談話解析、情報検索といった下流の多くのタスクに役立てることができる。
しかし, 大規模で高品質な中国語段落レベルの話題構造コーパスの欠如により, 相対研究や応用が抑制された。
このギャップを埋めるために、我々は中国語の段落レベルの話題表現、コーパス、ベンチマークを構築した。
まず,コーパス構築を導くために,3層からなる階層的な段落レベルのトピック構造表現を提案する。
次に,中国最大のパラグラフレベルのトピック構造コーパス(CPTS)を構築するために,2段階のマンマシン共同アノテーション手法を適用し,高品質化を実現した。
また,2つの基本タスク(トピックセグメンテーションとアウトライン生成)におけるCPTSの計算可能性を検証するためにChatGPTなどの強力なベースラインを構築し,下流タスク(談話解析)の有用性を予め検証した。
Topic segmentation and outline generation strive to divide a document into coherent topic sections and generate corresponding subheadings, unveiling the discourse topic structure of a document. Compared with sentence-level topic structure, the paragraph-level topic structure can quickly grasp and understand the overall context of the document from a higher level, benefitting many downstream tasks such as summarization, discourse parsing, and information retrieval. However, the lack of large-scale, high-quality Chinese paragraph-level topic structure corpora restrained relative research and applications. To fill this gap, we build the Chinese paragraph-level topic representation, corpus, and benchmark in this paper. Firstly, we propose a hierarchical paragraph-level topic structure representation with three layers to guide the corpus construction. Then, we employ a two-stage man-machine collaborative annotation method to construct the largest Chinese Paragraph-level Topic Structure corpus (CPTS), achieving high quality. We also build several strong baselines, including ChatGPT, to validate the computability of CPTS on two fundamental tasks (topic segmentation and outline generation) and preliminarily verified its usefulness for the downstream task (discourse parsing). | 翻訳日:2024-03-28 01:39:58 公開日:2024-03-26 |
# InNeRF360:360度ニューラルラジアンス場へのテキストガイド型3次元連続物体塗布
InNeRF360: Text-Guided 3D-Consistent Object Inpainting on 360-degree Neural Radiance Fields ( http://arxiv.org/abs/2305.15094v2 ) ライセンス: Link先を確認 | Dongqing Wang, Tong Zhang, Alaa Abboud, Sabine Süsstrunk, | (参考訳) InNeRF360は,360度ニューラルラジアンス場(NeRF)からテキスト特定対象を正確に除去するシステムである。
課題は、既存のNeRFモデルの暗黙の容積表現を特に要求している領域に対して、知覚的に一貫した内容に着色しながら、オブジェクトを効果的に除去することである。
また、不正確なセグメンテーションや不整合なインペインティングに対して、正面面のシーンよりも境界のないシーンの方が物体の外観や背景の変化に敏感であるため、塗装された領域の浮き彫りのアーティファクトの傾向が強い。
トレーニングされたNeRFとテキスト記述により,特定したオブジェクトを効率よく除去し,アーチファクトなしで視覚的に一貫したコンテンツをインペイントする。
我々は,多視点テキスト符号化セグメンテーションの整合性を強制するために奥行き空間のワープを適用し,視覚的可視性を確保するために,知覚的先行と3次元拡散に基づく幾何的先行を用いて,塗装されたNeRFモデルを洗練する。
また,360度および正面面のNeRFのセグメンテーションおよび塗布に関する広範な実験を通じて,本手法が有効であり,NeRFの編集性を高めることを示す。
プロジェクトページ: https://ivrl.github.io/InNeRF360。
We propose InNeRF360, an automatic system that accurately removes text-specified objects from 360-degree Neural Radiance Fields (NeRF). The challenge is to effectively remove objects while inpainting perceptually consistent content for the missing regions, which is particularly demanding for existing NeRF models due to their implicit volumetric representation. Moreover, unbounded scenes are more prone to floater artifacts in the inpainted region than frontal-facing scenes, as the change of object appearance and background across views is more sensitive to inaccurate segmentations and inconsistent inpainting. With a trained NeRF and a text description, our method efficiently removes specified objects and inpaints visually consistent content without artifacts. We apply depth-space warping to enforce consistency across multiview text-encoded segmentations, and then refine the inpainted NeRF model using perceptual priors and 3D diffusion-based geometric priors to ensure visual plausibility. Through extensive experiments in segmentation and inpainting on 360-degree and frontal-facing NeRFs, we show that our approach is effective and enhances NeRF's editability. Project page: https://ivrl.github.io/InNeRF360. | 翻訳日:2024-03-28 01:39:58 公開日:2024-03-26 |
# 自己Contrastive Bregman Divergence Learningによる効果的な文書埋め込み
Efficient Document Embeddings via Self-Contrastive Bregman Divergence Learning ( http://arxiv.org/abs/2305.16031v2 ) ライセンス: Link先を確認 | Daniel Saggau, Mina Rezaei, Bernd Bischl, Ilias Chalkidis, | (参考訳) 学習品質文書の埋め込みは自然言語処理(NLP)、情報検索(IR)、レコメンデーションシステム、検索エンジンの基本的な問題である。
近年, 自己矛盾学習による文の埋め込みを生成するトランスフォーマーモデルの開発が進んでいるが, 長文(単語のK)の符号化は, 効率と品質の両面において依然として困難である。
そこで本稿では,SimCSE (State-of-the-the-art unsupervised contrastive learning method) を用いて,Longfomerベースの文書エンコーダを訓練する。
さらに,出力文書表現の質を高めることを目的とした機能的ブレグマン発散に基づく,新たな凸型ニューラルネットワークをベースラインとして,シアム型ニューラルネットワークを補完する。
提案するニューラルブレグマンネットワークと自己コントラスト型シアムネットワークの総合的な組み合わせは、法と生物医学の領域からの3つの長い文書トピック分類タスクにおいて、2つの線形分類設定においてベースラインよりも優れていることを示す。
Learning quality document embeddings is a fundamental problem in natural language processing (NLP), information retrieval (IR), recommendation systems, and search engines. Despite recent advances in the development of transformer-based models that produce sentence embeddings with self-contrastive learning, the encoding of long documents (Ks of words) is still challenging with respect to both efficiency and quality considerations. Therefore, we train Longfomer-based document encoders using a state-of-the-art unsupervised contrastive learning method (SimCSE). Further on, we complement the baseline method -- siamese neural network -- with additional convex neural networks based on functional Bregman divergence aiming to enhance the quality of the output document representations. We show that overall the combination of a self-contrastive siamese network and our proposed neural Bregman network outperforms the baselines in two linear classification settings on three long document topic classification tasks from the legal and biomedical domains. | 翻訳日:2024-03-28 01:30:07 公開日:2024-03-26 |
# K^2$ツリーを用いたグラフ生成
Graph Generation with $K^2$-trees ( http://arxiv.org/abs/2305.19125v4 ) ライセンス: Link先を確認 | Yunhui Jang, Dongwoo Kim, Sungsoo Ahn, | (参考訳) 対象の分布からグラフを生成することは、薬物発見やソーシャルネットワーク分析など、多くの領域で重要な課題である。
本研究では,損失のないグラフ圧縮のために設計されたK^2$-tree表現を利用した新しいグラフ生成手法を提案する。
K^2$-tree表現 {encompasses native hierarchys while able compact graph generation}。
さらに,(1)プルーニング,平ら化,トークン化処理を組み込んだシーケンシャルな$K^2$-treerepresentationを提示し,(2)専用のツリー位置符号化機構を組み込んでシーケンスを生成するトランスフォーマーベースのアーキテクチャを導入することで,コントリビューションを行う。
最後に,本アルゴリズムを4つの一般および2つの分子グラフデータセット上で広範囲に評価し,グラフ生成の優位性を確認する。
Generating graphs from a target distribution is a significant challenge across many domains, including drug discovery and social network analysis. In this work, we introduce a novel graph generation method leveraging $K^2$-tree representation, originally designed for lossless graph compression. The $K^2$-tree representation {encompasses inherent hierarchy while enabling compact graph generation}. In addition, we make contributions by (1) presenting a sequential $K^2$-treerepresentation that incorporates pruning, flattening, and tokenization processes and (2) introducing a Transformer-based architecture designed to generate the sequence by incorporating a specialized tree positional encoding scheme. Finally, we extensively evaluate our algorithm on four general and two molecular graph datasets to confirm its superiority for graph generation. | 翻訳日:2024-03-28 01:30:07 公開日:2024-03-26 |
# FedCSD: コードスメル検出のためのフェデレートラーニングベースのアプローチ
FedCSD: A Federated Learning Based Approach for Code-Smell Detection ( http://arxiv.org/abs/2306.00038v3 ) ライセンス: Link先を確認 | Sadi Alawadi, Khalid Alkharabsheh, Fahed Alkhabbas, Victor Kebande, Feras M. Awaysheh, Fabio Palomba, Mohammed Awad, | (参考訳) 本稿では,フェデレートラーニングコードスメル検出(FedCSD)アプローチを提案する。
これらのアサーションは、異なるコードの臭いのシナリオを検出し、調査することを目的とした、手動で検証された3つのデータセットを著しく活用する3つの実験によって支持されている。
実験1では、集中的なトレーニング実験に関する2つのデータセットは、より少ない嗅覚で最低精度(92.30%)を達成し、1つと3つのデータセットはわずかに差(98.90%と99.5%)で最高精度を達成した。
実験2では、各MLモデルを1つのデータセットを使用してトレーニングし、他の2つのデータセットで評価した。
この実験の結果、モデルの精度(最も低い精度:63.80\%)が大幅に低下し、トレーニングデータセットには臭いが少なくなり、モデルの性能に顕著なリフレクション(技術的負債)があることが示された。
最後に、最後の実験と第3の実験では、データセットを10社に分割することで、私たちのアプローチを評価しました。
MLモデルは同社のサイトでトレーニングされ、すべてのモデル更新重みがサーバに転送された。
最終的に98.34%の精度が、100回のトレーニングラウンドで10社でトレーニングされたグローバルモデルによって達成された。
その結果,グローバルモデルの包括的知識,トレーニングコストの低減,データプライバシの保全,技術的負債問題の回避など,集中型モデルの高い精度と比較して,グローバルモデルの精度がわずかに異なることが明らかとなった。
This paper proposes a Federated Learning Code Smell Detection (FedCSD) approach that allows organizations to collaboratively train federated ML models while preserving their data privacy. These assertions have been supported by three experiments that have significantly leveraged three manually validated datasets aimed at detecting and examining different code smell scenarios. In experiment 1, which was concerned with a centralized training experiment, dataset two achieved the lowest accuracy (92.30%) with fewer smells, while datasets one and three achieved the highest accuracy with a slight difference (98.90% and 99.5%, respectively). This was followed by experiment 2, which was concerned with cross-evaluation, where each ML model was trained using one dataset, which was then evaluated over the other two datasets. Results from this experiment show a significant drop in the model's accuracy (lowest accuracy: 63.80\%) where fewer smells exist in the training dataset, which has a noticeable reflection (technical debt) on the model's performance. Finally, the last and third experiments evaluate our approach by splitting the dataset into 10 companies. The ML model was trained on the company's site, then all model-updated weights were transferred to the server. Ultimately, an accuracy of 98.34% was achieved by the global model that has been trained using 10 companies for 100 training rounds. The results reveal a slight difference in the global model's accuracy compared to the highest accuracy of the centralized model, which can be ignored in favour of the global model's comprehensive knowledge, lower training cost, preservation of data privacy, and avoidance of the technical debt problem. | 翻訳日:2024-03-28 01:30:07 公開日:2024-03-26 |
# 意味認識とプロトタイプコントラスト学習によるソースフリードメイン適応セマンティックセマンティックセマンティックセマンティックセグメンテーションに向けて
Towards Source-free Domain Adaptive Semantic Segmentation via Importance-aware and Prototype-contrast Learning ( http://arxiv.org/abs/2306.01598v3 ) ライセンス: Link先を確認 | Yihong Cao, Hui Zhang, Xiao Lu, Zheng Xiao, Kailun Yang, Yaonan Wang, | (参考訳) ドメイン適応セマンティックセグメンテーションは、現実世界の運転シーンで堅牢なピクセルワイズ理解を可能にする。
ソースフリーなドメイン適応は、より実践的な手法として、典型的には教師なしのドメイン適応手法におけるデータプライバシとストレージ制限の懸念に対処する。
トレーニング済みのソースモデルとラベルなしのターゲットデータを使用して、ターゲットドメインへの適応を実現する。
しかし、ソースデータやターゲットラベルがないため、現在のソリューションでは、ドメインシフトの影響を十分に低減することができず、ターゲットデータからの情報を完全に活用することはできない。
本稿では,Importance-Aware and Prototype-Contrast(IAPC)学習を用いた,エンドツーエンドなドメイン適応セマンティックセマンティックセマンティクス手法を提案する。
提案したIAPCフレームワークは、訓練済みソースモデルからドメイン不変知識を効果的に抽出し、ラベルなしターゲットドメインからドメイン固有知識を学習する。
具体的には、ソースモデルによる対象ドメインの予測におけるドメインシフトの問題を考慮して、偏りのあるターゲット予測確率分布の重要度を考慮したメカニズムを提案し、ソースモデルからドメイン不変知識を抽出する。
さらに、プロトタイプ-対称クロスエントロピー損失とプロトタイプ-拡張クロスエントロピー損失を含むプロトタイプ-コントラスト戦略を導入し、ラベルに頼ることなくドメイン内知識を学習する。
2つのドメイン適応型セマンティックセマンティック・セマンティクス・ベンチマークに関する総合的な実験は、提案されたエンドツーエンドIAPCソリューションが既存の最先端手法よりも優れていることを示した。
ソースコードはhttps://github.com/yihong-97/Source-free-IAPCで公開されている。
Domain adaptive semantic segmentation enables robust pixel-wise understanding in real-world driving scenes. Source-free domain adaptation, as a more practical technique, addresses the concerns of data privacy and storage limitations in typical unsupervised domain adaptation methods, making it especially relevant in the context of intelligent vehicles. It utilizes a well-trained source model and unlabeled target data to achieve adaptation in the target domain. However, in the absence of source data and target labels, current solutions cannot sufficiently reduce the impact of domain shift and fully leverage the information from the target data. In this paper, we propose an end-to-end source-free domain adaptation semantic segmentation method via Importance-Aware and Prototype-Contrast (IAPC) learning. The proposed IAPC framework effectively extracts domain-invariant knowledge from the well-trained source model and learns domain-specific knowledge from the unlabeled target domain. Specifically, considering the problem of domain shift in the prediction of the target domain by the source model, we put forward an importance-aware mechanism for the biased target prediction probability distribution to extract domain-invariant knowledge from the source model. We further introduce a prototype-contrast strategy, which includes a prototype-symmetric cross-entropy loss and a prototype-enhanced cross-entropy loss, to learn target intra-domain knowledge without relying on labels. A comprehensive variety of experiments on two domain adaptive semantic segmentation benchmarks demonstrates that the proposed end-to-end IAPC solution outperforms existing state-of-the-art methods. The source code is publicly available at https://github.com/yihong-97/Source-free-IAPC. | 翻訳日:2024-03-28 01:30:07 公開日:2024-03-26 |
# NeuS-PIR: 先行Renderingを用いた可照性ニューラルサーフェス学習
NeuS-PIR: Learning Relightable Neural Surface using Pre-Integrated Rendering ( http://arxiv.org/abs/2306.07632v3 ) ライセンス: Link先を確認 | Shi Mao, Chenming Wu, Zhelun Shen, Yifan Wang, Dayan Wu, Liangjun Zhang, | (参考訳) 本稿では,マルチビュー画像やビデオからの事前統合レンダリングを用いて,可照性ニューラルサーフェスを復元する手法であるNeuS-PIRを提案する。
提案手法は,NeRFや離散メッシュに基づく手法とは違って,暗黙的な表面表現を用いて高品質な形状を再構成し,空間的に変化する物質場と全周波数の光表現という2つの成分に放射場を分解する。
この因子化は、適応型微分可能事前積分レンダリングフレームワークと正規化を併用して共同最適化され、幾何再構成のあいまいさに対処し、各シーン特性の歪みと改善をもたらす。
さらに、学習した表現から間接照明場を除去し、相互反射のような複雑な照明効果を回復する手法も導入した。
これにより、現代のグラフィックスエンジンとシームレスに統合可能な、リライトのような高度なアプリケーションを実現することができる。
定性的かつ定量的な実験により、NeuS-PIRは、合成データセットと実データセットの両方において、様々なタスクで既存の手法より優れていることが示されている。
ソースコードはhttps://github.com/Sheldonmao/NeuSPIRで入手できる。
This paper presents a method, namely NeuS-PIR, for recovering relightable neural surfaces using pre-integrated rendering from multi-view images or video. Unlike methods based on NeRF and discrete meshes, our method utilizes implicit neural surface representation to reconstruct high-quality geometry, which facilitates the factorization of the radiance field into two components: a spatially varying material field and an all-frequency lighting representation. This factorization, jointly optimized using an adapted differentiable pre-integrated rendering framework with material encoding regularization, in turn addresses the ambiguity of geometry reconstruction and leads to better disentanglement and refinement of each scene property. Additionally, we introduced a method to distil indirect illumination fields from the learned representations, further recovering the complex illumination effect like inter-reflection. Consequently, our method enables advanced applications such as relighting, which can be seamlessly integrated with modern graphics engines. Qualitative and quantitative experiments have shown that NeuS-PIR outperforms existing methods across various tasks on both synthetic and real datasets. Source code is available at https://github.com/Sheldonmao/NeuSPIR | 翻訳日:2024-03-28 01:30:07 公開日:2024-03-26 |
# Omega: 最適化EMAのグラディエント
Omega: Optimistic EMA Gradients ( http://arxiv.org/abs/2306.07905v2 ) ライセンス: Link先を確認 | Juan Ramirez, Rohan Sukumaran, Quentin Bertrand, Gauthier Gidel, | (参考訳) 確率的なmin-max最適化は、GANの進歩と敵の訓練により、機械学習コミュニティに関心を寄せている。
ゲーム最適化は決定論的設定においてかなりよく理解されているが、確率的状態においてはいくつかの問題が続いている。
近年の研究では、楽観的勾配のような確率的勾配勾配上昇法はノイズに非常に敏感か収束に失敗することを示した。
代替戦略はあるが、それは違法に高価である。
我々は,その更新ルールに歴史的勾配のEMAを組み込むことで,騒音の影響を緩和する楽観的な更新手法であるOmegaを紹介する。
また、運動量を含むこのアルゴリズムのバリエーションについても検討する。
収束保証は提供していないが、確率ゲームの実験により、オメガは線形プレイヤーに適用した場合、楽観的な勾配法よりも優れていたことが示されている。
Stochastic min-max optimization has gained interest in the machine learning community with the advancements in GANs and adversarial training. Although game optimization is fairly well understood in the deterministic setting, some issues persist in the stochastic regime. Recent work has shown that stochastic gradient descent-ascent methods such as the optimistic gradient are highly sensitive to noise or can fail to converge. Although alternative strategies exist, they can be prohibitively expensive. We introduce Omega, a method with optimistic-like updates that mitigates the impact of noise by incorporating an EMA of historic gradients in its update rule. We also explore a variation of this algorithm that incorporates momentum. Although we do not provide convergence guarantees, our experiments on stochastic games show that Omega outperforms the optimistic gradient method when applied to linear players. | 翻訳日:2024-03-28 01:30:07 公開日:2024-03-26 |
# RL$^3$: RLによるメタ強化学習をRL$^2$内で促進する
RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ ( http://arxiv.org/abs/2306.15909v4 ) ライセンス: Link先を確認 | Abhinav Bhatia, Samer B. Nashed, Shlomo Zilberstein, | (参考訳) RL$^2$のようなメタ強化学習(meta-RL)手法は、与えられたタスク分布に合わせてデータ効率のよいRLアルゴリズムを学習するための有望なアプローチとして登場した。
しかし、これは再帰的なニューラルネットワークやトランスフォーマーのようなシーケンスモデルに依存して、バリュー関数のような汎用的なRLコンポーネントを使ってそれらを要約するのではなく、経験を処理するためである。
対照的に、従来のRLアルゴリズムはドメイン知識を使用しないため、データ非効率である。
RL$^3$は、メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含む、原則化されたハイブリッドアプローチである。
RL$^3$は、RL$^2$と比較して、短期的にはデータ効率を保ちながら、長期的な累積報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
様々な短期的、長期的、複雑な依存関係を示すメタRL文献から、カスタムドメインとベンチマークドメインの両方で実験を行う。
Meta reinforcement learning (meta-RL) methods such as RL$^2$ have emerged as promising approaches for learning data-efficient RL algorithms tailored to a given task distribution. However, they show poor asymptotic performance and struggle with out-of-distribution tasks because they rely on sequence models, such as recurrent neural networks or transformers, to process experiences rather than summarize them using general-purpose RL components such as value functions. In contrast, traditional RL algorithms are data-inefficient as they do not use domain knowledge, but they do converge to an optimal policy in the limit. We propose RL$^3$, a principled hybrid approach that incorporates action-values, learned per task through traditional RL, in the inputs to meta-RL. We show that RL$^3$ earns greater cumulative reward in the long term, compared to RL$^2$, while maintaining data-efficiency in the short term, and generalizes better to out-of-distribution tasks. Experiments are conducted on both custom and benchmark discrete domains from the meta-RL literature that exhibit a range of short-term, long-term, and complex dependencies. | 翻訳日:2024-03-28 01:30:07 公開日:2024-03-26 |
# ベイズ逆問題に対する時空間ベソフ前処理
Spatiotemporal Besov Priors for Bayesian Inverse Problems ( http://arxiv.org/abs/2306.16378v2 ) ライセンス: Link先を確認 | Shiwei Lan, Mirjeta Pasha, Shuyi Li, Weining Shen, | (参考訳) 科学と技術の急速な発展は、急激な変化や鋭いコントラストといった特別なデータ特徴を捉えるための適切な統計ツールの必要性を招いた。
データサイエンスにおける多くの逆問題には、これらの空間的特徴を持つ時間依存オブジェクトの列から導出される時空間解、例えば、エッジを持つコンピュータ断層撮影(CT)画像の動的再構成が必要である。
ガウス過程(GP)に基づく従来の手法は、過度に滑らかな先行を与える傾向にあるため、満足な解を提供するのに不足することが多い。
近年、ランダムな係数を持つウェーブレット展開によって定義されるベソフ過程(BP)は、この性質のベイズ逆問題に対してより適当であると考えられている。
BPは空間的不均一性を扱うのに優れているが、動的に変化する物体に受け継がれた時間的相関を自動的に組み込むわけではない。
本稿では,時間的相関構造を管理するQ-exponential process(Q-EP)として,時系列展開におけるランダムな係数を確率的時間関数に置き換えることで,BPを新しい時空間ベソフ過程(STBP)に一般化する。
本稿ではSTBPの数学的および統計的特性について詳しく検討する。
推論を容易にするためにSTBPの白色雑音表現も提案されている。
シミュレーション,2つのリミテッドアングルCT再構成例,およびNavier-Stokes方程式を含む非線形逆問題を用いて,従来のSTGPや時間的非相関アプローチと比較して時間的変化を考慮しつつ,空間的特徴の保存において提案したSTBPの利点を実証する。
Fast development in science and technology has driven the need for proper statistical tools to capture special data features such as abrupt changes or sharp contrast. Many inverse problems in data science require spatiotemporal solutions derived from a sequence of time-dependent objects with these spatial features, e.g., dynamic reconstruction of computerized tomography (CT) images with edges. Conventional methods based on Gaussian processes (GP) often fall short in providing satisfactory solutions since they tend to offer over-smooth priors. Recently, the Besov process (BP), defined by wavelet expansions with random coefficients, has emerged as a more suitable prior for Bayesian inverse problems of this nature. While BP excels in handling spatial inhomogeneity, it does not automatically incorporate temporal correlation inherited in the dynamically changing objects. In this paper, we generalize BP to a novel spatiotemporal Besov process (STBP) by replacing the random coefficients in the series expansion with stochastic time functions as Q-exponential process (Q-EP) which governs the temporal correlation structure. We thoroughly investigate the mathematical and statistical properties of STBP. A white-noise representation of STBP is also proposed to facilitate the inference. Simulations, two limited-angle CT reconstruction examples and a highly non-linear inverse problem involving Navier-Stokes equation are used to demonstrate the advantage of the proposed STBP in preserving spatial features while accounting for temporal changes compared with the classic STGP and a time-uncorrelated approach. | 翻訳日:2024-03-28 01:30:07 公開日:2024-03-26 |
# 輸送は変分推論に合致する:制御モンテカルロ拡散
Transport meets Variational Inference: Controlled Monte Carlo Diffusions ( http://arxiv.org/abs/2307.01050v6 ) ライセンス: Link先を確認 | Francisco Vargas, Shreyas Padhy, Denis Blessing, Nikolas Nüsken, | (参考訳) 最適輸送と変分推論を結びつけることにより,経路空間上の発散を中心とした標本化および生成モデル作成のための,原理的かつ体系的な枠組みを提示する。
本研究は, 拡散モデルにおいて, 前方および後方の両方に重要な適応を行うスコアベースアニーリング技術であるベイズ計算のための<emph{Controlled Monte Carlo Diffusion} sampler (CMCD) の開発において, 本研究の成果である。
そこで本研究では,Shr{\"o}dingerブリッジのEM-algorithmと反復比例フィッティング(IPF)の関係を明らかにするとともに,標準IPF更新の反復的ボトルネックを回避した正規化目的を導出する。
最後に,CMCDは統計物理学からJarzinskyとCrooksのアイデンティティに強い基盤を持ち,様々な実験において競合するアプローチよりも優れていることを示す。
Connecting optimal transport and variational inference, we present a principled and systematic framework for sampling and generative modelling centred around divergences on path space. Our work culminates in the development of the \emph{Controlled Monte Carlo Diffusion} sampler (CMCD) for Bayesian computation, a score-based annealing technique that crucially adapts both forward and backward dynamics in a diffusion model. On the way, we clarify the relationship between the EM-algorithm and iterative proportional fitting (IPF) for Schr{\"o}dinger bridges, deriving as well a regularised objective that bypasses the iterative bottleneck of standard IPF-updates. Finally, we show that CMCD has a strong foundation in the Jarzinsky and Crooks identities from statistical physics, and that it convincingly outperforms competing approaches across a wide array of experiments. | 翻訳日:2024-03-28 01:30:07 公開日:2024-03-26 |
# 量子誤り訂正プリミティブへの単純な化学応用のコンパイル
Compilation of a simple chemistry application to quantum error correction primitives ( http://arxiv.org/abs/2307.03233v2 ) ライセンス: Link先を確認 | Nick S. Blunt, György P. Gehér, Alexandra E. Moylett, | (参考訳) 量子誤り訂正の分野では、近年多くのエキサイティングな結果が見られた。
その中には、現在の量子ハードウェアにおけるエラー修正の最初のデモや、現実世界のアプリケーションのために大規模な量子アルゴリズムを実行するための要件の理解を改善するリソース推定が含まれる。
本研究は, 最小の化学例において, フォールトトレラント的に量子位相推定(QPE)を行うために必要な資源を慎重に推定することにより, これら2つの発展のギャップを埋めるものである。
具体的には、最小基底集合の水素分子に対して、回転曲面符号の格子演算に対するQPE回路の詳細なコンパイルについて述べる。
本稿では,アルゴリズムと誤り訂正の両レベルでの最適化について述べる。
単純な化学回路の実装にも1,000キュービットと2300の量子誤り訂正ラウンドが必要であり、早期耐故障性体制を対象とするエラー訂正技術の改善の必要性を強調している。
A number of exciting recent results have been seen in the field of quantum error correction. These include initial demonstrations of error correction on current quantum hardware, and resource estimates which improve understanding of the requirements to run large-scale quantum algorithms for real-world applications. In this work, we bridge the gap between these two developments by performing careful estimation of the resources required to fault-tolerantly perform quantum phase estimation (QPE) on a minimal chemical example. Specifically, we describe a detailed compilation of the QPE circuit to lattice surgery operations for the rotated surface code, for a hydrogen molecule in a minimal basis set. We describe a number of optimisations at both the algorithmic and error correction levels. We find that implementing even a simple chemistry circuit requires 1,000 qubits and 2,300 quantum error correction rounds, emphasising the need for improved error correction techniques specifically targeting the early fault-tolerant regime. | 翻訳日:2024-03-28 01:30:07 公開日:2024-03-26 |
# 大規模言語モデルにおける創発的認知シナジーの解放:マルチペソナ・セルフコラボレーションによるタスクソルビングエージェント
Unleashing the Emergent Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration ( http://arxiv.org/abs/2307.05300v4 ) ライセンス: Link先を確認 | Zhenhailong Wang, Shaoguang Mao, Wenshan Wu, Tao Ge, Furu Wei, Heng Ji, | (参考訳) 人間の知性は認知シナジーに長けており、異なる心の協調は孤立した個人よりも優れた結果をもたらす。
本研究では,Solo Performance Prompting(SPP)を提案し,複数のペルソナと多ターンの自己コラボレーションを行うことにより,単一のLLMを認知的シナジストに変換する。
認知シナジスト(英: Cognitive Synergist)は、複雑なタスクにおける問題解決を強化するために、複数の心の強みと知識を協調的に結合するインテリジェントエージェントである。
タスク入力に基づいて異なるペルソナを動的に識別し、シミュレーションすることにより、SPPはLLMにおける認知シナジーの可能性を解き放つ。
より詳細な分析により,LLMに複数の微粒なペルソナを割り当てることによって,単一あるいは固定数のペルソナに比べて問題解決能力が向上することが示された。
我々は,3つの課題 – Trivia Creative Writing, Codenames Collaborative, Logic Grid Puzzle – について,知識集約型と推論集約型の両方を含む評価を行った。
LLMの推論能力のみを増強するChain-of-Thoughtのような従来の研究とは異なり、実験結果は、SPPが事実上の幻覚を低減し、強力な推論能力を維持することを実証している。
さらに、比較実験により、認知シナジーはGPT-4にのみ出現し、GPT-3.5-turboやLlama2-13b-chatのようなより能力の低いモデルには現れないことが示されている。
コード、データ、プロンプトはhttps://github.com/MikeWangWZHL/Solo-Performance-Prompting.gitにある。
Human intelligence thrives on cognitive synergy, where collaboration among different minds yield superior outcomes compared to isolated individuals. In this work, we propose Solo Performance Prompting (SPP), which transforms a single LLM into a cognitive synergist by engaging in multi-turn self-collaboration with multiple personas. A cognitive synergist is an intelligent agent that collaboratively combines multiple minds' strengths and knowledge to enhance problem-solving in complex tasks. By dynamically identifying and simulating different personas based on task inputs, SPP unleashes the potential of cognitive synergy in LLMs. Our in-depth analysis shows that assigning multiple fine-grained personas in LLMs improves problem-solving abilities compared to using a single or fixed number of personas. We evaluate SPP on three challenging tasks: Trivia Creative Writing, Codenames Collaborative, and Logic Grid Puzzle, encompassing both knowledge-intensive and reasoning-intensive types. Unlike previous works, such as Chain-of-Thought, that solely enhance the reasoning abilities in LLMs, experimental results demonstrate that SPP effectively reduces factual hallucination, and maintains strong reasoning capabilities. Additionally, comparative experiments show that cognitive synergy only emerges in GPT-4 and does not appear in less capable models, such as GPT-3.5-turbo and Llama2-13b-chat, which draws an interesting analogy to human development. Code, data, and prompts can be found at: https://github.com/MikeWangWZHL/Solo-Performance-Prompting.git. | 翻訳日:2024-03-28 01:20:23 公開日:2024-03-26 |
# オープンドメイン質問応答に対するジェネレータ・リトリバー・ジェネレータアプローチ
Generator-Retriever-Generator Approach for Open-Domain Question Answering ( http://arxiv.org/abs/2307.11278v3 ) ライセンス: Link先を確認 | Abdelrahman Abdallah, Adam Jatowt, | (参考訳) オープンドメイン質問応答(QA)タスクは通常、正確な回答を生成するために、大きなコーパスから関連する情報を検索する必要がある。
本稿では,文書検索手法を大規模言語モデル (LLM) と組み合わせたGRG(Generator-Retriever-Generator) という手法を提案する。
並行して、デュアルエンコーダネットワークは、外部コーパスから質問に関連する文書を検索する。
生成された文書と検索された文書は、最終回答を生成する第2のLSMに渡される。
文書検索とLLM生成を組み合わせることで,情報的および文脈的関連性のある回答を生成するなど,オープンドメインQAの課題に対処する。
GRGは、TriviaQA、NQ、およびWebQデータセット上で、少なくとも+5.2、+4.2、+1.6の性能向上を達成している。
コード、データセット、チェックポイントは、https://github.com/abdoelsayed2016/GRG.comで公開しています。
Open-domain question answering (QA) tasks usually require the retrieval of relevant information from a large corpus to generate accurate answers. We propose a novel approach called Generator-Retriever-Generator (GRG) that combines document retrieval techniques with a large language model (LLM), by first prompting the model to generate contextual documents based on a given question. In parallel, a dual-encoder network retrieves documents that are relevant to the question from an external corpus. The generated and retrieved documents are then passed to the second LLM, which generates the final answer. By combining document retrieval and LLM generation, our approach addresses the challenges of open-domain QA, such as generating informative and contextually relevant answers. GRG outperforms the state-of-the-art generate-then-read and retrieve-then-read pipelines (GENREAD and RFiD) improving their performance by at least by +5.2, +4.2, and +1.6 on TriviaQA, NQ, and WebQ datasets, respectively. We provide code, datasets, and checkpoints at https://github.com/abdoelsayed2016/GRG. | 翻訳日:2024-03-28 01:20:23 公開日:2024-03-26 |
# DiVa-360: 没入型ニューラルネットワークのための動的ビジュアルデータセット
DiVa-360: The Dynamic Visual Dataset for Immersive Neural Fields ( http://arxiv.org/abs/2307.16897v2 ) ライセンス: Link先を確認 | Cheng-You Lu, Peisen Zhou, Angela Xing, Chandradeep Pokhariya, Arnab Dey, Ishaan Shah, Rugved Mavidipalli, Dylan Hu, Andrew Comport, Kefan Chen, Srinath Sridhar, | (参考訳) ニューラルネットワークの進歩は、ダイナミックな3Dシーンの形状と外観の高忠実なキャプチャを可能にしている。
しかし、アルゴリズム上の問題や大規模なマルチビューの実世界のデータセットの欠如により、2Dビデオのような従来の表現に遅れている。
53台のカメラを搭載したカスタマイズされた低コストシステムを用いて,高解像度かつ長期のテーブルスケールシーンのマルチビュー映像シーケンスを同期させた実世界の360度動的ビジュアルデータセットであるDiVa-360を用いて,データセットの制限に対処する。
オブジェクト中心の21のシーケンスは、異なるモーションタイプ、25の複雑なハンドオブジェクトの相互作用シーケンス、合計17.4Mの画像フレームの8つの長周期シーケンスを含む。
さらに,フォアグラウンド・バックグラウンド・セグメンテーション・マスク,同期音声,テキスト記述を提供する。
我々は、Diva-360上で最先端の動的ニューラルネットワーク手法をベンチマークし、既存の手法と長期的ニューラルネットワークキャプチャにおける今後の課題について考察する。
Advances in neural fields are enabling high-fidelity capture of the shape and appearance of dynamic 3D scenes. However, their capabilities lag behind those offered by conventional representations such as 2D videos because of algorithmic challenges and the lack of large-scale multi-view real-world datasets. We address the dataset limitation with DiVa-360, a real-world 360 dynamic visual dataset that contains synchronized high-resolution and long-duration multi-view video sequences of table-scale scenes captured using a customized low-cost system with 53 cameras. It contains 21 object-centric sequences categorized by different motion types, 25 intricate hand-object interaction sequences, and 8 long-duration sequences for a total of 17.4 M image frames. In addition, we provide foreground-background segmentation masks, synchronized audio, and text descriptions. We benchmark the state-of-the-art dynamic neural field methods on DiVa-360 and provide insights about existing methods and future challenges on long-duration neural field capture. | 翻訳日:2024-03-28 01:20:23 公開日:2024-03-26 |
# 運動計画拡散:拡散モデルを用いたロボット運動の学習と計画
Motion Planning Diffusion: Learning and Planning of Robot Motions with Diffusion Models ( http://arxiv.org/abs/2308.01557v2 ) ライセンス: Link先を確認 | Joao Carvalho, An T. Le, Mark Baierl, Dorothea Koert, Jan Peters, | (参考訳) 軌道分布の事前学習は、ロボットの運動計画最適化を加速するのに役立ちます。
これまで成功した計画を考えると、新しい計画問題の先駆けとして軌道生成モデルを学習することが極めて望ましい。
先行研究は、運動計画問題をブートストラップする前にこれを利用するいくつかの方法を提案する。
軌道最適化のための最大位置定式化において、初期化前をサンプリングするか、事前分布を使用するかのどちらかである。
本研究では,学習拡散モデルを先行モデルとして提案する。
次に,拡散モデルの逆復調過程を活用することにより,タスク目標に規定された後部軌道分布から直接サンプリングすることができる。
さらに、拡散は高次元設定におけるデータ多様性を効果的に符号化することが最近示されており、これは特に大きな軌跡データセットに適している。
提案手法の有効性を実証するために,提案手法である運動計画拡散法を,模擬平面ロボットと7ドアロボットアームマニピュレータ環境におけるいくつかのベースラインと比較した。
提案手法の一般化能力を評価するため,従来見つからなかった障害物のある環境で実験を行った。
本研究では,ロボット運動の高次元軌跡分布を符号化する拡散モデルについて検討した。
Learning priors on trajectory distributions can help accelerate robot motion planning optimization. Given previously successful plans, learning trajectory generative models as priors for a new planning problem is highly desirable. Prior works propose several ways on utilizing this prior to bootstrapping the motion planning problem. Either sampling the prior for initializations or using the prior distribution in a maximum-a-posterior formulation for trajectory optimization. In this work, we propose learning diffusion models as priors. We then can sample directly from the posterior trajectory distribution conditioned on task goals, by leveraging the inverse denoising process of diffusion models. Furthermore, diffusion has been recently shown to effectively encode data multimodality in high-dimensional settings, which is particularly well-suited for large trajectory dataset. To demonstrate our method efficacy, we compare our proposed method - Motion Planning Diffusion - against several baselines in simulated planar robot and 7-dof robot arm manipulator environments. To assess the generalization capabilities of our method, we test it in environments with previously unseen obstacles. Our experiments show that diffusion models are strong priors to encode high-dimensional trajectory distributions of robot motions. | 翻訳日:2024-03-28 01:20:23 公開日:2024-03-26 |
# 1つのコーパスから別のコーパスへの符号化システム構築のためのBERTモデルのトレーニング
Training BERT Models to Carry Over a Coding System Developed on One Corpus to Another ( http://arxiv.org/abs/2308.03742v2 ) ライセンス: Link先を確認 | Dalma Galambos, Pál Zsámboki, | (参考訳) 本稿では,ハンガリーの文芸雑誌の段落で開発されたコーディングシステムを通じて,BERTモデルを学習する方法について述べる。
コーディングシステムの目的は、1989年のハンガリーにおける政治変革に関する文学翻訳の認識の傾向を追跡することである。
タスク性能だけでなくアノテーションの構成も評価し、アンサンブルからより良い予測を得るために10倍のクロスバリデーションを用いる。
広汎なハイパーパラメータチューニングは、最良の結果と公正な比較を得るために使用される。
ラベルの不均衡に対処するために、損失関数とそれに対して堅牢なメトリクスを使用します。
対象ドメインからテストセットをサンプリングすることにより、ドメインシフトの効果の評価を行う。
シミュレーションにより自己申告された信頼区間を推定し,サンプルサイズを推定する。
このようにして、我々のモデルは1つのアノテーションシステムを対象のドメインに持っていくことができることを示す。
複数ラベルの相関関係の学習や信頼性の低下によるドメインシフトに対する抵抗性の向上などの知見を提供するため,他領域におけるOCRテキストのドメイン適応は,研究対象のコーパスとほぼ同等の性能向上を図っている。
コードについてはhttps://codeberg.org/zsamboki/bert-annotator-ensembleを参照してください。
This paper describes how we train BERT models to carry over a coding system developed on the paragraphs of a Hungarian literary journal to another. The aim of the coding system is to track trends in the perception of literary translation around the political transformation in 1989 in Hungary. To evaluate not only task performance but also the consistence of the annotation, moreover, to get better predictions from an ensemble, we use 10-fold crossvalidation. Extensive hyperparameter tuning is used to obtain the best possible results and fair comparisons. To handle label imbalance, we use loss functions and metrics robust to it. Evaluation of the effect of domain shift is carried out by sampling a test set from the target domain. We establish the sample size by estimating the bootstrapped confidence interval via simulations. This way, we show that our models can carry over one annotation system to the target domain. Comparisons are drawn to provide insights such as learning multilabel correlations and confidence penalty improve resistance to domain shift, and domain adaptation on OCR-ed text on another domain improves performance almost to the same extent as that on the corpus under study. See our code at https://codeberg.org/zsamboki/bert-annotator-ensemble. | 翻訳日:2024-03-28 01:20:23 公開日:2024-03-26 |
# GPT-4は安全すぎる。暗号でLCMとチャットできる
GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher ( http://arxiv.org/abs/2308.06463v2 ) ライセンス: Link先を確認 | Youliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Pinjia He, Shuming Shi, Zhaopeng Tu, | (参考訳) 安全性は、LLM(Large Language Models)の開発の中心にある。
プレトレーニングにおけるデータフィルタリング,教師付き微調整,人的フィードバックからの強化学習,レッドチームなど,LLMを人間の倫理や嗜好と整合させる作業が数多く行われている。
本研究では,主に自然言語で実行されるLLMの安全アライメント手法を,暗号におけるチャットが回避可能であることを明らかにする。
本研究では,非自然言語(暗号)に対する安全性アライメントの一般化性を体系的に検証する新しいフレームワークCipherChatを提案する。
CipherChatは,システムロール記述と数発の暗号化デモを備えた暗号プロンプトを通じて,LLMとチャットすることを可能にする。
我々はCipherChatを用いて、ChatGPTやGPT-4を含む最先端のLCMを、英語と中国語の11の安全領域にわたる異なる代表的人間の暗号に対して評価する。
実験の結果,いくつかの安全領域において,GPT-4の安全性アライメントを回避し,非自然言語に対する安全性アライメントを開発する必要性が示された。
特に,LLMには「秘密暗号」が備わっていると認識し,ロールプレイのみを用いた新しい自己暗号を提案し,自然言語によるいくつかの実演によってこれを誘発する。
SelfCipherは、ほとんどすべてのケースで、既存の人間の暗号よりも驚くほど優れています。
コードとデータはhttps://github.com/RobustNLP/CipherChat.comで公開されます。
Safety lies at the core of the development of Large Language Models (LLMs). There is ample work on aligning LLMs with human ethics and preferences, including data filtering in pretraining, supervised fine-tuning, reinforcement learning from human feedback, and red teaming, etc. In this study, we discover that chat in cipher can bypass the safety alignment techniques of LLMs, which are mainly conducted in natural languages. We propose a novel framework CipherChat to systematically examine the generalizability of safety alignment to non-natural languages -- ciphers. CipherChat enables humans to chat with LLMs through cipher prompts topped with system role descriptions and few-shot enciphered demonstrations. We use CipherChat to assess state-of-the-art LLMs, including ChatGPT and GPT-4 for different representative human ciphers across 11 safety domains in both English and Chinese. Experimental results show that certain ciphers succeed almost 100% of the time to bypass the safety alignment of GPT-4 in several safety domains, demonstrating the necessity of developing safety alignment for non-natural languages. Notably, we identify that LLMs seem to have a ''secret cipher'', and propose a novel SelfCipher that uses only role play and several demonstrations in natural language to evoke this capability. SelfCipher surprisingly outperforms existing human ciphers in almost all cases. Our code and data will be released at https://github.com/RobustNLP/CipherChat. | 翻訳日:2024-03-28 01:20:23 公開日:2024-03-26 |
# ドメイン対応ファインチューニング:ニューラルネットワーク適応性の向上
Domain-Aware Fine-Tuning: Enhancing Neural Network Adaptability ( http://arxiv.org/abs/2308.07728v5 ) ライセンス: Link先を確認 | Seokhyeon Ha, Sunbeom Jung, Jungwoo Lee, | (参考訳) 訓練済みの微調整ニューラルネットワークモデルは、さまざまな領域で広く採用されている。
しかし、これは既に強力な一般化能力を有する事前訓練された特徴抽出器の歪みにつながる可能性がある。
新しいターゲット領域への適応における特徴歪みの緩和が重要である。
近年の研究では、微調整を行う前に、分布内データセット上にヘッド層をアライメントすることで、特徴歪みに対処する有望な結果が示されている。
それにもかかわらず、細調整中にバッチ正規化層の処理によって顕著な制限が生じ、最適以下の性能がもたらされる。
本稿では、バッチ正規化変換と線形探索と微調整の統合を組み合わせた新しいアプローチであるDomain-Aware Fine-Tuning(DAFT)を提案する。
我々のバッチ正規化変換法は、微調整時にニューラルネットワークの変更を減らし、特徴歪みを効果的に軽減する。
さらに,線形探索と微調整を統合して,特徴抽出器の段階的適応を伴うヘッド層を最適化する。
バッチ正規化レイヤを活用し、線形探索と微調整を統合することにより、DAFTは特徴歪みを著しく軽減し、分布内および分布外の両方のデータセット上でのモデル性能を向上させる。
大規模な実験により,本手法は他のベースライン法よりも優れており,性能の向上だけでなく特徴歪みの軽減にも有効であることが示された。
Fine-tuning pre-trained neural network models has become a widely adopted approach across various domains. However, it can lead to the distortion of pre-trained feature extractors that already possess strong generalization capabilities. Mitigating feature distortion during adaptation to new target domains is crucial. Recent studies have shown promising results in handling feature distortion by aligning the head layer on in-distribution datasets before performing fine-tuning. Nonetheless, a significant limitation arises from the treatment of batch normalization layers during fine-tuning, leading to suboptimal performance. In this paper, we propose Domain-Aware Fine-Tuning (DAFT), a novel approach that incorporates batch normalization conversion and the integration of linear probing and fine-tuning. Our batch normalization conversion method effectively mitigates feature distortion by reducing modifications to the neural network during fine-tuning. Additionally, we introduce the integration of linear probing and fine-tuning to optimize the head layer with gradual adaptation of the feature extractor. By leveraging batch normalization layers and integrating linear probing and fine-tuning, our DAFT significantly mitigates feature distortion and achieves improved model performance on both in-distribution and out-of-distribution datasets. Extensive experiments demonstrate that our method outperforms other baseline methods, demonstrating its effectiveness in not only improving performance but also mitigating feature distortion. | 翻訳日:2024-03-28 01:20:23 公開日:2024-03-26 |
# ViT-Lens:3DインサイトによるOmni-Modal Explorationの開始
ViT-Lens: Initiating Omni-Modal Exploration through 3D Insights ( http://arxiv.org/abs/2308.10185v2 ) ライセンス: Link先を確認 | Weixian Lei, Yixiao Ge, Jianfeng Zhang, Dylan Sun, Kun Yi, Ying Shan, Mike Zheng Shou, | (参考訳) 視覚言語モデルにおけるCLIPベースのトレーニングレシピの成功にもかかわらず、よりモダリティ(例えば、3D、オーディオなど)へのスケーラビリティは大規模データに限定されており、これは高価で、稀なモダリティには適用できない。
本稿では、事前訓練されたVTで新しいモダリティを知覚し、予め定義された空間に整合させることにより、効率的なOmni-Modal表現学習を容易にするViT-Lensを提案する。
具体的には、モダリティ特異的レンズは、共有埋め込み空間にマルチモーダル信号を投影するように調整され、その後、トレーニング済みの画像知識を伝達する強力なViTによって処理される。
符号化されたマルチモーダル表現は、オフザシェルフ基礎モデルによって事前に定義されたモダル非依存空間との整合性に最適化される。
ViTバックボーンを備えたよく訓練されたレンズは、これらの基礎モデルの1つとして機能し、その後のモダリティの学習を監督する可能性がある。
ViT-Lensは、2つの魅力的な利点を持つモダリティ増加の表現学習のための統一されたソリューションを提供する。
一 効率的なデータ体制により、業務及び領域にまたがる訓練済みのViTを効果的に実施すること。
(II) 新しいモダリティの創発的な下流能力は、アライメント空間によって示される。
初期検証として3Dの文脈でViT-Lensを評価した。
ゼロショット3D分類では、ViT-Lensは従来の最先端技術よりも大幅に改善され、Objaverse-LVISでは52.0%、ModelNet40では87.4%、ScanObjectNNでは60.6%の精度で精度が向上した。
さらに、トレーニングされた3Dレンズを適応せずにインストラクトBLIPモデルに統合することで、ゼロショットの3D質問応答を可能にする。
近い将来、さらなるモダリティに関するViT-Lensの結果を公表します。
Though the success of CLIP-based training recipes in vision-language models, their scalability to more modalities (e.g., 3D, audio, etc.) is limited to large-scale data, which is expensive or even inapplicable for rare modalities. In this paper, we present ViT-Lens that facilitates efficient omni-modal representation learning by perceiving novel modalities with a pretrained ViT and aligning to a pre-defined space. Specifically, the modality-specific lens is tuned to project multimodal signals to the shared embedding space, which are then processed by a strong ViT that carries pre-trained image knowledge. The encoded multimodal representations are optimized toward aligning with the modal-independent space, pre-defined by off-the-shelf foundation models. A well-trained lens with a ViT backbone has the potential to serve as one of these foundation models, supervising the learning of subsequent modalities. ViT-Lens provides a unified solution for representation learning of increasing modalities with two appealing benefits: (i) Exploiting the pretrained ViT across tasks and domains effectively with efficient data regime; (ii) Emergent downstream capabilities of novel modalities are demonstrated due to the modality alignment space. We evaluate ViT-Lens in the context of 3D as an initial verification. In zero-shot 3D classification, ViT-Lens achieves substantial improvements over previous state-of-the-art, showing 52.0% accuracy on Objaverse-LVIS, 87.4% on ModelNet40, and 60.6% on ScanObjectNN. Furthermore, we enable zero-shot 3D question-answering by simply integrating the trained 3D lens into the InstructBLIP model without any adaptation. We will release the results of ViT-Lens on more modalities in the near future. | 翻訳日:2024-03-28 01:20:23 公開日:2024-03-26 |
# BAN-PL: Wykop.pl Webサービスによる禁止された有害かつ悪質なコンテンツに関するポーランドの新しいデータセット
BAN-PL: a Novel Polish Dataset of Banned Harmful and Offensive Content from Wykop.pl web service ( http://arxiv.org/abs/2308.10592v3 ) ライセンス: Link先を確認 | Anna Kołos, Inez Okulska, Kinga Głąbińska, Agnieszka Karlińska, Emilia Wiśnios, Paweł Ellerik, Andrzej Prałat, | (参考訳) インターネットは憎しみで溢れているため、NLPの専門家がオンラインコンテンツの自動モデレーションを習得する主なタスクの1つである。
しかし、この分野の進歩は、ソーシャルメディアコンテンツの正確で合成されていないデータセットへのアクセスを改善する必要がある。
ポーランド語では、そのような資源は非常に限られている。
本稿では,ポーランド語に対する攻撃的ソーシャルメディアコンテンツのオープンデータセットを新たに提示することで,このギャップに対処する。
このデータセットは、ユーザによって報告され、内部モデレーションプロセスで禁止される"Polish Reddit"と呼ばれる人気のあるオンラインサービスであるWykop.plのコンテンツで構成されている。
691,662件の投稿とコメントがあり、「有害」と「中立」の2つのカテゴリに分けられている。
BAN-PLデータセットの匿名化サブセットは24,000ピース (クラス毎に12,000個) で、前処理スクリプトも公開されている。
さらに,本論文では,実生活におけるコンテンツモデレーションのプロセスと,データセットの言語的特徴と内容特性の分析を考察する。
さらに、包括的な匿名化手順を慎重に記述し、適用している。
同様のデータセットで発生する偏見、例えば、修正後の偏見や選択前の偏見についても論じる。
Since the Internet is flooded with hate, it is one of the main tasks for NLP experts to master automated online content moderation. However, advancements in this field require improved access to publicly available accurate and non-synthetic datasets of social media content. For the Polish language, such resources are very limited. In this paper, we address this gap by presenting a new open dataset of offensive social media content for the Polish language. The dataset comprises content from Wykop.pl, a popular online service often referred to as the "Polish Reddit", reported by users and banned in the internal moderation process. It contains a total of 691,662 posts and comments, evenly divided into two categories: "harmful" and "neutral" ("non-harmful"). The anonymized subset of the BAN-PL dataset consisting on 24,000 pieces (12,000 for each class), along with preprocessing scripts have been made publicly available. Furthermore the paper offers valuable insights into real-life content moderation processes and delves into an analysis of linguistic features and content characteristics of the dataset. Moreover, a comprehensive anonymization procedure has been meticulously described and applied. The prevalent biases encountered in similar datasets, including post-moderation and pre-selection biases, are also discussed. | 翻訳日:2024-03-28 01:20:23 公開日:2024-03-26 |
# スパース深層学習のための多目的最適化
Multi-Objective Optimization for Sparse Deep Multi-Task Learning ( http://arxiv.org/abs/2308.12243v4 ) ライセンス: Link先を確認 | S. S. Hotegni, M. Berkemeier, S. Peitz, | (参考訳) 異なる矛盾する最適化基準は、様々なディープラーニングシナリオで自然に発生する。
これらは、異なる主要なタスク(例えば、マルチタスク学習の設定)に対処できるだけでなく、損失最小化やスパーシリティといったメインタスクやセカンダリタスクにも対応できる。
通常のアプローチは、基準の単純な重み付けであり、正式には凸設定でのみ機能する。
本稿では,重み付きチェビシェフスカラー化を用いた多目的最適化アルゴリズムを提案する。
このスカラー化手法を用いることで、アルゴリズムは元の問題の全ての最適解を識別し、その複雑さを単目的問題の列に還元する。
単純化された問題は、Augmented Lagrangian 法を用いて解決され、Adam や Stochastic Gradient Descent のような一般的な最適化手法を効果的に扱いながら利用できる。
我々の研究は、DNNモデルの(経済的かつ生態学的にも)持続可能性の問題に対処することを目的としており、特にDeep Multi-Taskモデルに焦点を当てている。
2つの機械学習データセットで実施された実験を通じて、ネットワーク重みにタスク固有の適応を適用したい場合、トレーニング中にモデルを適応的にスパース化する可能性を実証する。
コードはhttps://github.com/salomonhotegni/MDMTNで入手できる。
Different conflicting optimization criteria arise naturally in various Deep Learning scenarios. These can address different main tasks (i.e., in the setting of Multi-Task Learning), but also main and secondary tasks such as loss minimization versus sparsity. The usual approach is a simple weighting of the criteria, which formally only works in the convex setting. In this paper, we present a Multi-Objective Optimization algorithm using a modified Weighted Chebyshev scalarization for training Deep Neural Networks (DNNs) with respect to several tasks. By employing this scalarization technique, the algorithm can identify all optimal solutions of the original problem while reducing its complexity to a sequence of single-objective problems. The simplified problems are then solved using an Augmented Lagrangian method, enabling the use of popular optimization techniques such as Adam and Stochastic Gradient Descent, while efficaciously handling constraints. Our work aims to address the (economical and also ecological) sustainability issue of DNN models, with a particular focus on Deep Multi-Task models, which are typically designed with a very large number of weights to perform equally well on multiple tasks. Through experiments conducted on two Machine Learning datasets, we demonstrate the possibility of adaptively sparsifying the model during training without significantly impacting its performance, if we are willing to apply task-specific adaptations to the network weights. Code is available at https://github.com/salomonhotegni/MDMTN | 翻訳日:2024-03-28 01:20:23 公開日:2024-03-26 |
# ハニカム原子配列におけるトポロジカルフォトニックバンドギャップ
Topological photonic band gaps in honeycomb atomic arrays ( http://arxiv.org/abs/2308.13423v3 ) ライセンス: Link先を確認 | Pierre Wulles, Sergey E. Skipetrov, | (参考訳) 平面内電磁場によって結合された2層原子の二次元平面ハニカム格子の励起スペクトルは、外部磁場を印加するか、ハニカム格子が重畳である2つの三角形の亜格子間の対称性を破ることによって開くことができるバンドギャップを示す。
バンドギャップ開きの条件を確立し、ギャップの幅を計算し、その位相特性をトポロジ的指標(Chern number)で特徴づける。
バンドギャップのトポロジカルな性質は、バンドエッジ近傍の周波数を持つモードに対する2つの三角形部分格子間の人口不均衡の逆転をもたらす。
また、スペクトルギャップを閉じることなく、無限に間隔づけられた非相互作用原子の自明な極限への遷移を禁止している。
原子核共鳴周波数における自由空間波数である$d < {\pi}/k_0$ の小さなミラー間隔を持つファブリー・ピエロト空洞で格子を囲むと、その位相特性を変更せずに原子面からのエネルギーの漏れを抑えることで、系エルミートをレンダリングする。
対照的に、より大きな$d$は、キャビティミラーの反射によって構築され、自由立方格子のバンドギャップ内に周波数を持つ光学モードの伝播を可能にし、後者を閉じる。
The spectrum of excitations a two-dimensional, planar honeycomb lattice of two-level atoms coupled by the in-plane electromagnetic field may exhibit band gaps that can be opened either by applying an external magnetic field or by breaking the symmetry between the two triangular sublattices of which the honeycomb one is a superposition. We establish the conditions of band gap opening, compute the width of the gap, and characterize its topological property by a topological index (Chern number). The topological nature of the band gap leads to inversion of the population imbalance between the two triangular sublattices for modes with frequencies near band edges. It also prohibits a transition to the trivial limit of infinitely spaced, noninteracting atoms without closing the spectral gap. Surrounding the lattice by a Fabry-P\'erot cavity with small intermirror spacing $d < {\pi}/k_0$ , where $k_0$ is the free-space wave number at the atomic resonance frequency, renders the system Hermitian by suppressing the leakage of energy out of the atomic plane without modifying its topological properties. In contrast, a larger $d$ allows for propagating optical modes that are built up due to reflections at the cavity mirrors and have frequencies inside the band gap of the free-standing lattice, thus closing the latter. | 翻訳日:2024-03-28 01:20:23 公開日:2024-03-26 |
# ハイブリッドdcとrf光ポンピング磁気センサを用いたマルチパラメータ量子センシングと磁気通信
Multiparameter quantum sensing and magnetic communications with a hybrid dc and rf optically pumped magnetometer ( http://arxiv.org/abs/2308.14214v2 ) ライセンス: Link先を確認 | Michał Lipka, Aleksandra Sierant, Charikleia Troullinou, Morgan Mitchell, | (参考訳) 1つのdc磁場成分と1つのrf磁場成分を1つの原子スピンアンサンブルで同時に測定するハイブリッド光ポンピング磁気センサ(HOPM)を導入、実証する。
HOPMはサブpT/$\sqrt{\mathrm{Hz}}$ sensitivity for both dc and rf field, and is limited in sensitivity at spin projection noise at low frequency and by photon shot noise at high frequency。
我々はHOPMで、バックグラウンドキャンセリング拡散スペクトル磁気通信という、マルチパラメータ量子センシングの新しい応用を実演した。
我々は、デジタルメッセージをrf振幅としてエンコードし、ノイズの多い磁気環境下では \SI{29}{\kilo\hertz} から \SI{33}{\kilo\hertz} までの16チャンネルに分散し、量子ノイズ制限された dc ノイズキャンセリングにより量子ノイズ制限された rf 磁気信号の回復を観測し、 \SI{100}{\hertz} で \SI{15}{\decibel} のノイズリジェクション、および \SI{60}{\hertz} で \SI{20}{\decibel} 以上のノイズリジェクションに達する。
短文メッセージの通信における信号強度と外因性雑音に対する信号の忠実度を計測する。
高感度、量子ノイズ制限性能、実世界の応用ポテンシャルの組み合わせにより、HOPMは高性能なマルチパラメータ量子センシングの研究に最適である。
We introduce and demonstrate a hybrid optically pumped magnetometer (HOPM) that simultaneously measures one dc field component and one rf field component quadrature with a single atomic spin ensemble. The HOPM achieves sub-pT/$\sqrt{\mathrm{Hz}}$ sensitivity for both dc and rf fields, and is limited in sensitivity by spin projection noise at low frequencies and by photon shot noise at high frequencies. We demonstrate with the HOPM a new application of multiparameter quantum sensing: background-cancelling spread spectrum magnetic communication. We encode a digital message as rf amplitude, spread among sixteen channels from \SI{29}{\kilo\hertz} to \SI{33}{\kilo\hertz} in a noisy magnetic environment, and observe quantum-noise-limited rf magnetic signal recovery enabled by quantum-noise-limited dc noise cancellation, reaching noise rejection of \SI{15}{\decibel} at \SI{100}{\hertz} and more than \SI{20}{\decibel} at \SI{60}{\hertz} and below. We measure signal fidelity versus signal strength and extrinsic noise in communication of a short text message. The combination of high sensitivity, quantum-noise-limited performance, and real-world application potential makes the HOPM ideally suited for study of high-performance multiparameter quantum sensing. | 翻訳日:2024-03-28 01:10:34 公開日:2024-03-26 |
# ブロックチェーンシステムのセキュア化:トランザクションとスマートコントラクトの攻撃を検出するための新しい協調学習フレームワーク
Securing Blockchain Systems: A Novel Collaborative Learning Framework to Detect Attacks in Transactions and Smart Contracts ( http://arxiv.org/abs/2308.15804v2 ) ライセンス: Link先を確認 | Tran Viet Khoa, Do Hai Son, Chi-Hieu Nguyen, Dinh Thai Hoang, Diep N. Nguyen, Nguyen Linh Trung, Tran Thi Thuy Quynh, Trong-Minh Hoang, Nguyen Viet Ha, Eryk Dutkiewicz, Mohammad Abu Alsheikh, | (参考訳) ブロックチェーンシステムの脆弱性を悪用する悪意のあるアクティビティがエスカレートしているため、堅牢な攻撃検出メカニズムには緊急の要件がある。
この課題に対処するために、ブロックチェーントランザクションとスマートコントラクトの攻撃を検出するために、トランザクションの特徴を分析することによって、新しい協調学習フレームワークを提案する。
当社のフレームワークは,マシンコードレベルでの複雑な攻撃(不正にユーザからコインを取り出す悪意のあるコードを注入するなど)など,さまざまな種類のブロックチェーン攻撃を分類する機能を備えています。
これを実現するために、提案フレームワークは、トランザクション機能を視覚表現に変換するユニークなツールを導入し、低レベルのマシンコードの効率的な分析と分類を容易にする。
さらに,分散マイニングノードにおける多様な攻撃タイプをリアルタイムに検出できる,カスタマイズされた協調学習モデルを提案する。
包括的なデータセットを作成するために、プライベートEthereumネットワークに基づいたパイロットシステムをデプロイし、複数の攻撃シナリオを実行する。
私たちの知る限り、私たちのデータセットは、ブロックチェーンシステムにおけるサイバー攻撃検出のための研究所で合成された、最も包括的で多様なトランザクションとスマートコントラクトのコレクションです。
我々のフレームワークは、広範囲なシミュレーションや、毎秒2,150トランザクション以上のスループットでリアルタイムな実験を通じて、約94 %の検知精度を実現している。
これらの説得力のある結果は、我々のフレームワークの有効性を検証し、現実世界のサイバー攻撃シナリオに対処する際の適応性を示す。
With the escalating prevalence of malicious activities exploiting vulnerabilities in blockchain systems, there is an urgent requirement for robust attack detection mechanisms. To address this challenge, this paper presents a novel collaborative learning framework designed to detect attacks in blockchain transactions and smart contracts by analyzing transaction features. Our framework exhibits the capability to classify various types of blockchain attacks, including intricate attacks at the machine code level (e.g., injecting malicious codes to withdraw coins from users unlawfully), which typically necessitate significant time and security expertise to detect. To achieve that, the proposed framework incorporates a unique tool that transforms transaction features into visual representations, facilitating efficient analysis and classification of low-level machine codes. Furthermore, we propose a customized collaborative learning model to enable real-time detection of diverse attack types at distributed mining nodes. In order to create a comprehensive dataset, we deploy a pilot system based on a private Ethereum network and conduct multiple attack scenarios. To the best of our knowledge, our dataset is the most comprehensive and diverse collection of transactions and smart contracts synthesized in a laboratory for cyberattack detection in blockchain systems. Our framework achieves a detection accuracy of approximately 94\% through extensive simulations and real-time experiments with a throughput of over 2,150 transactions per second. These compelling results validate the efficacy of our framework and showcase its adaptability in addressing real-world cyberattack scenarios. | 翻訳日:2024-03-28 01:10:34 公開日:2024-03-26 |
# RetroBridge:Markov Bridgesを用いた再合成モデリング
RetroBridge: Modeling Retrosynthesis with Markov Bridges ( http://arxiv.org/abs/2308.16212v2 ) ライセンス: Link先を確認 | Ilia Igashov, Arne Schneuing, Marwin Segler, Michael Bronstein, Bruno Correia, | (参考訳) 再合成計画は、市販の開始物質から標的分子への反応経路を設計することを目的とした化学の基本的な課題である。
多段階のレトロシンセシス計画における各ステップは、対象分子に与えられた前駆体分子の正確な予測と、ヒューリスティックな探索アルゴリズムを導くための信頼推定を必要とする。
離散状態空間における分布学習問題として,単一ステップの逆合成計画をモデル化する。
まず、マルコフブリッジモデル(Markov Bridge Model)を導入する。これは、結合されたデータポイントの有限サンプルを通してアクセス可能な2つの難解な離散分布間の依存性を近似するための生成フレームワークである。
私たちのフレームワークは、エンドポイントにピン留めされたMarkovプロセスであるMarkov Bridgeの概念に基づいている。
拡散に基づく手法とは異なり、マルコフブリッジモデルはサンプリングプロキシとしてトラクタブルノイズ分布を必要とせず、抽出可能な先行分布からのサンプルとして入力生成物分子を直接操作する。
提案手法はテンプレートレスのレトロシンセシスモデリング手法であるRetroBridgeを標準評価ベンチマークで実現し,提案手法を応用した。
Retrosynthesis planning is a fundamental challenge in chemistry which aims at designing reaction pathways from commercially available starting materials to a target molecule. Each step in multi-step retrosynthesis planning requires accurate prediction of possible precursor molecules given the target molecule and confidence estimates to guide heuristic search algorithms. We model single-step retrosynthesis planning as a distribution learning problem in a discrete state space. First, we introduce the Markov Bridge Model, a generative framework aimed to approximate the dependency between two intractable discrete distributions accessible via a finite sample of coupled data points. Our framework is based on the concept of a Markov bridge, a Markov process pinned at its endpoints. Unlike diffusion-based methods, our Markov Bridge Model does not need a tractable noise distribution as a sampling proxy and directly operates on the input product molecules as samples from the intractable prior distribution. We then address the retrosynthesis planning problem with our novel framework and introduce RetroBridge, a template-free retrosynthesis modeling approach that achieves state-of-the-art results on standard evaluation benchmarks. | 翻訳日:2024-03-28 01:10:34 公開日:2024-03-26 |
# ランダム森林における予測誤差の推定
Prediction Error Estimation in Random Forests ( http://arxiv.org/abs/2309.00736v3 ) ライセンス: Link先を確認 | Ian Krupkin, Johanna Hardin, | (参考訳) 本稿では,ランダムフォレスト分類の誤差推定を定量的に評価する。
Bates et al (2023) によって構築された最初の理論的枠組みに基づき、ランダムフォレストに共通する様々な誤差推定手法の文脈において、真の誤り率と予測誤差率を理論的および実証的に研究する。
分類の場合、予測誤差のランダムフォレストの推定値は、平均誤差ではなく真の誤差率に近いことが示される。
これは、ロジスティック回帰のために与えられる Bates et al (2023) の発見とは逆である。
さらに、我々の結果は、クロスバリデーション、バッグング、データ分割など、さまざまなエラー推定戦略にまたがっていることを示す。
In this paper, error estimates of classification Random Forests are quantitatively assessed. Based on the initial theoretical framework built by Bates et al. (2023), the true error rate and expected error rate are theoretically and empirically investigated in the context of a variety of error estimation methods common to Random Forests. We show that in the classification case, Random Forests' estimates of prediction error is closer on average to the true error rate instead of the average prediction error. This is opposite the findings of Bates et al. (2023) which are given for logistic regression. We further show that our result holds across different error estimation strategies such as cross-validation, bagging, and data splitting. | 翻訳日:2024-03-28 01:10:34 公開日:2024-03-26 |
# 大規模言語モデルは科学的仮説の証拠を識別できるか? : 社会科学の事例研究
Can Large Language Models Discern Evidence for Scientific Hypotheses? Case Studies in the Social Sciences ( http://arxiv.org/abs/2309.06578v3 ) ライセンス: Link先を確認 | Sai Koneru, Jian Wu, Sarah Rajtmajer, | (参考訳) 仮説の定式化とテストは経験的研究の中心である。
強い仮説は、既存の証拠に基づく最良の推理であり、関連する文献の包括的な見解によって知らされる。
しかしながら、毎年発行される科学論文の数が指数関数的に増加するにつれて、与えられた仮説に関連する証拠の手作業による集約と合成は困難である。
本研究は, 学術論文のテキストに基づいて, 現在の大規模言語モデル (LLM) が, 特定の仮説を支持し, 否定する証拠を識別する能力を探るものである。
我々は,社会科学における研究のコミュニティ主導のアノテーションを用いた科学的仮説の課題のための新しいデータセットを共有する。
我々はLLMの性能をいくつかの最先端のベンチマークと比較し、この分野における今後の研究の機会を強調した。
データセットはhttps://github.com/Sai90000/ScientificHypothesisEvidencing.gitで公開されている。
Hypothesis formulation and testing are central to empirical research. A strong hypothesis is a best guess based on existing evidence and informed by a comprehensive view of relevant literature. However, with exponential increase in the number of scientific articles published annually, manual aggregation and synthesis of evidence related to a given hypothesis is a challenge. Our work explores the ability of current large language models (LLMs) to discern evidence in support or refute of specific hypotheses based on the text of scientific abstracts. We share a novel dataset for the task of scientific hypothesis evidencing using community-driven annotations of studies in the social sciences. We compare the performance of LLMs to several state-of-the-art benchmarks and highlight opportunities for future research in this area. The dataset is available at https://github.com/Sai90000/ScientificHypothesisEvidencing.git | 翻訳日:2024-03-28 01:10:34 公開日:2024-03-26 |
# $\texttt{NePhi}$: およそ拡散型医用画像登録のためのニューラルな変形場
$\texttt{NePhi}$: Neural Deformation Fields for Approximately Diffeomorphic Medical Image Registration ( http://arxiv.org/abs/2309.07322v2 ) ライセンス: Link先を確認 | Lin Tian, Hastings Greer, Raúl San José Estépar, Soumyadip Sengupta, Marc Niethammer, | (参考訳) この研究は、およそ微分同相変換をもたらす一般化可能なニューラル変形モデルNePhiを提案する。
学習ベースの登録アプローチで使用される主要なボクセルベースの変換フィールドとは対照的に、NePhiは変形を関数的に表現し、トレーニングや推論、推論時間、登録精度、変換規則性といったメモリ消費の設計空間において大きな柔軟性をもたらす。
具体的には、NePhi
1) ボクセルベースの学習手法に比べてメモリ消費は少ない。
2) 既存のニューラル変形に基づく登録手法が最適化に依存しているのに対して,潜時符号の予測により推論速度が向上する。
3)インスタンス最適化による精度の向上,および
4) 医用画像登録に好適な変形規則性を示した。
我々は,NePhiの2次元合成データセットおよび実際の3次元肺登録における性能を実証した。
以上の結果から,NePhiは単一解像度の登録設定において,ボクセルに基づく表現の精度に適合できることがわかった。
マルチレゾリューション登録では、現在のSOTA学習に基づく登録手法とインスタンス最適化の精度を一致させ、メモリ要求を5倍に削減する。
This work proposes NePhi, a generalizable neural deformation model which results in approximately diffeomorphic transformations. In contrast to the predominant voxel-based transformation fields used in learning-based registration approaches, NePhi represents deformations functionally, leading to great flexibility within the design space of memory consumption during training and inference, inference time, registration accuracy, as well as transformation regularity. Specifically, NePhi 1) requires less memory compared to voxel-based learning approaches, 2) improves inference speed by predicting latent codes, compared to current existing neural deformation based registration approaches that \emph{only} rely on optimization, 3) improves accuracy via instance optimization, and 4) shows excellent deformation regularity which is highly desirable for medical image registration. We demonstrate the performance of NePhi on a 2D synthetic dataset as well as for real 3D lung registration. Our results show that NePhi can match the accuracy of voxel-based representations in a single-resolution registration setting. For multi-resolution registration, our method matches the accuracy of current SOTA learning-based registration approaches with instance optimization while reducing memory requirements by a factor of five. | 翻訳日:2024-03-28 01:10:34 公開日:2024-03-26 |
# AMuRD:キー情報抽出と分類のための注釈付きアラビア英語レセプトデータセット
AMuRD: Annotated Arabic-English Receipt Dataset for Key Information Extraction and Classification ( http://arxiv.org/abs/2309.09800v3 ) ライセンス: Link先を確認 | Abdelrahman Abdallah, Mahmoud Abdalla, Mohamed Elkasaby, Yasser Elbendary, Adam Jatowt, | (参考訳) レシートからキー情報を抽出することは、スキャンされたレシートからテキストの認識と抽出を含む複雑なタスクである。
このプロセスは、本質的なコンテンツを検索し、構造化文書に整理し、容易にアクセスおよび分析できるようにするため、極めて重要である。
本稿では,レシートから情報を取り出すための新しい多言語人間アノテーションデータセットであるAMuRDを提案する。
このデータセットは47,720ドルのサンプルで構成され、情報抽出とアイテム分類における重要な課題に対処する。
各サンプルには、アイテム名や価格、ブランドなどの属性のアノテーションが含まれている。
この詳細なアノテーションはレシート上の各項目の包括的な理解を促進する。
さらに、データセットは44ドルの異なる製品カテゴリに分類する。
この分類機能は、アイテムのより組織的で効率的な分析を可能にし、さまざまなアプリケーションにおけるデータセットのユーザビリティを高める。
本研究では,AMuRDデータセット上のLLaMAモデルを微調整することにより,様々な言語モデルアーキテクチャ,例えば,評価を行った。
その結果, F1スコアは97.43\%, F1スコアは94.99\%, F1スコアは98.51\%, F1スコアは97.06\%であった。
データセットとコードは、さらなるリサーチ https://github.com/Update-For-Integrated-Business-AI/AMuRD.comで公開されている。
The extraction of key information from receipts is a complex task that involves the recognition and extraction of text from scanned receipts. This process is crucial as it enables the retrieval of essential content and organizing it into structured documents for easy access and analysis. In this paper, we present AMuRD, a novel multilingual human-annotated dataset specifically designed for information extraction from receipts. This dataset comprises $47,720$ samples and addresses the key challenges in information extraction and item classification - the two critical aspects of data analysis in the retail industry. Each sample includes annotations for item names and attributes such as price, brand, and more. This detailed annotation facilitates a comprehensive understanding of each item on the receipt. Furthermore, the dataset provides classification into $44$ distinct product categories. This classification feature allows for a more organized and efficient analysis of the items, enhancing the usability of the dataset for various applications. In our study, we evaluated various language model architectures, e.g., by fine-tuning LLaMA models on the AMuRD dataset. Our approach yielded exceptional results, with an F1 score of 97.43\% and accuracy of 94.99\% in information extraction and classification, and an even higher F1 score of 98.51\% and accuracy of 97.06\% observed in specific tasks. The dataset and code are publicly accessible for further researchhttps://github.com/Update-For-Integrated-Business-AI/AMuRD. | 翻訳日:2024-03-28 01:10:34 公開日:2024-03-26 |
# 行動・遺伝的特徴統合によるオピオイド使用障害リスクモデリングの改善
Improving Opioid Use Disorder Risk Modelling through Behavioral and Genetic Feature Integration ( http://arxiv.org/abs/2309.10837v2 ) ライセンス: Link先を確認 | Sybille Légitime, Kaustubh Prabhu, Devin McConnell, Bing Wang, Dipak K. Dey, Derek Aguiar, | (参考訳) オピオイドは急性および慢性の痛みに対して効果的な鎮痛薬であるが、アメリカでは毎年数百万のオピオイド使用障害(OUD)と数万の早死にに至る依存症のリスクもかなり高い。
処方前のOUDリスクを見積もると、治療レギュラー、監視プログラム、介入戦略の有効性が向上するが、リスク推定は通常、自己申告されたデータやアンケートに基づいて行われる。
我々は、OUDに関連する遺伝的変異とGPSとWi-Fiの時空間座標から抽出した行動特徴を組み合わせて、OUDリスクを評価するための実験的設計と計算方法を開発した。
OUDモビリティと遺伝データは同一のコホートには存在しないため、(1)経験的分布からモビリティ特徴を生成するアルゴリズムを開発し、(2)疾患の共起レベルを想定するモビリティと遺伝サンプルを合成する。
遺伝的モビリティとモビリティの融合により,分類精度,高精度リコールおよびレシーバ演算子特性曲線の面積,F_1$スコアによるリスクモデリングが向上することを示す。
適合モデルの解釈は、特に線形モデルにおいて遺伝的寄与が重要であるにもかかわらず、モビリティの特徴がOUDリスクにより大きな影響を与えることを示唆している。
本枠組みでは, プライバシ, セキュリティ, バイアス, 一般性に関して, 実施前に臨床試験で評価しなければならない懸念があるが, 行動学的, 遺伝的特徴がOUDリスク推定を改善し, 個別の臨床意思決定を支援することの予備的証拠を提供する。
Opioids are an effective analgesic for acute and chronic pain, but also carry a considerable risk of addiction leading to millions of opioid use disorder (OUD) cases and tens of thousands of premature deaths in the United States yearly. Estimating OUD risk prior to prescription could improve the efficacy of treatment regimens, monitoring programs, and intervention strategies, but risk estimation is typically based on self-reported data or questionnaires. We develop an experimental design and computational methods that combine genetic variants associated with OUD with behavioral features extracted from GPS and Wi-Fi spatiotemporal coordinates to assess OUD risk. Since both OUD mobility and genetic data do not exist for the same cohort, we develop algorithms to (1) generate mobility features from empirical distributions and (2) synthesize mobility and genetic samples assuming an expected level of disease co-occurrence. We show that integrating genetic and mobility modalities improves risk modelling using classification accuracy, area under the precision-recall and receiver operator characteristic curves, and $F_1$ score. Interpreting the fitted models suggests that mobility features have more influence on OUD risk, although the genetic contribution was significant, particularly in linear models. While there exist concerns with respect to privacy, security, bias, and generalizability that must be evaluated in clinical trials before being implemented in practice, our framework provides preliminary evidence that behavioral and genetic features may improve OUD risk estimation to assist with personalized clinical decision-making. | 翻訳日:2024-03-28 01:10:34 公開日:2024-03-26 |
# 高次関節構成と依存性解析
High-order Joint Constituency and Dependency Parsing ( http://arxiv.org/abs/2309.11888v2 ) ライセンス: Link先を確認 | Yanggan Gu, Yang Hou, Zhefeng Wang, Xinyu Duan, Zhenghua Li, | (参考訳) 本研究は,構文表現において2種類の木が相補的であることを考慮し,入力文に対して相補的な構成木と係り受け木を同時に生成する,という共同解析のトピックを再考する。
ZhouとZhaoのオリジナルの作品(2019年)は推論段階でのみ共同解析を行う。
マルチタスク学習フレームワーク(共有エンコーダ1つと独立デコーダ2つ)の下で2つの個別パーサをトレーニングする。
彼らは最適な整合性木対を見つけるために、$O(n^5)$時間複雑さのアドホックな動的プログラミングベースの復号アルゴリズムを設計した。
1)より効率的な復号アルゴリズムである$O(n^4)$時間複雑性,(2)推論フェーズのみではなく,トレーニングフェーズでのジョイントモデリングの探索,(3)高次スコアリングコンポーネントの提案,の3つの側面で進行する。
我々は、7つの言語の実験と分析を行い、リッチリソースと低リソースの両方のシナリオをカバーしています。
結果と解析結果から, 共同モデリングは, 個別のモデリングよりも微妙な全体的な性能向上につながるが, 木全体の整合率を大幅に向上させることがわかった。
This work revisits the topic of jointly parsing constituency and dependency trees, i.e., to produce compatible constituency and dependency trees simultaneously for input sentences, which is attractive considering that the two types of trees are complementary in representing syntax. The original work of Zhou and Zhao (2019) performs joint parsing only at the inference phase. They train two separate parsers under the multi-task learning framework (i.e., one shared encoder and two independent decoders). They design an ad-hoc dynamic programming-based decoding algorithm of $O(n^5)$ time complexity for finding optimal compatible tree pairs. Compared to their work, we make progress in three aspects: (1) adopting a much more efficient decoding algorithm of $O(n^4)$ time complexity, (2) exploring joint modeling at the training phase, instead of only at the inference phase, (3) proposing high-order scoring components to promote constituent-dependency interaction. We conduct experiments and analysis on seven languages, covering both rich-resource and low-resource scenarios. Results and analysis show that joint modeling leads to a modest overall performance boost over separate modeling, but substantially improves the complete matching ratio of whole trees, thanks to the explicit modeling of tree compatibility. | 翻訳日:2024-03-28 01:10:34 公開日:2024-03-26 |
# 深さ誘導型特徴相関とサンプリングによる教師なしセマンティックセマンティックセマンティックセグメンテーション
Unsupervised Semantic Segmentation Through Depth-Guided Feature Correlation and Sampling ( http://arxiv.org/abs/2309.12378v2 ) ライセンス: Link先を確認 | Leon Sick, Dominik Engel, Pedro Hermosilla, Timo Ropinski, | (参考訳) 伝統的に、セマンティックセグメンテーションを実行するためにニューラルネットワークを訓練するには、高価な人造アノテーションが必要だった。
しかし最近では、教師なし学習の分野での進歩は、この問題と教師付きアルゴリズムとのギャップを埋めるために大きな進歩を遂げている。
これを実現するために、データセット全体にわたる画像からランダムにサンプリングされた特徴を相関づけることを学ぶことで意味知識を蒸留する。
本研究では、深度情報を用いて、シーンの構造に関する情報をトレーニングプロセスに組み込むことにより、これらの進歩の上に構築する。
本研究では,(1)特徴マップと深度マップを空間的に相関させて深度相関を学習してシーンの構造に関する知識を誘導し,(2)最遠点サンプリングを実装し,シーンの深度情報に対する3次元サンプリング技術を利用して,より効果的に関連性のある特徴を抽出する。
最後に、広範囲な実験を通じて、技術的貢献の有効性を実証し、複数のベンチマークデータセットのパフォーマンスを大幅に改善することを示す。
Traditionally, training neural networks to perform semantic segmentation required expensive human-made annotations. But more recently, advances in the field of unsupervised learning have made significant progress on this issue and towards closing the gap to supervised algorithms. To achieve this, semantic knowledge is distilled by learning to correlate randomly sampled features from images across an entire dataset. In this work, we build upon these advances by incorporating information about the structure of the scene into the training process through the use of depth information. We achieve this by (1) learning depth-feature correlation by spatially correlate the feature maps with the depth maps to induce knowledge about the structure of the scene and (2) implementing farthest-point sampling to more effectively select relevant features by utilizing 3D sampling techniques on depth information of the scene. Finally, we demonstrate the effectiveness of our technical contributions through extensive experimentation and present significant improvements in performance across multiple benchmark datasets. | 翻訳日:2024-03-28 01:10:34 公開日:2024-03-26 |
# スペイン語リソース文法バージョン2023
Spanish Resource Grammar version 2023 ( http://arxiv.org/abs/2309.13318v2 ) ライセンス: Link先を確認 | Olga Zamaraeva, Lorena S. Allegue, Carlos Gómez-Rodríguez, | (参考訳) 我々は,HPSG形式に実装されたスペイン語の文法であるスペイン語資源文法(SRG)の最新バージョンを提示する。
このような文法は、文法に関する複雑な仮説の集合を符号化し、言語理論の実証的なテストのリソースとなる。
また、文法性の厳密な概念を符号化し、コンピュータ支援言語学習における自然言語処理アプリケーションのためのリソースとなる。
SRGのこのバージョンは、最新のFreeling形態解析器を使用し、自動生成され、手動で検証された2,291文のツリーバンクと共にリリースされている。
そこで本研究では,手動アノテーションによる木バンクとの違いと,構文理論の実証的発展にどのように貢献するかを強調し,木バンクのプロセスを説明する。
ツリーバンクスの高レベルの一貫性と詳細は、高品質なセマンティックパーサを訓練するためのリソースとなり、一般的には正確で詳細なセマンティックスの恩恵を受ける。
最後に,第2言語習得における仮説の堅牢な実証的評価手法の開発に関連する新たな研究ラインである学習者コーパスから100文の文法のカバレッジとオーバージェネレーションを提示する。
We present the latest version of the Spanish Resource Grammar (SRG), a grammar of Spanish implemented in the HPSG formalism. Such grammars encode a complex set of hypotheses about syntax making them a resource for empirical testing of linguistic theory. They also encode a strict notion of grammaticality which makes them a resource for natural language processing applications in computer-assisted language learning. This version of the SRG uses the recent version of the Freeling morphological analyzer and is released along with an automatically created, manually verified treebank of 2,291 sentences. We explain the treebanking process, emphasizing how it is different from treebanking with manual annotation and how it contributes to empirically-driven development of syntactic theory. The treebanks' high level of consistency and detail makes them a resource for training high-quality semantic parsers and generally systems that benefit from precise and detailed semantics. Finally, we present the grammar's coverage and overgeneration on 100 sentences from a learner corpus, a new research line related to developing methodologies for robust empirical evaluation of hypotheses in second language acquisition. | 翻訳日:2024-03-28 01:00:50 公開日:2024-03-26 |
# 第一ミレニアムラテン文字文の文レベルでの性的内容の検出
Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts ( http://arxiv.org/abs/2309.14974v3 ) ライセンス: Link先を確認 | Thibault Clérice, | (参考訳) 本研究では,人文科学と言語学の分野におけるコーパス構築のプロセスの促進を図るために,文レベルでの意味分類に深層学習手法を適用することを提案する。
本稿では,紀元前300年から紀元前900年までの約2500の文からなる,性意味論(医療,エロティックーなど)を含む新しいコーパスを紹介する。
我々は,様々な文分類手法と異なる入力埋め込み層を評価し,単純なトークンベースの検索を一貫して上回ることを示す。
我々は、慣用的なメタデータと社会的なメタデータの埋め込み(センチュリー、著者、書体の種類)の統合について検討するが、それが過度に適合することを発見した。
提案手法の有効性を実証し,HANを用いてそれぞれ70.60%,86.33%の精度と真正率(TPR)を達成した。
モデル性能に対するデータセットサイズの影響 (2013年より420) を評価し, モデルの性能は悪いが, MLMなしでも高い精度とTPRが得られ, それぞれ69%, 51%であった。
この結果から,人文主義者がより多くのデータを生成するための補助的な付加価値として,注意機構の分析を行う。
In this study, we propose to evaluate the use of deep learning methods for semantic classification at the sentence level to accelerate the process of corpus building in the field of humanities and linguistics, a traditional and time-consuming task. We introduce a novel corpus comprising around 2500 sentences spanning from 300 BCE to 900 CE including sexual semantics (medical, erotica, etc.). We evaluate various sentence classification approaches and different input embedding layers, and show that all consistently outperform simple token-based searches. We explore the integration of idiolectal and sociolectal metadata embeddings (centuries, author, type of writing), but find that it leads to overfitting. Our results demonstrate the effectiveness of this approach, achieving high precision and true positive rates (TPR) of respectively 70.60% and 86.33% using HAN. We evaluate the impact of the dataset size on the model performances (420 instead of 2013), and show that, while our models perform worse, they still offer a high enough precision and TPR, even without MLM, respectively 69% and 51%. Given the result, we provide an analysis of the attention mechanism as a supporting added value for humanists in order to produce more data. | 翻訳日:2024-03-28 01:00:50 公開日:2024-03-26 |
# SimLVSeg: 2D+時間心エコー図における左室セグメンテーションの簡易化
SimLVSeg: Simplifying Left Ventricular Segmentation in 2D+Time Echocardiograms with Self- and Weakly-Supervised Learning ( http://arxiv.org/abs/2310.00454v3 ) ライセンス: Link先を確認 | Fadillah Maani, Asim Ukaye, Nada Saadi, Numan Saeed, Mohammad Yaqub, | (参考訳) 心エコー検査は、一般的な心臓の健康評価に欠かせない臨床像のモダリティとなった。
退院率などのバイオマーカーの計算から、患者の心不全の確率まで、心臓構造の正確なセグメンテーションにより、医師は心臓の状態を評価し、より正確な精度と精度で治療を考案することができる。
しかし、正確で信頼性の高い左室セグメンテーションを実現するには、様々な理由から時間がかかる。
したがって、臨床医は診断のために左室(LV)を2つの特定の心エコーフレームに分割することに頼ることが多い。
この手動LVセグメンテーションの限られた範囲は、結果として得られるデータセットが通常、わずかに注釈付けされているため、時間的一貫性の高い自動LVセグメンテーションを開発する上での課題となる。
この課題に応えて、この研究はSimLVSegというビデオベースのネットワークを、わずかな注釈付き心エコービデオから一貫したLVセグメンテーションを可能にする新しいパラダイムを導入している。
SimLVSegは、時間的マスキングによる自己教師付き事前トレーニングと、スパースアノテーションからのLVセグメンテーションに適した弱い教師付き学習で構成されている。
我々は、SimLVSegが93.32%(95%CI 93.21-93.43%)のダイススコアを最大2D+時間心エコー画像データセット(EchoNet-Dynamic)で達成し、より効率的で、最先端のソリューションよりも優れていることを示す。
SimLVSegは2Dスーパーイメージと3Dセグメンテーションという2種類のビデオセグメンテーションネットワークと互換性がある。
提案手法の有効性を示すため,事前学習設定や各種深層学習バックボーンなど,広範囲にわたるアブレーション研究を行った。
さらに,SimLVSegの非表示分布(CAMUSデータセット)に対する一般化可能性を示すために,アウト・オブ・ディストリビューションテストを実施している。
コードはhttps://github.com/fadamsyah/SimLVSeg.comで公開されている。
Echocardiography has become an indispensable clinical imaging modality for general heart health assessment. From calculating biomarkers such as ejection fraction to the probability of a patient's heart failure, accurate segmentation of the heart structures allows doctors to assess the heart's condition and devise treatments with greater precision and accuracy. However, achieving accurate and reliable left ventricle segmentation is time-consuming and challenging due to different reasons. Hence, clinicians often rely on segmenting the left ventricular (LV) in two specific echocardiogram frames to make a diagnosis. This limited coverage in manual LV segmentation poses a challenge for developing automatic LV segmentation with high temporal consistency, as the resulting dataset is typically annotated sparsely. In response to this challenge, this work introduces SimLVSeg, a novel paradigm that enables video-based networks for consistent LV segmentation from sparsely annotated echocardiogram videos. SimLVSeg consists of self-supervised pre-training with temporal masking, followed by weakly supervised learning tailored for LV segmentation from sparse annotations. We demonstrate how SimLVSeg outperforms the state-of-the-art solutions by achieving a 93.32% (95%CI 93.21-93.43%) dice score on the largest 2D+time echocardiography dataset (EchoNet-Dynamic) while being more efficient. SimLVSeg is compatible with two types of video segmentation networks: 2D super image and 3D segmentation. To show the effectiveness of our approach, we provide extensive ablation studies, including pre-training settings and various deep learning backbones. We further conduct an out-of-distribution test to showcase SimLVSeg's generalizability on unseen distribution (CAMUS dataset). The code is publicly available at https://github.com/fadamsyah/SimLVSeg. | 翻訳日:2024-03-28 01:00:50 公開日:2024-03-26 |
# TP2O: バランススワップサンプリングを用いたテキストペアツーオブジェクト生成
TP2O: Creative Text Pair-to-Object Generation using Balance Swap-Sampling ( http://arxiv.org/abs/2310.01819v3 ) ライセンス: Link先を確認 | Jun Li, Zedong Zhang, Jian Yang, | (参考訳) 2つの一見無関係なオブジェクトテキストから創造的な組合せオブジェクトを生成することは、テキストと画像の合成において難しい課題であり、しばしば既存のデータ分散をエミュレートすることに集中することを妨げる。
本稿では, 単純かつ高効率な方法であるtextbf{ Balance swap-sampling} を提案する。
まず,最先端拡散モデルを用いて2つのテキスト埋め込みの固有要素をランダムに交換することにより,新しい合成対象画像を生成するスワッピング機構を提案する。
第2に、新しい画像と元の世代間のCLIP距離のバランスをとることによって、新たに生成した画像から小さなサブセットを効率的にサンプリングするバランススワップ領域を導入し、高品質な組み合わせを受け入れる可能性を高めた。
最後に、セグメント化手法を用いて、セグメント化コンポーネント間のCLIP距離を比較し、最終的にサンプリングされたサブセットから最も有望なオブジェクトを選択する。
本手法は最近のSOTA T2I法より優れていることを示す。
驚くべきことに、私たちの結果はカエルブロッコリーのような人間のアーティストとさえ競合しています。
Generating creative combinatorial objects from two seemingly unrelated object texts is a challenging task in text-to-image synthesis, often hindered by a focus on emulating existing data distributions. In this paper, we develop a straightforward yet highly effective method, called \textbf{balance swap-sampling}. First, we propose a swapping mechanism that generates a novel combinatorial object image set by randomly exchanging intrinsic elements of two text embeddings through a cutting-edge diffusion model. Second, we introduce a balance swapping region to efficiently sample a small subset from the newly generated image set by balancing CLIP distances between the new images and their original generations, increasing the likelihood of accepting the high-quality combinations. Last, we employ a segmentation method to compare CLIP distances among the segmented components, ultimately selecting the most promising object from the sampled subset. Extensive experiments demonstrate that our approach outperforms recent SOTA T2I methods. Surprisingly, our results even rival those of human artists, such as frog-broccoli. | 翻訳日:2024-03-28 01:00:50 公開日:2024-03-26 |
# 大規模言語モデルのための知識編集の落とし穴を解き明かす
Unveiling the Pitfalls of Knowledge Editing for Large Language Models ( http://arxiv.org/abs/2310.02129v4 ) ライセンス: Link先を確認 | Zhoubo Li, Ningyu Zhang, Yunzhi Yao, Mengru Wang, Xi Chen, Huajun Chen, | (参考訳) 微調整型Large Language Models(LLMs)のコストが上昇するにつれて、最近の研究はLLMに埋め込まれた暗黙の知識を編集する方法論の開発に焦点をあてている。
しかし、まだダーククラウドのオーバーヘッドは残っている -- 知識の編集はバタフライ効果を誘発するのだろうか?
知識編集が潜在的なリスクを引き起こす副作用をもたらすかどうかはまだ不明です。
本稿では,LLMの知識編集に伴う潜在的な落とし穴について検討する。
そこで我々は,新しいベンチマークデータセットを導入し,革新的な評価指標を提案する。
1) 知識衝突: 論理的に衝突する事実群を編集することで, 従来の手法で無視されたLCMの面における固有の矛盾を増大させることができる。
2) 知識歪み: 事実知識の編集を目的としたパラメータの変更は, LLMの自然知識構造を不可避的に歪曲することができる。
実験の結果は、知識編集が意図しない結果の影をLLMに不注意に投げかけ、将来の作品に注意と努力を喚起する可能性を鮮明に示している。
コードとデータはhttps://github.com/zjunlp/PitfallsKnowledgeEditing.comで公開されている。
As the cost associated with fine-tuning Large Language Models (LLMs) continues to rise, recent research efforts have pivoted towards developing methodologies to edit implicit knowledge embedded within LLMs. Yet, there's still a dark cloud lingering overhead -- will knowledge editing trigger butterfly effect? since it is still unclear whether knowledge editing might introduce side effects that pose potential risks or not. This paper pioneers the investigation into the potential pitfalls associated with knowledge editing for LLMs. To achieve this, we introduce new benchmark datasets and propose innovative evaluation metrics. Our results underline two pivotal concerns: (1) Knowledge Conflict: Editing groups of facts that logically clash can magnify the inherent inconsistencies in LLMs-a facet neglected by previous methods. (2) Knowledge Distortion: Altering parameters with the aim of editing factual knowledge can irrevocably warp the innate knowledge structure of LLMs. Experimental results vividly demonstrate that knowledge editing might inadvertently cast a shadow of unintended consequences on LLMs, which warrant attention and efforts for future works. Code and data are available at https://github.com/zjunlp/PitfallsKnowledgeEditing. | 翻訳日:2024-03-28 01:00:50 公開日:2024-03-26 |
# 確率的に再構成されたメッセージパージングニューラルネットワーク
Probabilistically Rewired Message-Passing Neural Networks ( http://arxiv.org/abs/2310.02156v4 ) ライセンス: Link先を確認 | Chendi Qian, Andrei Manolache, Kareem Ahmed, Zhe Zeng, Guy Van den Broeck, Mathias Niepert, Christopher Morris, | (参考訳) メッセージパッシンググラフニューラルネットワーク(MPNN)は、グラフ構造化入力を処理する強力なツールとして登場した。
しかし、それらは固定された入力グラフ構造で動作し、潜在的なノイズや欠落した情報を無視している。
さらに、それらの局所的な集約機構は、関連するグラフ構造を捕捉する際の過剰なスカッシングや限定的な表現力などの問題を引き起こす可能性がある。
これらの課題に対する既存の解決策は、主にヒューリスティックな手法に依存しており、しばしば基礎となるデータ分布を無視している。
したがって、与えられた予測タスクに関連するグラフ構造を推論する学習の原則的なアプローチを考案することは、未解決の課題である。
本研究では, 精度が高く, かつ異なる$k$-subsetサンプリングの最近の進歩を活用して, 確率論的に再構成されたMPNN(PR-MPNN)を考案する。
我々は,PR-MPNNが表現力を高める方法について初めて理論的解析を行い,それらが純粋にランダム化されたアプローチより優れている条件を同定した。
実証的に、我々のアプローチは、過剰な監視やアンダーリーチングといった問題を効果的に軽減します。
さらに,従来のMPNNモデルや最近のグラフトランスフォーマーアーキテクチャと比較して,既存の実世界のデータセットに対して,競合的,あるいは優れた予測性能を示す。
Message-passing graph neural networks (MPNNs) emerged as powerful tools for processing graph-structured input. However, they operate on a fixed input graph structure, ignoring potential noise and missing information. Furthermore, their local aggregation mechanism can lead to problems such as over-squashing and limited expressive power in capturing relevant graph structures. Existing solutions to these challenges have primarily relied on heuristic methods, often disregarding the underlying data distribution. Hence, devising principled approaches for learning to infer graph structures relevant to the given prediction task remains an open challenge. In this work, leveraging recent progress in exact and differentiable $k$-subset sampling, we devise probabilistically rewired MPNNs (PR-MPNNs), which learn to add relevant edges while omitting less beneficial ones. For the first time, our theoretical analysis explores how PR-MPNNs enhance expressive power, and we identify precise conditions under which they outperform purely randomized approaches. Empirically, we demonstrate that our approach effectively mitigates issues like over-squashing and under-reaching. In addition, on established real-world datasets, our method exhibits competitive or superior predictive performance compared to traditional MPNN models and recent graph transformer architectures. | 翻訳日:2024-03-28 01:00:50 公開日:2024-03-26 |
# リーチ回避仕様付き制約付き最適制御のための高調波制御リアプノフバリア関数
Harmonic Control Lyapunov Barrier Functions for Constrained Optimal Control with Reach-Avoid Specifications ( http://arxiv.org/abs/2310.02869v2 ) ライセンス: Link先を確認 | Amartya Mukherjee, Ruikun Zhou, Haocheng Chang, Jun Liu, | (参考訳) 本稿では,リーチ・アビド問題などの制約付き制御問題を支援する高調波制御Lyapunovバリア関数(ハーモニックCLBF)を提案する。
調和CLBFは、制御リャプノフ障壁関数(CLBF)の特性を符号化するために調和関数が満たす最大原理を利用する。
結果として、サンプル軌道に基づいて訓練されるのではなく、実験の開始時に開始することができる。
制御入力は、高調波CLBFの最も急降下方向の系力学の内積を最大化するために選択される。
数値計算の結果は、異なるリーチ・アビド環境下で4つの異なるシステムで示される。
高調波CLBFは、安全でない領域に入るリスクが著しく低く、目標領域に入る確率が高い。
This paper introduces harmonic control Lyapunov barrier functions (harmonic CLBF) that aid in constrained control problems such as reach-avoid problems. Harmonic CLBFs exploit the maximum principle that harmonic functions satisfy to encode the properties of control Lyapunov barrier functions (CLBFs). As a result, they can be initiated at the start of an experiment rather than trained based on sample trajectories. The control inputs are selected to maximize the inner product of the system dynamics with the steepest descent direction of the harmonic CLBF. Numerical results are presented with four different systems under different reach-avoid environments. Harmonic CLBFs show a significantly low risk of entering unsafe regions and a high probability of entering the goal region. | 翻訳日:2024-03-28 01:00:50 公開日:2024-03-26 |
# 交流最適潮流用デュアルコニックプロキシ
Dual Conic Proxies for AC Optimal Power Flow ( http://arxiv.org/abs/2310.02969v2 ) ライセンス: Link先を確認 | Guancheng Qiu, Mathieu Tanneau, Pascal Van Hentenryck, | (参考訳) 近年、AC-OPF(AC Optimal Power Flow)のための機械学習ベースの最適化プロキシの開発に大きな関心が寄せられている。
高品質な原始解の予測には大きな進歩があったが、既存の学習に基づくアプローチではAC-OPFに有効な二重境界は得られていない。
本稿では,AC-OPFの凸緩和のための最適化プロキシをトレーニングすることで,このギャップを解消する。
すなわち、AC-OPFの2次円錐(SOC)緩和を考慮し、高速で微分可能な(二重)実現可能性回復を組み込んだ「再配置{a novel architecture}」を提案する。
本稿は、この新しいアーキテクチャと自己教師付き学習スキームを組み合わせることで、データ生成の費用のかかるトレーニングの必要性を軽減する。
中規模および大規模電力網の大規模数値実験により,提案手法の効率性と拡張性を示す。
In recent years, there has been significant interest in the development of machine learning-based optimization proxies for AC Optimal Power Flow (AC-OPF). Although significant progress has been achieved in predicting high-quality primal solutions, no existing learning-based approach can provide valid dual bounds for AC-OPF. This paper addresses this gap by training optimization proxies for a convex relaxation of AC-OPF. Namely, the paper considers a second-order cone (SOC) relaxation of AC-OPF, and proposes \revision{a novel architecture} that embeds a fast, differentiable (dual) feasibility recovery, thus providing valid dual bounds. The paper combines this new architecture with a self-supervised learning scheme, which alleviates the need for costly training data generation. Extensive numerical experiments on medium- and large-scale power grids demonstrate the efficiency and scalability of the proposed methodology. | 翻訳日:2024-03-28 01:00:50 公開日:2024-03-26 |
# SocialCircle: 歩行者軌道予測のためのアングルに基づくソーシャルインタラクション表現の学習
SocialCircle: Learning the Angle-based Social Interaction Representation for Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2310.05370v2 ) ライセンス: Link先を確認 | Conghao Wong, Beihao Xia, Ziqian Zou, Yulong Wang, Xinge You, | (参考訳) 複雑な場面における歩行者や車などのエージェントの軌跡の分析と予測は、多くのインテリジェントなシステムや応用においてますます重要になっている。
多様なエージェント間の社会的にインタラクティブな行動の多様性と不確実性は、このタスクを他の決定論的コンピュータビジョンタスクよりも困難にしている。
研究者は、様々な数学的モデルとネットワーク構造を通して、これらの相互作用が将来の軌道に与える影響を定量化するために多くの努力をしてきたが、この問題は十分に解決されていない。
海産動物にインスパイアされ、海産動物が海産動物の位置をエコーで特定し、標的物質に対して異なる角度の向きで社会的相互作用の文脈を連続的に反映する、SocialCircleと呼ばれる新しい角度に基づく訓練可能な社会的相互作用表現を構築した。
提案したSocialCircleの有効性を,新たに発表されたトラジェクトリ予測モデルとともにトレーニングすることで検証し,予測性能を定量的に向上するだけでなく,歩行者のトラジェクトリを人間の直感と整合した方法で予測する際の社会的相互作用を定量的にシミュレーションする上でも有効であることを示す。
Analyzing and forecasting trajectories of agents like pedestrians and cars in complex scenes has become more and more significant in many intelligent systems and applications. The diversity and uncertainty in socially interactive behaviors among a rich variety of agents make this task more challenging than other deterministic computer vision tasks. Researchers have made a lot of efforts to quantify the effects of these interactions on future trajectories through different mathematical models and network structures, but this problem has not been well solved. Inspired by marine animals that localize the positions of their companions underwater through echoes, we build a new anglebased trainable social interaction representation, named SocialCircle, for continuously reflecting the context of social interactions at different angular orientations relative to the target agent. We validate the effect of the proposed SocialCircle by training it along with several newly released trajectory prediction models, and experiments show that the SocialCircle not only quantitatively improves the prediction performance, but also qualitatively helps better simulate social interactions when forecasting pedestrian trajectories in a way that is consistent with human intuitions. | 翻訳日:2024-03-28 01:00:50 公開日:2024-03-26 |
# 多目的進化最適化のための大規模言語モデル
Large Language Model for Multi-objective Evolutionary Optimization ( http://arxiv.org/abs/2310.12541v3 ) ライセンス: Link先を確認 | Fei Liu, Xi Lin, Zhenkun Wang, Shunyu Yao, Xialiang Tong, Mingxuan Yuan, Qingfu Zhang, | (参考訳) 多目的進化アルゴリズム(MOEA)は、多目的最適化問題(MOP)を解決する主要な手法である。
過去数十年間、多くのMOEAが提案され、そのうちの1つは、ドメイン知識を持った慎重に手作りの設計を必要とするものである。
近年、MOEAにおいて手動で設計された演算子を学習ベースの演算子(例えばニューラルネットワークモデル)に置き換える試みが試みられている。
しかし、そのようなモデルを設計し、訓練するためにはまだ多くの努力が必要であり、学習した演算子は新しい問題に対してうまく一般化しないかもしれない。
上記の課題に対処するため,MOEA演算子の設計に強力な大規模言語モデル(LLM)を活用する新しいアプローチについて検討する。
適切なプロンプトエンジニアリングにより、ゼロショット方式で分解ベースのMOEA(MOEA/D)のためのブラックボックス探索演算子として、汎用LLMを機能させることに成功した。
さらに, LLMの挙動から学習することで, ランダムな明示的なホワイトボックス演算子を設計し, MOEA/D-LOと呼ばれる分解型MOEAの新バージョンを提案する。
実験結果から,提案手法は広く用いられているMOEAと競合する性能が得られることが示された。
また、オペレータがいくつかのインスタンスから学んだだけで、まったく異なるパターンや設定で見えない問題に対して、堅牢な一般化性能が得られることを約束している。
再現性とアクセシビリティを向上させるため、ソースコードはhttps://github.com/FeiLiu36/LLM4MOEAである。
Multiobjective evolutionary algorithms (MOEAs) are major methods for solving multiobjective optimization problems (MOPs). Many MOEAs have been proposed in the past decades, of which the search operators need a carefully handcrafted design with domain knowledge. Recently, some attempts have been made to replace the manually designed operators in MOEAs with learning-based operators (e.g., neural network models). However, much effort is still required for designing and training such models, and the learned operators might not generalize well on new problems. To tackle the above challenges, this work investigates a novel approach that leverages the powerful large language model (LLM) to design MOEA operators. With proper prompt engineering, we successfully let a general LLM serve as a black-box search operator for decomposition-based MOEA (MOEA/D) in a zero-shot manner. In addition, by learning from the LLM behavior, we further design an explicit white-box operator with randomness and propose a new version of decomposition-based MOEA, termed MOEA/D-LO. Experimental studies on different test benchmarks show that our proposed method can achieve competitive performance with widely used MOEAs. It is also promising to see the operator only learned from a few instances can have robust generalization performance on unseen problems with quite different patterns and settings. The results reveal the potential benefits of using pre-trained LLMs in the design of MOEAs.To foster reproducibility and accessibility, the source code is https://github.com/FeiLiu36/LLM4MOEA. | 翻訳日:2024-03-28 00:51:06 公開日:2024-03-26 |
# COPR: 最適政策規則化による継続的な学習人間の嗜好
COPR: Continual Learning Human Preference through Optimal Policy Regularization ( http://arxiv.org/abs/2310.15694v5 ) ライセンス: Link先を確認 | Han Zhang, Lin Gui, Yuanzhao Zhai, Hui Wang, Yu Lei, Ruifeng Xu, | (参考訳) RLHF(Reinforcement Learning from Human Feedback)は、事前訓練された言語モデル(LM)を改善するための一般的な手法である。
しかしながら、現在のRLHFベースのLMは、新しいクエリやフィードバックが導入されるたびに完全なリトレーニングを必要とする。
LMのリトレーニングは、データプライバシに関する懸念とともに、膨大な時間と計算資源を必要とするため、現実の多くの状況において実践的な困難をもたらす。
この制限に対処するため,我々は分割関数を通過させることで最適政策の分布を計算し,歴史的に最適な分布に基づいて現在の政策を調整し,破滅的投機(CF)を緩和する,COPR(Continuous Optimal Policy Regularization)と呼ばれる新しい手法を提案する。
COPRは単一の学習フェーズを含み、複雑な強化学習を必要としない。
重要なのは、報酬モデルに似たスコアリングモジュールをメンテナンスすることで、ラベルのないデータから学習する能力をRLHFと共有し、人間のフィードバックなしに継続的に学習できるようにすることだ。
実験の結果,COPRは,段階的なタスクやドメインに対する人間の嗜好と一貫して整合する上で,強力な継続的学習(CL)ベースラインを上回っていることがわかった。
The technique of Reinforcement Learning from Human Feedback (RLHF) is a commonly employed method to improve pre-trained Language Models (LM), enhancing their ability to conform to human preferences. Nevertheless, the current RLHF-based LMs necessitate full retraining each time novel queries or feedback are introduced, which becomes a challenging task because human preferences can vary between different domains or tasks. Retraining LMs poses practical difficulties in many real-world situations due to the significant time and computational resources required, along with concerns related to data privacy. To address this limitation, we propose a new method called Continual Optimal Policy Regularization (COPR), in which we compute the distribution of optimal policy bypassing the partition function and then regularize the current policy based on the historically optimal distribution to mitigate Catastrophic Forgetting (CF). COPR involves a single learning phase and doesn't necessitate complex reinforcement learning. Importantly, it shares the capability with RLHF to learn from unlabeled data by maintaining a scoring module, similar to reward model, making it flexible for continually learning without human feedback. Our experimental results show that COPR outperforms strong Continuous Learning (CL) baselines when it comes to consistently aligning with human preferences on incremental tasks and domains. | 翻訳日:2024-03-28 00:51:05 公開日:2024-03-26 |
# SD4Match: セマンティックマッチングのための安定拡散モデルの学習
SD4Match: Learning to Prompt Stable Diffusion Model for Semantic Matching ( http://arxiv.org/abs/2310.17569v2 ) ライセンス: Link先を確認 | Xinghui Li, Jingyi Lu, Kai Han, Victor Prisacariu, | (参考訳) 本稿では,画像ペア間で意味的に類似したキーポイントをマッチングするという課題に対処する。
既存の研究では、安定拡散(SD)内のUNetの中間出力が、そのようなマッチングタスクのための堅牢な画像特徴マップとして機能できることが示されている。
基礎的なプロンプトチューニング手法を用いることで、安定拡散の本質的なポテンシャルを生かし、従来の手法よりも精度が大幅に向上することを示した。
さらに、入力画像ペアの局所的な詳細にプロンプトを条件付ける新しい条件付きプロンプトモジュールを導入し、パフォーマンスをさらに向上させる。
本手法は,セマンティックマッチングのための安定拡散の略であるSD4Matchと定義する。
PF-Pascal、PF-Willow、SPair-71kデータセットにおけるSD4Matchの総合的な評価は、これらのデータセット全体で新しいベンチマークを正確に設定していることを示している。
特にSD4Matchは、挑戦的なSPair-71kデータセットの12パーセントのマージンで、従来の最先端技術よりも優れています。
In this paper, we address the challenge of matching semantically similar keypoints across image pairs. Existing research indicates that the intermediate output of the UNet within the Stable Diffusion (SD) can serve as robust image feature maps for such a matching task. We demonstrate that by employing a basic prompt tuning technique, the inherent potential of Stable Diffusion can be harnessed, resulting in a significant enhancement in accuracy over previous approaches. We further introduce a novel conditional prompting module that conditions the prompt on the local details of the input image pairs, leading to a further improvement in performance. We designate our approach as SD4Match, short for Stable Diffusion for Semantic Matching. Comprehensive evaluations of SD4Match on the PF-Pascal, PF-Willow, and SPair-71k datasets show that it sets new benchmarks in accuracy across all these datasets. Particularly, SD4Match outperforms the previous state-of-the-art by a margin of 12 percentage points on the challenging SPair-71k dataset. | 翻訳日:2024-03-28 00:51:05 公開日:2024-03-26 |
# 不正確な評価と複雑性保証を伴う非凸最小化のためのランダム化アルゴリズム
A randomized algorithm for nonconvex minimization with inexact evaluations and complexity guarantees ( http://arxiv.org/abs/2310.18841v2 ) ライセンス: Link先を確認 | Shuyao Li, Stephen J. Wright, | (参考訳) 非凸な滑らかな関数の最小化について検討し、(関数値へのアクセスを前提とせずに)勾配とヘシアンに不正確なオラクルアクセスを施し、近似的な二階最適性を実現する。
提案手法の新たな特徴は, 負曲率の近似方向をステップとして選択した場合, 正あるいは負の感覚を同じ確率で選択することである。
相対的な意味で勾配が不正確なことを許容し、一階と二階の最適条件に対する不正確なしきい値間の結合を緩和する。
我々の収束分析は、マルティンゲール分析に基づく期待値と、濃度不等式に基づく高い確率値の両方を含む。
本稿では,提案アルゴリズムを経験的リスク最小化問題に適用し,既存の作業よりも勾配サンプルの複雑さが向上した。
We consider minimization of a smooth nonconvex function with inexact oracle access to gradient and Hessian (without assuming access to the function value) to achieve approximate second-order optimality. A novel feature of our method is that if an approximate direction of negative curvature is chosen as the step, we choose its sense to be positive or negative with equal probability. We allow gradients to be inexact in a relative sense and relax the coupling between inexactness thresholds for the first- and second-order optimality conditions. Our convergence analysis includes both an expectation bound based on martingale analysis and a high-probability bound based on concentration inequalities. We apply our algorithm to empirical risk minimization problems and obtain improved gradient sample complexity over existing works. | 翻訳日:2024-03-28 00:41:21 公開日:2024-03-26 |
# 時空における局所的マデラング力学に向けて
Toward Local Madelung Mechanics in Spacetime ( http://arxiv.org/abs/2310.18857v2 ) ライセンス: Link先を確認 | Mordecai Waegell, | (参考訳) 相対論的量子論は、構成空間における普遍的な波動関数を完全に時空における局所流体方程式の集合に置き換える量子力学の局所的な解釈をもたらすことが最近示されている。
完全相対論的量子流体処理を求めるためには、非相対論的マドルング方程式を用いたモデルを開発し、時空における局所的な条件を求める。
マドルング流体中の全ての粒子は等しくリアルであり、定位置、運動量、運動エネルギー、ポテンシャルエネルギーを持つ。
これらは流体の量子運動量と運動エネルギー密度を定義し、運動量の平均および対称部分と運動エネルギーを古典的な運動量と量子ポテンシャル部分に分離することによって得られる。
この2種類の運動量は、定常状態であっても期待される運動エネルギーを含む単一の古典的運動エネルギー密度を自然に生じさせ、還元された量子ポテンシャルを量子力学エネルギー密度の残りの部分として定義する。
我々は、量子ポテンシャルを流体粒子の内部エネルギー貯蔵の新たなモードとして扱い、マドルング流体の非古典的挙動のほとんどを説明する。
例えば、トンネル現象では、量子ポテンシャルが障壁を無効にし、流体が流れるのを妨げないことが示される。
エネルギーの局所的な保存を可能にするには、流体を流れるだけでなく、流体中を流れる量子ポテンシャルエネルギー電流を定義する必要がある。
非相対論的処理は一般に速度場の特異性を含み、局所力学の目的を損なうが、適切な相対論的処理は流体粒子速度を$c$で束縛することを期待する。
It has recently been shown that relativistic quantum theory leads to a local interpretation of quantum mechanics wherein the universal wavefunction in configuration space is entirely replaced with an ensemble of local fluid equations in spacetime. For want of a fully relativistic quantum fluid treatment, we develop a model using the nonrelativistic Madelung equations, and obtain conditions for them to be local in spacetime. Every particle in the Madelung fluid is equally real, and has a definite position, momentum, kinetic energy, and potential energy. These are obtained by defining quantum momentum and kinetic energy densities for the fluid and separating the momentum into average and symmetric parts, and kinetic energy into classical kinetic and quantum potential parts. The two types of momentum naturally give rise to a single classical kinetic energy density, which contains the expected kinetic energy, even for stationary states, and we define the reduced quantum potential as the remaining part of the quantum kinetic energy density. We treat the quantum potential as a novel mode of internal energy storage within the fluid particles, which explains most of the nonclassical behavior of the Madelung fluid. For example, we show that in tunneling phenomena the quantum potential negates the barrier so that nothing prevents the fluid from flowing through. We show how energy flows and transforms in this model, and that enabling local conservation of energy requires defining a quantum potential energy current that flows through the fluid rather than only flowing with it. The nonrelativistic treatment generally contains singularities in the velocity field, which undermines the goal of local dynamics, but we expect a proper relativistic treatment will bound the fluid particle velocities at $c$. | 翻訳日:2024-03-28 00:41:21 公開日:2024-03-26 |
# フラクタル景観の量子絡み合い
Quantum Entanglement on Fractal Landscapes ( http://arxiv.org/abs/2311.01199v2 ) ライセンス: Link先を確認 | Yao Zhou, Peng Ye, | (参考訳) 我々は、フォン・ノイマンエントロピー(エンタングルメントエントロピーとして知られる)とスケーリング限界におけるエンタングルメント輪郭を解析することにより、フラクタル幾何学と量子エンタングルメントの相互作用を探求する。
極めて絡み合った量子系の研究において、その単純さと有効性で知られている自由フェルミオン量子モデルに注目し、興味をそそる発見を明らかにする。
化学ポテンシャルにおける状態の有限密度を示す隙間のない基底状態に対して、エンタングルメントエントロピーにおける対数偏差の存在を特徴とする超領域法則を明らかにする。
これは、トピッツ行列の漸近挙動に関するジョゼフ・クリッヒ=ウィドム予想が大きな影響を与えるような、翻訳不変なユークリッド格子上で観察される確立された超領域法則を拡張する。
さらに、スケーリング限界に近づくにつれて、絡み合う輪郭データに「絡み合いフラクタル」と呼ばれる自己相似で普遍的なパターンが出現するのを観察する。
特筆すべきは、この模様は複雑な中国製紙に類似している点である。
我々は、このフラクタルを人工的に生成するための一般的なルールを提供し、絡み合いエントロピーの普遍的なスケーリングに関する洞察を提供する。
エンタングルメントフラクタルから得られる知見に基づいて、翻訳対称性が損なわれ、ウィドム予想が適用できないフラクタル上の対数発散の起源を明確に解明する。
ギャップのある基底状態に対しては、絡み合いエントロピーが一般の領域法則に従属するのが観察され、それは相補部分系の境界のハウスドルフ次元に依存する。
We explore the interplay of fractal geometry and quantum entanglement by analyzing the von Neumann entropy (known as entanglement entropy) and the entanglement contour in the scaling limit. Focusing on free-fermion quantum models known for their simplicity and effectiveness in studying highly entangled quantum systems, we uncover intriguing findings. For gapless ground states exhibiting a finite density of states at the chemical potential, we reveal a super-area law characterized by the presence of a logarithmic divergence in the entanglement entropy. This extends the well-established super-area law observed on translationally invariant Euclidean lattices where the Gioev-Klich-Widom conjecture regarding the asymptotic behavior of Toeplitz matrices holds significant influence. Furthermore, we observe the emergence of a self-similar and universal pattern termed an ``entanglement fractal'' in the entanglement contour data as we approach the scaling limit. Remarkably, this pattern bears resemblance to intricate Chinese paper-cutting designs. We provide general rules to artificially generate this fractal, offering insights into the universal scaling of entanglement entropy. Building upon the insights gained from the entanglement fractal, we explicitly elucidate the origin of the logarithmic divergence on fractals where translation symmetry is broken and the Widom conjecture is inapplicable. For gapped ground states, we observe that the entanglement entropy adheres to a generalized area law, with its dependence on the Hausdorff dimension of the boundary between complementary subsystems. | 翻訳日:2024-03-28 00:41:21 公開日:2024-03-26 |
# PPI++: 効率的な予測駆動推論
PPI++: Efficient Prediction-Powered Inference ( http://arxiv.org/abs/2311.01453v2 ) ライセンス: Link先を確認 | Anastasios N. Angelopoulos, John C. Duchi, Tijana Zrnic, | (参考訳) PPI++: 小さなラベル付きデータセットと、典型的にはより大きな機械学習予測データセットに基づく、計算学的に軽量な推定と推測手法を提案する。
これらの手法は利用可能な予測の品質に自動的に適応し、任意の次元のパラメータに対して容易に計算可能な信頼セットを与え、ラベル付きデータのみを使用して古典的な間隔で常に改善する。
PPI++は予測駆動推論(PPI)に基づいており、同じ問題設定をターゲットとし、計算効率と統計効率を改善している。
実および合成実験は、提案された適応の利点を実証する。
We present PPI++: a computationally lightweight methodology for estimation and inference based on a small labeled dataset and a typically much larger dataset of machine-learning predictions. The methods automatically adapt to the quality of available predictions, yielding easy-to-compute confidence sets -- for parameters of any dimensionality -- that always improve on classical intervals using only the labeled data. PPI++ builds on prediction-powered inference (PPI), which targets the same problem setting, improving its computational and statistical efficiency. Real and synthetic experiments demonstrate the benefits of the proposed adaptations. | 翻訳日:2024-03-28 00:41:21 公開日:2024-03-26 |
# エントロピー最大化による領域ランダム化
Domain Randomization via Entropy Maximization ( http://arxiv.org/abs/2311.01885v2 ) ライセンス: Link先を確認 | Gabriele Tiboni, Pascal Klink, Jan Peters, Tatiana Tommasi, Carlo D'Eramo, Georgia Chalvatzaki, | (参考訳) シミュレーションにおける動的パラメータの変数化は、強化学習(RL)における現実的ギャップを克服するための一般的なドメインランダム化(DR)アプローチである。
それでもDRは、エージェントの振る舞いを規則化する上で高い変動性が不可欠であるが、過度にランダム化すると過度に保守的な政策につながるため、ダイナミックスパラメータのサンプリング分布の選択に強く依存する。
本稿では,実世界のデータを必要としないシミュレーションにおいて,シミュレーション中の動的分布を自動生成する,sim-to-realトランスファーに対処する新しい手法を提案する。
一般化能力を維持しつつトレーニング分布のエントロピーを直接最大化する制約付き最適化問題であるEntropy Maximization (DORAEMON) によるDOmain RAndomizationを導入する。
これを達成するために、DORAEMONは、現在の政策の成功確率が十分に高い限り、サンプリングされた力学パラメータの多様性を徐々に増大させる。
我々はDORAEMONが高度に適応的で一般化可能な政策、すなわちDR文献の代表的なベースラインとは対照的に、最も広い範囲の動的パラメータにわたってタスクを手作業で解くことにおける一貫した利点を実証的に検証する。
また,DORAEMONのゼロショット転送を成功させて実世界の未知パラメータ下でのロボット操作で実現したSim2Realの適用性を実証した。
Varying dynamics parameters in simulation is a popular Domain Randomization (DR) approach for overcoming the reality gap in Reinforcement Learning (RL). Nevertheless, DR heavily hinges on the choice of the sampling distribution of the dynamics parameters, since high variability is crucial to regularize the agent's behavior but notoriously leads to overly conservative policies when randomizing excessively. In this paper, we propose a novel approach to address sim-to-real transfer, which automatically shapes dynamics distributions during training in simulation without requiring real-world data. We introduce DOmain RAndomization via Entropy MaximizatiON (DORAEMON), a constrained optimization problem that directly maximizes the entropy of the training distribution while retaining generalization capabilities. In achieving this, DORAEMON gradually increases the diversity of sampled dynamics parameters as long as the probability of success of the current policy is sufficiently high. We empirically validate the consistent benefits of DORAEMON in obtaining highly adaptive and generalizable policies, i.e. solving the task at hand across the widest range of dynamics parameters, as opposed to representative baselines from the DR literature. Notably, we also demonstrate the Sim2Real applicability of DORAEMON through its successful zero-shot transfer in a robotic manipulation setup under unknown real-world parameters. | 翻訳日:2024-03-28 00:41:21 公開日:2024-03-26 |
# 自動車のパーソナライズのための安全な選好学習手法
A Safe Preference Learning Approach for Personalization with Applications to Autonomous Vehicles ( http://arxiv.org/abs/2311.02099v4 ) ライセンス: Link先を確認 | Ruya Karagulle, Nikos Arechiga, Andrew Best, Jonathan DeCastro, Necmiye Ozay, | (参考訳) この研究は、自動運転車への適用とともに、所定の仕様に準拠することを保証する選好学習手法を導入している。
本手法では,信号時間論理式(STL)の優先順序付けを学習フレームワークに組み込む。
PWSTL(Parametric Weighted Signal Temporal Logic)を利用して、ペア比較に基づく安全保証された選好学習の問題を定式化し、この学習問題を解決するためのアプローチを提案する。
提案手法は, 与えられたPWSTL式を重み付けし, これらの重み付けにより, 優先信号が非優先値よりも重み付けされた量的満足度測定値であることを示す。
提案手法により得られた重みの有意な評価は,重み付きSTL式に導かれる。
本研究では,停止標識と歩行者踏切を含む2つのシミュレートされた運転シナリオにおいて,パイロット・ヒューマン・サブジェクト・スタディを用いて提案手法の性能を実証する。
提案手法は,従来の選好学習法と比較して,従来の選好学習法と比較して競争力があり,安全性を考慮した場合,特に優れる。
This work introduces a preference learning method that ensures adherence to given specifications, with an application to autonomous vehicles. Our approach incorporates the priority ordering of Signal Temporal Logic (STL) formulas describing traffic rules into a learning framework. By leveraging Parametric Weighted Signal Temporal Logic (PWSTL), we formulate the problem of safety-guaranteed preference learning based on pairwise comparisons and propose an approach to solve this learning problem. Our approach finds a feasible valuation for the weights of the given PWSTL formula such that, with these weights, preferred signals have weighted quantitative satisfaction measures greater than their non-preferred counterparts. The feasible valuation of weights given by our approach leads to a weighted STL formula that can be used in correct-and-custom-by-construction controller synthesis. We demonstrate the performance of our method with a pilot human subject study in two different simulated driving scenarios involving a stop sign and a pedestrian crossing. Our approach yields competitive results compared to existing preference learning methods in terms of capturing preferences and notably outperforms them when safety is considered. | 翻訳日:2024-03-28 00:41:21 公開日:2024-03-26 |
# 漁獲量を用いたリーマンラプラス近似
Riemannian Laplace Approximation with the Fisher Metric ( http://arxiv.org/abs/2311.02766v3 ) ライセンス: Link先を確認 | Hanlin Yu, Marcelo Hartmann, Bernardo Williams, Mark Girolami, Arto Klami, | (参考訳) ラプラスの手法は、目標密度とガウス分布をそのモードで近似する。
ベルンシュタイン=ヴォン・ミセスの定理(英語版)によるベイズ予想(英語版)には計算的に効率的で漸近的に正確であるが、複素対象や有限データ後部に対しては近似が粗すぎることが多い。
ラプラス近似の最近の一般化は、計算効率を保ちながら、よりリッチな近似族を提供するリーマン幾何学の選択に従ってガウス近似を変換する。
しかし、上述の通り、その性質は選択された計量に大きく依存しており、実際、以前の研究で採用された計量は、極端に狭く、無限のデータにも偏りがある近似をもたらす。
我々は、近似系をさらに発展させ、無限データの範囲内で正確な2つの代替変種を導出し、手法の理論解析を拡張し、実験範囲で実践的な改善を示すことにより、この欠点を是正する。
Laplace's method approximates a target density with a Gaussian distribution at its mode. It is computationally efficient and asymptotically exact for Bayesian inference due to the Bernstein-von Mises theorem, but for complex targets and finite-data posteriors it is often too crude an approximation. A recent generalization of the Laplace Approximation transforms the Gaussian approximation according to a chosen Riemannian geometry providing a richer approximation family, while still retaining computational efficiency. However, as shown here, its properties depend heavily on the chosen metric, indeed the metric adopted in previous work results in approximations that are overly narrow as well as being biased even at the limit of infinite data. We correct this shortcoming by developing the approximation family further, deriving two alternative variants that are exact at the limit of infinite data, extending the theoretical analysis of the method, and demonstrating practical improvements in a range of experiments. | 翻訳日:2024-03-28 00:41:21 公開日:2024-03-26 |
# 安定な線形部分空間同定:機械学習アプローチ
Stable Linear Subspace Identification: A Machine Learning Approach ( http://arxiv.org/abs/2311.03197v4 ) ライセンス: Link先を確認 | Loris Di Natale, Muhammad Zakwan, Bratislav Svetozarevic, Philipp Heer, Giancarlo Ferrari-Trecate, Colin N. Jones, | (参考訳) 機械学習(ML)と線形システム同定(SI)は歴史的に独立に開発されてきた。
本稿では、よく確立されたMLツール、特に自動微分フレームワークを活用し、バックプロパゲーションを用いた離散線形多段階状態空間SIメソッドであるSIMBaを導入する。
SIMBaは、同定されたモデルの安定性を確保するために、新しい線形行列-不等式に基づくシュア行列の自由パラメトリゼーションに依存している。
SIMBaは一般に従来の線形状態空間SI法よりも優れており,高い計算負担を伴っても顕著な性能を示す。
この性能差は, 安定保証の他のSI手法と比較して特に顕著であり, SIMBaが最先端の適合性能を同時に達成し, 安定性を強制する能力を示している。
興味深いことに、これらの観測は様々な入力出力システムとシミュレーションと実世界のデータの両方に当てはまり、提案手法の柔軟性を示している。
この新たなSIパラダイムは、データから構造化された非線形モデルを特定するための大きな拡張ポテンシャルを示すと仮定し、https://github.com/Cemempamoi/simba上でSIMBaをオープンソース化する。
Machine Learning (ML) and linear System Identification (SI) have been historically developed independently. In this paper, we leverage well-established ML tools - especially the automatic differentiation framework - to introduce SIMBa, a family of discrete linear multi-step-ahead state-space SI methods using backpropagation. SIMBa relies on a novel Linear-Matrix-Inequality-based free parametrization of Schur matrices to ensure the stability of the identified model. We show how SIMBa generally outperforms traditional linear state-space SI methods, and sometimes significantly, although at the price of a higher computational burden. This performance gap is particularly remarkable compared to other SI methods with stability guarantees, where the gain is frequently above 25% in our investigations, hinting at SIMBa's ability to simultaneously achieve state-of-the-art fitting performance and enforce stability. Interestingly, these observations hold for a wide variety of input-output systems and on both simulated and real-world data, showcasing the flexibility of the proposed approach. We postulate that this new SI paradigm presents a great extension potential to identify structured nonlinear models from data, and we hence open-source SIMBa on https://github.com/Cemempamoi/simba. | 翻訳日:2024-03-28 00:41:21 公開日:2024-03-26 |
# 脳ネットワークとインテリジェンス: グラフニューラルネットワークによる状態fMRIデータの復元
Brain Networks and Intelligence: A Graph Neural Network Based Approach to Resting State fMRI Data ( http://arxiv.org/abs/2311.03520v2 ) ライセンス: Link先を確認 | Bishal Thapaliya, Esra Akbas, Jiayu Chen, Raam Sapkota, Bhaskar Ray, Pranav Suresh, Vince Calhoun, Jingyu Liu, | (参考訳) Resting-state functional magnetic resonance imaging (rsfMRI)は、特定のタスクや刺激に頼らずに脳の機能的組織を捉えることができるため、脳機能と認知過程の関係を調査するための強力なツールである。
本稿では,rsfMRIによる静的機能ネットワーク接続行列上のグラフニューラルネットワークを用いて,インテリジェンス(流体,結晶化,全知能)を予測するための,BrainRGINと呼ばれる新しいモデリングアーキテクチャを提案する。
既存のグラフ畳み込みネットワークから拡張して、グラフ畳み込み層にクラスタリングベースの埋め込みおよびグラフ同型ネットワークを導入し、TopKプーリングとアテンションベースの読み出し関数と組み合わせて、脳サブネットワーク組織の性質と効率的なネットワーク表現を反映した。
提案したアーキテクチャを,大規模データセット,特に青年期の脳認知発達データセットを用いて評価し,個々の知能差を予測する上での有効性を実証した。
我々のモデルは、既存の関連するグラフアーキテクチャや、すべてのインテリジェンス予測タスクのための従来の機械学習モデルよりも、平均2乗誤差と高い相関スコアを達成した。
中前頭回は、流体および結晶化知能の両方に重要な寄与を示し、これらの認知過程におけるその重要な役割を示唆した。
総合成スコアは、関連する脳領域の多様なセットを特定し、全知能の複雑な性質を強調した。
Resting-state functional magnetic resonance imaging (rsfMRI) is a powerful tool for investigating the relationship between brain function and cognitive processes as it allows for the functional organization of the brain to be captured without relying on a specific task or stimuli. In this paper, we present a novel modeling architecture called BrainRGIN for predicting intelligence (fluid, crystallized, and total intelligence) using graph neural networks on rsfMRI derived static functional network connectivity matrices. Extending from the existing graph convolution networks, our approach incorporates a clustering-based embedding and graph isomorphism network in the graph convolutional layer to reflect the nature of the brain sub-network organization and efficient network expression, in combination with TopK pooling and attention-based readout functions. We evaluated our proposed architecture on a large dataset, specifically the Adolescent Brain Cognitive Development Dataset, and demonstrated its effectiveness in predicting individual differences in intelligence. Our model achieved lower mean squared errors and higher correlation scores than existing relevant graph architectures and other traditional machine learning models for all of the intelligence prediction tasks. The middle frontal gyrus exhibited a significant contribution to both fluid and crystallized intelligence, suggesting their pivotal role in these cognitive processes. Total composite scores identified a diverse set of brain regions to be relevant which underscores the complex nature of total intelligence. | 翻訳日:2024-03-28 00:41:21 公開日:2024-03-26 |
# 最初の悲劇、Parse: 大規模言語モデルの新時代における歴史の繰り返し
First Tragedy, then Parse: History Repeats Itself in the New Era of Large Language Models ( http://arxiv.org/abs/2311.05020v2 ) ライセンス: Link先を確認 | Naomi Saphra, Eve Fleisig, Kyunghyun Cho, Adam Lopez, | (参考訳) 多くのNLP研究者は、ChatGPTや他の大規模言語モデル(LLM)に基づくシステムの成功によって、現実的な危機を経験している。
この分野の理解にこのような破壊的な変化が起こった後、どうすればいいのか?
歴史的レンズを応用して,2005年に機械翻訳(MT)のための大規模な$n$-gramモデルで始まったLLMの最初の時代からのガイダンスを求める。
まず,NLP研究者がLSMが上昇する地域で有意義な貢献を継続できる常緑的問題を特定する。
我々は、スケールの格差は過渡的であり、研究者はそれらを減らすことができる、ハードウェアよりもむしろデータは、多くのアプリケーションにとってまだボトルネックである、有意義な現実的な評価は依然として未解決の問題であり、投機的アプローチの余地がある、と論じている。
Many NLP researchers are experiencing an existential crisis triggered by the astonishing success of ChatGPT and other systems based on large language models (LLMs). After such a disruptive change to our understanding of the field, what is left to do? Taking a historical lens, we look for guidance from the first era of LLMs, which began in 2005 with large $n$-gram models for machine translation (MT). We identify durable lessons from the first era, and more importantly, we identify evergreen problems where NLP researchers can continue to make meaningful contributions in areas where LLMs are ascendant. We argue that disparities in scale are transient and researchers can work to reduce them; that data, rather than hardware, is still a bottleneck for many applications; that meaningful realistic evaluation is still an open problem; and that there is still room for speculative approaches. | 翻訳日:2024-03-28 00:41:21 公開日:2024-03-26 |
# 脳状態特異的apical-amplification,-isolation,-drive regimeを発現する2成分神経スパイキングモデル
Two-compartment neuronal spiking model expressing brain-state specific apical-amplification, -isolation and -drive regimes ( http://arxiv.org/abs/2311.06074v2 ) ライセンス: Link先を確認 | Elena Pastorelli, Alper Yegenoglu, Nicole Kolodziej, Willem Wybo, Francesco Simula, Sandra Diaz, Johan Frederik Storm, Pier Stanislao Paolucci, | (参考訳) 実験的なエビデンスは、コネクトロミックアーキテクチャによって支持される脳状態特異的神経機構が、過去と文脈の知識を現在の(例えば感覚システムからの)エビデンスの流れと統合する上で重要な役割を担っていることを示唆している。
これらのメカニズムは、複数の空間的および時間的スケールで作用し、個々のニューロンとシナプスのレベルに専用の支持を必要とする。
新皮質の特筆すべき特徴は、円錐状樹状突起部と基底状樹状/体外層部とを区別した大きな錐体ニューロンの構造である。
この分離は、それぞれ覚醒状態、より深いNREM睡眠ステージ、REM睡眠に関連し、入力接続と脳状態特異的活性化機構、すなわち、尖点増幅、隔離、駆動の異なるパターンによって特徴づけられる。
先天的なメカニズムの認知的役割は、動物の行動において実証されている。
対照的に、スパイキングネットワークにおける学習の古典モデルは単一区画のニューロンに基づいており、根尖情報と基底/ソマティック情報の統合を記述する能力が欠如している。
この研究は、脳状態固有の学習を支援するのに不可欠な特徴を組み込んだ2成分のスパイクニューロンモデルを提供することを目的としている。
このモデルは、最も抽象的なレベルでのピースワイド線形転送関数(ThetaPlanes)を含み、大規模なバイオインスパイアされた人工知能システムでの使用に適している。
一連の適合関数によって導かれる機械学習進化アルゴリズムは、所望の尖点機構を表すニューロンを定義するパラメータを選択した。
Mounting experimental evidence suggests that brain-state-specific neural mechanisms, supported by connectomic architectures, play a crucial role in integrating past and contextual knowledge with the current, incoming flow of evidence (e.g., from sensory systems). These mechanisms operate across multiple spatial and temporal scales, necessitating dedicated support at the levels of individual neurons and synapses. A notable feature within the neocortex is the structure of large, deep pyramidal neurons, which exhibit a distinctive separation between an apical dendritic compartment and a basal dendritic/perisomatic compartment. This separation is characterized by distinct patterns of incoming connections and brain-state-specific activation mechanisms, namely, apical amplification, isolation, and drive, which are associated with wakefulness, deeper NREM sleep stages, and REM sleep, respectively. The cognitive roles of apical mechanisms have been demonstrated in behaving animals. In contrast, classical models of learning in spiking networks are based on single-compartment neurons, lacking the ability to describe the integration of apical and basal/somatic information. This work aims to provide the computational community with a two-compartment spiking neuron model that incorporates features essential for supporting brain-state-specific learning. This model includes a piece-wise linear transfer function (ThetaPlanes) at the highest abstraction level, making it suitable for use in large-scale bio-inspired artificial intelligence systems. A machine learning evolutionary algorithm, guided by a set of fitness functions, selected the parameters that define neurons expressing the desired apical mechanisms. | 翻訳日:2024-03-28 00:41:21 公開日:2024-03-26 |
# 自発コードスイッチト音声におけるエントレインメントの測定
Measuring Entrainment in Spontaneous Code-switched Speech ( http://arxiv.org/abs/2311.07703v2 ) ライセンス: Link先を確認 | Debasmita Bhattacharya, Siying Ding, Alayna Nguyen, Julia Hirschberg, | (参考訳) 互いに訓練する話者は、他の話者よりも会話が成功することはよく知られている。
これまでの研究では、言語的特徴を単言語的ドメインと単言語的ドメインの両方で訓練するインターロケータが示されている。
コードスイッチング通信に関する最近の研究は、コードスイッチング(CSW)の特定の側面に対する訓練の予備的な証拠も示している。
しかし、コードスイッチングドメインにおけるそのような訓練の研究は極めて少なく、人間と機械のテキストの相互作用に限られている。
本研究は,(1)単言語環境における文字・音声の発声パターンがコード発声設定に大きく一般化し,(2)対話エージェント生成テキストにおけるコード発声パターンがコード発声音声に一般化することを明らかにする。
本研究は,コミュニケーション現象としてのエントレーニングの潜在的「普遍的」性質と,包括的かつ対話的な音声技術への応用に重要な意味を生じさせるものである。
It is well-known that speakers who entrain to one another have more successful conversations than those who do not. Previous research has shown that interlocutors entrain on linguistic features in both written and spoken monolingual domains. More recent work on code-switched communication has also shown preliminary evidence of entrainment on certain aspects of code-switching (CSW). However, such studies of entrainment in code-switched domains have been extremely few and restricted to human-machine textual interactions. Our work studies code-switched spontaneous speech between humans, finding that (1) patterns of written and spoken entrainment in monolingual settings largely generalize to code-switched settings, and (2) some patterns of entrainment on code-switching in dialogue agent-generated text generalize to spontaneous code-switched speech. Our findings give rise to important implications for the potentially "universal" nature of entrainment as a communication phenomenon, and potential applications in inclusive and interactive speech technology. | 翻訳日:2024-03-28 00:41:21 公開日:2024-03-26 |
# 重力アハロノフ・ボーム効果
Gravitational Aharonov-Bohm Effect ( http://arxiv.org/abs/2311.07764v2 ) ライセンス: Link先を確認 | RY Chiao, NA Inan, M Scheibner, J Sharping, DA Singleton, ME Tobar, | (参考訳) 我々は、重力アハロノフ・ボーム効果について、地球を周回する衛星の重力体 (it e g } の周りに量子系を自由落下に配置することによって検討する。
この系は自由落下状態にあるため、同値原理により、量子系は局所的に平坦で重力のない時空で、重力場から遮蔽される。
少し楕円軌道の場合、重力ポテンシャルは時間とともに変化する。
これは、このバージョンのアハロノフ・ボーム効果のシグネチャであるサイドバンドを発達させる量子系のエネルギーレベルにつながる。
これは、干渉縞のシフトによるアハロノフ・ボーム効果の通常の符号とは対照的である。
We investigate the gravitational Aharonov-Bohm effect, by placing a quantum system in free-fall around a gravitating body {\it e.g.} a satellite orbiting the Earth. Since the system is in free-fall, by the equivalence principle, the quantum system is locally in flat, gravity-free space-time - it is screened from the gravitational field. For a slightly elliptical orbit, the gravitational potential will change with time. This leads to the energy levels of the quantum system developing side bands which is the signature for this version of the Aharonov-Bohm effect. This contrasts with the normal signature of the Aharonov-Bohm effect of shifting of interference fringes. | 翻訳日:2024-03-28 00:31:37 公開日:2024-03-26 |
# 動的グラフを用いた離散分散最適化
Discretized Distributed Optimization over Dynamic Digraphs ( http://arxiv.org/abs/2311.07939v2 ) ライセンス: Link先を確認 | Mohammadreza Doostmohammadian, Wei Jiang, Muwahida Liaquat, Alireza Aghasi, Houman Zarrabi, | (参考訳) 動的有向グラフ(グラフ)上での連続時間分散最適化の離散時間モデルと分散学習への応用について考察する。
我々の最適化アルゴリズムは, 移動体マルチエージェントシステムや, リンク障害による揮発性ネットワークにおいて, スイッチングトポロジの下で, 一般に接続された動的ネットワークで動作する。
既存の多くの作業行と比較して、リンク上の双確率重み設計は不要である。
既存の文献では、初期化とネットワークのトポロジが変化するときに必要な特定の重み付けアルゴリズムを用いて、リンクウェイトを確率的に求めることがほとんどである。
本稿では、このようなアルゴリズムの必要性を排除し、時間変化ダイグラフによる分散最適化の道を開く。
我々は、収束のための勾配追跡ステップサイズと離散時間ステップのバウンドを導出し、コンセンサスアルゴリズム、行列摂動理論、リャプノフ理論の引数を用いて動的安定性を証明する。
この作業は、特にリンク削除やパケットドロップの場合、既存の確率重みのないネットワークよりも改善されている。
これは、既存の文献が確率的設計のために時間を要する複雑なアルゴリズムを再実行する必要があるのに対して、提案された戦略は、基礎となるネットワークが重み対称でバランスが取れている限り機能するからである。
提案する最適化フレームワークは,分散分類と学習への応用を見出す。
We consider a discrete-time model of continuous-time distributed optimization over dynamic directed-graphs (digraphs) with applications to distributed learning. Our optimization algorithm works over general strongly connected dynamic networks under switching topologies, e.g., in mobile multi-agent systems and volatile networks due to link failures. Compared to many existing lines of work, there is no need for bi-stochastic weight designs on the links. The existing literature mostly needs the link weights to be stochastic using specific weight-design algorithms needed both at the initialization and at all times when the topology of the network changes. This paper eliminates the need for such algorithms and paves the way for distributed optimization over time-varying digraphs. We derive the bound on the gradient-tracking step-size and discrete time-step for convergence and prove dynamic stability using arguments from consensus algorithms, matrix perturbation theory, and Lyapunov theory. This work, particularly, is an improvement over existing stochastic-weight undirected networks in case of link removal or packet drops. This is because the existing literature may need to rerun time-consuming and computationally complex algorithms for stochastic design, while the proposed strategy works as long as the underlying network is weight-symmetric and balanced. The proposed optimization framework finds applications to distributed classification and learning. | 翻訳日:2024-03-28 00:31:37 公開日:2024-03-26 |
# 協調フィルタリングのためのグラフ信号拡散モデル
Graph Signal Diffusion Model for Collaborative Filtering ( http://arxiv.org/abs/2311.08744v2 ) ライセンス: Link先を確認 | Yunqin Zhu, Chao Wang, Qi Zhang, Hui Xiong, | (参考訳) 協調フィルタリングはレコメンデータシステムにおいて重要な手法である。
様々な手法の中で、歴史観測に基づいてユーザとテムのインタラクションを再構築するパラダイムがますます人気になっている。
これは、最近開発された拡散モデルが大きなポテンシャルを示す条件付き生成タスクと見なすことができる。
しかし、既存の拡散モデルの研究は、暗黙のフィードバックデータをモデル化するための効果的な解決策を欠いている。
特に、標準拡散過程の等方性は、アイテム間の不均一な依存関係を考慮できないため、相互作用空間のグラフィカルな構造と不一致となる。
一方、ランダムノイズは相互作用ベクトルのパーソナライズされた情報を破壊し、逆復元が困難になる。
本稿では,新しい拡散モデルを適用し,協調フィルタリングのためのグラフ信号拡散モデル(GiffCF)を提案する。
暗黙のフィードバックの高次元分布とスパース分布をより良く表現するために、アイテム・イットム類似性グラフ上の熱方程式を用いた拡散の一般化形式を定義する。
我々のフォワードプロセスは、グラフフィルタの高度なファミリとの相互作用信号を円滑にする。
したがって、情報を失う代わりに、レコメンデーションのための有益な事前知識としてアイテムとアイテムの類似性を含んでいる。
高品質なインタラクションを再構築するために、我々のリバースプロセスは、ユーザ履歴に基づいて更新方向を条件付けし、慎重に設計された2段階のデノイザから計算する決定論的方法で、反復的に洗練され、選好信号のシャープ化を行う。
最後に、GiffCFは拡散モデルとグラフ信号処理の両方の利点を効果的に活用し、3つのベンチマークデータセットの最先端性能を実現することを示す。
Collaborative filtering is a critical technique in recommender systems. Among various methods, an increasingly popular paradigm is to reconstruct user-item interactions based on the historical observations. This can be viewed as a conditional generative task, where recently developed diffusion model demonstrates great potential. However, existing studies on diffusion models lack effective solutions for modeling implicit feedback data. Particularly, the isotropic nature of the standard diffusion process fails to account for the heterogeneous dependencies among items, leading to a misalignment with the graphical structure of the interaction space. Meanwhile, random noise destroying personalized information in interaction vectors, causing difficulty in reverse reconstruction. In this paper, we make novel adaptions of diffusion model and propose Graph Signal Diffusion Model for Collaborative Filtering (named GiffCF). To better represent the high-dimensional and sparse distribution of implicit feedback, we define a generalized form of denoising diffusion using heat equation on the item-item similarity graph. Our forward process smooths interaction signals with an advanced family of graph filters. Hence, instead of losing information, it involves item-item similarities as beneficial prior knowledge for recommendation. To reconstruct high-quality interactions, our reverse process iteratively refines and sharpens preference signals in a deterministic manner, where the update direction is conditioned on the user history and computed from a carefully designed two-stage denoiser. Finally, through extensive experiments, we show that GiffCF effectively leverages the advantages of both diffusion model and graph signal processing, and achieves state-of-the-art performance on three benchmark datasets. | 翻訳日:2024-03-28 00:31:37 公開日:2024-03-26 |
# 前提から目的へ:バッチ適応型自己監督学習
From Pretext to Purpose: Batch-Adaptive Self-Supervised Learning ( http://arxiv.org/abs/2311.09974v2 ) ライセンス: Link先を確認 | Jiansong Zhang, Linlin Shen, Peizhong Liu, | (参考訳) 近年,人工知能の分野では,自己指導型コントラスト学習が卓越したパラダイムとして出現している。
インスタンスレベルでの対照的な記述を通じて、教師なしの機能学習を容易にする。
しかし、効果的な自己管理パラダイムを構築することはこの分野において重要な課題である。
本稿では,自己指導型コントラスト学習-バッハサイズとプレテキストタスクに影響を及ぼす2つの重要な要因を考察し,データ処理の観点からバッチ融合の適応的手法を提案する。
提案手法は, バッチデータの次元的低減と再構成により, 従来分離されていた個人データを, 埋め込み層を介してバッチ内通信に分割することを可能にする。
さらに、訓練が進むにつれて、自己教師付き特徴符号化能力を適応的に増幅する。
我々は、ImageNet-1k上の古典的コントラスト学習フレームワークに基づいて、この手法の線形分類試験を行った。
実験結果から,本手法が等価比較条件下での最先端性能を実現することが示唆された。
この「プラグ・アンド・プレイ」の特徴から,他のコントラスト学習手法についても検討した。
ImageNet-100では、オリジナルのパフォーマンスと比較して、トップ1は最大1.25%増加した。
提案手法は,データ駆動型自己教師型学習研究の進展に寄与し,コミュニティに新たな視点をもたらす可能性が示唆された。
In recent years, self-supervised contrastive learning has emerged as a distinguished paradigm in the artificial intelligence landscape. It facilitates unsupervised feature learning through contrastive delineations at the instance level. However, crafting an effective self-supervised paradigm remains a pivotal challenge within this field. This paper delves into two crucial factors impacting self-supervised contrastive learning-bach size and pretext tasks, and from a data processing standpoint, proposes an adaptive technique of batch fusion. The proposed method, via dimensionality reduction and reconstruction of batch data, enables formerly isolated individual data to partake in intra-batch communication through the Embedding Layer. Moreover, it adaptively amplifies the self-supervised feature encoding capability as the training progresses. We conducted a linear classification test of this method based on the classic contrastive learning framework on ImageNet-1k. The empirical findings illustrate that our approach achieves state-of-the-art performance under equitable comparisons. Benefiting from its "plug-and-play" characteristics, we further explored other contrastive learning methods. On the ImageNet-100, compared to the original performance, the top1 has seen a maximum increase of 1.25%. We suggest that the proposed method may contribute to the advancement of data-driven self-supervised learning research, bringing a fresh perspective to this community. | 翻訳日:2024-03-28 00:31:37 公開日:2024-03-26 |
# 人工知能セキュリティにおけるより実践的な脅威モデルに向けて
Towards more Practical Threat Models in Artificial Intelligence Security ( http://arxiv.org/abs/2311.09994v2 ) ライセンス: Link先を確認 | Kathrin Grosse, Lukas Bieringer, Tarek Richard Besold, Alexandre Alahi, | (参考訳) 最近の研究で、人工知能のセキュリティにおける研究と実践のギャップが特定されている: アカデミックで研究されている脅威は、AIの実践的使用とセキュリティリスクを常に反映しているとは限らない。
例えば、モデルは独立して研究されることが多いが、実際にはより大きなMLパイプラインの一部を形成する。
近年の研究では、学術的な攻撃によって引き起こされた敵の操作が非現実的であることも指摘されている。
この格差の完全な範囲を説明するための第一歩を踏み出します。
この目的のために、AIセキュリティ研究で最も研究されている6つの攻撃の脅威モデルを再検討し、271人の産業従事者による調査を通じて、実際にAIの使用と照合する。
一方、既存の脅威モデルはすべて実際に適用可能である。
一方、重大なミスマッチがあり、実際の環境では頻繁に利用できない情報へのアクセスを想定して、研究は攻撃者に対して寛大すぎることが多い。
我々の論文は、人工知能のセキュリティにおけるより実用的な脅威モデルを研究するための行動である。
Recent works have identified a gap between research and practice in artificial intelligence security: threats studied in academia do not always reflect the practical use and security risks of AI. For example, while models are often studied in isolation, they form part of larger ML pipelines in practice. Recent works also brought forward that adversarial manipulations introduced by academic attacks are impractical. We take a first step towards describing the full extent of this disparity. To this end, we revisit the threat models of the six most studied attacks in AI security research and match them to AI usage in practice via a survey with 271 industrial practitioners. On the one hand, we find that all existing threat models are indeed applicable. On the other hand, there are significant mismatches: research is often too generous with the attacker, assuming access to information not frequently available in real-world settings. Our paper is thus a call for action to study more practical threat models in artificial intelligence security. | 翻訳日:2024-03-28 00:31:37 公開日:2024-03-26 |
# Maskedのオートエンコーダは、ニューラルネットワークの学習者にとってロバストなニューラルネットワーク
Masked Autoencoders Are Robust Neural Architecture Search Learners ( http://arxiv.org/abs/2311.12086v2 ) ライセンス: Link先を確認 | Yiming Hu, Xiangxiang Chu, Bo Zhang, | (参考訳) Neural Architecture Search (NAS)は現在、ラベル付きデータに大きく依存している。
本稿では,Masked Autoencoders (MAE) に基づく新しいNASフレームワークを提案する。
教師あり学習目標を画像再構成タスクに置き換えることで,性能や一般化能力の損なうことなく,ネットワークアーキテクチャの堅牢な発見を可能にする。
さらに,マルチスケールデコーダの導入により,教師なしパラダイムにおいて広く使用されている微分可能アーキテクチャサーチ(DARTS)手法で発生する性能崩壊の問題に対処する。
様々な探索空間やデータセット上で行われた広範な実験を通じて,提案手法の有効性とロバスト性を実証し,ベースラインアプローチよりも優れていることを示す実証的証拠を提供する。
Neural Architecture Search (NAS) currently relies heavily on labeled data, which is both expensive and time-consuming to acquire. In this paper, we propose a novel NAS framework based on Masked Autoencoders (MAE) that eliminates the need for labeled data during the search process. By replacing the supervised learning objective with an image reconstruction task, our approach enables the robust discovery of network architectures without compromising performance and generalization ability. Additionally, we address the problem of performance collapse encountered in the widely-used Differentiable Architecture Search (DARTS) method in the unsupervised paradigm by introducing a multi-scale decoder. Through extensive experiments conducted on various search spaces and datasets, we demonstrate the effectiveness and robustness of the proposed method, providing empirical evidence of its superiority over baseline approaches. | 翻訳日:2024-03-28 00:31:37 公開日:2024-03-26 |
# LoCo: 局所的に拘束されたトレーニングなしレイアウト・ツー・イメージの合成
LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis ( http://arxiv.org/abs/2311.12342v3 ) ライセンス: Link先を確認 | Peiang Zhao, Han Li, Ruiyang Jin, S. Kevin Zhou, | (参考訳) 最近のテキスト・画像拡散モデルは、高品質な画像を生成する上で、前例のない水準に達している。
しかしながら、テキストプロンプトへの排他的依存はしばしば、画像合成の正確な制御において不足する。
本稿では,テキストプロンプトとレイアウト命令の両方に整合した高品質な画像の生成に優れるレイアウト・ツー・イメージ・シンセサイザーのためのトレーニング不要なアプローチであるLoCoを提案する。
具体的には、自己アテンションマップにおける画素間のセマンティック親和性を活用して、所望のオブジェクトの正確な表現を作成し、指定された領域におけるオブジェクトの正確な配置を効果的に保証する局所アテンション制約(LAC)を導入する。
さらに,これまで無視されていたパディングトークンに埋め込まれた意味情報を活用するために,パディングトークン制約(PTC)を提案し,オブジェクトの外観とレイアウト命令の整合性を改善する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
複数のベンチマークで定性的かつ定量的に、既存の最先端のトレーニング不要なレイアウト・ツー・イメージ手法を上回り、我々のアプローチの優位性を示している。
Recent text-to-image diffusion models have reached an unprecedented level in generating high-quality images. However, their exclusive reliance on textual prompts often falls short in precise control of image compositions. In this paper, we propose LoCo, a training-free approach for layout-to-image Synthesis that excels in producing high-quality images aligned with both textual prompts and layout instructions. Specifically, we introduce a Localized Attention Constraint (LAC), leveraging semantic affinity between pixels in self-attention maps to create precise representations of desired objects and effectively ensure the accurate placement of objects in designated regions. We further propose a Padding Token Constraint (PTC) to leverage the semantic information embedded in previously neglected padding tokens, improving the consistency between object appearance and layout instructions. LoCo seamlessly integrates into existing text-to-image and layout-to-image models, enhancing their performance in spatial control and addressing semantic failures observed in prior methods. Extensive experiments showcase the superiority of our approach, surpassing existing state-of-the-art training-free layout-to-image methods both qualitatively and quantitatively across multiple benchmarks. | 翻訳日:2024-03-28 00:31:37 公開日:2024-03-26 |
# 量子世界の直観的理解に向けて:ラビ振動、ウィグナー関数、量子シミュレータの音化
Towards the Intuitive Understanding of Quantum World: Sonification of Rabi Oscillations, Wigner functions, and Quantum Simulators ( http://arxiv.org/abs/2311.13313v2 ) ライセンス: Link先を確認 | Reiko Yamada, Eloy Piñol, Samuele Grandi, Jakub Zakrzewski, Maciej Lewenstein, | (参考訳) 近年、科学的データを「音化」することに大きな関心が寄せられているが、ノイズ中間スケール量子デバイスや量子乱数生成器など、最新の量子技術を用いて量子プロセスを音化することは、いまだ研究の新たな領域である。
音楽技術者や作曲家は、新しい音響表現を生成するために、量子力学からの多様なデータへのアクセシビリティの増大を音楽ツールとして利用している。
量子世界と古典的世界とはどう違うのか、そして音を使って量子世界を表現することは可能か?
量子現象は、私たちの日常生活で経験する現象とは大きく異なる。
そのため、直感的に理解することは困難である。
本稿では,強いレーザー場物理学におけるShr\"odinger cat状態の生成から,量子多体系における絶縁体-超流動遷移に至る,単一原子のラビ発振と共鳴蛍光の直感的な理解に向けた手法としてソナイゼーションを提案する。
本稿では、音源データや性能設定に応じて量子データの音素化・スコア化を行う様々な手法について述べる。
Recently, there has been considerable interest in "sonifying" scientific data; however, sonifying quantum processes using the newest quantum technologies, including Noise Intermediate Scale Quantum devices and quantum random number generators, is still an emerging area of research. Music technologists and composers employ the growing accessibility to diverse data from quantum mechanics as musical tools in the hope of generating new sound expressions. How different is the quantum world from the classical one, and is it possible to express the quantum world using sounds? Quantum phenomena are very different from those that we experience in our everyday lives. Thus, it is challenging to understand them intuitively. In this paper, we propose sonification as a method toward an intuitive understanding of various quantum mechanical phenomena, from Rabi oscillations and resonance fluorescence of a single atom through the generation of Schr\"odinger cat states in strong laser field physics to insulator-superfluid transition in quantum many-body systems. This paper illustrates various methods we experimented with in sonification and score representations of quantum data depending on the source data and performance settings. | 翻訳日:2024-03-28 00:31:37 公開日:2024-03-26 |
# SegVol:Universal and Interactive Volumetric Medical Image Segmentation
SegVol: Universal and Interactive Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2311.13385v3 ) ライセンス: Link先を確認 | Yuxin Du, Fan Bai, Tiejun Huang, Bo Zhao, | (参考訳) 精密画像分割は、臨床研究にインストラクティブ情報を提供する。
医用画像のセグメンテーションにおいて顕著な進歩はあったものの、3D基盤セグメンテーションモデルがいまだに存在しない。
本稿では,汎用的でインタラクティブな医用画像分割を支援する3D基盤セグメンテーションモデルであるSegVolを提案する。
トレーニングデータを90Kの未ラベルCTボリュームと6Kのラベル付きCTボリュームにスケールアップすることにより、この基礎モデルは意味的および空間的プロンプトを用いて200以上の解剖学的カテゴリのセグメンテーションをサポートする。
10の内部検証タスクと18の外部検証タスクに関する大規模な実験は、SegVolが最先端よりも大きなマージンで優れていることを検証している。
様々な解剖学的カテゴリにわたる正確なボリュームセグメンテーションを提供する能力を通じて、SegVolは、医療画像診断の進歩を加速し、治療の最適化を促進する可能性がある。
モデルとコードは、https://github.com/BAAI-DCAI/SegVol.comで公開されている。
Precise image segmentation provides clinical study with instructive information. Despite the remarkable progress achieved in medical image segmentation, there is still an absence of 3D foundation segmentation model that can segment a wide range of anatomical categories with easy user interaction. In this paper, we propose a 3D foundation segmentation model, named SegVol, supporting universal and interactive volumetric medical image segmentation. By scaling up training data to 90K unlabeled Computed Tomography (CT) volumes and 6K labeled CT volumes, this foundation model supports the segmentation of over 200 anatomical categories using semantic and spatial prompts. Extensive experiments on 10 internal validation tasks and 18 external validation tasks verify that SegVol outperforms the state of the art by a large margin. Through its capacity to provide precise volumetric segmentation across various anatomical categories, SegVol has the potential to accelerate advancements in medical imaging diagnosis and facilitate treatment optimization. The model and code are publicly available at: https://github.com/BAAI-DCAI/SegVol. | 翻訳日:2024-03-28 00:31:37 公開日:2024-03-26 |
# ホッジラプラシアンのスペクトル特性の遠方性:全ての小さな固有値が等しくない
Disentangling the Spectral Properties of the Hodge Laplacian: Not All Small Eigenvalues Are Equal ( http://arxiv.org/abs/2311.14427v2 ) ライセンス: Link先を確認 | Vincent P. Grande, Michael T. Schaub, | (参考訳) ラプラシアンの豊富なスペクトル情報はグラフ理論、機械学習、グラフ信号処理においてグラフ分類、クラスタリング、固有モード解析などの応用に役立っている。
近年、ホッジ・ラプラシアン (Hodge Laplacian) はSimplicial や cellular complex のような高階グラフモデルに対する通常のラプラシアン (Laplacian) の一般化として注目されるようになった。
グラフラプラシアンの伝統的な解析と同様に、多くの著者はホモロジーのような重要な位相的性質に結びついているホッジラプラシアンの最小固有値を分析する。
しかし、ホッジ・ラプラシアンの小さな固有値は、カールあるいは勾配固有モデと関係があるかどうかによって異なる情報を運ぶことができ、従って同値ではないかもしれない。
そこで我々は, 持続固有ベクトル類似性の概念を導入し, 個々の高調波, カール, 勾配固有ベクトル/値を, いわゆる永続フィルタにより追跡する手法を提案し, 点雲の全スケールにわたってホッジ・ラプラシアスペクトルに含まれる全情報を活用した。
最後に、私たちは洞察を使います
(a)ホッジスペクトルクラスタリングの新たな形態の導入
(b)最小の調和、カール、勾配固有ベクトルとの関係に基づき、エッジと高階の単純化を分類する。
The rich spectral information of the graph Laplacian has been instrumental in graph theory, machine learning, and graph signal processing for applications such as graph classification, clustering, or eigenmode analysis. Recently, the Hodge Laplacian has come into focus as a generalisation of the ordinary Laplacian for higher-order graph models such as simplicial and cellular complexes. Akin to the traditional analysis of graph Laplacians, many authors analyse the smallest eigenvalues of the Hodge Laplacian, which are connected to important topological properties such as homology. However, small eigenvalues of the Hodge Laplacian can carry different information depending on whether they are related to curl or gradient eigenmodes, and thus may not be comparable. We therefore introduce the notion of persistent eigenvector similarity and provide a method to track individual harmonic, curl, and gradient eigenvectors/-values through the so-called persistence filtration, leveraging the full information contained in the Hodge-Laplacian spectrum across all possible scales of a point cloud. Finally, we use our insights (a) to introduce a novel form of Hodge spectral clustering and (b) to classify edges and higher-order simplices based on their relationship to the smallest harmonic, curl, and gradient eigenvectors. | 翻訳日:2024-03-28 00:21:53 公開日:2024-03-26 |
# 映像の局所的インストラクション生成のための効果的な事前学習
Efficient Pre-training for Localized Instruction Generation of Videos ( http://arxiv.org/abs/2311.15964v2 ) ライセンス: Link先を確認 | Anil Batra, Davide Moltisanti, Laura Sevilla-Lara, Marcus Rohrbach, Frank Keller, | (参考訳) 手順ビデオは、レシピの準備のようなタスクのステップバイステップのデモを見せている。
このようなビデオを理解することは困難であり、ステップの正確なローカライズとテキスト命令の生成が伴う。
手作業による注釈付けと命令の記述はコストがかかり、現在のデータセットのサイズが制限され、効果的な学習を妨げる。
大規模だがノイズの多いビデオ書き起こしデータセットを事前トレーニングに活用することで、パフォーマンスが向上するが、かなりの計算資源を必要とする。
さらに、写本には無関係な内容が含まれており、人間の注釈による指示と比較してスタイルのバリエーションが表れている。
両方の問題を緩和するため、より小さなデータセットを自動的にキュレートするSieve-&Swapという手法を提案する。
(i)無関係な文字のフィルタリング、及び
(ii)スワップは、テキストのみのレシピデータセットから人書きの命令に書き起こしを自動的に置き換えることで、テキスト命令の品質を向上させる。
キュレートされたデータセットは、現在のWebスケールデータセットよりも3桁小さく、競争力のある大規模モデルの効率的なトレーニングを可能にします。
プロシージャビデオのステップローカライゼーションと命令生成のためのプロシージャトランスフォーマー(ProcX)を用いて,Sieve-\-Swapアプローチを補完する。
このモデルがキュレートされたデータセット上で事前トレーニングされている場合,YouCook2 と Tasty のゼロショットおよび微調整設定において,計算資源のごく一部を使用しながら最先端のパフォーマンスを達成する。
Procedural videos show step-by-step demonstrations of tasks like recipe preparation. Understanding such videos is challenging, involving the precise localization of steps and the generation of textual instructions. Manually annotating steps and writing instructions is costly, which limits the size of current datasets and hinders effective learning. Leveraging large but noisy video-transcript datasets for pre-training can boost performance, but demands significant computational resources. Furthermore, transcripts contain irrelevant content and exhibit style variation compared to instructions written by human annotators. To mitigate both issues, we propose a technique, Sieve-&-Swap, to automatically curate a smaller dataset: (i) Sieve filters irrelevant transcripts and (ii) Swap enhances the quality of the text instruction by automatically replacing the transcripts with human-written instructions from a text-only recipe dataset. The curated dataset, three orders of magnitude smaller than current web-scale datasets, enables efficient training of large-scale models with competitive performance. We complement our Sieve-\&-Swap approach with a Procedure Transformer (ProcX) for end-to-end step localization and instruction generation for procedural videos. When this model is pre-trained on our curated dataset, it achieves state-of-the-art performance in zero-shot and finetuning settings on YouCook2 and Tasty, while using a fraction of the computational resources. | 翻訳日:2024-03-28 00:21:53 公開日:2024-03-26 |
# ViT-Lens:Omni-modal Representationを目指して
ViT-Lens: Towards Omni-modal Representations ( http://arxiv.org/abs/2311.16081v2 ) ライセンス: Link先を確認 | Weixian Lei, Yixiao Ge, Kun Yi, Jianfeng Zhang, Difei Gao, Dylan Sun, Yuying Ge, Ying Shan, Mike Zheng Shou, | (参考訳) 先進的なAIエージェントを目指すため、大規模な基盤モデルは推論と命令実行を大幅に改善するが、現在のビジョンと言語へのフォーカスは、オープンワールド環境における多様なモダリティを知覚する可能性を無視している。
しかし、データ駆動ビジョンと言語モデルの成功は、稀なモダリティのために複製されるのに費用がかかるか、あるいは不可能である。
本稿では,VT-Lens-2について,事前学習したVTで新しいモダリティを知覚し,それらを事前定義された空間に整列させることにより,効率的なOmni-Modal表現学習を容易にする。
具体的には、モダリティ特異的レンズは任意のモーダル信号を中間埋め込み空間に投影するように調整され、その後、トレーニング済みの視覚知識を持つ強力なViTによって処理される。
符号化された表現は、オフザシェルフ基礎モデルによって事前に定義された、モーダル非依存空間との整合性に最適化される。
ViT-Lens-2は、2つの魅力的な利点を持つモダリティ増加の表現学習のための統一されたソリューションを提供する。
一 効率的なデータ体制により、新規なモダリティに事前訓練されたViTの大きな可能性を効果的に解き放つこと。
(II)モダリティアライメントと共有VTパラメータによる創発的下流機能の実現。
我々は3Dポイントクラウド、深度、オーディオ、触覚、脳波の表現を学習するためにViT-Lens-2を調整し、ゼロショット分類などの様々な理解タスクに新しい最先端結果を設定する。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成に対するAny-modalityをゼロショットで可能にする。
コードとモデルはhttps://github.com/TencentARC/ViT-Lens.comで公開されている。
Aiming to advance AI agents, large foundation models significantly improve reasoning and instruction execution, yet the current focus on vision and language neglects the potential of perceiving diverse modalities in open-world environments. However, the success of data-driven vision and language models is costly or even infeasible to be reproduced for rare modalities. In this paper, we present ViT-Lens-2 that facilitates efficient omni-modal representation learning by perceiving novel modalities with a pretrained ViT and aligning them to a pre-defined space. Specifically, the modality-specific lens is tuned to project any-modal signals to an intermediate embedding space, which are then processed by a strong ViT with pre-trained visual knowledge. The encoded representations are optimized toward aligning with the modal-independent space, pre-defined by off-the-shelf foundation models. ViT-Lens-2 provides a unified solution for representation learning of increasing modalities with two appealing advantages: (i) Unlocking the great potential of pretrained ViTs to novel modalities effectively with efficient data regime; (ii) Enabling emergent downstream capabilities through modality alignment and shared ViT parameters. We tailor ViT-Lens-2 to learn representations for 3D point cloud, depth, audio, tactile and EEG, and set new state-of-the-art results across various understanding tasks, such as zero-shot classification. By seamlessly integrating ViT-Lens-2 into Multimodal Foundation Models, we enable Any-modality to Text and Image Generation in a zero-shot manner. Code and models are available at https://github.com/TencentARC/ViT-Lens. | 翻訳日:2024-03-28 00:21:53 公開日:2024-03-26 |
# LLaFS: 大きな言語モデルがFew-Shotセグメンテーションに出会ったとき
LLaFS: When Large Language Models Meet Few-Shot Segmentation ( http://arxiv.org/abs/2311.16926v4 ) ライセンス: Link先を確認 | Lanyun Zhu, Tianrun Chen, Deyi Ji, Jieping Ye, Jun Liu, | (参考訳) 本稿では,LLaFSを提案する。LLaFSは,大規模言語モデル(LLM)を数発のセグメンテーションで活用するための最初の試みである。
LLaFSは、注釈付きサポート画像からの限られた偏り情報のみに依存する従来のいくつかのショットセグメンテーション法とは対照的に、LLMが獲得した膨大な事前知識を効果的なサプリメントとして活用し、数ショットで画像のセグメンテーションにLLMを直接利用する。
テキストベースのLLMが画像関連タスクを処理できるようにするため,LLMがポリゴンとして表現されたセグメンテーション結果を生成するための入力命令を慎重に設計し,人間の視覚機構をシミュレートし,マルチモーダルガイダンスを提供する領域属性テーブルを提案する。
また、擬似サンプルを合成し、データ拡張のための事前学習にカリキュラム学習を使用し、より良い最適化を実現する。
LLaFSは複数のデータセットで最先端の結果を達成し、数ショットのコンピュータビジョンタスクにLLMを使用する可能性を示している。
This paper proposes LLaFS, the first attempt to leverage large language models (LLMs) in few-shot segmentation. In contrast to the conventional few-shot segmentation methods that only rely on the limited and biased information from the annotated support images, LLaFS leverages the vast prior knowledge gained by LLM as an effective supplement and directly uses the LLM to segment images in a few-shot manner. To enable the text-based LLM to handle image-related tasks, we carefully design an input instruction that allows the LLM to produce segmentation results represented as polygons, and propose a region-attribute table to simulate the human visual mechanism and provide multi-modal guidance. We also synthesize pseudo samples and use curriculum learning for pretraining to augment data and achieve better optimization. LLaFS achieves state-of-the-art results on multiple datasets, showing the potential of using LLMs for few-shot computer vision tasks. | 翻訳日:2024-03-28 00:21:53 公開日:2024-03-26 |
# ReMoS: 2パーソン相互作用のための3次元モーションコンディション反応合成
ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions ( http://arxiv.org/abs/2311.17057v2 ) ライセンス: Link先を確認 | Anindita Ghosh, Rishabh Dabral, Vladislav Golyanik, Christian Theobalt, Philipp Slusallek, | (参考訳) 近年の3次元モーション合成技術は,デジタル人間による多様な動作やジェスチャーの高品質なアニメーションを生成する。
しかし、このパラダイム内の多人インタラクションの複雑なダイナミクスに対処する際、顕著な技術的ギャップが存在する。
本研究では,2人インタラクションシナリオにおいて,人の全身反応運動を合成する拡散モデルReMoSを提案する。
1人の動きが与えられると仮定すると、我々は2人目の反応体と手の動きを合成し、両者の相互作用を完了させるために、時空間的交叉機構を併用する。
本研究では,ペアダンス,忍術,キックボクシング,アクロバティックスなど,片方の動作が複雑で多様な影響を及ぼす2人のシナリオにまたがってReMoSを実証する。
また,全体動作と指動作を含む2人インタラクションのためのReMoCapデータセットも提供した。
複数の定量的メトリクス、質的視覚化、ユーザスタディを通じてReMoSを評価し、インタラクティブなモーション編集アプリケーションにおけるユーザビリティを示す。
Current approaches for 3D human motion synthesis generate high-quality animations of digital humans performing a wide variety of actions and gestures. However, a notable technological gap exists in addressing the complex dynamics of multi-human interactions within this paradigm. In this work, we present ReMoS, a denoising diffusion-based model that synthesizes full-body reactive motion of a person in a two-person interaction scenario. Assuming the motion of one person is given, we employ a combined spatio-temporal cross-attention mechanism to synthesize the reactive body and hand motion of the second person, thereby completing the interactions between the two. We demonstrate ReMoS across challenging two-person scenarios such as pair-dancing, Ninjutsu, kickboxing, and acrobatics, where one person's movements have complex and diverse influences on the other. We also contribute the ReMoCap dataset for two-person interactions containing full-body and finger motions. We evaluate ReMoS through multiple quantitative metrics, qualitative visualizations, and a user study, and also indicate usability in interactive motion editing applications. | 翻訳日:2024-03-28 00:21:53 公開日:2024-03-26 |
# ニューラルネットワーク学習を加速するデータ変換の探索
In Search of a Data Transformation That Accelerates Neural Field Training ( http://arxiv.org/abs/2311.17094v2 ) ライセンス: Link先を確認 | Junwon Seo, Sangyoon Lee, Kwang In Kim, Jaeho Lee, | (参考訳) ニューラルネットワークは、与えられた信号を近似するためにニューラルネットワークを訓練する、データ表現における新たなパラダイムである。
その普及を妨げる重要な障害は、高速発生型ニューラルネットワークの符号化には、ニューラルネットワークのオーバーフィッティングが必要であり、望まれる忠実度レベルに達するためには、かなりの数のSGDステップが必要になることだ。
本稿では,SGDの収束速度に及ぼすデータ変換の影響について検討し,特に画素位置の変化がSGDの収束速度に与える影響に着目した。
反対に、画素位置をランダムに変化させることで、トレーニングをかなり加速させることができる。
この現象を説明するために、PSNR曲線、損失景観、エラーパターンのレンズによる神経場訓練について検討する。
解析の結果、ランダムなピクセル置換は、初期最適化が容易であるが、信号の細部を捉えるのを妨げている、容易かつ適したパターンを排除していることがわかった。
Neural field is an emerging paradigm in data representation that trains a neural network to approximate the given signal. A key obstacle that prevents its widespread adoption is the encoding speed-generating neural fields requires an overfitting of a neural network, which can take a significant number of SGD steps to reach the desired fidelity level. In this paper, we delve into the impacts of data transformations on the speed of neural field training, specifically focusing on how permuting pixel locations affect the convergence speed of SGD. Counterintuitively, we find that randomly permuting the pixel locations can considerably accelerate the training. To explain this phenomenon, we examine the neural field training through the lens of PSNR curves, loss landscapes, and error patterns. Our analyses suggest that the random pixel permutations remove the easy-to-fit patterns, which facilitate easy optimization in the early stage but hinder capturing fine details of the signal. | 翻訳日:2024-03-28 00:21:53 公開日:2024-03-26 |
# セグメンテーションとキャプション
Segment and Caption Anything ( http://arxiv.org/abs/2312.00869v2 ) ライセンス: Link先を確認 | Xiaoke Huang, Jianfeng Wang, Yansong Tang, Zheng Zhang, Han Hu, Jiwen Lu, Lijuan Wang, Zicheng Liu, | (参考訳) 本稿では,Segment Anything Model (SAM) を地域キャプションを生成する能力に効率よく装備する手法を提案する。
SAMは、セマンティック理解に短い間は、何でもセグメンテーションできる強力な一般化性を示す。
軽量なクエリベースの機能ミキサーを導入することで、地域固有の特徴と、後続キャプション生成のための言語モデルの埋め込み空間を整合させる。
トレーニング可能なパラメータの数は少なく(通常は数千万という順序で)、計算量が少なく、メモリ使用量も少なく、通信帯域も少なく、高速かつスケーラブルなトレーニングを実現している。
地域キャプションデータの不足問題に対処するため,我々はまず,対象検出とセグメンテーションタスクに関するモデルを事前学習することを提案する。
事前学習データは、全文記述ではなくカテゴリ名のみを含むため、このステップを弱い監視事前訓練と呼ぶ。
弱い監視事前トレーニングにより、多くの公開可能なオブジェクト検出とセグメンテーションデータセットを活用することができます。
提案手法の優位性を実証し,それぞれの設計選択を検証するために,広範な実験を行う。
この研究は、地域のキャプションデータのスケールアップに向けた一歩として役立ち、SAMを地域意味論で強化する効率的な方法を探ることに光を当てる。
プロジェクトページは関連するコードとともにhttps://xk-huang.github.io/segment-caption-anything/を通じてアクセスすることができる。
We propose a method to efficiently equip the Segment Anything Model (SAM) with the ability to generate regional captions. SAM presents strong generalizability to segment anything while is short for semantic understanding. By introducing a lightweight query-based feature mixer, we align the region-specific features with the embedding space of language models for later caption generation. As the number of trainable parameters is small (typically in the order of tens of millions), it costs less computation, less memory usage, and less communication bandwidth, resulting in both fast and scalable training. To address the scarcity problem of regional caption data, we propose to first pre-train our model on objection detection and segmentation tasks. We call this step weak supervision pretraining since the pre-training data only contains category names instead of full-sentence descriptions. The weak supervision pretraining allows us to leverage many publicly available object detection and segmentation datasets. We conduct extensive experiments to demonstrate the superiority of our method and validate each design choice. This work serves as a stepping stone towards scaling up regional captioning data and sheds light on exploring efficient ways to augment SAM with regional semantics. The project page, along with the associated code, can be accessed via https://xk-huang.github.io/segment-caption-anything/. | 翻訳日:2024-03-28 00:21:53 公開日:2024-03-26 |
# 調整可能な秩序をもつ相転移における位相的欠陥形成
Topological defect formation in a phase transition with tunable order ( http://arxiv.org/abs/2312.01259v2 ) ライセンス: Link先を確認 | Fumika Suzuki, Wojciech H. Zurek, | (参考訳) キブル・ズレック機構(KZM)は、二階相転移中の系の非平衡ダイナミクスと位相欠陥の形成を記述している。
KZMは宇宙論や凝縮物質物理学などの分野に応用を見出した。
しかし、一般に一階相転移を記述するには適していない。
超伝導体や荷電超流動などの系の遷移は、2次に分類されるが、変動の影響を考慮すると弱い1次特性を示すことが示されている。
さらに、位相遷移の順序(すなわち、第2次ではなく第1次になる程度)を調整できる。
このような位相遷移におけるクエンチによるトポロジ的欠陥の形成について検討し、KZMと核生成理論を組み合わせることでその密度を予測できることを示す。
The Kibble-Zurek mechanism (KZM) describes the non-equilibrium dynamics and topological defect formation in systems undergoing second-order phase transitions. KZM has found applications in fields such as cosmology and condensed matter physics. However, it is generally not suitable for describing first-order phase transitions. It has been demonstrated that transitions in systems like superconductors or charged superfluids, typically classified as second-order, can exhibit weakly first-order characteristics when the influence of fluctuations is taken into account. Moreover, the order of the phase transition (i.e., the extent to which it becomes first rather than second order) can be tuned. We explore quench-induced formation of topological defects in such tunable phase transitions and propose that their density can be predicted by combining KZM with nucleation theory. | 翻訳日:2024-03-27 22:23:06 公開日:2024-03-26 |
# ArtAdapter:マルチレベルスタイルエンコーダと明示的適応を用いたテキストから画像へのスタイル変換
ArtAdapter: Text-to-Image Style Transfer using Multi-Level Style Encoder and Explicit Adaptation ( http://arxiv.org/abs/2312.02109v2 ) ライセンス: Link先を確認 | Dar-Yen Chen, Hamish Tennent, Ching-Wen Hsu, | (参考訳) 本研究はArtAdapterを紹介した。ArtAdapterは、色、ブラシストローク、オブジェクト形状の伝統的な制限を超越し、構成や独特な芸術表現のような高レベルのスタイル要素をキャプチャする、変換型テキスト・トゥ・イメージ(T2I)スタイルのトランスファーフレームワークである。
提案した明示的な適応機構とマルチレベルスタイルエンコーダの統合により、ArtAdapterはスタイル転送における前例のない忠実性を達成し、テキスト記述との密接な整合性を確保することができる。
さらに、Auxiliary Content Adapter (ACA) が組み込まれたことにより、コンテンツがスタイルから分離され、コンテンツがスタイル参照から借用されることが軽減される。
さらに, 高速微調整手法により, オーバーフィッティングのリスクを軽減しつつ, ゼロショットスタイルの表現をさらに向上させることができる。
総合的な評価では、ArtAdapterが現在の最先端メソッドを超えていることが確認されている。
This work introduces ArtAdapter, a transformative text-to-image (T2I) style transfer framework that transcends traditional limitations of color, brushstrokes, and object shape, capturing high-level style elements such as composition and distinctive artistic expression. The integration of a multi-level style encoder with our proposed explicit adaptation mechanism enables ArtAdapter to achieve unprecedented fidelity in style transfer, ensuring close alignment with textual descriptions. Additionally, the incorporation of an Auxiliary Content Adapter (ACA) effectively separates content from style, alleviating the borrowing of content from style references. Moreover, our novel fast finetuning approach could further enhance zero-shot style representation while mitigating the risk of overfitting. Comprehensive evaluations confirm that ArtAdapter surpasses current state-of-the-art methods. | 翻訳日:2024-03-27 22:23:06 公開日:2024-03-26 |
# グラフ生成のためのシンプルでスケーラブルな表現法
A Simple and Scalable Representation for Graph Generation ( http://arxiv.org/abs/2312.02230v2 ) ライセンス: Link先を確認 | Yunhui Jang, Seul Lee, Sungsoo Ahn, | (参考訳) 近年、分子設計やコミュニティ分析といった重要な応用において、基本的な統計的学習問題であるグラフ生成にニューラルネットワークを採用することへの関心が高まっている。
しかし、ほとんどのアプローチは大規模グラフを生成する際に重大な制限に直面する。
これは、ノード数が2倍に大きくなるような完全な隣接行列を出力する必要があるためである。
この課題に対応するために、我々は、エッジの個数に合わせて小さな表現サイズを持つギャップ符号化エッジリスト(GEEL)という、新しい、シンプルでスケーラブルなグラフ表現を導入した。
さらに、GEELは、ギャップエンコーディングと帯域幅制限スキームを組み込むことにより、語彙サイズを著しく削減する。
GEELはノード位置エンコーディングを組み込んだ自動回帰生成が可能であり、新たな文法を設計して属性グラフを扱うようにGEELをさらに拡張する。
その結果, このコンパクト表現の採用はスケーラビリティの向上だけでなく, グラフ生成プロセスの簡素化による性能向上にも寄与することがわかった。
我々は、GEELの有効性を実証し、10の非分散および2つの分子グラフ生成タスクを総合的に評価する。
Recently, there has been a surge of interest in employing neural networks for graph generation, a fundamental statistical learning problem with critical applications like molecule design and community analysis. However, most approaches encounter significant limitations when generating large-scale graphs. This is due to their requirement to output the full adjacency matrices whose size grows quadratically with the number of nodes. In response to this challenge, we introduce a new, simple, and scalable graph representation named gap encoded edge list (GEEL) that has a small representation size that aligns with the number of edges. In addition, GEEL significantly reduces the vocabulary size by incorporating the gap encoding and bandwidth restriction schemes. GEEL can be autoregressively generated with the incorporation of node positional encoding, and we further extend GEEL to deal with attributed graphs by designing a new grammar. Our findings reveal that the adoption of this compact representation not only enhances scalability but also bolsters performance by simplifying the graph generation process. We conduct a comprehensive evaluation across ten non-attributed and two molecular graph generation tasks, demonstrating the effectiveness of GEEL. | 翻訳日:2024-03-27 22:23:06 公開日:2024-03-26 |
# AV2AV:統一音声音声表現による直接音声音声から音声音声への変換
AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation ( http://arxiv.org/abs/2312.02512v2 ) ライセンス: Link先を確認 | Jeongsoo Choi, Se Jin Park, Minsu Kim, Yong Man Ro, | (参考訳) 本稿では,システム入力と出力がマルチモーダル(つまり音声と視覚)となるAV2AV(Audio-Visual Speech to Audio-Visual Speech Translation)フレームワークを提案する。
提案されたAV2AVでは、2つの大きな利点がもたらされる。
1) 自己の母国語を活用すれば, 仮想会議において, 世界中の個人とリアルな会話を行うことができる。
音声モダリティのみを翻訳する音声音声合成(A2A)とは対照的に,提案したAV2AVは音声・視覚音声を直接翻訳する。
この機能は、翻訳された音声と同期した唇の動きを提示することにより、対話体験を向上させる。
2) 音声翻訳システムの堅牢性を向上させることができる。
音声・視覚音声の相補的な情報を利用することで、音響ノイズがあっても音声言語を効果的に翻訳し、頑健な性能を示す。
並列AV2AV翻訳データセットが存在しない問題を軽減するため,A2Aの音声のみのデータセットを用いて音声翻訳システムを訓練することを提案する。
これは、翻訳システムの学習に先立って、自己教師付き学習を通じて、統合された音声・視覚音声表現を学習することで実現される。
さらに,生音声と映像を並列に生成できるAV-Rendererを提案する。
ゼロショット話者モデルを用いて設計されており、音源の音声・視覚音声の話者を対象の音声・視覚音声で維持することができる。
AV2AVの有効性は、多対多言語翻訳設定において広範な実験により評価される。
デモページはhttps://choijeongsoo.github.io/av2av.comで公開されている。
This paper proposes a novel direct Audio-Visual Speech to Audio-Visual Speech Translation (AV2AV) framework, where the input and output of the system are multimodal (i.e., audio and visual speech). With the proposed AV2AV, two key advantages can be brought: 1) We can perform real-like conversations with individuals worldwide in a virtual meeting by utilizing our own primary languages. In contrast to Speech-to-Speech Translation (A2A), which solely translates between audio modalities, the proposed AV2AV directly translates between audio-visual speech. This capability enhances the dialogue experience by presenting synchronized lip movements along with the translated speech. 2) We can improve the robustness of the spoken language translation system. By employing the complementary information of audio-visual speech, the system can effectively translate spoken language even in the presence of acoustic noise, showcasing robust performance. To mitigate the problem of the absence of a parallel AV2AV translation dataset, we propose to train our spoken language translation system with the audio-only dataset of A2A. This is done by learning unified audio-visual speech representations through self-supervised learning in advance to train the translation system. Moreover, we propose an AV-Renderer that can generate raw audio and video in parallel. It is designed with zero-shot speaker modeling, thus the speaker in source audio-visual speech can be maintained at the target translated audio-visual speech. The effectiveness of AV2AV is evaluated with extensive experiments in a many-to-many language translation setting. Demo page is available on https://choijeongsoo.github.io/av2av. | 翻訳日:2024-03-27 22:23:06 公開日:2024-03-26 |
# DreamComposer:マルチビュー条件による制御可能な3Dオブジェクト生成
DreamComposer: Controllable 3D Object Generation via Multi-View Conditions ( http://arxiv.org/abs/2312.03611v2 ) ライセンス: Link先を確認 | Yunhan Yang, Yukun Huang, Xiaoyang Wu, Yuan-Chen Guo, Song-Hai Zhang, Hengshuang Zhao, Tong He, Xihui Liu, | (参考訳) 事前訓練された2次元大規模生成モデルを利用することで、近年の研究では、ワン・ザ・ワイルド画像から高品質な新規ビューを生成することができる。
しかし、複数の視点からの情報がないため、これらは制御可能な新しい視点を生み出すのに困難に直面する。
本稿では,マルチビュー条件を注入することで,既存のビュー認識拡散モデルを改善する,フレキシブルでスケーラブルなフレームワークであるDreamComposerを提案する。
具体的には、DreamComposerは最初にビュー対応の3Dリフトモジュールを使用して、複数のビューからオブジェクトの3D表現を取得する。
そして、マルチビュー機能融合モジュールを用いて、3D表現からターゲットビューの潜伏した特徴をレンダリングする。
最後に、マルチビュー入力から抽出したターゲットビュー特徴を事前学習した拡散モデルに注入する。
実験により、DreamComposerはゼロショットノベルビュー合成のための最先端拡散モデルと互換性があり、さらに高忠実なノベルビュー画像を多視点条件で生成し、制御可能な3Dオブジェクト再構成や他の様々な応用が可能であることが示された。
Utilizing pre-trained 2D large-scale generative models, recent works are capable of generating high-quality novel views from a single in-the-wild image. However, due to the lack of information from multiple views, these works encounter difficulties in generating controllable novel views. In this paper, we present DreamComposer, a flexible and scalable framework that can enhance existing view-aware diffusion models by injecting multi-view conditions. Specifically, DreamComposer first uses a view-aware 3D lifting module to obtain 3D representations of an object from multiple views. Then, it renders the latent features of the target view from 3D representations with the multi-view feature fusion module. Finally the target view features extracted from multi-view inputs are injected into a pre-trained diffusion model. Experiments show that DreamComposer is compatible with state-of-the-art diffusion models for zero-shot novel view synthesis, further enhancing them to generate high-fidelity novel view images with multi-view conditions, ready for controllable 3D object reconstruction and various other applications. | 翻訳日:2024-03-27 22:23:06 公開日:2024-03-26 |
# 拡散リフレクタンスマップ:イルミネーションとリフレクタンスの一画像確率逆レンダリング
Diffusion Reflectance Map: Single-Image Stochastic Inverse Rendering of Illumination and Reflectance ( http://arxiv.org/abs/2312.04529v2 ) ライセンス: Link先を確認 | Yuto Enyo, Ko Nishino, | (参考訳) 反射は、物体の外観における照明の周波数スペクトルを束縛する。
本稿では,照明の減衰周波数スペクトルを1つの画像から既知幾何の物体の反射率と併用して復元する,最初の確率逆レンダリング手法を提案する。
我々のキーとなる考え方は、画像形成を新しい拡散モデルで学習することで、反射率マップの視覚的逆問題、すなわち、基礎となる幾何学に不変な外観表現を、拡散反射率マップネットワーク(DRMNet)と呼ぶことで解決することである。
DRMNetは、単一の入力画像から変換および完了した観測反射率マップを与えられた場合、反射率を共同で推定しながら、完全なミラー球に対応する反射率マップを生成する。
フォワード過程は、徐々に低周波反射率と加法的ガウス雑音で自然照明をフィルタリングするものとして理解することができる。
DRMNetは、このプロセスを2つのサブネットワーク、IllNetとRefNetで逆転させることを学んでいる。
ネットワークは広範な合成データセットに基づいてトレーニングされ、実際の画像に一般化することが実証され、確立されたデータセットの最先端の精度が示される。
Reflectance bounds the frequency spectrum of illumination in the object appearance. In this paper, we introduce the first stochastic inverse rendering method, which recovers the attenuated frequency spectrum of an illumination jointly with the reflectance of an object of known geometry from a single image. Our key idea is to solve this blind inverse problem in the reflectance map, an appearance representation invariant to the underlying geometry, by learning to reverse the image formation with a novel diffusion model which we refer to as the Diffusion Reflectance Map Network (DRMNet). Given an observed reflectance map converted and completed from the single input image, DRMNet generates a reflectance map corresponding to a perfect mirror sphere while jointly estimating the reflectance. The forward process can be understood as gradually filtering a natural illumination with lower and lower frequency reflectance and additive Gaussian noise. DRMNet learns to invert this process with two subnetworks, IllNet and RefNet, which work in concert towards this joint estimation. The network is trained on an extensive synthetic dataset and is demonstrated to generalize to real images, showing state-of-the-art accuracy on established datasets. | 翻訳日:2024-03-27 22:23:06 公開日:2024-03-26 |
# すべての川が海に向かって走る:非対称な流れを持つプライベートラーニング
All Rivers Run to the Sea: Private Learning with Asymmetric Flows ( http://arxiv.org/abs/2312.05264v2 ) ライセンス: Link先を確認 | Yue Niu, Ramy E. Ali, Saurav Prakash, Salman Avestimehr, | (参考訳) データプライバシは、クラウドサービスのマシンラーニングサービスプラットフォームにおいて、センシティブなデータがサービスプロバイダに公開される場合に、大きな関心事になります。
プライベートコンピューティング環境(セキュアなエンクレーブなど)や暗号化アプローチ(ホモモルフィック暗号化など)は、強力なプライバシ保護を提供する一方で、同社のコンピューティングパフォーマンスは、クラウドGPUと比較しても低い。
計算性能の高いプライバシ保護を実現するために,非プライベート集中型トレーニングと同等のモデル性能を備えた,新たなプライベートトレーニングおよび推論フレームワークであるDeltaを提案する。
Deltaは2つの非対称なデータフローを特徴としている。
主部分は小さなモデルに流れ、残余は大きなモデルにオフロードされる。
具体的には、デルタは情報に敏感な表現を低次元空間に埋め込み、情報に敏感な部分を高次元の残留物に押し込む。
プライバシー保護を確保するため、低次元情報感度部を保護し、プライベート環境で小さなモデルに供給する。
一方、残部は高速なクラウドGPUに送られ、大きなモデルで処理される。
プライバシーをさらに強化し、通信コストを削減するため、Deltaはパブリックプラットフォームと共有する前に、DPベースのテクニックとともにランダムなバイナリ量子化技術を適用している。
理論的には、Deltaは公共環境における差分プライバシーを保証し、プライベート環境における複雑さを大幅に低減する。
我々は、CIFAR-10、CIFAR-100、ImageNetデータセット、ResNet-18、ResNet-34に関する実証分析を行い、Deltaがモデルユーティリティを著しく妥協することなく、強力なプライバシ保護、高速トレーニング、推論を実現することを示す。
Data privacy is of great concern in cloud machine-learning service platforms, when sensitive data are exposed to service providers. While private computing environments (e.g., secure enclaves), and cryptographic approaches (e.g., homomorphic encryption) provide strong privacy protection, their computing performance still falls short compared to cloud GPUs. To achieve privacy protection with high computing performance, we propose Delta, a new private training and inference framework, with comparable model performance as non-private centralized training. Delta features two asymmetric data flows: the main information-sensitive flow and the residual flow. The main part flows into a small model while the residuals are offloaded to a large model. Specifically, Delta embeds the information-sensitive representations into a low-dimensional space while pushing the information-insensitive part into high-dimension residuals. To ensure privacy protection, the low-dimensional information-sensitive part is secured and fed to a small model in a private environment. On the other hand, the residual part is sent to fast cloud GPUs, and processed by a large model. To further enhance privacy and reduce the communication cost, Delta applies a random binary quantization technique along with a DP-based technique to the residuals before sharing them with the public platform. We theoretically show that Delta guarantees differential privacy in the public environment and greatly reduces the complexity in the private environment. We conduct empirical analyses on CIFAR-10, CIFAR-100 and ImageNet datasets and ResNet-18 and ResNet-34, showing that Delta achieves strong privacy protection, fast training, and inference without significantly compromising the model utility. | 翻訳日:2024-03-27 22:23:06 公開日:2024-03-26 |
# 人工ニューラルネットと人間概念の表現
Artificial Neural Nets and the Representation of Human Concepts ( http://arxiv.org/abs/2312.05337v2 ) ライセンス: Link先を確認 | Timo Freiesleben, | (参考訳) 人工知能(ANN)は何を学ぶのか?
機械学習(ML)コミュニティは、ANNが複雑なタスクを実行するために抽象的なヒューマンコンセプトを開発する必要があるという物語を共有している。
さらには、これらの概念がネットワークの個々の単位に保存されていると考える人もいる。
現在の研究に基づいて,この物語の根底にある前提を体系的に検討する。
ANNは複雑な予測タスクを実際に実行でき、人間や非人間の概念を学習することができると結論付けます。
しかし、ANNは個々の単位においてこれらの概念を表現していないことを示す証拠がある。
What do artificial neural networks (ANNs) learn? The machine learning (ML) community shares the narrative that ANNs must develop abstract human concepts to perform complex tasks. Some go even further and believe that these concepts are stored in individual units of the network. Based on current research, I systematically investigate the assumptions underlying this narrative. I conclude that ANNs are indeed capable of performing complex prediction tasks, and that they may learn human and non-human concepts to do so. However, evidence indicates that ANNs do not represent these concepts in individual units. | 翻訳日:2024-03-27 22:23:06 公開日:2024-03-26 |
# DiffCast: 降水開始のための残留拡散による統一フレームワーク
DiffCast: A Unified Framework via Residual Diffusion for Precipitation Nowcasting ( http://arxiv.org/abs/2312.06734v2 ) ライセンス: Link先を確認 | Demin Yu, Xutao Li, Yunming Ye, Baoquan Zhang, Chuyao Luo, Kuai Dai, Rui Wang, Xunlai Chen, | (参考訳) 降水流速計は、現在の観測結果に基づいてレーダエコー列を予測するための重要な時空間予測タスクであり、気象科学とスマートシティの双方に役立てることができる。
降水系のカオス的な進化の性質から、これは非常に難しい問題である。
従来の研究では、決定論的モデリングや確率論的モデリングの観点から、この問題に対処している。
しかし、彼らの予測はぼやけた高価値のエコーが消え、不正確な問題に悩まされる。
これらの問題の根本原因は、カオス的な進化的降水系が適切にモデル化されていないことである。
システムの性質に着想を得て,大域的決定論運動と局所確率変動の観点から分解・モデル化することを提案する。
従来の手法の欠点に効果的に取り組むために, 残差拡散に基づく任意の種類の時空間モデルを装備できる統一的かつ柔軟な枠組みを提案する。
4つの公開レーダデータセットの大規模な実験結果は、最先端技術と比較して提案フレームワークの有効性と優位性を示している。
私たちのコードはhttps://github.com/DeminYu98/DiffCast.comで公開されています。
Precipitation nowcasting is an important spatio-temporal prediction task to predict the radar echoes sequences based on current observations, which can serve both meteorological science and smart city applications. Due to the chaotic evolution nature of the precipitation systems, it is a very challenging problem. Previous studies address the problem either from the perspectives of deterministic modeling or probabilistic modeling. However, their predictions suffer from the blurry, high-value echoes fading away and position inaccurate issues. The root reason of these issues is that the chaotic evolutionary precipitation systems are not appropriately modeled. Inspired by the nature of the systems, we propose to decompose and model them from the perspective of global deterministic motion and local stochastic variations with residual mechanism. A unified and flexible framework that can equip any type of spatio-temporal models is proposed based on residual diffusion, which effectively tackles the shortcomings of previous methods. Extensive experimental results on four publicly available radar datasets demonstrate the effectiveness and superiority of the proposed framework, compared to state-of-the-art techniques. Our code is publicly available at https://github.com/DeminYu98/DiffCast. | 翻訳日:2024-03-27 22:23:06 公開日:2024-03-26 |
# 大規模言語モデルを用いた半構造化Web記事の高スループットバイオメディカルリレーション抽出
High-throughput Biomedical Relation Extraction for Semi-Structured Web Articles Empowered by Large Language Models ( http://arxiv.org/abs/2312.08274v4 ) ライセンス: Link先を確認 | Songchi Zhou, Sheng Yu, | (参考訳) 目的:大規模言語モデル(LLM)読解能力とバイオメディカル世界知識をスケーラブルで明確な方法で活用する高スループットなバイオメディカル関係抽出システムを開発する。
方法: 大規模言語モデルにおける関係抽出タスクを二項分類として定式化する。
具体的には、LCMは外部のコーパスとその世界知識に基づいて意思決定を行い、事実検証の判断の理由を与える。
本手法は, 主タイトルをテールエンティティとして指定し, コンテキストに明示的に組み込む半構造化 Web 記事に適合し, バイオメディカルシソーラスに基づいて潜在的ヘッドエンティティをマッチングする。
さらに、長い内容はテキストチャンクにスライスされ、埋め込みされ、追加の埋め込みモデルで検索される。
結果: オープンソースのLCMを用いて, 3つのバイオメディカルWebサイトから, 3つの異なる関係型の248659リレートレットを抽出した。
バイオメディカルな関係抽出に使用する基本パイプラインの有効性を評価するため,医用専門家がアノテートしたベンチマークデータセットをキュレートした。
評価の結果,パイプラインはGPT-4に匹敵する性能を示した。
半構造化ウェブ記事のバイオメディカルリレーション抽出の文脈において、現代LLMが直面する課題をさらに明らかにするケーススタディ。
結論: 提案手法は, LLMの強度を高出力バイオメディカルな関係抽出に活用する効果を実証した。
その適応性は明らかであり、多様な半構造化バイオメディカルウェブサイトにシームレスに拡張することができ、様々な種類のバイオメディカル関係の抽出を容易にする。
Objective: To develop a high-throughput biomedical relation extraction system that takes advantage of the large language models'(LLMs) reading comprehension ability and biomedical world knowledge in a scalable and evidential manner. Methods: We formulate the relation extraction task as binary classifications for large language models. Specifically, LLMs make the decision based on the external corpus and its world knowledge, giving the reason for the judgment for factual verification. This method is tailored for semi-structured web articles, wherein we designate the main title as the tail entity and explicitly incorporate it into the context, and the potential head entities are matched based on a biomedical thesaurus. Moreover, lengthy contents are sliced into text chunks, embedded, and retrieved with additional embedding models. Results: Using an open-source LLM, we extracted 248659 relation triplets of three distinct relation types from three reputable biomedical websites. To assess the efficacy of the basic pipeline employed for biomedical relation extraction, we curated a benchmark dataset annotated by a medical expert. Evaluation results indicate that the pipeline exhibits performance comparable to that of GPT-4. Case studies further illuminate challenges faced by contemporary LLMs in the context of biomedical relation extraction for semi-structured web articles. Conclusion: The proposed method has demonstrated its effectiveness in leveraging the strengths of LLMs for high-throughput biomedical relation extraction. Its adaptability is evident, as it can be seamlessly extended to diverse semi-structured biomedical websites, facilitating the extraction of various types of biomedical relations with ease. | 翻訳日:2024-03-27 22:23:06 公開日:2024-03-26 |
# 表面の認識と周期的整合性を考慮した自己監督型3次元シーンフローの規則化
Regularizing Self-supervised 3D Scene Flows with Surface Awareness and Cyclic Consistency ( http://arxiv.org/abs/2312.08879v2 ) ライセンス: Link先を確認 | Patrik Vacek, David Hurych, Karel Zimmermann, Patrick Perez, Tomas Svoboda, | (参考訳) ポイントクラウドからの3Dシーンフローの予測方法を監督せずに学習することは、多くの知覚システムにとって不可欠である。
本稿では,必要な正規化を改善するための新しい学習フレームワークを提案する。
シーン要素がほとんど剛性であるという仮定に基づいて、現在の滑らかさの損失は入力点雲における '`rigid cluster' の定義に基づいて構築される。
これらのクラスタの定義は困難であり、予測されるフローの品質に大きな影響を与える。
2つの新たな一貫性損失を導入し、クラスタを拡大し、異なるオブジェクトに分散するのを防ぐ。
特に,空間的近接性に加えて表面配向の類似性も考慮し,前向きの周期的損失と<emph{spatial}の整合性を適用した。
提案した損失はモデルに依存しないため、2つの最も広く使用されているアーキテクチャで示されるように、既存のモデルの性能を大幅に向上させるためにプラグイン・アンド・プレイ方式で使用できる。
また,4つの標準センサティック駆動データセット上でのフレームワークの有効性と一般化能力を示すとともに,3次元シーンフロー推定における最先端性能を実現する。
私たちのコードはhttps://github.com/ctu-vras/sac-flow.comで公開されています。
Learning without supervision how to predict 3D scene flows from point clouds is essential to many perception systems. We propose a novel learning framework for this task which improves the necessary regularization. Relying on the assumption that scene elements are mostly rigid, current smoothness losses are built on the definition of ``rigid clusters" in the input point clouds. The definition of these clusters is challenging and has a significant impact on the quality of predicted flows. We introduce two new consistency losses that enlarge clusters while preventing them from spreading over distinct objects. In particular, we enforce \emph{temporal} consistency with a forward-backward cyclic loss and \emph{spatial} consistency by considering surface orientation similarity in addition to spatial proximity. The proposed losses are model-independent and can thus be used in a plug-and-play fashion to significantly improve the performance of existing models, as demonstrated on two most widely used architectures. We also showcase the effectiveness and generalization capability of our framework on four standard sensor-unique driving datasets, achieving state-of-the-art performance in 3D scene flow estimation. Our codes are available on https://github.com/ctu-vras/sac-flow. | 翻訳日:2024-03-27 22:23:06 公開日:2024-03-26 |
# 学習に基づく軸方向動画の運動拡大
Learning-based Axial Video Motion Magnification ( http://arxiv.org/abs/2312.09551v2 ) ライセンス: Link先を確認 | Kwon Byung-Ki, Oh Hyun-Bin, Kim Jun-Seong, Hyunwoo Ha, Tae-Hyun Oh, | (参考訳) ビデオの動きの拡大は目に見えない小さな動きを増幅し、人間が興味のある場面で小さな動きを空間的に密集し、包括的に理解することを可能にする。
これは、小さな動きを拡大することで動きの正当性を高めるという前提に基づいている。
しかし、現実世界では、振動物体は複雑な自然の周波数、モード、方向を持つ複雑な系を持つことが多い。
既存の動きの倍率はしばしば、複雑な動きが拡大しても複雑な特性を保ち、分析を妨げてしまうため、正当性を改善することができない。
本研究では,ユーザの指定した方向に沿って分割された動きを拡大する軸運動倍率という新しい概念を提案することにより,可視性の向上に焦点をあてる。
簡易で読みやすい動き情報を提供することにより、特定の軸の運動が重要となる様々な用途に軸運動倍率を適用することができる。
そこで本研究では,関心の軸に沿って動きの表現をアンタングルして拡大する動き分離モジュールを提案する。
さらに, 軸方向運動倍率タスクのための新しい合成トレーニングデータセットを構築した。
提案手法は,ユーザ制御性という新たな特徴を付加することにより,特定の軸に沿った動きの正当性を向上させる。
軸運動倍率法はより一般化された概念であり,本手法は一般的な運動倍率法に直接適用でき,競合する手法に対して良好な性能が得られる。
Video motion magnification amplifies invisible small motions to be perceptible, which provides humans with a spatially dense and holistic understanding of small motions in the scene of interest. This is based on the premise that magnifying small motions enhances the legibility of motions. In the real world, however, vibrating objects often possess convoluted systems that have complex natural frequencies, modes, and directions. Existing motion magnification often fails to improve legibility since the intricate motions still retain complex characteristics even after being magnified, which may distract us from analyzing them. In this work, we focus on improving legibility by proposing a new concept, axial motion magnification, which magnifies decomposed motions along the user-specified direction. Axial motion magnification can be applied to various applications where motions of specific axes are critical, by providing simplified and easily readable motion information. To achieve this, we propose a novel Motion Separation Module that enables to disentangle and magnify the motion representation along axes of interest. Furthermore, we build a new synthetic training dataset for the axial motion magnification task. Our proposed method improves the legibility of resulting motions along certain axes by adding a new feature: user controllability. Axial motion magnification is a more generalized concept; thus, our method can be directly adapted to the generic motion magnification and achieves favorable performance against competing methods. | 翻訳日:2024-03-27 22:23:06 公開日:2024-03-26 |
# 階層型コンタクトメッシュ変換器を用いたフレキシブルボディ衝突ダイナミクスの学習
Learning Flexible Body Collision Dynamics with Hierarchical Contact Mesh Transformer ( http://arxiv.org/abs/2312.12467v3 ) ライセンス: Link先を確認 | Youn-Yeol Yu, Jeongwhan Choi, Woojin Cho, Kookjin Lee, Nayong Kim, Kiseok Chang, Chang-Seung Woo, Ilho Kim, Seok-Woo Lee, Joon-Young Yang, Sooyoung Yoon, Noseong Park, | (参考訳) 近年、複雑な高次元物理系をモデル化するためのメッシュベースグラフニューラルネットワーク(GNN)モデルが多数提案されている。
従来の数値解法と比較して解法時間を大幅に短縮する顕著な成果が得られた。
これらの手法は典型的には
一 物理力学の解法及び/又は解法における計算コストの低減
二 流体力学及び剛体力学における解の精度を高める技術を提案すること。
しかし、非常に短い時間枠内で瞬時に衝突が起こるフレキシブルボディダイナミクスの課題に取り組むのに効果があるかどうかはまだ解明されていない。
本稿では,階層型メッシュ構造を用いた階層型コンタクトメッシュトランス (HCMT) を提案する。
HCMTは長距離相互作用を可能にし、階層メッシュ構造はすぐに遠くの位置への衝突効果を伝播させる。
この目的のために、コンタクトメッシュ変換器と階層メッシュ変換器(それぞれCMTとHMT)で構成される。
最後に,製品デザインの表示業界で頻繁に使用される実験的な設定を反映したトラジェクトリからなるフレキシブルボディダイナミックスデータセットを提案する。
また、よく知られたベンチマークデータセットを用いて、いくつかのベースラインのパフォーマンスを比較する。
その結果,HCMTは既存の手法に比べて大幅な性能向上を実現していることがわかった。
私たちのコードはhttps://github.com/yuyudeep/hcmt.comから入手可能です。
Recently, many mesh-based graph neural network (GNN) models have been proposed for modeling complex high-dimensional physical systems. Remarkable achievements have been made in significantly reducing the solving time compared to traditional numerical solvers. These methods are typically designed to i) reduce the computational cost in solving physical dynamics and/or ii) propose techniques to enhance the solution accuracy in fluid and rigid body dynamics. However, it remains under-explored whether they are effective in addressing the challenges of flexible body dynamics, where instantaneous collisions occur within a very short timeframe. In this paper, we present Hierarchical Contact Mesh Transformer (HCMT), which uses hierarchical mesh structures and can learn long-range dependencies (occurred by collisions) among spatially distant positions of a body -- two close positions in a higher-level mesh correspond to two distant positions in a lower-level mesh. HCMT enables long-range interactions, and the hierarchical mesh structure quickly propagates collision effects to faraway positions. To this end, it consists of a contact mesh Transformer and a hierarchical mesh Transformer (CMT and HMT, respectively). Lastly, we propose a flexible body dynamics dataset, consisting of trajectories that reflect experimental settings frequently used in the display industry for product designs. We also compare the performance of several baselines using well-known benchmark datasets. Our results show that HCMT provides significant performance improvements over existing methods. Our code is available at https://github.com/yuyudeep/hcmt. | 翻訳日:2024-03-27 22:13:20 公開日:2024-03-26 |
# TagAlign: マルチタグ分類による視覚言語アライメントの改善
TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification ( http://arxiv.org/abs/2312.14149v4 ) ライセンス: Link先を確認 | Qinying Liu, Wei Wu, Kecheng Zheng, Zhan Tong, Jiawei Liu, Yu Liu, Wei Chen, Zilei Wang, Yujun Shen, | (参考訳) 視覚言語モデル学習の要点は、視覚的および言語的データから意味的に整合した情報を抽出することである。
既存の試みは通常、粗いアライメント、例えば視覚エンコーダが属性指定オブジェクトのローカライズに苦労する問題に直面する。
本研究では、画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
具体的には、画像とそのペアテキストが与えられた場合、画像中に非常に存在する可能性が高い記述からオブジェクト(eg, cat)と属性(eg, black)を解析する。
パースパイプラインは完全に自動化されており、優れたスケーラビリティを享受できることは注目に値する。
これらの解析的セマンティクスを監視信号として用いることで、一般的に使用される画像テキストのコントラスト損失とマルチタグ分類損失を補完することができる。
セマンティックセグメンテーションデータセットの幅広いスイートにおける大規模な実験結果は、既存の選択肢よりも平均5.2\%のフレームワークの改善を裏付けるものである。
さらに,属性管理により,属性指定対象を視覚言語モデルで正確にローカライズすることを示す。
プロジェクトページはhttps://qinying-liu.github.io/Tag-Align.orgにある。
The crux of learning vision-language models is to extract semantically aligned information from visual and linguistic data. Existing attempts usually face the problem of coarse alignment, e.g., the vision encoder struggles in localizing an attribute-specified object. In this work, we propose an embarrassingly simple approach to better align image and text features with no need of additional data formats other than image-text pairs. Concretely, given an image and its paired text, we manage to parse objects (e.g., cat) and attributes (e.g., black) from the description, which are highly likely to exist in the image. It is noteworthy that the parsing pipeline is fully automatic and thus enjoys good scalability. With these parsed semantics as supervision signals, we can complement the commonly used image-text contrastive loss with the multi-tag classification loss. Extensive experimental results on a broad suite of semantic segmentation datasets substantiate the average 5.2\% improvement of our framework over existing alternatives. Furthermore, the visualization results indicate that attribute supervision makes vision-language models accurately localize attribute-specified objects. Project page can be found at https://qinying-liu.github.io/Tag-Align. | 翻訳日:2024-03-27 22:13:20 公開日:2024-03-26 |
# ニューロン分類のための置換不変エンコーダを用いた統合学習神経骨格と脳回路トポロジー
Joint Learning Neuronal Skeleton and Brain Circuit Topology with Permutation Invariant Encoders for Neuron Classification ( http://arxiv.org/abs/2312.14518v2 ) ライセンス: Link先を確認 | Minghui Liao, Guojia Wan, Bo Du, | (参考訳) 神経系内のニューロンの種類を決定することは、脳コネクトロミクスの分析と神経疾患の研究において重要な役割を果たす。
しかし、神経細胞の解剖学的、生理学的、または分子的特性を利用する効率は比較的低く、コストがかかる。
脳組織の電子顕微鏡イメージングと解析技術の進歩により、我々は神経細胞の高分解能形態と接続情報からなる全脳コネクトームを得ることができる。
しかし、そのようなデータに基づいて自動ニューロン分類を行うモデルはほとんどない。
本稿では,スケルトンから得られるニューロンの形態情報と神経回路から得られるニューロン間のトポロジ情報を組み合わせたフレームワークであるNeuNetを提案する。
具体的には、NeuNetはSkeleton Encoder、Connectome Encoder、Readout Layerという3つのコンポーネントで構成されている。
Skeleton Encoderは、ボトムアップ方式でニューロンの局所情報を神経骨格の点データの1次元の畳み込みと統合し、Connectome Encoderはグラフニューラルネットワークを使用して神経回路の位相情報をキャプチャし、最後に、Readout Layerは上記の2つの情報を融合して分類結果を出力する。
我々は、ヒト大脳皮質とショウジョウバエ脳の体積電子顕微鏡(VEM)画像からニューロン分類タスクのための2つの新しいデータセットを再処理し、リリースする。
これら2つのデータセットに対する実験により, 精度0.9169と0.9363のモデルの有効性が示された。
コードとデータは、https://github.com/WHUminghui/NeuNet.comで入手できる。
Determining the types of neurons within a nervous system plays a significant role in the analysis of brain connectomics and the investigation of neurological diseases. However, the efficiency of utilizing anatomical, physiological, or molecular characteristics of neurons is relatively low and costly. With the advancements in electron microscopy imaging and analysis techniques for brain tissue, we are able to obtain whole-brain connectome consisting neuronal high-resolution morphology and connectivity information. However, few models are built based on such data for automated neuron classification. In this paper, we propose NeuNet, a framework that combines morphological information of neurons obtained from skeleton and topological information between neurons obtained from neural circuit. Specifically, NeuNet consists of three components, namely Skeleton Encoder, Connectome Encoder, and Readout Layer. Skeleton Encoder integrates the local information of neurons in a bottom-up manner, with a one-dimensional convolution in neural skeleton's point data; Connectome Encoder uses a graph neural network to capture the topological information of neural circuit; finally, Readout Layer fuses the above two information and outputs classification results. We reprocess and release two new datasets for neuron classification task from volume electron microscopy(VEM) images of human brain cortex and Drosophila brain. Experiments on these two datasets demonstrated the effectiveness of our model with accuracy of 0.9169 and 0.9363, respectively. Code and data are available at: https://github.com/WHUminghui/NeuNet. | 翻訳日:2024-03-27 22:13:20 公開日:2024-03-26 |
# 光輸送変調を用いたパッシブ非視線イメージング
Passive Non-Line-of-Sight Imaging with Light Transport Modulation ( http://arxiv.org/abs/2312.16014v2 ) ライセンス: Link先を確認 | Jiarui Zhang, Ruixu Geng, Xiaolong Du, Yan Chen, Houqiang Li, Yang Hu, | (参考訳) パッシブ非視線画像(NLOS)は、視界外にある物体を撮影できるため、近年急速に発達している。
光輸送条件は、異なる画像モデルにつながるため、このタスクにおいて重要な役割を果たす。
既存の学習ベースのNLOS法は、通常、異なる光輸送条件の独立モデルを訓練するが、これは計算的に非効率であり、モデルの実用性を損なう。
本研究では,複数の光輸送条件を単一のネットワークで効果的に処理する新しい受動NLOSイメージング手法であるNLOS-LTMを提案する。
我々は、投影画像から潜在光輸送表現を推測し、この表現を用いて、投影画像から隠されたイメージを再構成するネットワークを変調する。
我々は光輸送エンコーダをベクトル量子化器と共に訓練し、光輸送表現を得る。
この表現をさらに規制するために、トレーニング中に再構築ネットワークと再計画ネットワークの両方を共同で学習する。
光輸送変調ブロックのセットは、2つの共同訓練ネットワークをマルチスケールで変調するために使用される。
大規模受動的NLOSデータセットの大規模な実験により,提案手法の優位性を実証した。
コードはhttps://github.com/JerryOctopus/NLOS-LTMで公開されている。
Passive non-line-of-sight (NLOS) imaging has witnessed rapid development in recent years, due to its ability to image objects that are out of sight. The light transport condition plays an important role in this task since changing the conditions will lead to different imaging models. Existing learning-based NLOS methods usually train independent models for different light transport conditions, which is computationally inefficient and impairs the practicality of the models. In this work, we propose NLOS-LTM, a novel passive NLOS imaging method that effectively handles multiple light transport conditions with a single network. We achieve this by inferring a latent light transport representation from the projection image and using this representation to modulate the network that reconstructs the hidden image from the projection image. We train a light transport encoder together with a vector quantizer to obtain the light transport representation. To further regulate this representation, we jointly learn both the reconstruction network and the reprojection network during training. A set of light transport modulation blocks is used to modulate the two jointly trained networks in a multi-scale way. Extensive experiments on a large-scale passive NLOS dataset demonstrate the superiority of the proposed method. The code is available at https://github.com/JerryOctopus/NLOS-LTM. | 翻訳日:2024-03-27 22:13:20 公開日:2024-03-26 |
# パラメータ推論のためのLiイオン電池モデルのPINNサロゲート(第1報)単一粒子モデルの実装と多要素階層
PINN surrogate of Li-ion battery models for parameter inference. Part I: Implementation and multi-fidelity hierarchies for the single-particle model ( http://arxiv.org/abs/2312.17329v2 ) ライセンス: Link先を確認 | Malik Hassanaly, Peter J. Weddle, Ryan N. King, Subhayan De, Alireza Doostan, Corey R. Randall, Eric J. Dufek, Andrew M. Colclasure, Kandler Smith, | (参考訳) リチウムイオン電池の老朽化を考慮に入れたエネルギー貯蔵需要を計画し、最適化するためには、電池内部状態を正確にかつ迅速に診断する技術を開発する必要がある。
本研究では、単一粒子モデル(SPM)や擬似2Dモデル(P2D)といった物理ベースのLiイオン電池モデルを、物理インフォームドニューラルネットワーク(PINN)サロゲートに置き換えることで、電池の内部状態を決定するために必要な計算資源を削減することを目的とする。
サーロゲートモデルは、電圧応答からバッテリ内部パラメータを決定するために、ベイズ校正のような高スループット技術を作成する。
この原稿は、パラメータ推論のためのLiイオン電池モデルのPINNサロゲートを導入した2部シリーズの最初のものである。
この第1部では、SPMのPINNサロゲートを構築するための方法が提示される。
複数のニューラルネットを複数の物理損失フィデリティでトレーニングする多要素階層的トレーニングは、支配方程式残差のトレーニングのみにおいて、サロゲート精度を著しく向上させることを示す。
実装はコンパニオンリポジトリ(https://github.com/NREL/pinnstripes)で利用可能である。
SPMのPINNサロゲートの開発に使用される技術は、P2DバッテリモデルのためのPINNサロゲートのパートIIで拡張され、両方のサロゲートのベイズ校正能力を探索する。
To plan and optimize energy storage demands that account for Li-ion battery aging dynamics, techniques need to be developed to diagnose battery internal states accurately and rapidly. This study seeks to reduce the computational resources needed to determine a battery's internal states by replacing physics-based Li-ion battery models -- such as the single-particle model (SPM) and the pseudo-2D (P2D) model -- with a physics-informed neural network (PINN) surrogate. The surrogate model makes high-throughput techniques, such as Bayesian calibration, tractable to determine battery internal parameters from voltage responses. This manuscript is the first of a two-part series that introduces PINN surrogates of Li-ion battery models for parameter inference (i.e., state-of-health diagnostics). In this first part, a method is presented for constructing a PINN surrogate of the SPM. A multi-fidelity hierarchical training, where several neural nets are trained with multiple physics-loss fidelities is shown to significantly improve the surrogate accuracy when only training on the governing equation residuals. The implementation is made available in a companion repository (https://github.com/NREL/pinnstripes). The techniques used to develop a PINN surrogate of the SPM are extended in Part II for the PINN surrogate for the P2D battery model, and explore the Bayesian calibration capabilities of both surrogates. | 翻訳日:2024-03-27 22:13:20 公開日:2024-03-26 |
# パラメータ推論のためのLiイオン電池モデルのPINNサロゲート(第2報)擬似2Dモデルの正規化と応用
PINN surrogate of Li-ion battery models for parameter inference. Part II: Regularization and application of the pseudo-2D model ( http://arxiv.org/abs/2312.17336v2 ) ライセンス: Link先を確認 | Malik Hassanaly, Peter J. Weddle, Ryan N. King, Subhayan De, Alireza Doostan, Corey R. Randall, Eric J. Dufek, Andrew M. Colclasure, Kandler Smith, | (参考訳) ベイズパラメータ推論はLiイオン電池の診断を改善するのに有用であり、電池老化モデルを定式化するのに役立つ。
しかし、計算集約であり、複数のサイクル、複数の操作条件、あるいは複数の複製細胞に対して容易に繰り返すことはできない。
ベイズ校正の計算コストを削減するため、物理学に基づくモデルの数値解法を高速な代用器に置き換えることができる。
擬似2D(P2D)バッテリモデルのキャリブレーションのサロゲートとして物理インフォームドニューラルネットワーク(PINN)を開発した。
P2Dサロゲートでは, PINN単粒子モデル (SPM) と比較して, パラメータ推定のためにPINN SPMとP2Dサロゲートモデルの両方を訓練し, 支配方程式の直接数値解から得られたデータと比較した。
パラメータ推論研究では、これらのPINNを使用してカソードLi拡散と陽極交換電流密度のスケーリングパラメータを校正する能力を強調している。
P2Dモデルの計算速度を標準積分法と比較して2250倍にすることで、PINNサロゲートは迅速な健康診断を可能にする。
低データの可用性シナリオでは、テスト誤差はSPMサロゲートで2mV、P2Dサロゲートで10mVと推定された。
Bayesian parameter inference is useful to improve Li-ion battery diagnostics and can help formulate battery aging models. However, it is computationally intensive and cannot be easily repeated for multiple cycles, multiple operating conditions, or multiple replicate cells. To reduce the computational cost of Bayesian calibration, numerical solvers for physics-based models can be replaced with faster surrogates. A physics-informed neural network (PINN) is developed as a surrogate for the pseudo-2D (P2D) battery model calibration. For the P2D surrogate, additional training regularization was needed as compared to the PINN single-particle model (SPM) developed in Part I. Both the PINN SPM and P2D surrogate models are exercised for parameter inference and compared to data obtained from a direct numerical solution of the governing equations. A parameter inference study highlights the ability to use these PINNs to calibrate scaling parameters for the cathode Li diffusion and the anode exchange current density. By realizing computational speed-ups of 2250x for the P2D model, as compared to using standard integrating methods, the PINN surrogates enable rapid state-of-health diagnostics. In the low-data availability scenario, the testing error was estimated to 2mV for the SPM surrogate and 10mV for the P2D surrogate which could be mitigated with additional data. | 翻訳日:2024-03-27 22:13:20 公開日:2024-03-26 |
# 多重量子メモリを用いた非同期量子リピータ
Asynchronous Quantum Repeater using Multiple Quantum Memory ( http://arxiv.org/abs/2401.05732v2 ) ライセンス: Link先を確認 | Chen-Long Li. Hua-Lei Yin, Zeng-Bing Chen, | (参考訳) 本格的な量子ネットワークは、量子リピータの助けを借りて、遠隔地間の絡み合ったリンクの形成に依存している。
有名なDuan-Lukin-Cirac-Zoller量子リピータプロトコルは、高位相安定性を必要とするだけでなく、最大絡み合った状態を生成することができない長距離単一光子干渉に基づいている。
本稿では,単一光子干渉プロトコルと同じ効率を保ち,位相安定性の要求を低減し,原理的に最大絡み合った状態を生成する,ポストマッチングの概念を用いた量子リピータプロトコルを提案する。
数値シミュレーションにより,本プロトコルは汎用雑音モデルに基づく既存のプロトコルと比較することにより,その優位性を示す。
我々の研究は、量子鍵分布と量子リピータの間の内部的な関係を明らかにし、これら2つのフィールドの開発に新たな洞察をもたらす。
私たちの研究は、完全に接続された量子ネットワークの構築に向けた重要な一歩だと信じています。
A full-fledged quantum network relies on the formation of entangled links between remote location with the help of quantum repeaters. The famous Duan-Lukin-Cirac-Zoller quantum repeater protocol is based on long distance single-photon interference, which not only requires high phase stability but also cannot generate maximally entangled state. Here, we propose a quantum repeater protocol using the idea of post-matching, which retains the same efficiency as the single-photon interference protocol, reduces the phase-stability requirement and can generate maximally entangled state in principle. Numerical simulations show that our protocol has its superiority by comparing with existing protocols under a generic noise model. Our work uncovers the internal connection between quantum key distribution and quantum repeater, which brings new insight to the development of these two fields. We believe our work represents a crucial step towards the construction of a fully-connected quantum network. | 翻訳日:2024-03-27 22:03:36 公開日:2024-03-26 |
# TRIPS: リアルタイムラジアンスフィールドレンダリングのためのトリリニアポイントスプラッティング
TRIPS: Trilinear Point Splatting for Real-Time Radiance Field Rendering ( http://arxiv.org/abs/2401.06003v2 ) ライセンス: Link先を確認 | Linus Franke, Darius Rückert, Laura Fink, Marc Stamminger, | (参考訳) 点ベースのラジアンス場レンダリングは、新しいビュー合成の印象的な結果を示し、レンダリング品質と計算効率の魅力的なブレンドを提供する。
しかし、この領域の最新のアプローチにも欠点がある。
3D Gaussian Splatting [Kerbl and Kopanas et al 2023]は、ぼやけや曇りのアーティファクトのために、非常に詳細なシーンをレンダリングする作業に苦労している。
一方、ADOP[R\"uckert et al 2022]はクリッパー画像に対応できるが、ニューラル再構成ネットワークは性能を低下させ、時間的不安定を伴い、ポイントクラウドにおける大きなギャップに効果的に対処できない。
本稿では,ガウス版とADOP版の両方のアイデアを組み合わせたTRIPS(Trilinear Point Splatting)を提案する。
我々の新しい技術の背後にある基本的な概念は、投影された点の大きさによって決定されるピラミッド層の選択によって、点をスクリーン空間の画像ピラミッドにラスタライズすることである。
このアプローチにより、任意の大きなポイントを1つのトリ線形書き込みを使ってレンダリングできる。
次に、軽量ニューラルネットワークを使用して、スプラッター解像度を超える詳細を含む、ホールフリーなイメージを再構築する。
重要なことは、レンダリングパイプラインは完全に微分可能であり、ポイントサイズと位置の両方の自動最適化を可能にします。
本評価は, リアルタイムフレームレートを60フレーム/秒に維持しつつ, レンダリング品質の観点から, TRIPSが既存の最先端手法を超越していることを示す。
このパフォーマンスは、複雑な幾何学、広大な風景、自動露光映像など、困難なシナリオにまで拡張されている。
プロジェクトページは以下の通り。
Point-based radiance field rendering has demonstrated impressive results for novel view synthesis, offering a compelling blend of rendering quality and computational efficiency. However, also latest approaches in this domain are not without their shortcomings. 3D Gaussian Splatting [Kerbl and Kopanas et al. 2023] struggles when tasked with rendering highly detailed scenes, due to blurring and cloudy artifacts. On the other hand, ADOP [R\"uckert et al. 2022] can accommodate crisper images, but the neural reconstruction network decreases performance, it grapples with temporal instability and it is unable to effectively address large gaps in the point cloud. In this paper, we present TRIPS (Trilinear Point Splatting), an approach that combines ideas from both Gaussian Splatting and ADOP. The fundamental concept behind our novel technique involves rasterizing points into a screen-space image pyramid, with the selection of the pyramid layer determined by the projected point size. This approach allows rendering arbitrarily large points using a single trilinear write. A lightweight neural network is then used to reconstruct a hole-free image including detail beyond splat resolution. Importantly, our render pipeline is entirely differentiable, allowing for automatic optimization of both point sizes and positions. Our evaluation demonstrate that TRIPS surpasses existing state-of-the-art methods in terms of rendering quality while maintaining a real-time frame rate of 60 frames per second on readily available hardware. This performance extends to challenging scenarios, such as scenes featuring intricate geometry, expansive landscapes, and auto-exposed footage. The project page is located at: https://lfranke.github.io/trips/ | 翻訳日:2024-03-27 22:03:36 公開日:2024-03-26 |
# 研究発見と要約のためのAIと生成AI
AI and Generative AI for Research Discovery and Summarization ( http://arxiv.org/abs/2401.06795v2 ) ライセンス: Link先を確認 | Mark Glickman, Yi Zhang, | (参考訳) AIと生成AIツール、例えばChatGPTのような大きな言語モデル(LLM)に依存しているチャットボットは、今年は急成長し、仕事の生産性を高め、生活を改善する素晴らしい機会を生み出している。
統計学者やデータサイエンティストは、テキストプロンプトからプログラムコードを生成してデータを分析したり、統計モデルに適合させるなど、さまざまな方法でこれらのツールの可用性から恩恵を受け始めている。
これらのツールが大きな影響を与えうる分野の1つは、研究の発見と要約である。
スタンドアロンのツールやチャットボットのプラグインが開発されており、研究者は2023年以前の検索ツールよりも、関連文献を素早く見つけることができる。
さらに、生成型AIツールは、簡潔な言語による研究論文からキーポイントを要約し抽出できる点まで改善されている。
最後に、高度にパラメータ化されたLLMに基づくチャットボットは、帰納的推論をシミュレートするために使用することができる。
我々は、研究発見と要約のためのAIと生成AIの開発をレビューし、統計学者やデータサイエンティストにとって興味のある将来に向けて、この種のツールが進む可能性が高い方向を提案する。
AI and generative AI tools, including chatbots like ChatGPT that rely on large language models (LLMs), have burst onto the scene this year, creating incredible opportunities to increase work productivity and improve our lives. Statisticians and data scientists have begun experiencing the benefits from the availability of these tools in numerous ways, such as the generation of programming code from text prompts to analyze data or fit statistical models. One area that these tools can make a substantial impact is in research discovery and summarization. Standalone tools and plugins to chatbots are being developed that allow researchers to more quickly find relevant literature than pre-2023 search tools. Furthermore, generative AI tools have improved to the point where they can summarize and extract the key points from research articles in succinct language. Finally, chatbots based on highly parameterized LLMs can be used to simulate abductive reasoning, which provides researchers the ability to make connections among related technical topics, which can also be used for research discovery. We review the developments in AI and generative AI for research discovery and summarization, and propose directions where these types of tools are likely to head in the future that may be of interest to statistician and data scientists. | 翻訳日:2024-03-27 22:03:36 公開日:2024-03-26 |
# モデルパラレルトレーニングにおけるアクティベーションとグラディエント圧縮
Activations and Gradients Compression for Model-Parallel Training ( http://arxiv.org/abs/2401.07788v2 ) ライセンス: Link先を確認 | Mikhail Rudakov, Aleksandr Beznosikov, Yaroslav Kholodov, Alexander Gasnikov, | (参考訳) 大規模なニューラルネットワークは巨大な計算クラスタを必要とする。
モデル並列トレーニング(Model-parallel training)は、モデルアーキテクチャがワーカ間で順次パーティショニングされる場合、モダンなモデルをトレーニングするための一般的なアプローチである。
情報圧縮は、労働者の通信時間を短縮するために適用することができる。
本研究は,モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響を考察する。
我々は量子化やTopK圧縮などの圧縮手法を解析し、誤り補償手法を実験する。
さらに,TopKとAQ-SGDをバッチ毎のエラーフィードバック手法として採用する。
画像分類と言語モデルの微調整に関する実験を行う。
以上の結果から, グラデーションはアクティベーションよりも軽度の圧縮速度を必要とすることが示唆された。
我々は、$K=10\%$が最小のTopK圧縮レベルであり、モデル収束を著しく損なうことはないと考えている。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
誤差フィードバック手法は, 平易な圧縮に比べてモデル並列訓練を改善せず, ほぼ品質低下のない圧縮のないモデル推論が可能となる。
最後に、AQ-SGDアプローチを適用すると、TopKが$K=30\%$よりも強くなると、モデル性能が大幅に低下する。
Large neural networks require enormous computational clusters of machines. Model-parallel training, when the model architecture is partitioned sequentially between workers, is a popular approach for training modern models. Information compression can be applied to decrease workers communication time, as it is often a bottleneck in such systems. This work explores how simultaneous compression of activations and gradients in model-parallel distributed training setup affects convergence. We analyze compression methods such as quantization and TopK compression, and also experiment with error compensation techniques. Moreover, we employ TopK with AQ-SGD per-batch error feedback approach. We conduct experiments on image classification and language model fine-tuning tasks. Our findings demonstrate that gradients require milder compression rates than activations. We observe that $K=10\%$ is the lowest TopK compression level, which does not harm model convergence severely. Experiments also show that models trained with TopK perform well only when compression is also applied during inference. We find that error feedback techniques do not improve model-parallel training compared to plain compression, but allow model inference without compression with almost no quality drop. Finally, when applied with the AQ-SGD approach, TopK stronger than with $ K=30\%$ worsens model performance significantly. | 翻訳日:2024-03-27 22:03:36 公開日:2024-03-26 |
# 機械学習のための分散最適化における最適データ分割
Optimal Data Splitting in Distributed Optimization for Machine Learning ( http://arxiv.org/abs/2401.07809v2 ) ライセンス: Link先を確認 | Daniil Medyakov, Gleb Molodtsov, Aleksandr Beznosikov, Alexander Gasnikov, | (参考訳) 分散最適化問題は近年ますます関連性が高まっている。
非分散メソッドと比較して、大量のデータを少ない時間で処理するなど、多くの利点があります。
しかしながら、ほとんどの分散アプローチは、通信コストという大きなボトルネックに悩まされています。
そのため,近年,この問題の解決に向けた研究が盛んに行われている。
そのようなアプローチの1つは、ローカルデータ類似性を使用する。
特に、類似性特性を最適に活用するアルゴリズムが存在する。
しかし、この結果と他の研究の結果は、通信がローカルコンピューティングよりもはるかに高価であり、ネットワークデバイスの様々な能力と通信時間とローカルコンピューティング費用の異なる関係を考慮していないという事実にのみ焦点をあてて、通信ボトルネックを解決する。
本研究の目的は,サーバとローカルマシン間の分散データの最適比を,通信やローカル計算のコストに対して達成することである。
ネットワークの実行時間は、一様分布と最適分布で比較される。
提案手法の優れた理論的性能を実験的に検証した。
The distributed optimization problem has become increasingly relevant recently. It has a lot of advantages such as processing a large amount of data in less time compared to non-distributed methods. However, most distributed approaches suffer from a significant bottleneck - the cost of communications. Therefore, a large amount of research has recently been directed at solving this problem. One such approach uses local data similarity. In particular, there exists an algorithm provably optimally exploiting the similarity property. But this result, as well as results from other works solve the communication bottleneck by focusing only on the fact that communication is significantly more expensive than local computing and does not take into account the various capacities of network devices and the different relationship between communication time and local computing expenses. We consider this setup and the objective of this study is to achieve an optimal ratio of distributed data between the server and local machines for any costs of communications and local computations. The running times of the network are compared between uniform and optimal distributions. The superior theoretical performance of our solutions is experimentally validated. | 翻訳日:2024-03-27 22:03:36 公開日:2024-03-26 |
# 散逸駆動量子ビットにおける非マルコビアン性の動的シグネチャ
Dynamical signatures of non-Markovianity in a dissipative-driven qubit ( http://arxiv.org/abs/2401.09298v2 ) ライセンス: Link先を確認 | Graziano Amati, | (参考訳) 散逸性ボゾン環境に結合した周期駆動量子ビットの力学における非マルコビアン性のシグネチャについて検討する。
我々は、数値的に正確な運動の階層方程式を統合することにより、量子ビットの密度行列の減少の力学を伝播する。
非マルコフ的特徴は、量子散逸に対する多様で相補的なアプローチからの予測を等しく基礎に比較することによって定量化される。
特に、量子状態の微分可能性、ヒルベルト空間上の量子ビットにアクセスできる体積の減衰、一般化リンドブラッド方程式における正準率の負性、中島-ズワンツィヒ一般化量子マスター方程式におけるメモリカーネルの緩和について分析する。
制御駆動がシステムのコヒーレントダイナミクスに及ぼす影響について検討する。
本研究では,時間的相関関数のエルゴード緩和を相殺し,時間的差分性を高め,正準散逸チャネルで観測される非マルコフ効果を強化することができることを示す。
さらに, 外部駆動の周波数を変調することにより, システムバス結合を十分に小さくする上での永遠的非マルコフ性現象について考察する。
本研究は、オープン量子力学と量子情報の枠組みにおける量子散逸の広範な理論的解析を提供する。
We investigate signatures of non-Markovianity in the dynamics of a periodically-driven qubit coupled to a dissipative bosonic environment. We propagate the dynamics of the reduced density matrix of the qubit by integrating the numerically exact hierarchical equations of motion. Non-Markovian features are quantified by comparing on an equal footing the predictions from diverse and complementary approaches to quantum dissipation. In particular, we analyze the distinguishability of quantum states, the decay of the volume accessible to the qubit on the Hilbert space, the negativity of the canonical rates in the generalized Lindblad equation and the relaxation of the memory kernels in the Nakajima--Zwanzig generalized quantum master equation. We study the effects of controlled driving on the coherent dynamics of the system. We show that a suitable external field can offset the ergodic relaxation of time correlation functions, increase distinguishability over time and strengthen non-Markovian effects witnessed by the canonical dissipation channels. We furthermore observe the phenomenon of eternal non-Markovianity for sufficiently small system-bath coupling and we discuss how this can be enhanced by modulating the frequency of the external drive. The present work provides a broad theoretical analysis of quantum dissipation in the framework of open quantum dynamics and quantum information. | 翻訳日:2024-03-27 22:03:36 公開日:2024-03-26 |
# スカラー量子電磁力学における絡み合いエントロピー
Entanglement Entropy in Scalar Quantum Electrodynamics ( http://arxiv.org/abs/2401.10332v3 ) ライセンス: Link先を確認 | Samuel Fedida, Anupam Mazumdar, Sougato Bose, Alessio Serafini, | (参考訳) スカラー量子力学における真空状態の部分領域の絡み合いエントロピーは、2ループレベルに摂動的に作用する。
そうすることで、円錐ユークリッド空間におけるマクスウェル・プロカプロパゲーターを導出する。
絡み合いエントロピーの領域法則は、予想通り、理論の質量と質量の無い限界の両方で回復される。
これらの結果から, エンタングルメントエントロピーの正規化群フローが得られ, ループ寄与はエンタングルメントエントロピーを抑制することがわかった。
これらの結果は、スカラー量子力学において増大するカップリングとコレレータの正規化群フローの光において強調され、時空の2点間の相関の増大と時空とエネルギーの2つの領域間の絡み合いエントロピーの減少の間の潜在的な緊張関係が議論される。
実際、時空の部分領域の真空はスカラー量子電磁力学においてエネルギーによって浄化されることが示され、これはスクリーニングの概念と関連している。
We find the entanglement entropy of a subregion of the vacuum state in scalar quantum electrodynamics, working perturbatively to the 2-loops level. Doing so leads us to derive the Maxwell-Proca propagator in conical Euclidean space. The area law of entanglement entropy is recovered in both the massive and massless limits of the theory, as is expected. These results yield the renormalisation group flow of entanglement entropy, and we find that loop contributions suppress entanglement entropy. We highlight these results in the light of the renormalization group flow of couplings and correlators, which are increased in scalar quantum electrodynamics, so that the potential tension between the increase in correlations between two points of spacetime and the decrease in entanglement entropy between two regions of spacetime with energy is discussed. We indeed show that the vacuum of a subregion of spacetime purifies with energy in scalar quantum electrodynamics, which is related to the concept of screening. | 翻訳日:2024-03-27 22:03:36 公開日:2024-03-26 |
# 生成コンテキストによるBlinded: オープンドメインQAのための生成コンテキストと検索コンテキストをマージする言語モデル
Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts for Open-Domain QA? ( http://arxiv.org/abs/2401.11911v4 ) ライセンス: Link先を確認 | Hexiang Tan, Fei Sun, Wanli Yang, Yuanzhuo Wang, Qi Cao, Xueqi Cheng, | (参考訳) 補助情報は、LLM(Large Language Models)の拡張の鍵となっているが、LLMがこれらのコンテキストをどのように統合するかについては、特にLLMが生成したコンテキストと外部ソースから取得したコンテキストについてはあまり知られていない。
そこで本研究では,LLMの応答が生成コンテキストと検索コンテキストの統合から導かれるのかを,生成コンテキストと検索コンテキストのいずれかに関連付けられているのかを判定する枠組みを定式化する。
応答の起源を容易に追跡するために,各質問は生成したコンテキストと検索したコンテキストの両方にペアリングされるが,その中の1つだけが正解である。
実験の結果,複数のLDM (GPT-4/3.5, Llama2) において, 誤った情報を提供する場合でも, 生成コンテキストを優先する有意なバイアスが認められた。
さらに、このバイアスに寄与する2つの重要な要因を特定します。
i) LLMが生成する文脈は,通常,質問とより類似し,選択される可能性を高める。
二 検索した文脈におけるセグメンテーションのプロセスは、その完全性を損なうため、LLMの完全利用を阻害する。
我々の分析は、LLMが様々な文脈を融合する方法の理解を深め、LLMの現在の拡張方法を進める上で貴重な洞察を提供する。
While auxiliary information has become a key to enhancing Large Language Models (LLMs), relatively little is known about how LLMs merge these contexts, specifically contexts generated by LLMs and those retrieved from external sources. To investigate this, we formulate a systematic framework to identify whether LLMs' responses, derived from the integration of generated and retrieved contexts, are attributed to either generated or retrieved contexts. To easily trace the origin of the response, we construct datasets with conflicting contexts, i.e., each question is paired with both generated and retrieved contexts, yet only one of them contains the correct answer. Our experiments reveal a significant bias in several LLMs (GPT-4/3.5 and Llama2) to favor generated contexts, even when they provide incorrect information. We further identify two key factors contributing to this bias: i) contexts generated by LLMs typically show greater similarity to the questions, increasing their likelihood of being selected; ii) the segmentation process used in retrieved contexts disrupts their completeness, thereby hindering their full utilization in LLMs. Our analysis enhances the understanding of how LLMs merge diverse contexts, offering valuable insights for advancing current augmentation methods for LLMs. | 翻訳日:2024-03-27 22:03:36 公開日:2024-03-26 |
# 敵対的攻撃下でのオープンリポジトリにおけるAIビジョンモデルの品質属性の分析
Analyzing the Quality Attributes of AI Vision Models in Open Repositories Under Adversarial Attacks ( http://arxiv.org/abs/2401.12261v2 ) ライセンス: Link先を確認 | Zerui Wang, Yan Liu, | (参考訳) AIモデルが急速に進化するにつれて、HuggingFaceのようなオープンリポジトリに頻繁にリリースされる。
製品開発ライフサイクルに組み込む前に、これらのモデルの品質保証検証を実行することが不可欠です。
バランスの取れた精度と計算コストの観点から効率を評価することに加えて、敵攻撃はAIモデルの堅牢性と説明可能性に対する潜在的な脅威である。
一方、XAIは、入力を近似したアルゴリズムをポストホック出力に適用し、貢献する特徴を特定する。
敵対的摂動は、さらなる調査を必要とするXAI説明の有用性を低下させる可能性がある。
本稿では、AIモデルの精度検証、ベンチマークの摂動による堅牢性の評価、説明ユーティリティの比較、オーバーヘッド評価など、下流評価タスクのための統合プロセスを提案する。
CNNベース,トランスフォーマーベース,ハイブリッドアーキテクチャ,3種類の摂動,5種類のXAI手法を含む6種類のコンピュータビジョンモデルによる評価シナリオを実証し,90種類の一意な組み合わせを得た。
このプロセスは, 対向的摂動に応答する鍵領域を同定し, XAI法における説明の有用性を明らかにする。
このプロセスは、各AIモデルの複数の属性を示す集約された結果を生成する。
As AI models rapidly evolve, they are frequently released to open repositories, such as HuggingFace. It is essential to perform quality assurance validation on these models before integrating them into the production development lifecycle. In addition to evaluating efficiency in terms of balanced accuracy and computing costs, adversarial attacks are potential threats to the robustness and explainability of AI models. Meanwhile, XAI applies algorithms that approximate inputs to outputs post-hoc to identify the contributing features. Adversarial perturbations may also degrade the utility of XAI explanations that require further investigation. In this paper, we present an integrated process designed for downstream evaluation tasks, including validating AI model accuracy, evaluating robustness with benchmark perturbations, comparing explanation utility, and assessing overhead. We demonstrate an evaluation scenario involving six computer vision models, which include CNN-based, Transformer-based, and hybrid architectures, three types of perturbations, and five XAI methods, resulting in ninety unique combinations. The process reveals the explanation utility among the XAI methods in terms of the identified key areas responding to the adversarial perturbation. The process produces aggregated results that illustrate multiple attributes of each AI model. | 翻訳日:2024-03-27 22:03:36 公開日:2024-03-26 |
# インスタンスレベルの背景知識を用いた制約付きk-Centerクラスタリングの近似アルゴリズム
Near-Optimal Algorithms for Constrained k-Center Clustering with Instance-level Background Knowledge ( http://arxiv.org/abs/2401.12533v2 ) ライセンス: Link先を確認 | Longkun Guo, Chaoqi Jia, Kewen Liao, Zhigang Lu, Minhui Xue, | (参考訳) センターベースのクラスタリングは理論と実践の両方から大きな研究の関心を集めている。
多くの実用的なアプリケーションにおいて、入力データには、クラスタリング結果を改善するために使用できる背景知識が含まれていることが多い。
本研究は、広く採用されている$k$-centerクラスタリングに基づいて、入力背景知識を must-link (ML) および cannot-link (CL) 制約セットとしてモデル化する。
しかし、$k$-centerを含むクラスタリング問題は本質的に$\mathcal{NP}$-hardであるのに対し、より複雑な制約のある変種は、それらの適用性を著しく制限する厳密な近似と計算障壁に悩まされることが知られている。
逆支配集合、線形プログラミング(LP)積分多面体、およびLP双対性を含む一連の手法を用いることで、制約付き$k$-centerの最適比が2。
また、競合するベースラインアルゴリズムを構築し、様々な実データに対して近似アルゴリズムを実証的に評価する。
その結果, クラスタリングコスト, クラスタリング品質, 実行時間の観点から, 提案アルゴリズムの優れた利点を実証した。
Center-based clustering has attracted significant research interest from both theory and practice. In many practical applications, input data often contain background knowledge that can be used to improve clustering results. In this work, we build on widely adopted $k$-center clustering and model its input background knowledge as must-link (ML) and cannot-link (CL) constraint sets. However, most clustering problems including $k$-center are inherently $\mathcal{NP}$-hard, while the more complex constrained variants are known to suffer severer approximation and computation barriers that significantly limit their applicability. By employing a suite of techniques including reverse dominating sets, linear programming (LP) integral polyhedron, and LP duality, we arrive at the first efficient approximation algorithm for constrained $k$-center with the best possible ratio of 2. We also construct competitive baseline algorithms and empirically evaluate our approximation algorithm against them on a variety of real datasets. The results validate our theoretical findings and demonstrate the great advantages of our algorithm in terms of clustering cost, clustering quality, and running time. | 翻訳日:2024-03-27 22:03:36 公開日:2024-03-26 |
# マルチエージェント強化学習における完全独立通信
Fully Independent Communication in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2401.15059v2 ) ライセンス: Link先を確認 | Rafael Pina, Varuna De Silva, Corentin Artaud, Xiaolan Liu, | (参考訳) MARL(Multi-Agent Reinforcement Learning)は、マルチエージェントシステム分野における幅広い研究領域である。
近年のいくつかの研究は、MARLにおける通信手法の研究に焦点をあてている。
複数の通信方式が提案されているが、これらは複雑すぎ、より実践的な文脈に容易に転送できない。
その原因の1つは、有名なパラメータ共有トリックの使用である。
本稿では,パラメータを共有しないMARLの独立学習者がいかにコミュニケーションできるかを検討する。
我々は,この設定がいくつかの問題を引き起こす可能性を実証し,新しい学習手法を解法として提案する。
この結果から, 独立エージェントは, 課題にも拘わらず, コミュニケーション戦略を学習できることが示唆された。
さらに,本手法を用いて,MARLにおける通信が,パラメータの共有と共有の両面で異なるネットワーク能力にどのように影響するかを検討する。
我々は,コミュニケーションが必ずしも必要ではない場合や,効率的な学習を実現するために,選択したエージェントネットワークサイズをコミュニケーションと併用する場合に考慮する必要があることを観察する。
Multi-Agent Reinforcement Learning (MARL) comprises a broad area of research within the field of multi-agent systems. Several recent works have focused specifically on the study of communication approaches in MARL. While multiple communication methods have been proposed, these might still be too complex and not easily transferable to more practical contexts. One of the reasons for that is due to the use of the famous parameter sharing trick. In this paper, we investigate how independent learners in MARL that do not share parameters can communicate. We demonstrate that this setting might incur into some problems, to which we propose a new learning scheme as a solution. Our results show that, despite the challenges, independent agents can still learn communication strategies following our method. Additionally, we use this method to investigate how communication in MARL is affected by different network capacities, both for sharing and not sharing parameters. We observe that communication may not always be needed and that the chosen agent network sizes need to be considered when used together with communication in order to achieve efficient learning. | 翻訳日:2024-03-27 22:03:36 公開日:2024-03-26 |
# ChIRAAG: ChatGPTインフォームド・ラピッド・オートマチック・アサーション・ジェネレーション
ChIRAAG: ChatGPT Informed Rapid and Automated Assertion Generation ( http://arxiv.org/abs/2402.00093v2 ) ライセンス: Link先を確認 | Bhabesh Mali, Karthik Maddala, Sweeya Reddy, Vatsal Gupta, Chandan Karfa, Ramesh Karri, | (参考訳) System Verilog Assertion (SVA) の定式化 - 批判的だが複雑なタスクは、形式的特性検証(FPV)プロセスの前提条件である。
伝統的に、SVAの定式化には専門家主導の仕様解釈が含まれる。
しかし, LLMによる自動アサーション生成が注目されている。
自然言語仕様からSVAアサーションを生成するために,OpenAI GPT4をベースとしたChIRAAGという新しいフレームワークを設計した。
ChIRAAGは、設計仕様を標準化されたフォーマットに体系的に分解し、LLMを使用してフォーマット化された仕様からアサーションを生成する。
さらに,LLM生成したアサーションを検証・検証するためのテストベンチを開発した。
シミュレーションツールからLLMへのログファイルの自動フィードバックにより、フレームワークが相関SVAを自動的に生成できることが保証される。
LLM生成した生のアサーションの33%に誤りがあった。
OpenTitanの設計結果から,LLMはアサーション生成プロセスにおいてエンジニアを合理化し,支援し,検証ワークフローを再構築できることが分かる。
System Verilog Assertion (SVA) formulation- a critical yet complex task is a prerequisite in the Formal Property Verification (FPV) process. Traditionally, SVA formulation involves expert-driven interpretation of specifications, which is timeconsuming and prone to human error. However, LLM-informed automatic assertion generation is gaining interest. We designeda novel framework called ChIRAAG, based on OpenAI GPT4, to generate SVA assertions from natural language specifications. ChIRAAG constitutes the systematic breakdown of design specifications into a standardized format, further generating assertions from formatted specifications using LLM. Furthermore, we developed testbenches to verify/validate the LLM-generated assertions. Automatic feedback of log files from the simulation tool to the LLM ensures that the framework can generate correc SVAs automatically. Only 33% of LLM-generated raw assertions had errors. Our results on OpenTitan designs shows that LLMs can streamline and assist engineers in the assertion generation process, reshaping verification workflows. | 翻訳日:2024-03-27 21:53:51 公開日:2024-03-26 |
# SGS-SLAM: 感性ガウススプラッティングによるニューラルディエンスSLAM
SGS-SLAM: Semantic Gaussian Splatting For Neural Dense SLAM ( http://arxiv.org/abs/2402.03246v5 ) ライセンス: Link先を確認 | Mingrui Li, Shuhong Liu, Heng Zhou, Guohao Zhu, Na Cheng, Tianchen Deng, Hongyu Wang, | (参考訳) SGS-SLAMはガウススプラッティングに基づく最初の意味的視覚的SLAMシステムである。
マルチチャネル最適化を通じて外観、幾何学、意味的特徴を取り入れ、高品質なレンダリング、シーン理解、オブジェクトレベルの幾何学において、神経暗黙のSLAMシステムの過度な制限に対処する。
オブジェクト最適化における従来の深度と色損失の欠点を効果的に補うユニークな意味的特徴損失を導入する。
意味誘導型キーフレーム選択戦略により,累積誤差による誤検出を防止する。
大規模な実験により、SGS-SLAMは、リアルタイムレンダリング機能を確保しながら、カメラポーズ推定、マップ再構成、正確なセマンティックセグメンテーション、およびオブジェクトレベルの幾何的精度で最先端のパフォーマンスを提供することが示された。
We present SGS-SLAM, the first semantic visual SLAM system based on Gaussian Splatting. It incorporates appearance, geometry, and semantic features through multi-channel optimization, addressing the oversmoothing limitations of neural implicit SLAM systems in high-quality rendering, scene understanding, and object-level geometry. We introduce a unique semantic feature loss that effectively compensates for the shortcomings of traditional depth and color losses in object optimization. Through a semantic-guided keyframe selection strategy, we prevent erroneous reconstructions caused by cumulative errors. Extensive experiments demonstrate that SGS-SLAM delivers state-of-the-art performance in camera pose estimation, map reconstruction, precise semantic segmentation, and object-level geometric accuracy, while ensuring real-time rendering capabilities. | 翻訳日:2024-03-27 21:53:51 公開日:2024-03-26 |
# 複素数値ニューラルネットワークと不規則分散マイクロホンを用いた室内伝達関数再構成
Room Transfer Function Reconstruction Using Complex-valued Neural Networks and Irregularly Distributed Microphones ( http://arxiv.org/abs/2402.04866v2 ) ライセンス: Link先を確認 | Francesca Ronchini, Luca Comanducci, Mirco Pezzoli, Fabio Antonacci, Augusto Sarti, | (参考訳) 室内の複雑な音場を計算するのに必要な室内伝達関数の再構成には、いくつかの不規則な実世界の応用がある。
しかし、非現実的な数のマイクロフォンがしばしば必要である。
近年, 従来の信号処理法に加えて, 室内の散乱点における非常に限られた測定結果から, 室内伝達関数を再構築する深層学習技術が適用されている。
本稿では,数個の不規則分散マイクロホンを用いて,第1室共振器の周波数範囲における室内伝達関数を推定するために,複素数値ニューラルネットワークを用いる。
私たちの知る限りでは、複雑な評価されたニューラルネットワークが部屋の移動関数を推定するために使用されるのは、これが初めてです。
複素値最適化の利点を考察するため,提案手法を現状のカーネルベース信号処理手法と比較し,提案手法が位相精度と全体の音場品質の面で有意な利点を示すことを示す。
情報的目的のために、このモデルと、同様に構造化されたデータ駆動型アプローチを比較し、実数値ニューラルネットワークを適用して、音場の大きさだけを再構成する。
Reconstructing the room transfer functions needed to calculate the complex sound field in a room has several impor- tant real-world applications. However, an unpractical number of microphones is often required. Recently, in addition to classical signal processing methods, deep learning techniques have been applied to reconstruct the room transfer function starting from a very limited set of measurements at scattered points in the room. In this paper, we employ complex-valued neural networks to estimate room transfer functions in the frequency range of the first room resonances, using a few irregularly distributed microphones. To the best of our knowledge, this is the first time that complex-valued neural networks are used to estimate room transfer functions. To analyze the benefits of applying complex- valued optimization to the considered task, we compare the proposed technique with a state-of-the-art kernel-based signal processing approach for sound field reconstruction, showing that the proposed technique exhibits relevant advantages in terms of phase accuracy and overall quality of the reconstructed sound field. For informative purposes, we also compare the model with a similarly-structured data-driven approach that, however, applies a real-valued neural network to reconstruct only the magnitude of the sound field. | 翻訳日:2024-03-27 21:53:51 公開日:2024-03-26 |
# 推論効率の良いLLMのためのタンデム変換器
Tandem Transformers for Inference Efficient LLMs ( http://arxiv.org/abs/2402.08644v3 ) ライセンス: Link先を確認 | Aishwarya P S, Pranav Ajit Nair, Yashas Samaga, Toby Boyd, Sanjiv Kumar, Prateek Jain, Praneeth Netrapalli, | (参考訳) 従来の大規模言語モデル(LLM)の自己回帰特性は、トークンが順次生成されるため、本質的に推論速度を制限する。
投機的および並列復号法は、これを緩和しようとするが、それらには制限がある: 生成のためにより少ない精度の小さなモデルに頼るか、基礎となるLCMの表現を完全に活用しないかである。
これらの問題に対処するために,新しいアーキテクチャであるタンデム変換器を導入する。
このアーキテクチャは、(1)小さな自己回帰モデル、(2)ブロックモードで動作する大きなモデル(複数のトークンを同時に処理する)を独自に組み合わせている。
小さなモデルの予測精度は、大きなモデルのリッチな表現に注意を向けることで大幅に向上する。
PaLM2事前トレーニングデータセットでは、PaLM2-BisonとPaLM2-GeckoのタンデムがスタンドアロンのPaLM2-Geckoよりも3.3%改善され、同等のダウンストリームパフォーマンスを持つPaLM2-Otterモデルと比較して1.16倍のスピードアップを提供する。
我々はさらに、大きなモデルが小さなモデルからのトークンを検証する投機的復号化(SPEED)フレームワークにタンデムモデルを組み込む。
これにより、PaLM2-BisonとPaLM2-Geckoのタンデムは、同一の下流タスク精度を維持しながら、相当なスピードアップ(SPEEDでバニラPaLM2-Geckoを使用するよりも約1.14倍高速)を達成する。
The autoregressive nature of conventional large language models (LLMs) inherently limits inference speed, as tokens are generated sequentially. While speculative and parallel decoding techniques attempt to mitigate this, they face limitations: either relying on less accurate smaller models for generation or failing to fully leverage the base LLM's representations. We introduce a novel architecture, Tandem transformers, to address these issues. This architecture uniquely combines (1) a small autoregressive model and (2) a large model operating in block mode (processing multiple tokens simultaneously). The small model's predictive accuracy is substantially enhanced by granting it attention to the large model's richer representations. On the PaLM2 pretraining dataset, a tandem of PaLM2-Bison and PaLM2-Gecko demonstrates a 3.3% improvement in next-token prediction accuracy over a standalone PaLM2-Gecko, offering a 1.16x speedup compared to a PaLM2-Otter model with comparable downstream performance. We further incorporate the tandem model within the speculative decoding (SPEED) framework where the large model validates tokens from the small model. This ensures that the Tandem of PaLM2-Bison and PaLM2-Gecko achieves substantial speedup (around 1.14x faster than using vanilla PaLM2-Gecko in SPEED) while maintaining identical downstream task accuracy. | 翻訳日:2024-03-27 21:53:51 公開日:2024-03-26 |
# 機械学習による大規模言語モデルに対する事前学習の影響の解明
Deciphering the Impact of Pretraining Data on Large Language Models through Machine Unlearning ( http://arxiv.org/abs/2402.11537v2 ) ライセンス: Link先を確認 | Yang Zhao, Li Du, Xiao Ding, Kai Xiong, Zhouhao Sun, Jun Shi, Ting Liu, Bing Qin, | (参考訳) 様々なソースを持つコーパスでの事前トレーニングを通じて、Large Language Models (LLMs) は印象的なパフォーマンスを得た。
しかし,プレトレーニングコーパスの各成分の影響はいまだに不透明である。
結果として、プレトレーニングコーパスの組織は、まだ経験的であり、最適から逸脱する可能性がある。
この問題に対処するために, LLMの事前学習データ5つの主要なカテゴリから48のデータセットが与える影響を系統的に分析し, モデル能力の9つの主要なカテゴリに関するベンチマークを用いてLLMへの影響を測定する。
本研究は, 複数コーパスがLLMの性能に与える影響と, 相補関係, 直交関係, 相関関係など, 共同的な影響パターンについて実験的に検討した。
また、モデル機能のセットに大きく関連しているBooksのような‘high-impact data’のセットも特定します。
これらの知見は、LLMのより効率的な事前トレーニングを支援するために、データの組織化に関する洞察を提供する。
Through pretraining on a corpus with various sources, Large Language Models (LLMs) have gained impressive performance. However, the impact of each component of the pretraining corpus remains opaque. As a result, the organization of the pretraining corpus is still empirical and may deviate from the optimal. To address this issue, we systematically analyze the impact of 48 datasets from 5 major categories of pretraining data of LLMs and measure their impacts on LLMs using benchmarks about nine major categories of model capabilities. Our analyses provide empirical results about the contribution of multiple corpora on the performances of LLMs, along with their joint impact patterns, including complementary, orthogonal, and correlational relationships. We also identify a set of ``high-impact data'' such as Books that is significantly related to a set of model capabilities. These findings provide insights into the organization of data to support more efficient pretraining of LLMs. | 翻訳日:2024-03-27 21:53:51 公開日:2024-03-26 |
# キャパシティとスケーラビリティを考慮した3次元形状生成のための自己回帰モデル
Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability ( http://arxiv.org/abs/2402.12225v2 ) ライセンス: Link先を確認 | Xuelin Qian, Yu Wang, Simian Luo, Yinda Zhang, Ying Tai, Zhenyu Zhang, Chengjie Wang, Xiangyang Xue, Bo Zhao, Tiejun Huang, Yunsheng Wu, Yanwei Fu, | (参考訳) 自己回帰モデルでは,格子空間の関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
本稿では, 自動回帰モデルを3次元領域に拡張し, キャパシティとスケーラビリティを同時に向上させることにより, 3次元形状生成の強力な能力を求める。
まず、利用可能な3Dデータセットのアンサンブルを活用して、大規模モデルのトレーニングを容易にする。
約90,000のオブジェクトからなる包括的なコレクションで構成され、メッシュ、ポイント、ボクセル、レンダリング画像、テキストキャプションの複数の特性を持つ。
この多彩なラベル付きデータセットは、Objaverse-Mixと呼ばれ、幅広いオブジェクトのバリエーションから学習するためのモデルを可能にします。
しかし、3次元自己回帰を直接適用することは、体積格子に対する高い計算要求とグリッド次元に沿ったあいまいな自己回帰順序という重要な課題に遭遇し、3次元形状の質は劣る。
この目的のために、キャパシティの観点から、新しいフレームワークArgus3Dを提示する。
具体的には,体積格子の代わりに潜在ベクトルに基づく離散表現学習を導入し,計算コストを削減できるだけでなく,よりトラクタブルな順序で関節分布を学習することで,重要な幾何学的詳細を保っている。
これにより、点雲、カテゴリ、画像、テキストなど、様々な条件入力を潜在ベクトルに簡単に結合することで、条件生成の能力を実現することができる。
さらに、モデルアーキテクチャの単純さのおかげで、我々は自然に36億のパラメータを持つ大きなモデルにアプローチを拡大し、多目的な3D生成の品質をさらに向上させます。
4つの世代タスクに関する大規模な実験により、Argus3Dは様々なカテゴリにまたがる多様で忠実な形状を合成でき、優れた性能を達成できることを示した。
Auto-regressive models have achieved impressive results in 2D image generation by modeling joint distributions in grid space. In this paper, we extend auto-regressive models to 3D domains, and seek a stronger ability of 3D shape generation by improving auto-regressive models at capacity and scalability simultaneously. Firstly, we leverage an ensemble of publicly available 3D datasets to facilitate the training of large-scale models. It consists of a comprehensive collection of approximately 900,000 objects, with multiple properties of meshes, points, voxels, rendered images, and text captions. This diverse labeled dataset, termed Objaverse-Mix, empowers our model to learn from a wide range of object variations. However, directly applying 3D auto-regression encounters critical challenges of high computational demands on volumetric grids and ambiguous auto-regressive order along grid dimensions, resulting in inferior quality of 3D shapes. To this end, we then present a novel framework Argus3D in terms of capacity. Concretely, our approach introduces discrete representation learning based on a latent vector instead of volumetric grids, which not only reduces computational costs but also preserves essential geometric details by learning the joint distributions in a more tractable order. The capacity of conditional generation can thus be realized by simply concatenating various conditioning inputs to the latent vector, such as point clouds, categories, images, and texts. In addition, thanks to the simplicity of our model architecture, we naturally scale up our approach to a larger model with an impressive 3.6 billion parameters, further enhancing the quality of versatile 3D generation. Extensive experiments on four generation tasks demonstrate that Argus3D can synthesize diverse and faithful shapes across multiple categories, achieving remarkable performance. | 翻訳日:2024-03-27 21:53:51 公開日:2024-03-26 |
# テンソル分解と多粒子純状態のLUおよびSLOCC等価性への応用
Tensor decompositions with applications to LU and SLOCC equivalence of multipartite pure states ( http://arxiv.org/abs/2402.12542v2 ) ライセンス: Link先を確認 | Luke Oeding, Ian Tan, | (参考訳) DeLathauwer, DeMoor and Vandewalle (2000) によって定義されるテンソルの高次特異値分解(HOSVD)が引き起こされる。
補題の類似の応用により、HOSVDの複素直交バージョンが見つかる。
Kraus' (2010) アルゴリズムは HOSVD を用いて、局所ユニタリ群の作用の下でほぼすべての$n$-qubit純状態の正規形式を計算した。
二重被覆 $\operatorname{SL}_2(\mathbb{C}) \times \operatorname{SL}_2(\mathbb{C}) \to \operatorname{SO}_4({\mathbb{C}})$ を利用して、SLOCC群の作用の下で、ほぼすべての$n$量子状態の正規形式を計算する類似のアルゴリズム($n$のパリティで区別される)を生成する。
We introduce a broad lemma, one consequence of which is the higher order singular value decomposition (HOSVD) of tensors defined by DeLathauwer, DeMoor and Vandewalle (2000). By an analogous application of the lemma, we find a complex orthogonal version of the HOSVD. Kraus' (2010) algorithm used the HOSVD to compute normal forms of almost all $n$-qubit pure states under the action of the local unitary group. Taking advantage of the double cover $\operatorname{SL}_2(\mathbb{C}) \times \operatorname{SL}_2(\mathbb{C}) \to \operatorname{SO}_4({\mathbb{C}})$, we produce similar algorithms (distinguished by the parity of $n$) that compute normal forms for almost all $n$-qubit pure states under the action of the SLOCC group. | 翻訳日:2024-03-27 21:53:51 公開日:2024-03-26 |
# LocalTweets to LocalHealth:Twitterのデータに基づくメンタルヘルス監視フレームワーク
LocalTweets to LocalHealth: A Mental Health Surveillance Framework Based on Twitter Data ( http://arxiv.org/abs/2402.13452v2 ) ライセンス: Link先を確認 | Vijeta Deshpande, Minhwa Lee, Zonghai Yao, Zihao Zhang, Jason Brian Gibbons, Hong Yu, | (参考訳) Twitter(現在のX)のデータに関する以前の研究は、補充型健康監視システムの開発において、その有用性に肯定的な証拠を与えている。
本研究では,精神保健(MH)の結果に着目し,公衆衛生を調査するための新たな枠組みを提案する。
ローカルに投稿されたツイートは、ローカルなMHの結果を示すものだと仮定し、米国の765の地区(センサスブロックグループ)から投稿されたツイートを収集する。
これらのツイートとCDC(Center for Disease Control)が報告したMH結果とを組み合わせ、ベンチマークデータセットであるLocalTweetsを作成します。
LocalTweetsでは、TwitterベースのMH監視システムにおいて、初めて人口レベルの評価タスクを提示する。
そこで我々は、LocalTweetsに基づくMH結果を予測するための効率的で効果的なLocalHealth法を開発した。
GPT3.5で使用する場合、LocalHealthは最高F1スコアと精度が0.7429と79.78\%に達し、GPT3.5よりも59.8%改善されている。
また、LocalHealthを用いてCDCの見積を外挿し、未報告の地区をプロキシし、F1スコアの0.7291を達成しています。
我々の研究は、Twitterのデータを効果的に活用して、近隣レベルのMH結果をシミュレートできることを示唆している。
Prior research on Twitter (now X) data has provided positive evidence of its utility in developing supplementary health surveillance systems. In this study, we present a new framework to surveil public health, focusing on mental health (MH) outcomes. We hypothesize that locally posted tweets are indicative of local MH outcomes and collect tweets posted from 765 neighborhoods (census block groups) in the USA. We pair these tweets from each neighborhood with the corresponding MH outcome reported by the Center for Disease Control (CDC) to create a benchmark dataset, LocalTweets. With LocalTweets, we present the first population-level evaluation task for Twitter-based MH surveillance systems. We then develop an efficient and effective method, LocalHealth, for predicting MH outcomes based on LocalTweets. When used with GPT3.5, LocalHealth achieves the highest F1-score and accuracy of 0.7429 and 79.78\%, respectively, a 59\% improvement in F1-score over the GPT3.5 in zero-shot setting. We also utilize LocalHealth to extrapolate CDC's estimates to proxy unreported neighborhoods, achieving an F1-score of 0.7291. Our work suggests that Twitter data can be effectively leveraged to simulate neighborhood-level MH outcomes. | 翻訳日:2024-03-27 21:53:51 公開日:2024-03-26 |
# 部分Whole-Hierarchy Message Passingによる3次元部品組み立て
Generative 3D Part Assembly via Part-Whole-Hierarchy Message Passing ( http://arxiv.org/abs/2402.17464v2 ) ライセンス: Link先を確認 | Bi'an Du, Xiang Gao, Wei Hu, Renjie Liao, | (参考訳) 生成3D部品の組み立ては、部品の関係を理解し、現実的な3D形状を組み立てるための6-DoFのポーズを予測する。
先行研究はしばしば個々の部分の幾何学に焦点を合わせ、対象の全体階層を無視している。
2つの重要な観察を活用。
1)スーパーパートポーズはパートポーズに関する強いヒントを与え、
2) より少ないスーパーパーツによりスーパーパーツのポーズを予測しやすく, 効率的な3次元部品組立のための部分階層型メッセージパッシングネットワークを提案する。
まず、意味ラベルを使わずに幾何学的に類似した部分をグループ化してスーパーパーツを導入する。
次に、部分全体階層エンコーダを用い、スーパーパートエンコーダは入力部分に基づいて潜在スーパーパートポーズを予測する。
その後、潜在ポーズを用いて点雲を変換し、超部分情報を集約する部分エンコーダに供給し、部分関係を推論して全ての部分ポーズを予測する。
練習では、地道な部分のみのポーズが求められる。
推論中、予測された超部分の潜在ポーズは解釈可能性を高める。
PartNetデータセットを用いた実験結果から,本手法は部分的および接続精度が向上し,解釈可能な階層的部品の組み立てが可能となった。
Generative 3D part assembly involves understanding part relationships and predicting their 6-DoF poses for assembling a realistic 3D shape. Prior work often focus on the geometry of individual parts, neglecting part-whole hierarchies of objects. Leveraging two key observations: 1) super-part poses provide strong hints about part poses, and 2) predicting super-part poses is easier due to fewer superparts, we propose a part-whole-hierarchy message passing network for efficient 3D part assembly. We first introduce super-parts by grouping geometrically similar parts without any semantic labels. Then we employ a part-whole hierarchical encoder, wherein a super-part encoder predicts latent super-part poses based on input parts. Subsequently, we transform the point cloud using the latent poses, feeding it to the part encoder for aggregating super-part information and reasoning about part relationships to predict all part poses. In training, only ground-truth part poses are required. During inference, the predicted latent poses of super-parts enhance interpretability. Experimental results on the PartNet dataset show that our method achieves state-of-the-art performance in part and connectivity accuracy and enables an interpretable hierarchical part assembly. | 翻訳日:2024-03-27 21:44:06 公開日:2024-03-26 |
# VRP-SAM:ビジュアルリファレンスプロンプト付きSAM
VRP-SAM: SAM with Visual Reference Prompt ( http://arxiv.org/abs/2402.17726v2 ) ライセンス: Link先を確認 | Yanpeng Sun, Jiahui Chen, Shan Zhang, Xinyu Zhang, Qiang Chen, Gang Zhang, Errui Ding, Jingdong Wang, Zechao Li, | (参考訳) 本稿では,Segment Anything Model (SAM) を利用した新しいVisual Reference Prompt (VRP) エンコーダを提案し,注釈付き参照画像をセグメンテーションのプロンプトとして利用し,VRP-SAMモデルを作成する。
本質的には、VRP-SAMは注釈付き参照画像を使用して特定のオブジェクトを理解し、ターゲット画像内の特定のオブジェクトのセグメンテーションを実行することができる。
注意すべき点は、VRPエンコーダが参照画像のさまざまなアノテーションフォーマットをサポートできることである。例えば、 \textbf{point}、 \textbf{box}、 \textbf{scribble}、 \textbf{mask} である。
VRP-SAMはSAMフレームワーク内で、SAM固有の強みを保ちながら、その汎用性と適用性を拡張し、ユーザフレンドリ性を高めることでブレークスルーを達成する。
VRP-SAMの一般化能力を高めるために、VRPエンコーダはメタラーニング戦略を採用する。
筆者らは,VRP-SAMの有効性を検証するために,PascalおよびCOCOデータセットについて広範な実験を行った。
注目すべきは、VRP-SAMは、最小限の学習可能なパラメータを持つ視覚参照セグメンテーションにおいて最先端のパフォーマンスを達成したことである。
さらに、VRP-SAMは強力な一般化機能を示し、見えないオブジェクトのセグメンテーションを実行し、クロスドメインセグメンテーションを可能にする。
ソースコードとモデルは \url{https://github.com/syp2ysy/VRP-SAM} で入手できる。
In this paper, we propose a novel Visual Reference Prompt (VRP) encoder that empowers the Segment Anything Model (SAM) to utilize annotated reference images as prompts for segmentation, creating the VRP-SAM model. In essence, VRP-SAM can utilize annotated reference images to comprehend specific objects and perform segmentation of specific objects in target image. It is note that the VRP encoder can support a variety of annotation formats for reference images, including \textbf{point}, \textbf{box}, \textbf{scribble}, and \textbf{mask}. VRP-SAM achieves a breakthrough within the SAM framework by extending its versatility and applicability while preserving SAM's inherent strengths, thus enhancing user-friendliness. To enhance the generalization ability of VRP-SAM, the VRP encoder adopts a meta-learning strategy. To validate the effectiveness of VRP-SAM, we conducted extensive empirical studies on the Pascal and COCO datasets. Remarkably, VRP-SAM achieved state-of-the-art performance in visual reference segmentation with minimal learnable parameters. Furthermore, VRP-SAM demonstrates strong generalization capabilities, allowing it to perform segmentation of unseen objects and enabling cross-domain segmentation. The source code and models will be available at \url{https://github.com/syp2ysy/VRP-SAM} | 翻訳日:2024-03-27 21:44:06 公開日:2024-03-26 |
# オンライン適応型ブレンド遅延拡散モデルによる産業欠陥生成の新しいアプローチ
A Novel Approach to Industrial Defect Generation through Blended Latent Diffusion Model with Online Adaptation ( http://arxiv.org/abs/2402.19330v2 ) ライセンス: Link先を確認 | Hanxi Li, Zhengxun Zhang, Hao Chen, Lin Wu, Bo Li, Deyin Liu, Mingwen Wang, | (参考訳) 産業異常検出(AD)の課題に効果的に対処するためには、欠陥サンプルの十分な供給が必要である。
本稿では, 欠陥サンプルの増大とAD性能の向上を目的とした新しいアルゴリズムを提案する。
提案手法は, 混合潜時拡散モデルを用いて, 潜時空間における潜時拡散モデルを構築し, 拡散モデルを用いて潜時空間における潜時拡散モデルを生成する。
トリマップ"マスクとテキストプロンプトによって制御される機能編集プロセスは、生成されたサンプルを洗練する。
画像生成推論プロセスは、自由拡散段階、編集拡散段階、オンラインデコーダ適応段階の3段階に分けられる。
この高度な推論戦略は、パターンの多様性に富んだ高品質な合成欠陥サンプルを生成し、拡張トレーニングセットに基づいてAD精度を著しく向上させる。
具体的には、広く知られているMVTec ADデータセットに基づいて、提案手法は、ADの最先端(SOTA)パフォーマンスを、ADメトリクスAP、IAP、IAP90に対してそれぞれ1.5%、1.9%、および3.1%向上させる。
この作業の実装コードはGitHubリポジトリhttps://github.com/GrandpaXun242/AdaBLDM.gitで見ることができる。
Effectively addressing the challenge of industrial Anomaly Detection (AD) necessitates an ample supply of defective samples, a constraint often hindered by their scarcity in industrial contexts. This paper introduces a novel algorithm designed to augment defective samples, thereby enhancing AD performance. The proposed method tailors the blended latent diffusion model for defect sample generation, employing a diffusion model to generate defective samples in the latent space. A feature editing process, controlled by a ``trimap" mask and text prompts, refines the generated samples. The image generation inference process is structured into three stages: a free diffusion stage, an editing diffusion stage, and an online decoder adaptation stage. This sophisticated inference strategy yields high-quality synthetic defective samples with diverse pattern variations, leading to significantly improved AD accuracies based on the augmented training set. Specifically, on the widely recognized MVTec AD dataset, the proposed method elevates the state-of-the-art (SOTA) performance of AD with augmented data by 1.5%, 1.9%, and 3.1% for AD metrics AP, IAP, and IAP90, respectively. The implementation code of this work can be found at the GitHub repository https://github.com/GrandpaXun242/AdaBLDM.git | 翻訳日:2024-03-27 21:44:06 公開日:2024-03-26 |
# 高次注意グラフニューラルネットワークを用いた機能的脳ネットワーク解析によるマリファナ利用者のクレービングマップの同定
Identification of Craving Maps among Marijuana Users via the Analysis of Functional Brain Networks with High-Order Attention Graph Neural Networks ( http://arxiv.org/abs/2403.00033v4 ) ライセンス: Link先を確認 | Jun-En Ding, Shihao Yang, Anna Zilverstand, Feng Liu, | (参考訳) 大麻の過剰摂取は、かなりの心理的、社会的結果をもたらす可能性がある。
本研究では,マリファナ依存症分類のための高次グラフアテンションニューラルネットワーク(HOGANN)と,慢性マリファナ利用者の異常活動を示す局所脳ネットワーク群の解析を行った。
HOGANNは、長期記憶(LSTM)を用いて、静止状態の機能的磁気共鳴画像(rs-fMRI)から推定される動的内在性機能的脳ネットワークを統合して、時間的ネットワークのダイナミクスを捉える。
我々は、近隣ノード間の情報融合とメッセージパッシングに高次アテンションモジュールを使用し、ネットワークコミュニティ分析を強化した。
我々のモデルは2つの異なるデータコホートにまたがって検証され、ベンチマークアルゴリズムよりもかなり高い分類精度が得られる。
さらに,脳機能ネットワーク,特に背側注意および前頭前部ネットワークに悪影響を及ぼすと考えられる,持続的なマリファナ摂取の影響を受けやすいサブネットと認知領域を識別した。
興味深いことに、我々のモデルは長期間の依存を示すコホートにおいて優れた性能を示し、長大麻の使用が脳ネットワークにおいてより顕著な変化を引き起こすことを示唆している。
このモデルは脳地図を巧みに識別し、分析のために重要な脳領域を規定する。
The excessive consumption of marijuana can induce substantial psychological and social consequences. In this investigation, we propose an elucidative framework termed high-order graph attention neural networks (HOGANN) for the classification of Marijuana addiction, coupled with an analysis of localized brain network communities exhibiting abnormal activities among chronic marijuana users. HOGANN integrates dynamic intrinsic functional brain networks, estimated from resting-state functional magnetic resonance imaging (rs-fMRI), using long short-term memory (LSTM) to capture temporal network dynamics. We employ a high-order attention module for information fusion and message passing among neighboring nodes, enhancing the network community analysis. Our model is validated across two distinct data cohorts, yielding substantially higher classification accuracy than benchmark algorithms. Furthermore, we discern the most pertinent subnetworks and cognitive regions affected by persistent marijuana consumption, indicating adverse effects on functional brain networks, particularly within the dorsal attention and frontoparietal networks. Intriguingly, our model demonstrates superior performance in cohorts exhibiting prolonged dependence, implying that prolonged marijuana usage induces more pronounced alterations in brain networks. The model proficiently identifies craving brain maps, thereby delineating critical brain regions for analysis. | 翻訳日:2024-03-27 21:44:06 公開日:2024-03-26 |
# 量子ルービックキューブを用いたエネルギーレベル構造理解
Understanding Energy Level Structure Using Quantum Rubik's Cube ( http://arxiv.org/abs/2403.01195v3 ) ライセンス: Link先を確認 | Yu Wang, Maolin Bo, | (参考訳) この研究は、量子ルービックキューブ行列とベナルカザール・ベルネヴィグ・ヒューズモデルを組み合わせて、畳み込みの逆過程に基づく行列アルゴリズムを定義し、量子ルービックキューブ行列とハミルトン行列の式を構築する。
さらに、量子ルービックキューブ行列の操作をより明確にするために、ジョゼフス環を使ってルービックキューブ拡大の位相グラフを描く。
この記事では、量子ルービックキューブを用いて電子のエネルギー準位遷移を計算し、その演算が経路積分に対応することを示す。
バンド分散が得られる。
この研究は、ハミルトニアンを計算し、エネルギー準位構造を研究するための新しいアイデアと方法を提供する。
This study combines the quantum Rubik's Cube matrix with the Benalcazar Bernevig Hughes model, defines a matrix algorithm based on the reverse process of convolution, and constructs an expression for the quantum Rubik's Cube matrix and Hamiltonian. Furthermore, in order to make the operation of the quantum Rubik's Cube matrix clearer, we use a Josephus ring to draw a topological graph of the Rubik's Cube expansion. This article uses a quantum Rubik's Cube to calculate energy level transitions of electrons, and shows that its operation corresponds to path integration. The band dispersion is obtained. This work provides new ideas and methods for calculating Hamiltonians and studying energy level structure. | 翻訳日:2024-03-27 21:44:06 公開日:2024-03-26 |
# ニューラル信号を音声として復号する
Decode Neural signal as Speech ( http://arxiv.org/abs/2403.01748v2 ) ライセンス: Link先を確認 | Yiqian Yang, Yiqun Duan, Qiang Zhang, Renjing Xu, Hui Xiong, | (参考訳) 脳力学から言語を復号することは脳-コンピュータインタフェース(BCI)の領域において重要な方向であり、特に大規模言語モデルの急速な成長を考慮している。
電極移植手術を必要とする侵襲的信号と比較して、非侵襲的神経信号(eg EEG, MEG)は安全性と汎用性を考慮して注目を集めている。
しかし、この探検は3つの側面において不十分である。
1) 従来の手法は主に脳波に焦点を合わせていたが, 信号品質が向上したMEGでは, これまでのどの研究もこの問題に対処していない。
2 先行研究は、生成復号の際に「教師強制」を主に用いており、これは実用的でない。
3)先行研究は主に「BARTベース」ではなく「BARTベース」であり,他のシーケンスタスクにおいて優れた性能を発揮する。本稿では,教師の強制を伴わずにMEG信号から直接テキストを生成する「Whisper」モデルを初めて検討する。
我々のモデルは,2つの主要なデータセット (\textit{GWilliams} と \textit{Schoffelen} ) を事前学習することなく,60.30 と 52.89 の BLEU-1 スコアを得る。
本稿では,音声復号生成が神経復号処理にどのように作用するかを包括的に検討し,初期化の事前訓練,分割,拡張,スケーリング法則の訓練などを行う。
Decoding language from brain dynamics is an important open direction in the realm of brain-computer interface (BCI), especially considering the rapid growth of large language models. Compared to invasive-based signals which require electrode implantation surgery, non-invasive neural signals (e.g. EEG, MEG) have attracted increasing attention considering their safety and generality. However, the exploration is not adequate in three aspects: 1) previous methods mainly focus on EEG but none of the previous works address this problem on MEG with better signal quality; 2) prior works have predominantly used ``teacher-forcing" during generative decoding, which is impractical; 3) prior works are mostly ``BART-based" not fully auto-regressive, which performs better in other sequence tasks. In this paper, we explore the brain-to-text translation of MEG signals in a speech-decoding formation. Here we are the first to investigate a cross-attention-based ``whisper" model for generating text directly from MEG signals without teacher forcing. Our model achieves impressive BLEU-1 scores of 60.30 and 52.89 without pretraining \& teacher-forcing on two major datasets (\textit{GWilliams} and \textit{Schoffelen}). This paper conducts a comprehensive review to understand how speech decoding formation performs on the neural decoding tasks, including pretraining initialization, training \& evaluation set splitting, augmentation, and scaling law. | 翻訳日:2024-03-27 21:44:06 公開日:2024-03-26 |
# FENICE:自然言語推論とクレーム抽出に基づく要約のファクチュアリティ評価
FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction ( http://arxiv.org/abs/2403.02270v2 ) ライセンス: Link先を確認 | Alessandro Scirè, Karim Ghonim, Roberto Navigli, | (参考訳) テキスト要約の最近の進歩、特にLarge Language Models(LLMs)の出現は、顕著な性能を示している。
しかし、かなりの数の自動生成サマリーが幻覚などの事実上の矛盾を示すため、注目すべき課題が続いている。
この問題に対して,要約のための一貫性評価のための様々なアプローチが出現している。
しかし、これらの新しく導入されたメトリクスは、解釈可能性の欠如、短い文書要約(ニュース記事など)、特にLLMベースのメトリクスの計算不可能性など、いくつかの制限に直面している。
これらの欠点に対処するために、より解釈可能で効率的な事実指向メトリックである自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実の間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTの新たな最先端を定めている。
さらに、長文要約の人間のアノテーションプロセスを実行することにより、評価をより困難な設定に拡張する。
Recent advancements in text summarization, particularly with the advent of Large Language Models (LLMs), have shown remarkable performance. However, a notable challenge persists as a substantial number of automatically-generated summaries exhibit factual inconsistencies, such as hallucinations. In response to this issue, various approaches for the evaluation of consistency for summarization have emerged. Yet, these newly-introduced metrics face several limitations, including lack of interpretability, focus on short document summaries (e.g., news articles), and computational impracticality, especially for LLM-based metrics. To address these shortcomings, we propose Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction (FENICE), a more interpretable and efficient factuality-oriented metric. FENICE leverages an NLI-based alignment between information in the source document and a set of atomic facts, referred to as claims, extracted from the summary. Our metric sets a new state of the art on AGGREFACT, the de-facto benchmark for factuality evaluation. Moreover, we extend our evaluation to a more challenging setting by conducting a human annotation process of long-form summarization. | 翻訳日:2024-03-27 21:44:06 公開日:2024-03-26 |
# フィードバックによって安定化された強熱機械的騒音
Strong Thermomechanical Noise Squeezing Stabilized by Feedback ( http://arxiv.org/abs/2403.02328v3 ) ライセンス: Link先を確認 | Aida Mashaal, Lucio Stefan, Andrea Ranfagni, Letizia Catalini, Ilia Chernobrovkin, Thibault Capelle, Eric Langman, Albert Schliesser, | (参考訳) センサとして使用される高調波発振器の4次雑音をスクイーズすることで、特定の測定方式における感度を高めることができる。
標準的アプローチは、振動周波数のパラメトリック変調に基づいており、通常、少なくとも3dBのスクイーズに制限される。
しかし、これは反スキーズ二次体のさらなる安定化によって克服できる。
本稿では,高強度窒化ケイ素膜共振器に適用し,ナノグラム数が少なく,品質係数が108以上である。
ピエゾまたは容量パラメトリック変調を用いて性能をベンチマークする。
我々は,記録高17dBと21dBによる最大熱力学的スクイージングを観測し,デバイス設計に最小限の変更を加えることで,さらに大きな値を得ることができると主張している。
最後に、この手法と量子制限運動測定の組み合わせの完全な量子理論を提供し、量子スクイーズが適度な低温で達成可能であると結論付ける。
Squeezing the quadrature noise of a harmonic oscillator used as a sensor can enhance its sensitivity in certain measurment schemes. The canonical approach, based on parametric modulation of the oscillation frequency, is usually limited to a squeezing of at most 3 dB. However, this can be overcome by additional stabilization of the anti-squeezed quadrature. Here, we apply this approach to highly-stressed silicon nitride membrane resonators, with effective masses of the order few nanograms and quality factors routinely exceeding 108, which hold promise for sensing applications in both the classical and quantum regimes. We benchmark their performance using either piezo or capacitive parametric modulation. We observe maximum thermomechanical squeezing by record-high 17 dB and 21 dB, respectively, and we argue that even larger values can be attained with minimal changes to the device design. Finally, we provide a full quantum theory of a combination of this approach with quantum-limited motion measurement and conclude that quantum squeezing is attainable at moderate cryogenic temperatures. | 翻訳日:2024-03-27 21:44:06 公開日:2024-03-26 |
# HoloVIC:マルチセンサホログラフィーの大規模データセットとベンチマーク
HoloVIC: Large-scale Dataset and Benchmark for Multi-Sensor Holographic Intersection and Vehicle-Infrastructure Cooperative ( http://arxiv.org/abs/2403.02640v3 ) ライセンス: Link先を確認 | Cong Ma, Lei Qiao, Chengkai Zhu, Kai Liu, Zelong Kong, Qing Li, Xueqi Zhou, Yuheng Kan, Wei Wu, | (参考訳) 自動運転車(V2X)は、近年の自動運転分野における一般的な話題である。
自動車・インフラ協力(VIC)は重要な研究分野の一つとなっている。
盲点や閉塞などの交通条件の複雑化により、単視点路面検知システムの認識能力を著しく制限する。
路面認識の精度をさらに高め,車両側により良い情報を提供するため,本論文では,大規模多センサのホログラフィック車両・赤外線協調データセット(HoloVIC)を構築するために,様々なレイアウトのホログラフィック交差点を構築した。
私たちのデータセットには3種類のセンサー(Camera, Lidar, Fisheye)が含まれており、異なる交差点に基づいて4つのセンサーレイアウトが採用されています。
各交差点には、同期データをキャプチャする6-18センサーが装備されている。
自動運転車はこれらの交差点を通過してVICデータを収集する。
HoloVICには、さまざまなセンサーから100k以上の同期フレームが含まれている。
さらに、カメラ、フィッシュアイ、ライダーをベースとした3Dバウンディングボックスもアノテートしました。
また、異なるデバイスと連続したフレームに同じオブジェクトのIDを関連付けます。
本研究は,HoloVICに基づく4つの課題を定式化した。
これらのタスクのベンチマークも提供しています。
Vehicle-to-everything (V2X) is a popular topic in the field of Autonomous Driving in recent years. Vehicle-infrastructure cooperation (VIC) becomes one of the important research area. Due to the complexity of traffic conditions such as blind spots and occlusion, it greatly limits the perception capabilities of single-view roadside sensing systems. To further enhance the accuracy of roadside perception and provide better information to the vehicle side, in this paper, we constructed holographic intersections with various layouts to build a large-scale multi-sensor holographic vehicle-infrastructure cooperation dataset, called HoloVIC. Our dataset includes 3 different types of sensors (Camera, Lidar, Fisheye) and employs 4 sensor-layouts based on the different intersections. Each intersection is equipped with 6-18 sensors to capture synchronous data. While autonomous vehicles pass through these intersections for collecting VIC data. HoloVIC contains in total on 100k+ synchronous frames from different sensors. Additionally, we annotated 3D bounding boxes based on Camera, Fisheye, and Lidar. We also associate the IDs of the same objects across different devices and consecutive frames in sequence. Based on HoloVIC, we formulated four tasks to facilitate the development of related research. We also provide benchmarks for these tasks. | 翻訳日:2024-03-27 21:44:06 公開日:2024-03-26 |
# テキストベース画像編集における2つの帰納的逆推定法
Doubly Abductive Counterfactual Inference for Text-based Image Editing ( http://arxiv.org/abs/2403.02981v2 ) ライセンス: Link先を確認 | Xue Song, Jiequan Cui, Hanwang Zhang, Jingjing Chen, Richang Hong, Yu-Gang Jiang, | (参考訳) 本稿では,テキストベースの画像編集(TBIE)について,その要求に正確に対処するためのエレガントな定式化であるため,反実的推論により検討する。
定式化のレンズを通して、TBIEの要点は、既存の技術が編集性と忠実性の間の良好なトレードオフを達成できないことである。
そこで本稿では,DAC(Doubly Abductive Counterfactual Inference framework)を提案する。
まず、外因性変数をUNet LoRAとしてパラメータ化し、すべての画像の詳細をオークションでエンコードする。
第2に、テキストエンコーダLoRAによってパラメータ化された別の外因性変数を退避させ、これは、過度に適合した第1の退避による、失われた編集性を取り戻す。
後編集から前編集への視覚的移行を排他的にエンコードした第2の誘拐のおかげで、その反転 -- LoRAを減じる -- は事実上、前編集を後編集に戻し、編集を完了させる。
我々のDACは広範な実験を通じて、編集可能性と忠実さのトレードオフを実現している。
したがって, 付加, 削除, 操作, 交換, スタイルの移動, 顔の変化など, ユーザ編集の意図を幅広くサポートすることができ, 質的, 定量的評価の両面で広く検証されている。
コードはhttps://github.com/xuesong39/DACにある。
We study text-based image editing (TBIE) of a single image by counterfactual inference because it is an elegant formulation to precisely address the requirement: the edited image should retain the fidelity of the original one. Through the lens of the formulation, we find that the crux of TBIE is that existing techniques hardly achieve a good trade-off between editability and fidelity, mainly due to the overfitting of the single-image fine-tuning. To this end, we propose a Doubly Abductive Counterfactual inference framework (DAC). We first parameterize an exogenous variable as a UNet LoRA, whose abduction can encode all the image details. Second, we abduct another exogenous variable parameterized by a text encoder LoRA, which recovers the lost editability caused by the overfitted first abduction. Thanks to the second abduction, which exclusively encodes the visual transition from post-edit to pre-edit, its inversion -- subtracting the LoRA -- effectively reverts pre-edit back to post-edit, thereby accomplishing the edit. Through extensive experiments, our DAC achieves a good trade-off between editability and fidelity. Thus, we can support a wide spectrum of user editing intents, including addition, removal, manipulation, replacement, style transfer, and facial change, which are extensively validated in both qualitative and quantitative evaluations. Codes are in https://github.com/xuesong39/DAC. | 翻訳日:2024-03-27 21:44:06 公開日:2024-03-26 |
# 学習エージェントの不均一集団における道徳行動のダイナミクス
Dynamics of Moral Behavior in Heterogeneous Populations of Learning Agents ( http://arxiv.org/abs/2403.04202v3 ) ライセンス: Link先を確認 | Elizaveta Tennant, Stephen Hailes, Mirco Musolesi, | (参考訳) 安全とAIシステムの整合性に関する懸念が高まり、人工知能に道徳的能力を埋め込むことの重要性が浮かび上がっている。
有望な解決策は、経験から学ぶこと、すなわち強化学習を使うことである。
マルチエージェント(社会)環境では、個々の学習エージェント間の相互作用から複雑な集団レベルの現象が発生することがある。
既存の研究の多くは、独立した学習エージェントの相互作用を研究するために、シミュレーションされた社会的ジレンマ環境に依存している。
しかし、実際にはエージェントの社会で見られるであろう道徳的不均一性を無視する傾向がある。
例えば、異なる時点において、単一の学習エージェントは、連続主義者である相手(すなわち、時間とともに結果の最大化に気を配る)やノルムベース(すなわち、ここでは特定の規範に従うことに集中する)と対決することがある。
エージェントの共同開発が集団におけるそのような道徳的不均一性によってどの程度影響を受けるかはよく理解されていない。
本稿では,道徳的に異質な集団が社会的ジレンマ設定で相互作用する学習動態について考察する。
パートナー選択機構を備えた囚人のジレンマ環境を用いて,集団における多様な道徳的エージェントの出現が,個々のエージェントの学習行動や集団レベルの創発的成果にどの程度影響するかを検討する。
我々は,反社会的エージェントと反社会的エージェントの非自明な相互作用を数種類観察し,ある種の道徳的エージェントが,より協調的な行動に向けて利己的なエージェントを操ることができることを発見した。
Growing concerns about safety and alignment of AI systems highlight the importance of embedding moral capabilities in artificial agents. A promising solution is the use of learning from experience, i.e., Reinforcement Learning. In multi-agent (social) environments, complex population-level phenomena may emerge from interactions between individual learning agents. Many of the existing studies rely on simulated social dilemma environments to study the interactions of independent learning agents. However, they tend to ignore the moral heterogeneity that is likely to be present in societies of agents in practice. For example, at different points in time a single learning agent may face opponents who are consequentialist (i.e., caring about maximizing some outcome over time) or norm-based (i.e., focusing on conforming to a specific norm here and now). The extent to which agents' co-development may be impacted by such moral heterogeneity in populations is not well understood. In this paper, we present a study of the learning dynamics of morally heterogeneous populations interacting in a social dilemma setting. Using a Prisoner's Dilemma environment with a partner selection mechanism, we investigate the extent to which the prevalence of diverse moral agents in populations affects individual agents' learning behaviors and emergent population-level outcomes. We observe several types of non-trivial interactions between pro-social and anti-social agents, and find that certain classes of moral agents are able to steer selfish agents towards more cooperative behavior. | 翻訳日:2024-03-27 21:34:22 公開日:2024-03-26 |
# ObjectCompose: 対象と背景の組成変化に対するビジョンベースモデルのレジリエンスの評価
ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes ( http://arxiv.org/abs/2403.04701v3 ) ライセンス: Link先を確認 | Hashmat Shadab Malik, Muhammad Huzaifa, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan, | (参考訳) 最近のビジョンベースモデルの大規模マルチモーダルトレーニングとその一般化能力を考えると、彼らの堅牢性の範囲を理解することは、彼らの実世界展開に不可欠である。
本研究では,現状の視覚モデルによる多様な背景背景環境に対するレジリエンスを評価する。
多くのロバスト性評価手法は、オブジェクトの特性(視点、スケール、色)の変化を誘導する合成データセットや、実際の画像上の画像変換技術(逆転、一般的な腐敗)を導入し、分布の変化をシミュレートしている。
最近の研究は、大きな言語モデルと拡散モデルを活用して、背景の変化を発生させている。
しかしながら、これらのメソッドは変更を制御できないか、オブジェクトのセマンティクスを歪めているため、タスクには適さない。
一方,本手法では,オブジェクトの本来の意味や外観を保ちながら,多様なオブジェクト間変化を誘発することができる。
この目的を達成するために、テキスト・ツー・イメージ・トゥ・テキスト、画像・ツー・セグメンテーション・モデルの生成機能を活用し、オブジェクト・ツー・バックグラウンドの幅広い変化を自動的に生成する。
我々は,テキスト・ツー・イメージ・モデルのテキスト・プロンプトの変更や,テキスト・ツー・イメージ・モデルのテキスト・エンベッドを最適化することにより,自然な背景変化と敵対的背景変化を誘導する。
標準視覚データセット(ImageNet, COCO)の様々なバージョンを作成し、多様な背景と現実的な背景を画像に組み込んだり、背景に色、テクスチャ、敵対的な変化を導入したりします。
本研究では,視覚モデルが様々なタスクにまたがるオブジェクト・ツー・バックグラウンド・コンテキストの変動に対して頑健さを解析するための広範囲な実験を行った。
コード https://github.com/Muhammad-Huzaifaa/ObjectCompose.git
Given the large-scale multi-modal training of recent vision-based models and their generalization capabilities, understanding the extent of their robustness is critical for their real-world deployment. In this work, we evaluate the resilience of current vision-based models against diverse object-to-background context variations. The majority of robustness evaluation methods have introduced synthetic datasets to induce changes to object characteristics (viewpoints, scale, color) or utilized image transformation techniques (adversarial changes, common corruptions) on real images to simulate shifts in distributions. Recent works have explored leveraging large language models and diffusion models to generate changes in the background. However, these methods either lack in offering control over the changes to be made or distort the object semantics, making them unsuitable for the task. Our method, on the other hand, can induce diverse object-to-background changes while preserving the original semantics and appearance of the object. To achieve this goal, we harness the generative capabilities of text-to-image, image-to-text, and image-to-segment models to automatically generate a broad spectrum of object-to-background changes. We induce both natural and adversarial background changes by either modifying the textual prompts or optimizing the latents and textual embedding of text-to-image models. We produce various versions of standard vision datasets (ImageNet, COCO), incorporating either diverse and realistic backgrounds into the images or introducing color, texture, and adversarial changes in the background. We conduct extensive experiment to analyze the robustness of vision-based models against object-to-background context variations across diverse tasks. Code https://github.com/Muhammad-Huzaifaa/ObjectCompose.git | 翻訳日:2024-03-27 21:34:22 公開日:2024-03-26 |
# アンタングル表現による医学的音声症状の分類
Medical Speech Symptoms Classification via Disentangled Representation ( http://arxiv.org/abs/2403.05000v2 ) ライセンス: Link先を確認 | Jianzong Wang, Pengcheng Li, Xulong Zhang, Ning Cheng, Jing Xiao, | (参考訳) Intentは既存の作品における音声言語を理解するために定義されている。
医学的音声にかかわるテキストの特徴と音響的特徴には意図が含まれており,症状の診断に重要である。
本稿では,テキスト・音響データから意図と内容の表現を分離して分類するDRSCという医療用音声分類モデルを提案する。
テキスト領域とメル・スペクトログラム領域のインテント表現をインテントエンコーダを介して抽出し、2つの交換により再構成されたテキスト特徴とメル・スペクトログラム特徴を得る。
2つのドメインからの意図を共同表現に結合した後、統合意図表現は分類のための決定層に供給される。
実験の結果,25種類の医学症状の検出において平均95%の精度が得られた。
Intent is defined for understanding spoken language in existing works. Both textual features and acoustic features involved in medical speech contain intent, which is important for symptomatic diagnosis. In this paper, we propose a medical speech classification model named DRSC that automatically learns to disentangle intent and content representations from textual-acoustic data for classification. The intent representations of the text domain and the Mel-spectrogram domain are extracted via intent encoders, and then the reconstructed text feature and the Mel-spectrogram feature are obtained through two exchanges. After combining the intent from two domains into a joint representation, the integrated intent representation is fed into a decision layer for classification. Experimental results show that our model obtains an average accuracy rate of 95% in detecting 25 different medical symptoms. | 翻訳日:2024-03-27 21:34:22 公開日:2024-03-26 |
# 産業異常検出・セグメンテーションのためのテキスト誘導変分画像生成
Text-Guided Variational Image Generation for Industrial Anomaly Detection and Segmentation ( http://arxiv.org/abs/2403.06247v2 ) ライセンス: Link先を確認 | Mingyu Lee, Jongwon Choi, | (参考訳) 工業生産における異常検出のためのクリーンなデータ取得の課題に対して,テキスト誘導型変分画像生成手法を提案する。
本手法では,対象対象物に関するテキスト情報を用いて,入力画像に類似した非欠陥データ画像を生成する。
提案フレームワークは、生成した非欠陥画像が、テキストおよび画像に基づく知識から導出される予測分布と整合し、安定性と汎用性を確保する。
実験の結果,非欠陥データに限り,従来の手法を超越したアプローチの有効性が示された。
提案手法は,4つのベースラインモデルと3つの異なるデータセットの一般化テストによって検証される。
生成した画像を利用して異常検出モデルの有効性を高めるための追加分析を行う。
We propose a text-guided variational image generation method to address the challenge of getting clean data for anomaly detection in industrial manufacturing. Our method utilizes text information about the target object, learned from extensive text library documents, to generate non-defective data images resembling the input image. The proposed framework ensures that the generated non-defective images align with anticipated distributions derived from textual and image-based knowledge, ensuring stability and generality. Experimental results demonstrate the effectiveness of our approach, surpassing previous methods even with limited non-defective data. Our approach is validated through generalization tests across four baseline models and three distinct datasets. We present an additional analysis to enhance the effectiveness of anomaly detection models by utilizing the generated images. | 翻訳日:2024-03-27 21:34:22 公開日:2024-03-26 |
# 時間的整合性を伴う手術視への相対的単眼深度移動
Transferring Relative Monocular Depth to Surgical Vision with Temporal Consistency ( http://arxiv.org/abs/2403.06683v2 ) ライセンス: Link先を確認 | Charlie Budd, Tom Vercauteren, | (参考訳) 相対的な単分子深度は、1つの画像からシフトとスケールの深さを推定し、活発な研究トピックである。
大規模で多様なメタデータセットに基づいて訓練された最近のディープラーニングモデルは、自然画像の領域で優れたパフォーマンスを提供する。
しかし、内視鏡画像に真実の深さを与えるデータセットはほとんど存在せず、そのようなモデルをスクラッチからトレーニングすることは不可能である。
本研究は,これらのモデルの外科領域への移動について検討し,時間的整合性自己監督を用いて標準監督を改善するための効果的かつ簡便な方法を提案する。
時間的整合性は内視鏡の低データ状態に移行する際の教師付きトレーニング単独で有意に改善し,本課題の自己監督技術よりも優れていた。
さらに,本手法は内視鏡領域内から最先端の手法を大幅に上回ることを示す。
私たちはまた、コード、モデル、アンサンブルされたメタデータセット、Meta-MEDをリリースし、将来の作業のための強力なベンチマークを確立しました。
Relative monocular depth, inferring depth up to shift and scale from a single image, is an active research topic. Recent deep learning models, trained on large and varied meta-datasets, now provide excellent performance in the domain of natural images. However, few datasets exist which provide ground truth depth for endoscopic images, making training such models from scratch unfeasible. This work investigates the transfer of these models into the surgical domain, and presents an effective and simple way to improve on standard supervision through the use of temporal consistency self-supervision. We show temporal consistency significantly improves supervised training alone when transferring to the low-data regime of endoscopy, and outperforms the prevalent self-supervision technique for this task. In addition we show our method drastically outperforms the state-of-the-art method from within the domain of endoscopy. We also release our code, model and ensembled meta-dataset, Meta-MED, establishing a strong benchmark for future work. | 翻訳日:2024-03-27 21:34:22 公開日:2024-03-26 |
# FPT:高分解能医用画像分類におけるパラメータおよびメモリ効率の良い微細調整のための微細プロンプトチューニング
FPT: Fine-grained Prompt Tuning for Parameter and Memory Efficient Fine Tuning in High-resolution Medical Image Classification ( http://arxiv.org/abs/2403.07576v2 ) ライセンス: Link先を確認 | Yijin Huang, Pujin Cheng, Roger Tam, Xiaoying Tang, | (参考訳) パラメータ効率のよい微調整(PEFT)は、大規模事前学習モデル(LPM)全体を更新するコストを回避するために、事前学習されたモデルを下流タスクに転送するコスト効率のよい方法として提案されている。
本稿では,医用画像分類のための新しいPEFT法であるFPTについて述べる。
FPTは、特に高解像度のコンテキストにおいて、他のPEFT法と比較してメモリ消費を著しく削減する。
これを実現するために、まずLPMの重みを凍結し、学習可能な軽量サイドネットワークを構築する。
凍結したLPMは、高解像度画像を入力として精細な特徴を抽出し、一方、サイドネットワークは低解像度画像を供給してメモリ使用量を減らす。
サイドネットワークが事前学習した知識にアクセスできるようにするため、融合モジュールを介してLPMから情報を要約するきめ細かいプロンプトを導入する。
トレーニングコストとメモリ要件をさらに削減するために、重要なトークンの選択とプリロード技術が使用されている。
FPTは, サイズ, モダリティ, 複雑さの異なる4つの医療データセットで評価した。
実験の結果、FPTは学習可能なパラメータの1.8%と512 x 512の入力解像度を持つエンコーダViT-Bモデルのメモリコストの13%しか使用せず、LPM全体の微調整に匹敵する性能を示した。
Parameter-efficient fine-tuning (PEFT) is proposed as a cost-effective way to transfer pre-trained models to downstream tasks, avoiding the high cost of updating entire large-scale pre-trained models (LPMs). In this work, we present Fine-grained Prompt Tuning (FPT), a novel PEFT method for medical image classification. FPT significantly reduces memory consumption compared to other PEFT methods, especially in high-resolution contexts. To achieve this, we first freeze the weights of the LPM and construct a learnable lightweight side network. The frozen LPM takes high-resolution images as input to extract fine-grained features, while the side network is fed low-resolution images to reduce memory usage. To allow the side network to access pre-trained knowledge, we introduce fine-grained prompts that summarize information from the LPM through a fusion module. Important tokens selection and preloading techniques are employed to further reduce training cost and memory requirements. We evaluate FPT on four medical datasets with varying sizes, modalities, and complexities. Experimental results demonstrate that FPT achieves comparable performance to fine-tuning the entire LPM while using only 1.8% of the learnable parameters and 13% of the memory costs of an encoder ViT-B model with a 512 x 512 input resolution. | 翻訳日:2024-03-27 21:34:22 公開日:2024-03-26 |
# 病態検出のための病状記述の分解:多視点視覚言語事前学習フレームワーク
Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework ( http://arxiv.org/abs/2403.07636v2 ) ライセンス: Link先を確認 | Vu Minh Hieu Phan, Yutong Xie, Yuankai Qi, Lingqiao Liu, Liyang Liu, Bowen Zhang, Zhibin Liao, Qi Wu, Minh-Son To, Johan W. Verjans, | (参考訳) 医学的視覚言語事前訓練(VLP)は研究の最前線として現れており、問合せ画像と各疾患のテキスト記述を比較することで、ゼロショットの病理診断を可能にしている。
バイオメディカルテキストの複雑なセマンティクスのため、現在の方法では、医学的画像と、非構造化レポートの重要な病理学的所見の整合に苦慮している。
これにより、対象の疾患のテキスト表現と不一致が生じる。
本稿では,病態の視覚的発現に関する事前知識を活用し,疾患記述をその基本的側面に分解する新しいVLPフレームワークを提案する。
これは、大きな言語モデルと医療専門家に相談することで達成される。
Transformerモジュールを統合することで、入力画像と病気の多様な要素を整合させ、アスペクト中心の画像表現を生成する。
各側面からマッチングを統合することにより、画像とその関連疾患の適合性を改善する。
さらに、アスペクト指向の表現に乗じて、既知の疾患や未知の疾患を処理し、包括的検出の有効性を最適化したデュアルヘッドトランスフォーマーを提案する。
下流の7つのデータセットで実験を行い、最新の手法の精度を最大8.56%向上させ、17.0%に改善した。
私たちのコードはhttps://github.com/HieuPhan33/MAVLで公開されています。
Medical vision language pre-training (VLP) has emerged as a frontier of research, enabling zero-shot pathological recognition by comparing the query image with the textual descriptions for each disease. Due to the complex semantics of biomedical texts, current methods struggle to align medical images with key pathological findings in unstructured reports. This leads to the misalignment with the target disease's textual representation. In this paper, we introduce a novel VLP framework designed to dissect disease descriptions into their fundamental aspects, leveraging prior knowledge about the visual manifestations of pathologies. This is achieved by consulting a large language model and medical experts. Integrating a Transformer module, our approach aligns an input image with the diverse elements of a disease, generating aspect-centric image representations. By consolidating the matches from each aspect, we improve the compatibility between an image and its associated disease. Additionally, capitalizing on the aspect-oriented representations, we present a dual-head Transformer tailored to process known and unknown diseases, optimizing the comprehensive detection efficacy. Conducting experiments on seven downstream datasets, ours improves the accuracy of recent methods by up to 8.56% and 17.0% for seen and unseen categories, respectively. Our code is released at https://github.com/HieuPhan33/MAVL. | 翻訳日:2024-03-27 21:34:22 公開日:2024-03-26 |
# 衣服交換者再識別のためのアイデンティティ対応デュアル制約ネットワーク
Identity-aware Dual-constraint Network for Cloth-Changing Person Re-identification ( http://arxiv.org/abs/2403.08270v2 ) ライセンス: Link先を確認 | Peini Guo, Mengyuan Liu, Hong Liu, Ruijia Fan, Guoquan Wang, Bin He, | (参考訳) CC-ReID(CC-Changing Person Re-Identification)は、歩行者が着替えを行うより現実的な監視シナリオにおいて、対象者を正確に識別することを目的としている。
大きな進歩にもかかわらず、既存のCC-ReIDデータセットの限られた布質変化トレーニングサンプルは、モデルが布質非関連の特徴を適切に学習することを妨げている。
また、布地を常に重視し続けるための明示的な監督が欠如しているため、服のバリエーションの破壊により、既存の手法はいまだに妨げられている。
上記の課題を解決するために,CC-ReIDタスクに対してIDNet(ID-Aware Dual-Constraint Network)を提案する。
具体的には,テクスチャを保ちながら着色を豊かにすることで,よりリアルな着色サンプルを生成する布の多様性向上(CDA)を提案する。
さらに,マルチスケール制約ブロック (MCB) を設計し, きめ細かな識別関連特徴を抽出し, 布の無関係な知識を効果的に伝達する。
さらに,CAM(Counterfactual-Guided Attention Module)を提示し,チャネル次元と空間次元から布地関係の特徴を学習し,注意マップを監督してアイデンティティ関連領域の強調を行う。
最後に、セマンティックアライメント制約(SAC)は、高レベルの意味的特徴の相互作用を容易にするように設計されている。
4つのCC-ReIDデータセットの総合的な実験により、我々の手法は最先端のアプローチよりも優れていることが示された。
Cloth-Changing Person Re-Identification (CC-ReID) aims to accurately identify the target person in more realistic surveillance scenarios, where pedestrians usually change their clothing. Despite great progress, limited cloth-changing training samples in existing CC-ReID datasets still prevent the model from adequately learning cloth-irrelevant features. In addition, due to the absence of explicit supervision to keep the model constantly focused on cloth-irrelevant areas, existing methods are still hampered by the disruption of clothing variations. To solve the above issues, we propose an Identity-aware Dual-constraint Network (IDNet) for the CC-ReID task. Specifically, to help the model extract cloth-irrelevant clues, we propose a Clothes Diversity Augmentation (CDA), which generates more realistic cloth-changing samples by enriching the clothing color while preserving the texture. In addition, a Multi-scale Constraint Block (MCB) is designed, which extracts fine-grained identity-related features and effectively transfers cloth-irrelevant knowledge. Moreover, a Counterfactual-guided Attention Module (CAM) is presented, which learns cloth-irrelevant features from channel and space dimensions and utilizes the counterfactual intervention for supervising the attention map to highlight identity-related regions. Finally, a Semantic Alignment Constraint (SAC) is designed to facilitate high-level semantic feature interaction. Comprehensive experiments on four CC-ReID datasets indicate that our method outperforms prior state-of-the-art approaches. | 翻訳日:2024-03-27 21:34:22 公開日:2024-03-26 |
# 高度特殊化言語モデルを用いたテキスト, コード, 数学の同時習得
Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models ( http://arxiv.org/abs/2403.08281v4 ) ライセンス: Link先を確認 | Ning Ding, Yulin Chen, Ganqu Cui, Xingtai Lv, Weilin Zhao, Ruobing Xie, Bowen Zhou, Zhiyuan Liu, Maosong Sun, | (参考訳) 自然言語、プログラミングコード、数学的記号のデータ分布は様々であり、大きな言語モデル(LLM)が3つのドメインすべてに対して同時に高いパフォーマンスを達成するための複雑な課題を提示する。
特定のドメイン内のLLMの非常に高い習熟度を達成するには、しばしば関連するコーパスによる広範囲なトレーニングが必要であり、これは通常、他のドメインのパフォーマンスの犠牲を伴う。
本稿では,すでに高度に特殊化されているモデルを融合する手法を提案する。
提案されているハウジングフレームワークであるUltraFuserは、すでに言語、コーディング、数学について十分に訓練されている3つの異なるスペシャリストで構成されている。
専門家の出力をブレンドするためにトークンレベルのゲーティング機構が導入された。
バランスの取れたサンプリングを伴う2段階のトレーニング戦略は、安定性を確保するために設計されている。
融合モデルを効果的に訓練するために,テキスト,コード,数学的内容を含む高品質な教師ありチューニングデータセットであるUltraChat 2を構築した。
このデータセットはおよそ30万の命令で構成され、各ドメインの幅広いトピックをカバーする。
実験により、我々のモデルは3つの重要な領域の習得を同時に達成できることが示された。
Underlying data distributions of natural language, programming code, and mathematical symbols vary vastly, presenting a complex challenge for large language models (LLMs) that strive to achieve high performance across all three domains simultaneously. Achieving a very high level of proficiency for an LLM within a specific domain often requires extensive training with relevant corpora, which is typically accompanied by a sacrifice in performance in other domains. In this paper, we propose to fuse models that are already highly-specialized directly. The proposed fusing framework, UltraFuser, consists of three distinct specialists that are already sufficiently trained on language, coding, and mathematics. A token-level gating mechanism is introduced to blend the specialists' outputs. A two-stage training strategy accompanied by balanced sampling is designed to ensure stability. To effectively train the fused model, we further construct a high-quality supervised instruction tuning dataset, UltraChat 2, which includes text, code, and mathematical content. This dataset comprises approximately 300,000 instructions and covers a wide range of topics in each domain. Experiments show that our model could simultaneously achieve mastery of the three crucial domains. | 翻訳日:2024-03-27 21:34:22 公開日:2024-03-26 |
# クラウド経由のGoverning:AI規制におけるコンピュータプロバイダの役割
Governing Through the Cloud: The Intermediary Role of Compute Providers in AI Regulation ( http://arxiv.org/abs/2403.08501v2 ) ライセンス: Link先を確認 | Lennart Heim, Tim Fist, Janet Egan, Sihao Huang, Stephen Zekany, Robert Trager, Michael A Osborne, Noa Zilberman, | (参考訳) 世界中の司法機関が、EU AI ActやUS Executive Order 14110など、最も強力なAIシステムを規制するための第一歩を踏み出す中で、コンプライアンスの検証と違反への対応を可能にする効果的な執行メカニズムの必要性が高まっている。
計算プロバイダは、セキュアなインフラストラクチャの提供と、AI規制の仲介を行うために、AI開発とデプロイメントに関連する法的義務と倫理的責任を持つべきだ、と私たちは主張する。
コンピュータプロバイダーは、セキュリティ者として、AIシステムとクリティカルインフラストラクチャを保護し、記録保持者として、政策立案者に対する可視性を高め、顧客活動の検証として、監視を確実にし、執行機関として、規則違反に対して行動する4つの重要な能力を通じて、規制エコシステムにおいて重要な役割を果たすことができる。
本研究では,これらの機能を対象的かつプライバシを重視した方法で実行可能にする技術的実現可能性を分析し,さまざまな技術機器を提示する。
特に、計算プロバイダがすでにアクセスしている機密情報によって、計算ワークロードの2つの重要なガバナンス関連特性 – タイプ-eg、大規模トレーニング、推論 – と、消費した計算量 – を提供する方法について説明する。
AIエグゼクティブオーダー14110をケーススタディとして、我々は、米国がコンピュータプロバイダのレコード保持要件の実装を開始した経緯を概説する。
また、包括的なAI計算監視スキームを確立するために、検証と執行の役割をどのように追加できるかについても検討する。
我々は、国際化が効果的な実装の鍵であり、AI規制における計算プロバイダーの役割が拡大するにつれて、機密性とプライバシとリスク軽減とのバランスをとるという重要な課題を強調します。
As jurisdictions around the world take their first steps toward regulating the most powerful AI systems, such as the EU AI Act and the US Executive Order 14110, there is a growing need for effective enforcement mechanisms that can verify compliance and respond to violations. We argue that compute providers should have legal obligations and ethical responsibilities associated with AI development and deployment, both to provide secure infrastructure and to serve as intermediaries for AI regulation. Compute providers can play an essential role in a regulatory ecosystem via four key capacities: as securers, safeguarding AI systems and critical infrastructure; as record keepers, enhancing visibility for policymakers; as verifiers of customer activities, ensuring oversight; and as enforcers, taking actions against rule violations. We analyze the technical feasibility of performing these functions in a targeted and privacy-conscious manner and present a range of technical instruments. In particular, we describe how non-confidential information, to which compute providers largely already have access, can provide two key governance-relevant properties of a computational workload: its type-e.g., large-scale training or inference-and the amount of compute it has consumed. Using AI Executive Order 14110 as a case study, we outline how the US is beginning to implement record keeping requirements for compute providers. We also explore how verification and enforcement roles could be added to establish a comprehensive AI compute oversight scheme. We argue that internationalization will be key to effective implementation, and highlight the critical challenge of balancing confidentiality and privacy with risk mitigation as the role of compute providers in AI regulation expands. | 翻訳日:2024-03-27 21:34:22 公開日:2024-03-26 |
# HIMap: エンドツーエンドのベクトル化HDマップ構築のためのHybrId表現学習
HIMap: HybrId Representation Learning for End-to-end Vectorized HD Map Construction ( http://arxiv.org/abs/2403.08639v2 ) ライセンス: Link先を確認 | Yi Zhou, Hui Zhang, Jiaqian Yu, Yifan Yang, Sangil Jung, Seung-In Park, ByungIn Yoo, | (参考訳) ベクトル化ハイディフィニション(HD)マップ構築は、地図要素(例えば、道路境界、車線分割、歩行者横断など)のカテゴリーと点座標の予測を必要とする。
State-of-the-art法は主に正確な点座標を回帰する点レベルの表現学習に基づいている。
しかし、このパイプラインは要素レベルの情報を取得し、要素間の誤った要素形状や絡み合いなど、要素レベルの障害を処理するのに制限がある。
以上の課題に対処するために,HIMap というシンプルなHybrId フレームワークを提案し,ポイントレベル情報と要素レベル情報の両方を十分に学習し,相互作用させる。
具体的には、すべての地図要素を表現するためにHIQueryと呼ばれるハイブリッド表現を導入し、要素のハイブリッド情報を対話的に抽出し、egポイント位置と要素形状をHIQueryにエンコードするポイント要素インターセプタを提案する。
さらに,ポイントレベルの情報と要素レベルの情報の整合性を高めるために,ポイント要素の整合性制約を提案する。
最後に、出力ポイント要素統合HIQueryは、マップ要素のクラス、ポイント座標、マスクに直接変換できる。
我々は、大規模な実験を行い、nuScenesとArgoverse2データセットの両方で、従来手法より一貫して優れています。
特に,本手法は, nuScenesデータセット上で77.8ドルmAPを達成し, 従来のSOTAよりも少なくとも8.3ドルmAPの方がはるかに優れている。
Vectorized High-Definition (HD) map construction requires predictions of the category and point coordinates of map elements (e.g. road boundary, lane divider, pedestrian crossing, etc.). State-of-the-art methods are mainly based on point-level representation learning for regressing accurate point coordinates. However, this pipeline has limitations in obtaining element-level information and handling element-level failures, e.g. erroneous element shape or entanglement between elements. To tackle the above issues, we propose a simple yet effective HybrId framework named HIMap to sufficiently learn and interact both point-level and element-level information. Concretely, we introduce a hybrid representation called HIQuery to represent all map elements, and propose a point-element interactor to interactively extract and encode the hybrid information of elements, e.g. point position and element shape, into the HIQuery. Additionally, we present a point-element consistency constraint to enhance the consistency between the point-level and element-level information. Finally, the output point-element integrated HIQuery can be directly converted into map elements' class, point coordinates, and mask. We conduct extensive experiments and consistently outperform previous methods on both nuScenes and Argoverse2 datasets. Notably, our method achieves $77.8$ mAP on the nuScenes dataset, remarkably superior to previous SOTAs by $8.3$ mAP at least. | 翻訳日:2024-03-27 21:34:22 公開日:2024-03-26 |
# 大規模言語モデルを継続的に事前学習するためのシンプルでスケーラブルな戦略
Simple and Scalable Strategies to Continually Pre-train Large Language Models ( http://arxiv.org/abs/2403.08763v3 ) ライセンス: Link先を確認 | Adam Ibrahim, Benjamin Thérien, Kshitij Gupta, Mats L. Richter, Quentin Anthony, Timothée Lesort, Eugene Belilovsky, Irina Rish, | (参考訳) 大規模言語モデル(LLM)は、数十億のトークンで定期的に事前訓練されるが、新しいデータが利用可能になると、プロセスを再開する。
より効率的な解決策は、これらのモデルを継続的に事前トレーニングし、再トレーニングよりもかなりの計算を節約することである。
しかし、新しいデータによって引き起こされる分布シフトは、通常、以前のデータの性能低下または新しいデータへの適応不良をもたらす。
本研究では,複数の言語モデル(LM)評価ベンチマークにおいて,学習率(LR)再ウォーミング,LR復調,過去のデータの再プレイの簡易かつスケーラブルな組み合わせが,すべての利用可能なデータに対してスクラッチから完全に再トレーニングする性能と,最終的な損失と平均スコアとを一致させるのに十分であることを示す。
具体的には,2つの LLM 事前学習データセット (英:$\rightarrow$ English) と,大規模データセットサイズ (数十億トークン) のパラメータモデルスケール (405$M) における強い分布シフト (英:$\rightarrow$German) との間に,弱いが現実的な分布シフトを示す。
大規模実験において,弱いが現実的なシフトを選択することで,連続学習戦略が10BパラメータLLMの再学習ベースラインと一致していることが分かる。
この結果から,LLMは単純かつスケーラブルな連続学習戦略により,計算のごく一部で再学習ベースラインに適合することを示す。
最後に,従来の研究に触発されて,LR再ウォーミングによる忘れを回避し,固定トークン予算に縛られないコサイン学習率スケジュールの代替案を提案する。
Large language models (LLMs) are routinely pre-trained on billions of tokens, only to start the process over again once new data becomes available. A much more efficient solution is to continually pre-train these models, saving significant compute compared to re-training. However, the distribution shift induced by new data typically results in degraded performance on previous data or poor adaptation to the new data. In this work, we show that a simple and scalable combination of learning rate (LR) re-warming, LR re-decaying, and replay of previous data is sufficient to match the performance of fully re-training from scratch on all available data, as measured by the final loss and the average score on several language model (LM) evaluation benchmarks. Specifically, we show this for a weak but realistic distribution shift between two commonly used LLM pre-training datasets (English$\rightarrow$English) and a stronger distribution shift (English$\rightarrow$German) at the $405$M parameter model scale with large dataset sizes (hundreds of billions of tokens). Selecting the weak but realistic shift for larger-scale experiments, we also find that our continual learning strategies match the re-training baseline for a 10B parameter LLM. Our results demonstrate that LLMs can be successfully updated via simple and scalable continual learning strategies, matching the re-training baseline using only a fraction of the compute. Finally, inspired by previous work, we propose alternatives to the cosine learning rate schedule that help circumvent forgetting induced by LR re-warming and that are not bound to a fixed token budget. | 翻訳日:2024-03-27 21:34:22 公開日:2024-03-26 |
# 近隣住民からの宝の借用--モダリティとデータスカシティを欠いたマルチモーダルラーニングのためのインテクストラーニング
Borrowing Treasures from Neighbors: In-Context Learning for Multimodal Learning with Missing Modalities and Data Scarcity ( http://arxiv.org/abs/2403.09428v2 ) ライセンス: Link先を確認 | Zhuo Zhi, Ziquan Liu, Moe Elbadawi, Adam Daneshmend, Mine Orlu, Abdul Basit, Andreas Demosthenous, Miguel Rodrigues, | (参考訳) モダリティの欠如を伴うマルチモーダル機械学習は、医療などの様々な応用において、ますます関連する課題となっている。
本報告では, ダウンストリームタスクには, モダリティの欠落とサンプルサイズの問題の両方がある。
この問題設定は、フルモダリティデータと十分なアノテートされたトレーニングサンプルを取得するのにしばしばコストがかかるため、特に困難で実用的でもある。
本稿では,この2つの重要な問題に対して,変換器のテキスト内学習能力の可能性を解き放つことにより,検索強化型インコンテキスト学習を提案する。
パラメトリックパラダイムに主に属し,十分なトレーニングサンプルを必要とする既存の手法から逸脱した当社の作業は,利用可能なフルモダリティデータの価値を活用し,課題を解決するための新たな視点を提供する。
提案したデータ依存フレームワークは,より高いサンプル効率を示し,様々なマルチモーダル学習タスクにおいて,低データ体系における全モードデータと欠落モードデータの両方において,分類モデルの性能を向上させることを実証的に実証している。
トレーニングデータの1%しか利用できない場合、提案手法は、様々なデータセットや欠落状態に対する最近の強いベースラインよりも平均6.1%改善されていることを示す。
また,本手法は,ベースラインと比較して,完全モダリティと欠落モダリティの差を小さくする。
Multimodal machine learning with missing modalities is an increasingly relevant challenge arising in various applications such as healthcare. This paper extends the current research into missing modalities to the low-data regime, i.e., a downstream task has both missing modalities and limited sample size issues. This problem setting is particularly challenging and also practical as it is often expensive to get full-modality data and sufficient annotated training samples. We propose to use retrieval-augmented in-context learning to address these two crucial issues by unleashing the potential of a transformer's in-context learning ability. Diverging from existing methods, which primarily belong to the parametric paradigm and often require sufficient training samples, our work exploits the value of the available full-modality data, offering a novel perspective on resolving the challenge. The proposed data-dependent framework exhibits a higher degree of sample efficiency and is empirically demonstrated to enhance the classification model's performance on both full- and missing-modality data in the low-data regime across various multimodal learning tasks. When only 1% of the training data are available, our proposed method demonstrates an average improvement of 6.1% over a recent strong baseline across various datasets and missing states. Notably, our method also reduces the performance gap between full-modality and missing-modality data compared with the baseline. | 翻訳日:2024-03-27 21:34:22 公開日:2024-03-26 |
# プロンプトバイアスの注意! ファクチュアル知識抽出におけるプロンプトバイアスの調査と緩和
Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction ( http://arxiv.org/abs/2403.09963v2 ) ライセンス: Link先を確認 | Ziyang Xu, Keqin Peng, Liang Ding, Dacheng Tao, Xiliang Lu, | (参考訳) 近年の研究では、事前学習言語モデル(PLM)は、事実知識抽出において「急激なバイアス」、すなわち特定のラベルに対するバイアスをもたらす傾向があることが示されている。
プロンプトバイアスは、PLM内の事実知識を評価する上で重要な課題である。
そこで本論文は,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
以下に示す。
1) 実験のすべてのプロンプトは無視できないバイアスを示し、AutoPromptやOptiPromptのような勾配に基づくプロンプトは、はるかに高いバイアスを示す。
2) プロンプトバイアスは、テストデータセット、特にLAMAのような不均衡なデータセットに過度に適合させることで、ベンチマークの精度を不合理に増幅することができる。
これらの知見に基づき,提案手法は推論時間における即時バイアスを軽減するための表現に基づく手法を提案する。
具体的には、まずプロンプトのみのクエリを用いてバイアス表現を推定し、それからモデルの内部表現からデバイアス表現を除去し、最終的なデバイアス出力を生成する。
様々なプロンプト, PLM, ベンチマーク実験により, 本手法は, 即時バイアスによる過度な性能の補正だけでなく, 即時検索能力(絶対性能の10%まで)を大幅に改善できることを示した。
これらの結果から,本手法は知識評価における迅速なバイアスを効果的に軽減し,ベンチマーク評価の信頼性を高めることが示唆された。
私たちのプラグイン・アンド・プレイアプローチは、信頼できる知識ベースに向けてPLMを強化するための黄金の標準になり得ることを願っています。
コードとデータはhttps://github.com/FelliYang/PromptBias.comで公開されている。
Recent research shows that pre-trained language models (PLMs) suffer from "prompt bias" in factual knowledge extraction, i.e., prompts tend to introduce biases toward specific labels. Prompt bias presents a significant challenge in assessing the factual knowledge within PLMs. Therefore, this paper aims to improve the reliability of existing benchmarks by thoroughly investigating and mitigating prompt bias. We show that: 1) all prompts in the experiments exhibit non-negligible bias, with gradient-based prompts like AutoPrompt and OptiPrompt displaying significantly higher levels of bias; 2) prompt bias can amplify benchmark accuracy unreasonably by overfitting the test datasets, especially on imbalanced datasets like LAMA. Based on these findings, we propose a representation-based approach to mitigate the prompt bias during inference time. Specifically, we first estimate the biased representation using prompt-only querying, and then remove it from the model's internal representations to generate the debiased representations, which are used to produce the final debiased outputs. Experiments across various prompts, PLMs, and benchmarks show that our approach can not only correct the overfitted performance caused by prompt bias, but also significantly improve the prompt retrieval capability (up to 10% absolute performance gain). These results indicate that our approach effectively alleviates prompt bias in knowledge evaluation, thereby enhancing the reliability of benchmark assessments. Hopefully, our plug-and-play approach can be a golden standard to strengthen PLMs toward reliable knowledge bases. Code and data are released in https://github.com/FelliYang/PromptBias. | 翻訳日:2024-03-27 21:24:38 公開日:2024-03-26 |
# 反発束縛対の非相互ダイナミクスと非エルミート皮膚効果
Non-reciprocal dynamics and non-Hermitian skin effect of repulsively bound pairs ( http://arxiv.org/abs/2403.10449v2 ) ライセンス: Link先を確認 | Pietro Brighi, Andreas Nunnenkamp, | (参考訳) 実環境に結合したBose-Hubbardモデルの力学について検討し,その非相互作用限界は,祝賀されたHatano-Nelsonモデルによって記述される。
強い相互作用において、同じ位置を占める2つのボソンは、反発結合対(repulsively bound pair)と呼ばれる二重結合を形成する。
テンソル-ネットワークシミュレーションを用いて、異なるダビロン光錐をはっきりと同定し、ダビロンが単一粒子の非相互性を引き継ぐことを示す。
貯水池工学のアイデアをダブルロンのレベルで適用し、新しい散逸器のセットを導入し、その場合、ダブルロン力学がハタノ・ネルソンモデルによって支配されていることを解析的に示す。
これにより、相互作用によって引き起こされる非エルミート皮膚効果と非相互二重運動がもたらされる。
これら2つのモデルの特徴を組み合わせることで, 単一粒子と二重粒子が反対方向に拡散できることが示され, 相互作用する非相互モデルにおける力学の研究に興味深い可能性が開けた。
We study the dynamics of a Bose-Hubbard model coupled to an engineered environment which in the non-interacting limit is described by the celebrated Hatano-Nelson model. At strong interactions, two bosons occupying the same site form a so-called repulsively bound pair, or doublon. Using tensor-network simulations, we clearly identify a distinct doublon lightcone and show that the doublon inherits non-reciprocity from that of single particles. Applying the idea of reservoir engineering at the level of doublons, we introduce a new set of dissipators and we analytically show that then the doublon dynamics are governed by the Hatano-Nelson model. This brings about an interaction-induced non-Hermitian skin effect and non-reciprocal doublon motion. Combining features of the two models we study, we show that single particles and doublons can be made to spread with opposite directionality, opening intriguing possibilities for the study of dynamics in interacting non-reciprocal models. | 翻訳日:2024-03-27 21:24:37 公開日:2024-03-26 |
# Lodge: 特徴的なダンスプリミティブによるロングダンス生成のための粗大な拡散ネットワーク
Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives ( http://arxiv.org/abs/2403.10518v2 ) ライセンス: Link先を確認 | Ronghui Li, YuXiang Zhang, Yachao Zhang, Hongwen Zhang, Jie Guo, Yan Zhang, Yebin Liu, Xiu Li, | (参考訳) 与えられた音楽に条件付けされた非常に長いダンスシーケンスを生成することができるネットワークであるLodgeを提案する。
そこで我々は,2つの拡散モデル間の中間表現として有意な表現性を持つ特徴的ダンスプリミティブを提案する。
第1段階はグローバル拡散であり、粗いレベルの音楽距離相関と生産特性のダンスプリミティブの理解に焦点を当てている。
対照的に第2段階は局所拡散であり、ダンスプリミティブや振付規則の指導の下で、詳細な動き列を並列に生成する。
さらに,足と地面の接触を最適化するフットリファインブロックを提案し,運動の物理的現実性を高める。
提案手法は,グローバルな振付パターンと局所的な動きの質,表現性とのバランスを保ちながら,非常に長いダンスシーケンスを並列に生成することができる。
大規模な実験により,本手法の有効性が検証された。
We propose Lodge, a network capable of generating extremely long dance sequences conditioned on given music. We design Lodge as a two-stage coarse to fine diffusion architecture, and propose the characteristic dance primitives that possess significant expressiveness as intermediate representations between two diffusion models. The first stage is global diffusion, which focuses on comprehending the coarse-level music-dance correlation and production characteristic dance primitives. In contrast, the second-stage is the local diffusion, which parallelly generates detailed motion sequences under the guidance of the dance primitives and choreographic rules. In addition, we propose a Foot Refine Block to optimize the contact between the feet and the ground, enhancing the physical realism of the motion. Our approach can parallelly generate dance sequences of extremely long length, striking a balance between global choreographic patterns and local motion quality and expressiveness. Extensive experiments validate the efficacy of our method. | 翻訳日:2024-03-27 21:24:37 公開日:2024-03-26 |
# SelfIE: 大規模言語モデル埋め込みの自己解釈
SelfIE: Self-Interpretation of Large Language Model Embeddings ( http://arxiv.org/abs/2403.10949v2 ) ライセンス: Link先を確認 | Haozhe Chen, Carl Vondrick, Chengzhi Mao, | (参考訳) 大規模言語モデル(LLM)はどのようにその答えを得るのか?
LLMの推論プロセスを説明し、制御する能力は、信頼性、透明性、将来のモデル開発の鍵となります。
本稿では,LLMが自然言語の埋め込みを解釈するためのフレームワークであるSelfIE(Self-Interpretation of Embeddings)を提案する。
隠された埋め込みにおいてオープンワールドの概念を解釈できるSelfIEは、倫理的判断、即時注入の内在化、有害な知識のリコールといったケースにおいて、LCMの内部理性を明らかにする。
隠れた埋め込みに関するSelfIEのテキスト記述は、LSM推論を制御するための新しい道を開く。
本稿では,各レイヤの勾配計算のみを必要としながら,オープンな概念を編集できるSupervised Controlを提案する。
我々は,LLHFを隠れ埋め込みに拡張し,LLMにおける有害な知識を監視対象なく消去する強化制御を提案する。
How do large language models (LLMs) obtain their answers? The ability to explain and control an LLM's reasoning process is key for reliability, transparency, and future model developments. We propose SelfIE (Self-Interpretation of Embeddings), a framework that enables LLMs to interpret their own embeddings in natural language by leveraging their ability to respond to inquiries about a given passage. Capable of interpreting open-world concepts in the hidden embeddings, SelfIE reveals LLM internal reasoning in cases such as making ethical decisions, internalizing prompt injection, and recalling harmful knowledge. SelfIE's text descriptions on hidden embeddings also open up new avenues to control LLM reasoning. We propose Supervised Control, which allows editing open-ended concepts while only requiring gradient computation of individual layer. We extend RLHF to hidden embeddings and propose Reinforcement Control that erases harmful knowledge in LLM without supervision targets. | 翻訳日:2024-03-27 21:24:37 公開日:2024-03-26 |
# 可視赤外人物再同定のための暗黙的識別的知識学習
Implicit Discriminative Knowledge Learning for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2403.11708v3 ) ライセンス: Link先を確認 | Kaijie Ren, Lei Zhang, | (参考訳) Visible-Infrared Person Re-identification (VI-ReID) は、クラス内における大きな変化と、異なるカメラ間での横断的不一致のため、横断的歩行者検索の課題である。
既存の研究は主に、異なるモダリティのイメージを統一された空間に埋め込み、モダリティの共有された特徴をマイニングすることに焦点を当てている。
それらは共有された特徴の中でのみ独特な情報を求める一方で、モダリティ固有の特徴に暗黙的なアイデンティティに気付く有用な情報を無視する。
この問題に対処するために,モダリティ特定に含まれる暗黙的な識別情報を発見・活用するために,新しいIDKL(Implicit Discriminative Knowledge Learning)ネットワークを提案する。
まず、新しいデュアルストリームネットワークを用いて、モダリティ固有およびモダリティ共有の特徴を抽出する。
そして, モダリティ特有の特徴は, 同一性を考慮した識別的知識を維持しながら, モダリティスタイルの相違を低減するために浄化される。
その後、この種の暗黙の知識は、その特異性を高めるために、モダリティ共有の特徴に蒸留される。
最後に、改良されたモダリティ共有特徴に対するモダリティの差を最小限に抑えるためにアライメント損失を提案する。
複数の公開データセットに対する大規模な実験は、最先端の手法よりもIDKLネットワークの方が優れていることを示す。
コードはhttps://github.com/1KK077/IDKLで入手できる。
Visible-Infrared Person Re-identification (VI-ReID) is a challenging cross-modal pedestrian retrieval task, due to significant intra-class variations and cross-modal discrepancies among different cameras. Existing works mainly focus on embedding images of different modalities into a unified space to mine modality-shared features. They only seek distinctive information within these shared features, while ignoring the identity-aware useful information that is implicit in the modality-specific features. To address this issue, we propose a novel Implicit Discriminative Knowledge Learning (IDKL) network to uncover and leverage the implicit discriminative information contained within the modality-specific. First, we extract modality-specific and modality-shared features using a novel dual-stream network. Then, the modality-specific features undergo purification to reduce their modality style discrepancies while preserving identity-aware discriminative knowledge. Subsequently, this kind of implicit knowledge is distilled into the modality-shared feature to enhance its distinctiveness. Finally, an alignment loss is proposed to minimize modality discrepancy on enhanced modality-shared features. Extensive experiments on multiple public datasets demonstrate the superiority of IDKL network over the state-of-the-art methods. Code is available at https://github.com/1KK077/IDKL. | 翻訳日:2024-03-27 21:24:37 公開日:2024-03-26 |
# 生成的知識抽出、グラフベース表現、マルチモーダル・インテリジェントグラフ推論による科学的発見の高速化
Accelerating Scientific Discovery with Generative Knowledge Extraction, Graph-Based Representation, and Multimodal Intelligent Graph Reasoning ( http://arxiv.org/abs/2403.11996v2 ) ライセンス: Link先を確認 | Markus J. Buehler, | (参考訳) 生成人工知能(AI)を活用して、1000の科学論文からなるデータセットをオントロジ知識グラフに変換する。
詳細な構造解析を通じて,ノード度を計算し,コミュニティとコネクティビティを同定し,中心ノードのクラスタリング係数と相互中心性を評価し,興味深い知識アーキテクチャを明らかにした。
このグラフは本質的にはスケールのない性質を持ち、高度に連結されており、推移的および同型性を利用してグラフ推論に使用することができる。
経路サンプリング戦略における組み合わせノード類似度ランキングのためのディープノード埋め込みを計算し、これまで関係のない異種概念をリンクする。
ある比較では、生体材料とベートーヴェンの第9交響曲の構造的類似が明らかとなり、同型写像による複雑さの共有パターンが強調された。
別の例として、アルゴリズムは、経路サンプリングとカンディンスキーの「コンポジションVII」の絵から抽出された原理を統合した階層的な菌糸体に基づく合成法を提案した。
得られた材料は、カオス/秩序のバランス、調整可能なポロシティ、機械的強度、複雑なパターン化された化学機能化を含む革新的な概念のセットを統合している。
我々は、科学、技術、芸術にまたがる他のアイソモーフィズムを発見し、構成員の文脈に依存したヘテロ構造的相互作用を明らかにする、無実のニュアンスなオントロジーを明らかにした。
グラフベースの生成AIは、従来のアプローチよりもはるかに高度な斬新さ、爆発能力、技術的詳細を実現し、隠れた接続を明らかにすることによって、イノベーションのための広く有用なフレームワークを確立する。
Leveraging generative Artificial Intelligence (AI), we have transformed a dataset comprising 1,000 scientific papers into an ontological knowledge graph. Through an in-depth structural analysis, we have calculated node degrees, identified communities and connectivities, and evaluated clustering coefficients and betweenness centrality of pivotal nodes, uncovering fascinating knowledge architectures. The graph has an inherently scale-free nature, is highly connected, and can be used for graph reasoning by taking advantage of transitive and isomorphic properties that reveal unprecedented interdisciplinary relationships that can be used to answer queries, identify gaps in knowledge, propose never-before-seen material designs, and predict material behaviors. We compute deep node embeddings for combinatorial node similarity ranking for use in a path sampling strategy links dissimilar concepts that have previously not been related. One comparison revealed structural parallels between biological materials and Beethoven's 9th Symphony, highlighting shared patterns of complexity through isomorphic mapping. In another example, the algorithm proposed a hierarchical mycelium-based composite based on integrating path sampling with principles extracted from Kandinsky's 'Composition VII' painting. The resulting material integrates an innovative set of concepts that include a balance of chaos/order, adjustable porosity, mechanical strength, and complex patterned chemical functionalization. We uncover other isomorphisms across science, technology and art, revealing a nuanced ontology of immanence that reveal a context-dependent heterarchical interplay of constituents. Graph-based generative AI achieves a far higher degree of novelty, explorative capacity, and technical detail, than conventional approaches and establishes a widely useful framework for innovation by revealing hidden connections. | 翻訳日:2024-03-27 21:24:37 公開日:2024-03-26 |
# CLASSLA-web: 言語とジェネリックアノテーションに富んだ南スラヴ語の比較可能なWebコーパス
CLASSLA-web: Comparable Web Corpora of South Slavic Languages Enriched with Linguistic and Genre Annotation ( http://arxiv.org/abs/2403.12721v2 ) ライセンス: Link先を確認 | Nikola Ljubešić, Taja Kuzman, | (参考訳) 本稿では,スロベニア語,クロアチア語,ボスニア語,モンテネグロ語,セルビア語,マケドニア語,ブルガリア語に匹敵するウェブコーパスのコレクションについて述べる。
これらのコーパスの収集には、合計で2600万件の文書から13億件のトークンが含まれている。
コーパスの互換性は、同等のクローリング設定と同一のクローリングおよび後処理技術の使用によって保証される。
全てのコーパスは、最先端のCLASSLA-Stanza言語処理パイプラインに言語的に注釈付けされ、トランスフォーマーベースの多言語X-GENRE分類器を介して文書レベルのジャンル情報に富んだ。
ジャンルに焦点を当てたコーパスの分析は、7つのコーパスを通して比較的一貫したジャンルの分布を示しており、最も顕著なジャンルカテゴリーのバリエーションは、各言語コミュニティの経済的強みによって明確に説明されている。
コーパスにおけるジャンルカテゴリーの分布の比較は, 先進国からのウェブコーパスは, 主にニュース記事から成り立っていることを示している。
逆に、経済的に先進国からのウェブコーパスは、宣伝文や意見文の存在感が高まり、ニュースコンテンツの割合が少なくなる。
This paper presents a collection of highly comparable web corpora of Slovenian, Croatian, Bosnian, Montenegrin, Serbian, Macedonian, and Bulgarian, covering thereby the whole spectrum of official languages in the South Slavic language space. The collection of these corpora comprises a total of 13 billion tokens of texts from 26 million documents. The comparability of the corpora is ensured by a comparable crawling setup and the usage of identical crawling and post-processing technology. All the corpora were linguistically annotated with the state-of-the-art CLASSLA-Stanza linguistic processing pipeline, and enriched with document-level genre information via the Transformer-based multilingual X-GENRE classifier, which further enhances comparability at the level of linguistic annotation and metadata enrichment. The genre-focused analysis of the resulting corpora shows a rather consistent distribution of genres throughout the seven corpora, with variations in the most prominent genre categories being well-explained by the economic strength of each language community. A comparison of the distribution of genre categories across the corpora indicates that web corpora from less developed countries primarily consist of news articles. Conversely, web corpora from economically more developed countries exhibit a smaller proportion of news content, with a greater presence of promotional and opinionated texts. | 翻訳日:2024-03-27 21:24:37 公開日:2024-03-26 |
# 顔表情認識のための注意融合型エモティックマスク付きオートエンコーダ
Emotic Masked Autoencoder with Attention Fusion for Facial Expression Recognition ( http://arxiv.org/abs/2403.13039v2 ) ライセンス: Link先を確認 | Bach Nguyen-Xuan, Thien Nguyen-Hoang, Nhu Tai-Do, | (参考訳) 表情認識(FER)はコンピュータビジョンにおける重要な課題であり、様々な領域にまたがる多様な応用がある。
表現認識モデルの一般化能力を損なうような限られたFERデータセットの課題に対処することは、性能向上に不可欠である。
本稿では,第6回Affective Behavior 32 Page harvmac で紹介されている MAE-Face Self-supervised Learning (SSL) 手法とFusion Attention 機構を統合した革新的なアプローチを提案する。
さらに,Aff-wild2データセットで顕著に示されたトレーニングセットと検証セットのモデル性能を向上させるために,重要な顔特徴を強調する前処理手法を提案する。
Facial Expression Recognition (FER) is a critical task within computer vision with diverse applications across various domains. Addressing the challenge of limited FER datasets, which hampers the generalization capability of expression recognition models, is imperative for enhancing performance. Our paper presents an innovative approach integrating the MAE-Face self-supervised learning (SSL) method and Fusion Attention mechanism for expression classification, particularly showcased in the 6th Affective Behavior 32 pages harvmac; added references for section 5Analysis in-the-wild (ABAW) competition. Additionally, we propose preprocessing techniques to emphasize essential facial features, thereby enhancing model performance on both training and validation sets, notably demonstrated on the Aff-wild2 dataset. | 翻訳日:2024-03-27 21:24:37 公開日:2024-03-26 |
# Hyacinth6B: 中国語の大規模言語モデル
Hyacinth6B: A large language model for Traditional Chinese ( http://arxiv.org/abs/2403.13334v2 ) ライセンス: Link先を確認 | Chih-Wei Song, Yin-Te Tsai, | (参考訳) 本研究の主な動機は、LLMに関連する高いハードウェアと計算要求に対処することであり、従来の目標は、比較的軽量なモデルを用いて性能を最大化することを目的として、モデル輝度と性能のバランスを見つけることである。
Hyacinth6B はこの目的を念頭に開発され、LLM のコア機能を完全に活用し、十分なリソースコストを発生させることなく、より小さなモデルの性能の境界を効果的に推し進めた。
トレーニング手法は、LoRA法を用いてパラメータ効率の良い微調整を行う。
This research's primary motivation of this study is to address the high hardware and computational demands typically associated with LLMs.Therefore,our goal is to find a balance between model lightness and performance,striving to maximize performance while using a comparatively lightweight model. Hyacinth6B was developed with this objective in mind,aiming to fully leverage the core capabilities of LLMs without incurring substantial resource costs, effectively pushing the boundaries of smaller model's performance. The training approach involves parameter efficient finetuning using the LoRA method. | 翻訳日:2024-03-27 21:24:37 公開日:2024-03-26 |
# データ不均一性を考慮したビザンチン耐性フェデレーション学習
Byzantine-resilient Federated Learning With Adaptivity to Data Heterogeneity ( http://arxiv.org/abs/2403.13374v2 ) ライセンス: Link先を確認 | Shiyuan Zuo, Xingrun Yan, Rongfei Fan, Han Hu, Hangguan Shan, Tony Q. S. Quek, | (参考訳) 本稿では、悪意のあるビザンツ人攻撃やデータ不均一性の存在下での連邦学習(FL)を扱う。
新しいロバスト平均勾配アルゴリズム (RAGA) が提案され、このアルゴリズムは幾何中央値を利用してアグリゲーションを行い、局所更新のためにラウンド番号を自由に選択できる。
強凸損失関数や均質分布データセットに基づく収束解析を行う既存のレジリエントアプローチとは異なり、強凸損失関数だけでなく、不均一なデータセット上の非凸損失関数に対しても収束解析を行う。
我々の理論分析によると、悪意のあるユーザーのデータセットの分数の半分以下である限り、RAGAは、$T$が反復数、$\delta \in (0, 2/3)$が非凸損失関数、および強凸損失関数の線形レートで収束することができる。
さらに、データ不均一性がなくなると、定常点または大域最適解が得られることが証明される。
実験結果は、ビザンチン攻撃に対するRAGAのロバスト性を相関させ、不均一なデータセットに対して、ビザンチン攻撃の様々な強度下での収束性能に基づくRAGAの優位性を検証した。
This paper deals with federated learning (FL) in the presence of malicious Byzantine attacks and data heterogeneity. A novel Robust Average Gradient Algorithm (RAGA) is proposed, which leverages the geometric median for aggregation and can freely select the round number for local updating. Different from most existing resilient approaches, which perform convergence analysis based on strongly-convex loss function or homogeneously distributed dataset, we conduct convergence analysis for not only strongly-convex but also non-convex loss function over heterogeneous dataset. According to our theoretical analysis, as long as the fraction of dataset from malicious users is less than half, RAGA can achieve convergence at rate $\mathcal{O}({1}/{T^{2/3- \delta}})$ where $T$ is the iteration number and $\delta \in (0, 2/3)$ for non-convex loss function, and at linear rate for strongly-convex loss function. Moreover, stationary point or global optimal solution is proved to obtainable as data heterogeneity vanishes. Experimental results corroborate the robustness of RAGA to Byzantine attacks and verifies the advantage of RAGA over baselines on convergence performance under various intensity of Byzantine attacks, for heterogeneous dataset. | 翻訳日:2024-03-27 21:14:52 公開日:2024-03-26 |
# 微粒なテクスチャ記述からの運動生成
Motion Generation from Fine-grained Textual Descriptions ( http://arxiv.org/abs/2403.13518v2 ) ライセンス: Link先を確認 | Kunhang Li, Yansong Feng, | (参考訳) text2motionのタスクは、与えられたテキスト記述から人間の動作シーケンスを生成することであり、そこでモデルは自然言語の指示から人体の動きへの多様なマッピングを探索する。
現存する作品の多くは粗い動きの記述に限られているが、例えば「男がしゃがむ」など、関連する身体部分の動きを規定するきめ細かい記述はほとんど探索されていない。
粗粒度テキストで訓練されたモデルは、微粒な動きに関連する単語から運動プリミティブへのマッピングを学習することができず、その結果、目に見えない記述から動きを生成することができない。
本稿では,GPT-3.5-turboに擬似コード強制チェックによるステップバイステップ命令を付与することにより,微細なテキスト記述を専門とする大規模言語運動データセットFineHumanML3Dを構築する。
そこで我々は,微細なテキスト情報をフル活用した新しいテキスト2モーションモデルであるFineMotionDiffuseを設計した。
我々はFinMotionDiffuseをFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
定性的評価とケーススタディによると,本モデルは,微粒な記述から対応する基本動作への暗黙のマッピングを学習することにより,空間的あるいは時間的に複合的な動きを生成する上で,MotionDiffuseよりも優れている。
データはhttps://github.com/KunhangL/finemotiondiffuse.comで公開しています。
The task of text2motion is to generate human motion sequences from given textual descriptions, where the model explores diverse mappings from natural language instructions to human body movements. While most existing works are confined to coarse-grained motion descriptions, e.g., "A man squats.", fine-grained descriptions specifying movements of relevant body parts are barely explored. Models trained with coarse-grained texts may not be able to learn mappings from fine-grained motion-related words to motion primitives, resulting in the failure to generate motions from unseen descriptions. In this paper, we build a large-scale language-motion dataset specializing in fine-grained textual descriptions, FineHumanML3D, by feeding GPT-3.5-turbo with step-by-step instructions with pseudo-code compulsory checks. Accordingly, we design a new text2motion model, FineMotionDiffuse, making full use of fine-grained textual information. Our quantitative evaluation shows that FineMotionDiffuse trained on FineHumanML3D improves FID by a large margin of 0.38, compared with competitive baselines. According to the qualitative evaluation and case study, our model outperforms MotionDiffuse in generating spatially or chronologically composite motions, by learning the implicit mappings from fine-grained descriptions to the corresponding basic motions. We release our data at https://github.com/KunhangL/finemotiondiffuse. | 翻訳日:2024-03-27 21:14:52 公開日:2024-03-26 |
# パーソナライズされた満足度予測のためのヒューマン・ゲイズからのユーザ埋め込み学習
Learning User Embeddings from Human Gaze for Personalised Saliency Prediction ( http://arxiv.org/abs/2403.13653v2 ) ライセンス: Link先を確認 | Florian Strohm, Mihai Bâce, Andreas Bulling, | (参考訳) ユーザ動作の再利用可能な埋め込みは、パーソナライズされたサリエンシ予測タスクにおいて、大幅なパフォーマンス向上を示している。
しかし、事前の作業では、入力として明示的なユーザ特性と好みが必要であるため、入手が難しい場合が多い。
本稿では,少量のユーザ固有の視線追跡データから生成された自然画像とそれに対応する塩分マップからユーザ埋め込みを抽出する手法を提案する。
提案手法のコアとなるのは,異なるユーザのイメージと個人満足度マップのペアを対比することにより,ユーザの埋め込みを学習する,シームズ畳み込みニューラルエンコーダである。
2つの公衆衛生データセットの評価では、生成された埋め込みは高い識別力を持ち、個々のユーザへの普遍的な唾液マップの精製に有効であり、ユーザや画像間でよく一般化されている。
最後に、我々のモデルが個々のユーザー特性をエンコードする能力に基づいて、我々の作業は、視線行動の再利用可能な埋め込みの恩恵を受ける他のアプリケーションに向けられている。
Reusable embeddings of user behaviour have shown significant performance improvements for the personalised saliency prediction task. However, prior works require explicit user characteristics and preferences as input, which are often difficult to obtain. We present a novel method to extract user embeddings from pairs of natural images and corresponding saliency maps generated from a small amount of user-specific eye tracking data. At the core of our method is a Siamese convolutional neural encoder that learns the user embeddings by contrasting the image and personal saliency map pairs of different users. Evaluations on two public saliency datasets show that the generated embeddings have high discriminative power, are effective at refining universal saliency maps to the individual users, and generalise well across users and images. Finally, based on our model's ability to encode individual user characteristics, our work points towards other applications that can benefit from reusable embeddings of gaze behaviour. | 翻訳日:2024-03-27 21:14:52 公開日:2024-03-26 |
# ProMamba:polypセグメンテーションのためのPrompt-Mamba
ProMamba: Prompt-Mamba for polyp segmentation ( http://arxiv.org/abs/2403.13660v2 ) ライセンス: Link先を確認 | Jianhao Xie, Ruofan Liao, Ziang Zhang, Sida Yi, Yuesheng Zhu, Guibo Luo, | (参考訳) 大腸内視鏡検査によるポリープ検出は, 画像分割において重要な課題であり, 臨床手術における重要な補助と基準値を提供する。
しかし,ポリプの正確なセグメンテーションは2つの主な理由から難しい課題である。
まず、ポリプは様々な形や色を示す。
第二に、ポリープと通常の環境の境界はしばしば不明瞭である。
さらに、異なるデータセット間の大きな違いは、既存のメソッドの限定的な一般化能力をもたらす。
これらの課題に対処するために,最新のビジョンマンバとプロンプト技術を組み込んだ,Prompt-Mambaに基づくセグメンテーションモデルを提案する。
同じデータセット上でトレーニングされた以前のモデルと比較して、我々のモデルは、同一データセットの検証部分において高いセグメンテーション精度を維持するだけでなく、目に見えないデータセットに対して優れた精度を示し、優れた一般化能力を示す。
特に、私たちは最初にビジョン・マンバアーキテクチャをポリプセグメンテーションに適用し、最初にポリプセグメンテーションモデルでプロンプト技術を利用する。
本モデルでは,6つのデータセットに対して,従来の最先端手法を平均5%上回るセグメンテーションタスクを効率的に達成する。
さらに,拡張パラメータ数を持つモデルの複数バージョンを開発し,より少ないパラメータでも従来のモデルよりも優れた性能を実現した。
私たちのコードとトレーニングされた重み付けはまもなくリリースされます。
Detecting polyps through colonoscopy is an important task in medical image segmentation, which provides significant assistance and reference value for clinical surgery. However, accurate segmentation of polyps is a challenging task due to two main reasons. Firstly, polyps exhibit various shapes and colors. Secondly, the boundaries between polyps and their normal surroundings are often unclear. Additionally, significant differences between different datasets lead to limited generalization capabilities of existing methods. To address these issues, we propose a segmentation model based on Prompt-Mamba, which incorporates the latest Vision-Mamba and prompt technologies. Compared to previous models trained on the same dataset, our model not only maintains high segmentation accuracy on the validation part of the same dataset but also demonstrates superior accuracy on unseen datasets, exhibiting excellent generalization capabilities. Notably, we are the first to apply the Vision-Mamba architecture to polyp segmentation and the first to utilize prompt technology in a polyp segmentation model. Our model efficiently accomplishes segmentation tasks, surpassing previous state-of-the-art methods by an average of 5% across six datasets. Furthermore, we have developed multiple versions of our model with scaled parameter counts, achieving better performance than previous models even with fewer parameters. Our code and trained weights will be released soon. | 翻訳日:2024-03-27 21:14:52 公開日:2024-03-26 |
# EthioLLM:タスク評価を伴うエチオピア語用多言語大言語モデル
EthioLLM: Multilingual Large Language Models for Ethiopian Languages with Task Evaluation ( http://arxiv.org/abs/2403.13737v3 ) ライセンス: Link先を確認 | Atnafu Lambebo Tonja, Israel Abebe Azime, Tadesse Destaw Belay, Mesay Gemeda Yigezu, Moges Ahmed Mehamed, Abinew Ali Ayele, Ebrahim Chekol Jibril, Michael Melese Woldeyohannis, Olga Kolesnikova, Philipp Slusallek, Dietrich Klakow, Shengwu Xiong, Seid Muhie Yimam, | (参考訳) 大規模言語モデル(LLM)は、最近、様々な下流自然言語処理(NLP)タスクにおける優れたパフォーマンスのために人気を博している。
しかし、低リソース言語は、LLMを訓練するリソースが不足しているため、NLP分野における現在の最先端(SOTA)開発に遅れを取っている。
エチオピア語は言語学的多様性が顕著で、様々な文字が包含されており、宗教的・文化的意義が深い。
本稿では,エチオピア語5言語(Amharic, Ge'ez, Afan Oromo, Somali, Tigrinya)と英語の多言語大言語モデルであるEthioLLMと,下流NLPタスクのための新しいベンチマークデータセットであるEthiobenchmarkを紹介する。
我々は、これらのモデルの性能を5つの下流NLPタスクで評価する。
我々は、多言語言語モデル、様々な下流タスクのための新しいベンチマークデータセット、タスク固有の微調整言語モデルをオープンソース化し、モデルの性能について議論する。
私たちのデータセットとモデルはhttps://huggingface.co/EthioNLPリポジトリで公開されています。
Large language models (LLMs) have gained popularity recently due to their outstanding performance in various downstream Natural Language Processing (NLP) tasks. However, low-resource languages are still lagging behind current state-of-the-art (SOTA) developments in the field of NLP due to insufficient resources to train LLMs. Ethiopian languages exhibit remarkable linguistic diversity, encompassing a wide array of scripts, and are imbued with profound religious and cultural significance. This paper introduces EthioLLM -- multilingual large language models for five Ethiopian languages (Amharic, Ge'ez, Afan Oromo, Somali, and Tigrinya) and English, and Ethiobenchmark -- a new benchmark dataset for various downstream NLP tasks. We evaluate the performance of these models across five downstream NLP tasks. We open-source our multilingual language models, new benchmark datasets for various downstream tasks, and task-specific fine-tuned language models and discuss the performance of the models. Our dataset and models are available at the https://huggingface.co/EthioNLP repository. | 翻訳日:2024-03-27 21:14:52 公開日:2024-03-26 |
# SeFFeC: きめ細かい顔編集のためのセマンティック顔特徴制御
SeFFeC: Semantic Facial Feature Control for Fine-grained Face Editing ( http://arxiv.org/abs/2403.13972v2 ) ライセンス: Link先を確認 | Florian Strohm, Mihai Bâce, Markus Kaltenecker, Andreas Bulling, | (参考訳) 顔のきめ細かい形状の編集を行うセマンティック顔特徴制御法(SeFFeC)を提案する。
本手法は, 顔のランドマークの異なるグループによって定義される鼻の長さや口幅などの, 人間の理解できない意味的な顔の特徴の操作を可能にする。
既存の方法とは対照的に、顔のランドマークを使用することで、顔の特徴を正確に測定することができ、手動でアノテートされたラベルなしでSeFFeCをトレーニングすることができる。
SeFFeCは、予め訓練された生成モデルの潜伏ベクトルと入力として埋め込まれた顔特徴を受信し、潜伏ベクトルを変更して所望の顔編集操作を行う変圧器ベースのエンコーダネットワークからなる。
非相関な特徴を変化させることなく、目的値に対して所望の特徴測定が変更されることを保証するため、我々は、新しい意味的顔の特徴損失を導入した。
定性的かつ定量的な結果は、SeFFeCが23の顔の特徴を正確にきめ細かな制御を可能にしていることを示している。
既存の方法とは異なり、SeFFeCは顔の特徴の正確な値を決定論的に制御する。
We propose Semantic Facial Feature Control (SeFFeC) - a novel method for fine-grained face shape editing. Our method enables the manipulation of human-understandable, semantic face features, such as nose length or mouth width, which are defined by different groups of facial landmarks. In contrast to existing methods, the use of facial landmarks enables precise measurement of the facial features, which then enables training SeFFeC without any manually annotated labels. SeFFeC consists of a transformer-based encoder network that takes a latent vector of a pre-trained generative model and a facial feature embedding as input, and learns to modify the latent vector to perform the desired face edit operation. To ensure that the desired feature measurement is changed towards the target value without altering uncorrelated features, we introduced a novel semantic face feature loss. Qualitative and quantitative results show that SeFFeC enables precise and fine-grained control of 23 facial features, some of which could not previously be controlled by other methods, without requiring manual annotations. Unlike existing methods, SeFFeC also provides deterministic control over the exact values of the facial features and more localised and disentangled face edits. | 翻訳日:2024-03-27 21:14:52 公開日:2024-03-26 |
# FastFlip: 組成誤差注入分析
FastFlip: Compositional Error Injection Analysis ( http://arxiv.org/abs/2403.13989v2 ) ライセンス: Link先を確認 | Keyur Joshi, Rahul Singh, Tommaso Bassetto, Sarita Adve, Darko Marinov, Sasa Misailovic, | (参考訳) インストラクションレベルのエラーインジェクション分析は、エラーがSDC(Silent Data Corruptions)のような受け入れがたい結果につながることの多い命令を見つけることを目的としている。
これらの分析にはかなりの時間がかかるが、開発者が時間とともに進化するソフトウェアを定期的に分析したい場合、特に問題となる。
本稿では,経験的エラーインジェクションと記号的SDC伝搬解析を組み合わせたFastFlipを提案する。
FastFlipは、プログラムセクション間でSDCがどのように伝播するかを計算し、エラーによって起こりうる予期せぬ副作用を正しく説明する。
FastFlipを使用して、5つのベンチマークと、各ベンチマークの2つの修正バージョンを分析します。
FastFlipは、インクリメンタルに修正されたプログラムの分析を3.2\times$(geomean)で高速化する。
FastFlipは、SDCに対して保護する一連の命令を選択し、すべてのSDCキャッシュエラーの開発者が指定したターゲット割合を保護しながら、保護のランタイムコストを最小限にする。
Instruction-level error injection analyses aim to find instructions where errors often lead to unacceptable outcomes like Silent Data Corruptions (SDCs). These analyses require significant time, which is especially problematic if developers wish to regularly analyze software that evolves over time. We present FastFlip, a combination of empirical error injection and symbolic SDC propagation analyses that enables fast, compositional error injection analysis of evolving programs. FastFlip calculates how SDCs propagate across program sections and correctly accounts for unexpected side effects that can occur due to errors. Using FastFlip, we analyze five benchmarks, plus two modified versions of each benchmark. FastFlip speeds up the analysis of incrementally modified programs by $3.2\times$ (geomean). FastFlip selects a set of instructions to protect against SDCs that minimizes the runtime cost of protection while protecting against a developer-specified target fraction of all SDC-causing errors. | 翻訳日:2024-03-27 21:14:52 公開日:2024-03-26 |
# EcoSense:エッジクラウドコラボレーションによる海上船舶検出のためのエネルギー効率の高いインテリジェントセンシング
EcoSense: Energy-Efficient Intelligent Sensing for In-Shore Ship Detection through Edge-Cloud Collaboration ( http://arxiv.org/abs/2403.14027v2 ) ライセンス: Link先を確認 | Wenjun Huang, Hanning Chen, Yang Ni, Arghavan Rezvani, Sanggeon Yun, Sungheon Jeon, Eric Pedley, Mohsen Imani, | (参考訳) 海洋の物体を海岸で検出することは、システムの展開におけるアルゴリズム的な複雑さと複雑さによる課題を提起する。
本稿では,タスクをオブジェクトの局所化ときめ細かい分類に分割する,エッジクラウド協調センシングシステムを提案する。
オブジェクトは、その推定困難度に基づいて、エッジまたはクラウド内のいずれかに分類される。
このフレームワークは、オブジェクトのローカライゼーション、分類、難易度推定のための低消費電力デバイス調整フロントエンドモデルと、微細な分類のためのトランスフォーマーグラフ畳み込みネットワークベースのバックエンドモデルから構成される。
本システムは,広く使用されている海洋物体検出データセットにおいて,mAP@0.5 +4.3%以上の性能を示し,システムレベルでのデータ伝送量(95.43%)とエネルギー消費(72.7%)の両方を著しく低減する。
提案システムは,様々な組込みシステムプラットフォームと,ドローンの配備を含む実環境シナリオで検証する。
Detecting marine objects inshore presents challenges owing to algorithmic intricacies and complexities in system deployment. We propose a difficulty-aware edge-cloud collaborative sensing system that splits the task into object localization and fine-grained classification. Objects are classified either at the edge or within the cloud, based on their estimated difficulty. The framework comprises a low-power device-tailored front-end model for object localization, classification, and difficulty estimation, along with a transformer-graph convolutional network-based back-end model for fine-grained classification. Our system demonstrates superior performance (mAP@0.5 +4.3%}) on widely used marine object detection datasets, significantly reducing both data transmission volume (by 95.43%) and energy consumption (by 72.7%}) at the system level. We validate the proposed system across various embedded system platforms and in real-world scenarios involving drone deployment. | 翻訳日:2024-03-27 21:14:52 公開日:2024-03-26 |
# ChatGPTはディープフェイクを検出できるか? : メディアフォサイシクスにおける多モーダル大言語モデルを用いた検討
Can ChatGPT Detect DeepFakes? A Study of Using Multimodal Large Language Models for Media Forensics ( http://arxiv.org/abs/2403.14077v2 ) ライセンス: Link先を確認 | Shan Jia, Reilin Lyu, Kangran Zhao, Yize Chen, Zhiyuan Yan, Yan Ju, Chuanbo Hu, Xin Li, Baoyuan Wu, Siwei Lyu, | (参考訳) AI生成メディアコンテンツを指すDeepFakesは、偽情報の手段としての利用が懸念されている。
DeepFakesの検出は現在、プログラムされた機械学習アルゴリズムで解決されている。
本研究では,DeepFake検出におけるマルチモーダル大言語モデル(LLM)の機能について検討する。
我々は,マルチモーダルLLMを実証するために定性的かつ定量的な実験を行い,慎重に設計し,迅速な技術によってAI生成画像を公開できることを実証した。
LLMは本質的にはメディアの法医学的タスクに向いておらず、そのプロセスはプログラミングを必要としないことを考慮すれば興味深い。
本稿では,これらのタスクに対するマルチモーダル LLM の限界について論じ,改善の可能性を提案する。
DeepFakes, which refer to AI-generated media content, have become an increasing concern due to their use as a means for disinformation. Detecting DeepFakes is currently solved with programmed machine learning algorithms. In this work, we investigate the capabilities of multimodal large language models (LLMs) in DeepFake detection. We conducted qualitative and quantitative experiments to demonstrate multimodal LLMs and show that they can expose AI-generated images through careful experimental design and prompt engineering. This is interesting, considering that LLMs are not inherently tailored for media forensic tasks, and the process does not require programming. We discuss the limitations of multimodal LLMs for these tasks and suggest possible improvements. | 翻訳日:2024-03-27 21:14:52 公開日:2024-03-26 |
# インテリジェントでインタラクティブな筆記支援システムのための設計空間
A Design Space for Intelligent and Interactive Writing Assistants ( http://arxiv.org/abs/2403.14117v2 ) ライセンス: Link先を確認 | Mina Lee, Katy Ilonka Gero, John Joon Young Chung, Simon Buckingham Shum, Vipul Raheja, Hua Shen, Subhashini Venugopalan, Thiemo Wambsganss, David Zhou, Emad A. Alghamdi, Tal August, Avinash Bhat, Madiha Zahrah Choksi, Senjuti Dutta, Jin L. C. Guo, Md Naimul Hoque, Yewon Kim, Simon Knight, Seyed Parsa Neshaei, Agnia Sergeyuk, Antonette Shibani, Disha Shrivastava, Lila Shroff, Jessi Stark, Sarah Sterman, Sitong Wang, Antoine Bosselut, Daniel Buschek, Joseph Chee Chang, Sherol Chen, Max Kreminski, Joonsuk Park, Roy Pea, Eugenia H. Rho, Shannon Zejiang Shen, Pao Siangliulue, | (参考訳) 急激な技術進歩の時代には, 様々な研究コミュニティにおいて, 筆記支援システムの研究環境が分断されつつある。
我々は,知的かつインタラクティブな筆記アシスタントの多次元空間を探索する構造的手法として,設計空間を提案することで,この問題に対処しようとしている。
大規模なコミュニティコラボレーションを通じて、私たちは、タスク、ユーザ、テクノロジ、インタラクション、エコシステムという、アシスタントを書く5つの側面を調査します。
各側面において、115の論文を体系的にレビューすることで、次元(アスペクトの基本成分)と符号(各次元の潜在的なオプション)を定義する。
我々のデザインスペースは、研究者やデザイナーに、新しい筆記アシスタントの構想と設計の様々な可能性のナビゲート、理解、比較を行うための実践的なツールを提供することを目的としています。
In our era of rapid technological advancement, the research landscape for writing assistants has become increasingly fragmented across various research communities. We seek to address this challenge by proposing a design space as a structured way to examine and explore the multidimensional space of intelligent and interactive writing assistants. Through a large community collaboration, we explore five aspects of writing assistants: task, user, technology, interaction, and ecosystem. Within each aspect, we define dimensions (i.e., fundamental components of an aspect) and codes (i.e., potential options for each dimension) by systematically reviewing 115 papers. Our design space aims to offer researchers and designers a practical tool to navigate, comprehend, and compare the various possibilities of writing assistants, and aid in the envisioning and design of new writing assistants. | 翻訳日:2024-03-27 21:14:52 公開日:2024-03-26 |
# 雑音画像に対する強力な損失圧縮
Powerful Lossy Compression for Noisy Images ( http://arxiv.org/abs/2403.14135v2 ) ライセンス: Link先を確認 | Shilv Cai, Xiaoguo Liang, Shuning Cao, Luxin Yan, Sheng Zhong, Liqun Chen, Xu Zou, | (参考訳) 画像圧縮と復号化は多くの実世界のアプリケーションで画像処理の基本的な課題である。
現実的な要求に対処するため、現在の解決策は2つの主要な戦略に分類できる。
1) シーケンシャルな方法,及び
2) 共同方式。
しかし、逐次的手法は、複数の個人モデル間での情報損失があるため、エラー蓄積の欠点がある。
近年、学術コミュニティはエンドツーエンドのジョイント手法によってこの問題に取り組み始めている。
それらの多くは、ノイズの多い画像の異なる領域が異なる特徴を持っていることを無視している。
そこで本稿では,画像圧縮と復調を同時に行うために,局所的および非局所的特徴を利用した信号対雑音比~(SNR)対応ジョイントソリューションを提案する。
我々は,主エンコーダ分岐,誘導分岐,信号対雑音比~(SNR)対応分岐を含むエンドツーエンドのトレーニング可能なネットワークを設計する。
我々は、合成と実世界の両方のデータセットについて広範な実験を行い、我々のジョイントソリューションが既存の最先端手法より優れていることを実証した。
Image compression and denoising represent fundamental challenges in image processing with many real-world applications. To address practical demands, current solutions can be categorized into two main strategies: 1) sequential method; and 2) joint method. However, sequential methods have the disadvantage of error accumulation as there is information loss between multiple individual models. Recently, the academic community began to make some attempts to tackle this problem through end-to-end joint methods. Most of them ignore that different regions of noisy images have different characteristics. To solve these problems, in this paper, our proposed signal-to-noise ratio~(SNR) aware joint solution exploits local and non-local features for image compression and denoising simultaneously. We design an end-to-end trainable network, which includes the main encoder branch, the guidance branch, and the signal-to-noise ratio~(SNR) aware branch. We conducted extensive experiments on both synthetic and real-world datasets, demonstrating that our joint solution outperforms existing state-of-the-art methods. | 翻訳日:2024-03-27 21:14:52 公開日:2024-03-26 |
# 大規模言語モデルを用いたデバイス指向音声検出へのマルチモーダルアプローチ
A Multimodal Approach to Device-Directed Speech Detection with Large Language Models ( http://arxiv.org/abs/2403.14438v2 ) ライセンス: Link先を確認 | Dominik Wagner, Alexander Churchill, Siddharth Sigtia, Panayiotis Georgiou, Matt Mirsamadi, Aarshee Mishra, Erik Marchi, | (参考訳) 仮想アシスタントとのインタラクションは通常、事前に定義されたトリガーフレーズから始まり、その後にユーザコマンドが続く。
アシスタントとの対話をより直感的にするために、ユーザがトリガーフレーズで各コマンドを起動しなければならないという要求を省くことが可能かどうかを検討する。
まず、音声波形から得られた音響情報のみを用いて分類器を訓練する。
第2に,大規模言語モデル(LLM)の入力特徴として,1-best仮説などの自動音声認識(ASR)システムのデコーダ出力を用いる。
最後に、LLMにおけるASRデコーダ信号と同様に、音響的特徴と語彙的特徴を組み合わせたマルチモーダルシステムについて検討する。
マルチモーダル情報を使用することで、テキストのみのモデルとオーディオのみのモデルに対して、最大39%と61%のエラーレートが相対的に向上する。
LLMのサイズを増大させ、低ランク適応によるトレーニングを行うことで、データセット上でEERを最大18%削減することが可能になる。
Interactions with virtual assistants typically start with a predefined trigger phrase followed by the user command. To make interactions with the assistant more intuitive, we explore whether it is feasible to drop the requirement that users must begin each command with a trigger phrase. We explore this task in three ways: First, we train classifiers using only acoustic information obtained from the audio waveform. Second, we take the decoder outputs of an automatic speech recognition (ASR) system, such as 1-best hypotheses, as input features to a large language model (LLM). Finally, we explore a multimodal system that combines acoustic and lexical features, as well as ASR decoder signals in an LLM. Using multimodal information yields relative equal-error-rate improvements over text-only and audio-only models of up to 39% and 61%. Increasing the size of the LLM and training with low-rank adaption leads to further relative EER reductions of up to 18% on our dataset. | 翻訳日:2024-03-27 21:14:52 公開日:2024-03-26 |
# 銀のスポンで生まれる : 大規模言語モデルにおける社会経済バイアスの調査
Born With a Silver Spoon? Investigating Socioeconomic Bias in Large Language Models ( http://arxiv.org/abs/2403.14633v2 ) ライセンス: Link先を確認 | Smriti Singh, Shuvam Keshari, Vinija Jain, Aman Chadha, | (参考訳) 社会経済の偏見は格差を増し、個人の経済的・社会的背景に基づく機会や資源へのアクセスに影響を及ぼす。
この広範囲にわたる問題は、社会としての包括的進歩の追求を妨げる、体系的な不平等を持続させる。
本稿では,大規模言語モデルにおける社会経済バイアスの存在について検討する。
この目的のために, 未成年者が倫理的に曖昧な行動を行うという仮説上のシナリオを示す3000のサンプルからなる新しいデータセットSilverSpoonを導入し, 倫理的に正当化されるか否かを問う。
さらに、このデータセットには二重ラベル方式があり、社会経済スペクトルの両端に属する人々によって注釈付けされている。
我々はSilverSpoonを用いて,大規模言語モデルで表現される社会経済バイアスの度合いと,この度合いの変動をモデルサイズの関数として評価した。
我々はまた、このバイアスの性質を分析するために定性的分析を行う。
分析の結果, 社会的に劣悪な言語モデルでは, 社会経済的に劣悪な言語モデルに共感できないことが判明した。
この領域のさらなる研究を促進するため、SilverSpoonと評価ハーネスを公開しています。
Socioeconomic bias in society exacerbates disparities, influencing access to opportunities and resources based on individuals' economic and social backgrounds. This pervasive issue perpetuates systemic inequalities, hindering the pursuit of inclusive progress as a society. In this paper, we investigate the presence of socioeconomic bias, if any, in large language models. To this end, we introduce a novel dataset SilverSpoon, consisting of 3000 samples that illustrate hypothetical scenarios that involve underprivileged people performing ethically ambiguous actions due to their circumstances, and ask whether the action is ethically justified. Further, this dataset has a dual-labeling scheme and has been annotated by people belonging to both ends of the socioeconomic spectrum. Using SilverSpoon, we evaluate the degree of socioeconomic bias expressed in large language models and the variation of this degree as a function of model size. We also perform qualitative analysis to analyze the nature of this bias. Our analysis reveals that while humans disagree on which situations require empathy toward the underprivileged, most large language models are unable to empathize with the socioeconomically underprivileged regardless of the situation. To foster further research in this domain, we make SilverSpoon and our evaluation harness publicly available. | 翻訳日:2024-03-27 21:14:52 公開日:2024-03-26 |
# Digital Twin for Wind Energy: NorthWindプロジェクトの最新情報
Digital Twin for Wind Energy: Latest updates from the NorthWind project ( http://arxiv.org/abs/2403.14646v2 ) ライセンス: Link先を確認 | Adil Rasheed, Florian Stadtmann, Eivind Fonn, Mandar Tabib, Vasileios Tsiolakis, Balram Panjwani, Kjetil Andre Johannessen, Trond Kvamsdal, Omer San, John Olav Tande, Idar Barstad, Tore Christiansen, Elling Rishoff, Lars Frøyd, Tore Rasmussen, | (参考訳) 北ウィンドはノルウェー研究協議会、産業利害関係者、研究パートナーが支援する共同研究イニシアチブであり、風力エネルギーの最先端の研究と革新を推進することを目的としている。
中心となるミッションは、風力発電のコスト削減と持続的な成長の促進であり、デジタル双生児の開発に重点を置いている。
デジタルツイン(Digital twin)は、データとシミュレーターを使用してリアルタイム予測、最適化、監視、制御、情報意思決定を可能にする物理資産またはプロセスの仮想表現である。
近年,0から5 (0 - Standalone, 1 - Descriptive, 2 - Diagnostic, 3 - Predictive, 4 - Prescriptive, 5 - Autonomous の階層尺度が NorthWind プロジェクト内に導入され,デジタル双生児の能力を評価する。
本稿では,風力発電用デジタルツインの構築の進展と,各種能力レベルにおけるその構成要素について詳述する。
NorthWind, a collaborative research initiative supported by the Research Council of Norway, industry stakeholders, and research partners, aims to advance cutting-edge research and innovation in wind energy. The core mission is to reduce wind power costs and foster sustainable growth, with a key focus on the development of digital twins. A digital twin is a virtual representation of physical assets or processes that uses data and simulators to enable real-time forecasting, optimization, monitoring, control and informed decision-making. Recently, a hierarchical scale ranging from 0 to 5 (0 - Standalone, 1 - Descriptive, 2 - Diagnostic, 3 - Predictive, 4 - Prescriptive, 5 - Autonomous has been introduced within the NorthWind project to assess the capabilities of digital twins. This paper elaborates on our progress in constructing digital twins for wind farms and their components across various capability levels. | 翻訳日:2024-03-27 21:14:52 公開日:2024-03-26 |
# デジタルツイン:アイデアからツインまでどのくらい?
Digital Twins: How Far from Ideas to Twins? ( http://arxiv.org/abs/2403.14699v2 ) ライセンス: Link先を確認 | Lu Jingyu, | (参考訳) 仮想から現実への橋渡しとして、Digital Twinは提案以来人気が高まっている。
デジタル双生児には理論的・実用的な考え方が提案されている。
理論的には、デジタルツインはモダリティ間のデータマッピングの融合であり、現実的な観点からは、デジタルツインはモノのインターネットとモデルに基づくシナリオの実装である。
これら2つの観点から、アイデアからデジタル双生児の実現までの研究を探求し、徹底的に議論する。
As a bridge from virtuality to reality, Digital Twin has increased in popularity since proposed. Ideas have been proposed theoretical and practical for digital twins. From theoretical perspective, digital twin is fusion of data mapping between modalities; from practical point of view, digital twin is scenario implementation based on the Internet of Things and models. From these two perspectives, we explore the researches from idea to realization of digital twins and discuss thoroughly. | 翻訳日:2024-03-27 21:05:08 公開日:2024-03-26 |
# クリーンイメージのバックドア攻撃
Clean-image Backdoor Attacks ( http://arxiv.org/abs/2403.15010v2 ) ライセンス: Link先を確認 | Dazhong Rong, Guoyao Yu, Shuheng Shen, Xinyi Fu, Peng Qian, Jianhai Chen, Qinming He, Xing Fu, Weiqiang Wang, | (参考訳) 高性能画像分類モデルのための大量の注釈付きトレーニングデータを収集するために、多くの企業が、ラベルなしデータのラベル付けをサードパーティプロバイダに依頼する。
モデルの最終性能に対するこれらの小さな不正確さの影響は無視可能であり、既存のバックドアアタックは攻撃者がトレーニングイメージに毒を盛る能力を必要とするためである。
しかし,本論文では,トレーニング画像を変更することなく,一部の不正ラベルを通じてバックドアを注入できることを明らかにするクリーンイメージバックドア攻撃を提案する。
具体的には、攻撃者はまず、トレーニングイメージを2つの部分に分割するトリガー機能を探します。
その後、攻撃者は前者のラベルをバックドアクラスに偽装する。
バックドアは、毒データで訓練された後、最終的にターゲットモデルに埋め込まれる。
推論フェーズの間、攻撃者は2つの方法でバックドアを起動することができる。
攻撃の有効性と実用性を実証する広範囲な実験を行った。
実験結果から,我々の攻撃は画像分類モデルの公平性とロバスト性を著しく損なうものであり,アウトソースラベルの不正なラベルについて警戒する必要があると結論付けた。
To gather a significant quantity of annotated training data for high-performance image classification models, numerous companies opt to enlist third-party providers to label their unlabeled data. This practice is widely regarded as secure, even in cases where some annotated errors occur, as the impact of these minor inaccuracies on the final performance of the models is negligible and existing backdoor attacks require attacker's ability to poison the training images. Nevertheless, in this paper, we propose clean-image backdoor attacks which uncover that backdoors can still be injected via a fraction of incorrect labels without modifying the training images. Specifically, in our attacks, the attacker first seeks a trigger feature to divide the training images into two parts: those with the feature and those without it. Subsequently, the attacker falsifies the labels of the former part to a backdoor class. The backdoor will be finally implanted into the target model after it is trained on the poisoned data. During the inference phase, the attacker can activate the backdoor in two ways: slightly modifying the input image to obtain the trigger feature, or taking an image that naturally has the trigger feature as input. We conduct extensive experiments to demonstrate the effectiveness and practicality of our attacks. According to the experimental results, we conclude that our attacks seriously jeopardize the fairness and robustness of image classification models, and it is necessary to be vigilant about the incorrect labels in outsourced labeling. | 翻訳日:2024-03-27 21:05:08 公開日:2024-03-26 |
# ヘノンカオス写像理論と逆学習競合戦略を組み合わせた非線形アフリカヴァルチャー最適化アルゴリズム
A Nonlinear African Vulture Optimization Algorithm Combining Henon Chaotic Mapping Theory and Reverse Learning Competition Strategy ( http://arxiv.org/abs/2403.15505v2 ) ライセンス: Link先を確認 | Baiyi Wang, Zipeng Zhang, Patrick Siarry, Xinhua Liu, Grzegorz Królczyk, Dezheng Hua, Frantisek Brumercik, Zhixiong Li, | (参考訳) AVOAの主な欠点を軽減するために、ヘノンカオスマッピング理論と逆学習競争戦略(HWEAVOA)を組み合わせた非線形アフリカハゲェル最適化アルゴリズムを提案する。
まず、ハゲワシの初期個体数のランダム性と多様性を改善するため、ヘノンカオスマッピング理論とエリート集団戦略を提案し、また、探索と搾取能力の合理的なバランスをとるために、位置更新フェーズに非線形適応的漸進的慣性重因子を導入し、各個体が局所最適に落下することを避ける。
HWEAVOAや他の高度な比較アルゴリズムは古典的およびCEC2022テスト関数を解くために用いられる。
他のアルゴリズムと比較して、HWEAVOAの収束曲線は速く、直線体は滑らかである。
これらの実験結果から,提案したHWEAVOAは, 収束速度, 最適化能力, 解安定性において, 比較アルゴリズムよりも優れている全試験関数において第1位であることがわかった。
一方、HWEAVOAはアルゴリズムの複雑さの一般的なレベルに達し、その全体的な性能はSwarmインテリジェンスアルゴリズムと競合している。
In order to alleviate the main shortcomings of the AVOA, a nonlinear African vulture optimization algorithm combining Henon chaotic mapping theory and reverse learning competition strategy (HWEAVOA) is proposed. Firstly, the Henon chaotic mapping theory and elite population strategy are proposed to improve the randomness and diversity of the vulture's initial population; Furthermore, the nonlinear adaptive incremental inertial weight factor is introduced in the location update phase to rationally balance the exploration and exploitation abilities, and avoid individual falling into a local optimum; The reverse learning competition strategy is designed to expand the discovery fields for the optimal solution and strengthen the ability to jump out of the local optimal solution. HWEAVOA and other advanced comparison algorithms are used to solve classical and CEC2022 test functions. Compared with other algorithms, the convergence curves of the HWEAVOA drop faster and the line bodies are smoother. These experimental results show the proposed HWEAVOA is ranked first in all test functions, which is superior to the comparison algorithms in convergence speed, optimization ability, and solution stability. Meanwhile, HWEAVOA has reached the general level in the algorithm complexity, and its overall performance is competitive in the swarm intelligence algorithms. | 翻訳日:2024-03-27 21:05:08 公開日:2024-03-26 |
# MedPromptX:胸部X線診断のための接地型マルチモーダルプロンプト
MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis ( http://arxiv.org/abs/2403.15585v2 ) ライセンス: Link先を確認 | Mai A. Shaaban, Adnan Khan, Mohammad Yaqub, | (参考訳) 胸部X線画像は、急性および慢性の心肺疾患の予測に一般的に用いられているが、構造化された臨床データと統合しようとする試みは、不完全な電子健康記録(EHR)による課題に直面している。
本稿では,マルチモーダル大言語モデル (MLLM) と少数ショットプロンプト (FP) と視覚的グラウンドディング (VG) を統合し,胸部X線診断のための画像とEHRデータを組み合わせた最初のモデルである \textbf{MedPromptX} を紹介する。
事前トレーニングされたMLLMは、欠落したEHR情報を補完するために使用され、患者の医療史を包括的に理解する。
さらに、FPは幻覚の問題を効果的に解決しつつ、MLLMの広範な訓練の必要性を減らす。
それでも、最適数を決定するプロセスや高品質な候補を選択するプロセスは重荷になりがちであるが、モデルの性能に大きな影響を及ぼす。
そこで我々は,新しい患者シナリオをリアルタイムに調整するために,少数のショットデータを動的に洗練する手法を提案する。
さらに、VGは、X線画像に対する関心領域にモデルの注意を集中させ、異常の同定を強化する。
MedPromptX-VQAは、MIMIC-IVとMIMIC-CXRデータベースから得られたインターリーブ画像とEHRデータを含む、新しいコンテキスト内ビジュアル質問応答データセットである。
その結果、MedPromptXのSOTA性能を示し、ベースラインに比べてF1スコアが11%向上した。
コードとデータはhttps://github.com/BioMedIA-MBZUAI/MedPromptXで公開されている。
Chest X-ray images are commonly used for predicting acute and chronic cardiopulmonary conditions, but efforts to integrate them with structured clinical data face challenges due to incomplete electronic health records (EHR). This paper introduces \textbf{MedPromptX}, the first model to integrate multimodal large language models (MLLMs), few-shot prompting (FP) and visual grounding (VG) to combine imagery with EHR data for chest X-ray diagnosis. A pre-trained MLLM is utilized to complement the missing EHR information, providing a comprehensive understanding of patients' medical history. Additionally, FP reduces the necessity for extensive training of MLLMs while effectively tackling the issue of hallucination. Nevertheless, the process of determining the optimal number of few-shot examples and selecting high-quality candidates can be burdensome, yet it profoundly influences model performance. Hence, we propose a new technique that dynamically refines few-shot data for real-time adjustment to new patient scenarios. Moreover, VG aids in focusing the model's attention on relevant regions of interest in X-ray images, enhancing the identification of abnormalities. We release MedPromptX-VQA, a new in-context visual question answering dataset encompassing interleaved image and EHR data derived from MIMIC-IV and MIMIC-CXR databases. Results demonstrate the SOTA performance of MedPromptX, achieving an 11% improvement in F1-score compared to the baselines. Code and data are available at https://github.com/BioMedIA-MBZUAI/MedPromptX | 翻訳日:2024-03-27 21:05:08 公開日:2024-03-26 |
# STEntConv: スタンス検出による診断予測とグラフ畳み込みネットワーク
STEntConv: Predicting Disagreement with Stance Detection and a Signed Graph Convolutional Network ( http://arxiv.org/abs/2403.15885v2 ) ライセンス: Link先を確認 | Isabelle Lorge, Li Zhang, Xiaowen Dong, Janet B. Pierrehumbert, | (参考訳) ソーシャルメディアプラットフォームの普及は、特に選挙や気候変動といった政治的・社会文化的話題について、オンライン上での議論の分極化に繋がった。
本稿では,2つの投稿の著者が同意するか否かを予測し,その投稿から得られる名前付きエンティティに関するユーザのスタンスを活用するための,シンプルで新しい教師なしの手法を提案する。
本稿では,ユーザと名前を重み付けしたエンティティのグラフを構築するモデルであるSTEntConvを紹介し,コメントと返信の相違を検出するために,SGCN (Signed Graph Convolutional Network) を訓練する。
プラットフォーム固有の機能やユーザ履歴を必要とせずに、さまざまな議論を呼んでいるサブレディットトピックについて、Reddit投稿のデータセットにおける不一致検出性能を改善することを示します。
The rise of social media platforms has led to an increase in polarised online discussions, especially on political and socio-cultural topics such as elections and climate change. We propose a simple and novel unsupervised method to predict whether the authors of two posts agree or disagree, leveraging user stances about named entities obtained from their posts. We present STEntConv, a model which builds a graph of users and named entities weighted by stance and trains a Signed Graph Convolutional Network (SGCN) to detect disagreement between comment and reply posts. We run experiments and ablation studies and show that including this information improves disagreement detection performance on a dataset of Reddit posts for a range of controversial subreddit topics, without the need for platform-specific features or user history. | 翻訳日:2024-03-27 21:05:08 公開日:2024-03-26 |
# 資源制約デバイスのための低エネルギー適応型パーソナライズに向けて
Towards Low-Energy Adaptive Personalization for Resource-Constrained Devices ( http://arxiv.org/abs/2403.15905v2 ) ライセンス: Link先を確認 | Yushan Huang, Josh Millar, Yuxuan Long, Yuchen Zhao, Hamed Hadaddi, | (参考訳) データドリフトに対処するための機械学習(ML)モデルのパーソナライズは、IoT(Internet of Things)アプリケーションにおける重要な課題である。
現在、ほとんどのアプローチは、エネルギーコストを無視しながら、新しいデータに適応するために、完全なベースモデルまたは最後の数層を微調整することに焦点を当てている。
しかし、様々な種類のデータドリフトが存在し、完全なベースモデルや最後の数層を微調整しても、特定のシナリオでは最適なパフォーマンスが得られない。
資源制約のあるデバイス向けに設計された低エネルギー適応型パーソナライズフレームワークであるTarget Block Fine-Tuning (TBFT)を提案する。
データのドリフトとパーソナライゼーションを,入力レベル,特徴レベル,出力レベルという3つのタイプに分類する。
各タイプに対して、エネルギーコストを削減して最適な性能を達成するために、モデルの異なるブロックを微調整する。
具体的には、入力レベル、特徴レベル、出力レベルは、モデルのフロント、ミドル、リアブロックの微調整に対応する。
TBFTをResNetモデル,3つのデータセット,3つのトレーニングサイズ,Raspberry Piで評価した。
Block Avg$と比較すると、各ブロックは個別に微調整され、その性能は平均で15.30%向上し、フル微調整と比較して41.57%のエネルギー消費を節約している。
The personalization of machine learning (ML) models to address data drift is a significant challenge in the context of Internet of Things (IoT) applications. Presently, most approaches focus on fine-tuning either the full base model or its last few layers to adapt to new data, while often neglecting energy costs. However, various types of data drift exist, and fine-tuning the full base model or the last few layers may not result in optimal performance in certain scenarios. We propose Target Block Fine-Tuning (TBFT), a low-energy adaptive personalization framework designed for resource-constrained devices. We categorize data drift and personalization into three types: input-level, feature-level, and output-level. For each type, we fine-tune different blocks of the model to achieve optimal performance with reduced energy costs. Specifically, input-, feature-, and output-level correspond to fine-tuning the front, middle, and rear blocks of the model. We evaluate TBFT on a ResNet model, three datasets, three different training sizes, and a Raspberry Pi. Compared with the $Block Avg$, where each block is fine-tuned individually and their performance improvements are averaged, TBFT exhibits an improvement in model accuracy by an average of 15.30% whilst saving 41.57% energy consumption on average compared with full fine-tuning. | 翻訳日:2024-03-27 21:05:08 公開日:2024-03-26 |
# 視覚・言語モデルにおける幻覚緩和のための意味的再構築
Exploiting Semantic Reconstruction to Mitigate Hallucinations in Vision-Language Models ( http://arxiv.org/abs/2403.16167v2 ) ライセンス: Link先を確認 | Minchan Kim, Minyeong Kim, Junik Bae, Suhwan Choi, Sungkyung Kim, Buru Chang, | (参考訳) 視覚言語モデルにおける幻覚は、特に長いキャプションの生成において、その信頼性に重大な課題をもたらす。
現在の方法では、これらの幻覚を正確に識別し緩和することができない。
この問題に対処するためESREALは,幻覚の発生を抑制するために,幻覚トークンの正確な位置化と罰則化によって設計された,新しい教師なし学習フレームワークである。
当初、ESREALは生成されたキャプションに基づいて再構成画像を作成し、対応する領域を元の画像と整列させる。
この意味再構成は、生成されたキャプション内のトークンレベルの幻覚の存在とタイプの両方を識別するのに役立つ。
その後、ESREALは、幻覚の種類に基づいて整列領域の意味的類似性を評価することにより、トークンレベルの幻覚スコアを算出する。
最後に、ESREALは近似ポリシー最適化アルゴリズムを採用し、トークンレベルの幻覚スコアに応じて幻覚トークンを選択的にペナルティ化する。
LLaVA, InstructBLIP, mPLUG-Owl2の幻覚を32.81%, 27.08%, 7.46%減少させる。
この改善は画像自体から派生した信号によってのみ達成され、画像とテキストのペアは不要である。
Hallucinations in vision-language models pose a significant challenge to their reliability, particularly in the generation of long captions. Current methods fall short of accurately identifying and mitigating these hallucinations. To address this issue, we introduce ESREAL, a novel unsupervised learning framework designed to suppress the generation of hallucinations through accurate localization and penalization of hallucinated tokens. Initially, ESREAL creates a reconstructed image based on the generated caption and aligns its corresponding regions with those of the original image. This semantic reconstruction aids in identifying both the presence and type of token-level hallucinations within the generated caption. Subsequently, ESREAL computes token-level hallucination scores by assessing the semantic similarity of aligned regions based on the type of hallucination. Finally, ESREAL employs a proximal policy optimization algorithm, where it selectively penalizes hallucinated tokens according to their token-level hallucination scores. Our framework notably reduces hallucinations in LLaVA, InstructBLIP, and mPLUG-Owl2 by 32.81%, 27.08%, and 7.46% on the CHAIR metric. This improvement is achieved solely through signals derived from the image itself, without the need for any image-text pairs. | 翻訳日:2024-03-27 21:05:08 公開日:2024-03-26 |
# 階層的非負行列分解によるサイバーセキュリティ知識グラフ生成
Cyber-Security Knowledge Graph Generation by Hierarchical Nonnegative Matrix Factorization ( http://arxiv.org/abs/2403.16222v2 ) ライセンス: Link先を確認 | Ryan Barron, Maksim E. Eren, Manish Bhattarai, Selma Wanna, Nicholas Solovyev, Kim Rasmussen, Boian S. Alexandrov, Charles Nicholas, Cynthia Matuszek, | (参考訳) サイバーセキュリティに関する人間の知識の多くは、増え続ける科学論文の中にカプセル化されている。
このテキストデータの拡大が進むにつれて、大規模なテキストデータセットに隠された実行可能な洞察を抽出する上で、ドキュメント組織手法の重要性がますます重要になっている。
知識グラフ(英: Knowledge Graphs、略称:KG)は、知識グラフ(英: Knowledge Graphs、略称:KG)は、知識グラフ(英: Knowledge Graphs、略称:KG)とは、知識グラフ(英: Knowledge Graphs、略称:KG)と、知識グラフ(英:KG)、知識グラフ(英:KG)、知識グラフ(英:KG)、知識グラフ(英:KG)、知識グラフ(英:KG)、知識グラフ(英:KG)、知識グラフ(英:KG)、知識グラフ(英:KG)、知識グラフ(英:KG)、知識グラフ(英:KG
科学文献からKGを構築する際の課題の1つは、構造化されていないテキストからオントロジーを抽出することである。
本稿では, 論文から構造オントロジーを抽出し, マルチモーダルKGを構築する手法を提案する。
我々はこの概念をサイバーセキュリティ領域で実証する。
KGの1つのモダリティは、出版されたカテゴリや著者などの論文から得られる観測可能な情報を表している。
第2のモダリティは、名前付きエンティティ、トピック、クラスタ、キーワードなどの階層的および意味論的非負の行列分解(NMF)によって抽出されたテキストの潜在(隠れ)パターンを明らかにする。
我々は、arXivにアップロードされた200万件以上の科学論文をサイバードメインに集約し、階層的および意味的なNMFを使用して、サイバードメイン固有のKGを構築することで、この概念を説明する。
Much of human knowledge in cybersecurity is encapsulated within the ever-growing volume of scientific papers. As this textual data continues to expand, the importance of document organization methods becomes increasingly crucial for extracting actionable insights hidden within large text datasets. Knowledge Graphs (KGs) serve as a means to store factual information in a structured manner, providing explicit, interpretable knowledge that includes domain-specific information from the cybersecurity scientific literature. One of the challenges in constructing a KG from scientific literature is the extraction of ontology from unstructured text. In this paper, we address this topic and introduce a method for building a multi-modal KG by extracting structured ontology from scientific papers. We demonstrate this concept in the cybersecurity domain. One modality of the KG represents observable information from the papers, such as the categories in which they were published or the authors. The second modality uncovers latent (hidden) patterns of text extracted through hierarchical and semantic non-negative matrix factorization (NMF), such as named entities, topics or clusters, and keywords. We illustrate this concept by consolidating more than two million scientific papers uploaded to arXiv into the cyber-domain, using hierarchical and semantic NMF, and by building a cyber-domain-specific KG. | 翻訳日:2024-03-27 21:05:08 公開日:2024-03-26 |
# 大規模言語モデルはトピックモデリングの伝統的なアプローチに代わるものを提供する
Large Language Models Offer an Alternative to the Traditional Approach of Topic Modelling ( http://arxiv.org/abs/2403.16248v2 ) ライセンス: Link先を確認 | Yida Mu, Chun Dong, Kalina Bontcheva, Xingyi Song, | (参考訳) トピックモデリングは、よく確立された教師なしの技術であり、文書のコーパス内の重要なトピックを自動的に検出するのに広く利用されている。
しかし、古典的なトピックモデリングアプローチ(例えばLDA)には、意味的理解の欠如や重複するトピックの存在など、何らかの欠点がある。
本研究では,大言語モデル (LLM) の未解決の可能性について検討する。
そこで本稿では, LLM に与えられた文書集合からトピックを生成するよう促すフレームワークを導入し, LLM のクラスタリングの有効性を評価するための評価プロトコルを確立する。
本研究は, 適切なプロンプトを持つLCMが, トピックのタイトルを生成でき, トピックを洗練, マージするためのガイドラインに固執する上で, 有効な代替手段として目立たせることを示唆している。
詳細な実験と評価を通じて,トピック抽出にLLMを用いることの利点と制約を要約する。
Topic modelling, as a well-established unsupervised technique, has found extensive use in automatically detecting significant topics within a corpus of documents. However, classic topic modelling approaches (e.g., LDA) have certain drawbacks, such as the lack of semantic understanding and the presence of overlapping topics. In this work, we investigate the untapped potential of large language models (LLMs) as an alternative for uncovering the underlying topics within extensive text corpora. To this end, we introduce a framework that prompts LLMs to generate topics from a given set of documents and establish evaluation protocols to assess the clustering efficacy of LLMs. Our findings indicate that LLMs with appropriate prompts can stand out as a viable alternative, capable of generating relevant topic titles and adhering to human guidelines to refine and merge topics. Through in-depth experiments and evaluation, we summarise the advantages and constraints of employing LLMs in topic extraction. | 翻訳日:2024-03-27 21:05:08 公開日:2024-03-26 |
# 介護ロボットの危険な状況を避けるための人間の意図
Guessing human intentions to avoid dangerous situations in caregiving robots ( http://arxiv.org/abs/2403.16291v2 ) ライセンス: Link先を確認 | Noé Zapata, Gerardo Pérez, Lucas Bonilla, Pedro Núñez, Pilar Bachiller, Pablo Bustos, | (参考訳) ロボットが社会的に対話するには、人間の意図を解釈し、潜在的な結果を正確に予測する必要がある。
これは、人間のケアのために設計された社会ロボットにとって特に重要である。
本稿では,人間の意図を推論し解釈するためのATMアプローチについて考察する。
本研究では,人間の危険状況を検出するアルゴリズムを提案する。
ATMにシミュレーションベースのアプローチを導入し、「いいね!」ポリシーを採用し、人々に意図や行動を割り当てる。
この戦略を用いて、ロボットは時間制約のある状況下で高い成功率で検出および動作することができる。
このアルゴリズムは、既存のロボット認知アーキテクチャの一部として実装され、シミュレーションシナリオでテストされている。
シミュレーションシナリオ,Human-in-the-loopハイブリッド構成,実世界のシナリオなど,実装の堅牢性,精度,リアルタイム応答をテストするための3つの実験が実施されている。
For robots to interact socially, they must interpret human intentions and anticipate their potential outcomes accurately. This is particularly important for social robots designed for human care, which may face potentially dangerous situations for people, such as unseen obstacles in their way, that should be avoided. This paper explores the Artificial Theory of Mind (ATM) approach to inferring and interpreting human intentions. We propose an algorithm that detects risky situations for humans, selecting a robot action that removes the danger in real time. We use the simulation-based approach to ATM and adopt the 'like-me' policy to assign intentions and actions to people. Using this strategy, the robot can detect and act with a high rate of success under time-constrained situations. The algorithm has been implemented as part of an existing robotics cognitive architecture and tested in simulation scenarios. Three experiments have been conducted to test the implementation's robustness, precision and real-time response, including a simulated scenario, a human-in-the-loop hybrid configuration and a real-world scenario. | 翻訳日:2024-03-27 21:05:08 公開日:2024-03-26 |
# Deep Machining: Latheマシンの加工誤差のオンライン予測
DeepMachining: Online Prediction of Machining Errors of Lathe Machines ( http://arxiv.org/abs/2403.16451v2 ) ライセンス: Link先を確認 | Xiang-Li Lu, Hwai-Jung Hsu, Che-Wei Chou, H. T. Kung, Chen-Hsin Lee, | (参考訳) 深層学習に基づくAIシステムDeepMachiningについて述べる。
我々は工場の生産データに基づいてDeepMachiningを構築し評価した。
具体的には、まず、与えられた旋盤の操作に対して深層学習モデルを事前訓練し、加工状態の健全な特徴を学習する。
そして、トレーニング済みのモデルを微調整して、特定の加工タスクに適応する。
我々はDeepMachiningが、異なるワークピースやカットツールを含む複数のタスクに対して高い予測精度を実現することを実証した。
我々の知る限りでは、この研究は、学習済みの深層学習モデルを用いて、機械の加工誤差を予測する最初の工場実験の1つである。
We describe DeepMachining, a deep learning-based AI system for online prediction of machining errors of lathe machine operations. We have built and evaluated DeepMachining based on manufacturing data from factories. Specifically, we first pretrain a deep learning model for a given lathe machine's operations to learn the salient features of machining states. Then, we fine-tune the pretrained model to adapt to specific machining tasks. We demonstrate that DeepMachining achieves high prediction accuracy for multiple tasks that involve different workpieces and cutting tools. To the best of our knowledge, this work is one of the first factory experiments using pre-trained deep-learning models to predict machining errors of lathe machines. | 翻訳日:2024-03-27 21:05:08 公開日:2024-03-26 |
# As Good As A Coin Toss:AI生成画像、ビデオ、オーディオ、オーディオ視覚刺激の人間の検出
As Good As A Coin Toss: Human detection of AI-generated images, videos, audio, and audiovisual stimuli ( http://arxiv.org/abs/2403.16760v2 ) ライセンス: Link先を確認 | Di Cooke, Abigail Edwards, Sophia Barkoff, Kathryn Kelly, | (参考訳) 合成メディアが徐々に現実的になり、それを使うための障壁が減っていくにつれて、この技術は、金融詐欺から非合意ポルノまで、悪意ある目的のためにますます利用されてきた。
今日では、合成メディアによる誤解に対する主要な防御は、人間の観察者が現実と偽の区別を視覚的に、聴覚的に行う能力に依存している。
しかし、人々が日々の生活の中で人工メディアを欺くのにどれほど脆弱かは、まだ不明だ。
被験者1276名を対象に, 合成画像, 音声のみ, ビデオのみ, 映像のみ, 音声視覚刺激を正当性から識別する能力について検討した。
人々が野生で合成メディアに遭遇する可能性のある状況を反映するために、テスト条件と刺激が典型的なオンラインプラットフォームをエミュレートした。
全体として、参加者は、合成コンテンツと真正コンテンツとを有意義に区別することに苦労していた。
また、刺激が合成内容を含むと検出性能が悪化し、非顔オブジェクトと比較して人間の顔が特徴付けられる画像、マルチモーダル刺激と比較して単一のモダリティ、オーディオ視覚刺激の完全合成に比べて混合された認証性が低下し、観察者が習熟している言語と比較して外国語が特徴的であることも見いだした。
最後に, 合成メディアの先行知識が検出性能に有意な影響を及ぼさないことも確認した。
これらの結果は, 日常の合成メディアに騙される可能性が高く, 人間の知覚検出能力は, 効果的な防御手段として信頼できないことを示唆している。
As synthetic media becomes progressively more realistic and barriers to using it continue to lower, the technology has been increasingly utilized for malicious purposes, from financial fraud to nonconsensual pornography. Today, the principal defense against being misled by synthetic media relies on the ability of the human observer to visually and auditorily discern between real and fake. However, it remains unclear just how vulnerable people actually are to deceptive synthetic media in the course of their day to day lives. We conducted a perceptual study with 1276 participants to assess how accurate people were at distinguishing synthetic images, audio only, video only, and audiovisual stimuli from authentic. To reflect the circumstances under which people would likely encounter synthetic media in the wild, testing conditions and stimuli emulated a typical online platform, while all synthetic media used in the survey was sourced from publicly accessible generative AI technology. We find that overall, participants struggled to meaningfully discern between synthetic and authentic content. We also find that detection performance worsens when the stimuli contains synthetic content as compared to authentic content, images featuring human faces as compared to non face objects, a single modality as compared to multimodal stimuli, mixed authenticity as compared to being fully synthetic for audiovisual stimuli, and features foreign languages as compared to languages the observer is fluent in. Finally, we also find that prior knowledge of synthetic media does not meaningfully impact their detection performance. Collectively, these results indicate that people are highly susceptible to being tricked by synthetic media in their daily lives and that human perceptual detection capabilities can no longer be relied upon as an effective counterdefense. | 翻訳日:2024-03-27 21:05:08 公開日:2024-03-26 |
# EU AI法をナビゲートする - 安全クリティカルな製品へのコンプライアンスの方法論的アプローチ
Navigating the EU AI Act: A Methodological Approach to Compliance for Safety-critical Products ( http://arxiv.org/abs/2403.16808v2 ) ライセンス: Link先を確認 | J. Kelly, S. Zafar, L. Heidemann, J. Zacchi, D. Espinoza, N. Mata, | (参考訳) 2023年12月、欧州議会は暫定的にEUのAI法に同意した。
この前例のないAIシステムの規制枠組みは、AI製品の安全性、合法性、信頼性を保証するためのガイドラインを定めている。
本稿では,製品の品質モデルを活用することで,リスクの高いAIシステムに対するEU AI Act要件を解釈するための方法論を提案する。
まず,AIシステムに対する製品品質モデルの拡張を提案し,現行の品質モデルではカバーされない法に関する属性を取り入れた。
我々は、アクト要件を関連する品質特性にマッピングし、それらを測定可能な特性に精製する。
次に、ステークホルダーレベルで技術的要件を導出するための契約ベースのアプローチを提案します。
これにより、確立された品質基準に準拠するだけでなく、リスクの高い(安全クリティカルな)AIシステムに関する法律で規定された規制要件にも準拠するAIシステムの開発と評価が容易になる。
いくつかの利害関係者が連携してEU AI Actの遵守を実現するような、例示的な自動車サプライチェーンのユースケースにおいて、この方法論の適用性を実証する。
In December 2023, the European Parliament provisionally agreed on the EU AI Act. This unprecedented regulatory framework for AI systems lays out guidelines to ensure the safety, legality, and trustworthiness of AI products. This paper presents a methodology for interpreting the EU AI Act requirements for high-risk AI systems by leveraging product quality models. We first propose an extended product quality model for AI systems, incorporating attributes relevant to the Act not covered by current quality models. We map the Act requirements to relevant quality attributes with the goal of refining them into measurable characteristics. We then propose a contract-based approach to derive technical requirements at the stakeholder level. This facilitates the development and assessment of AI systems that not only adhere to established quality standards, but also comply with the regulatory requirements outlined in the Act for high-risk (including safety-critical) AI systems. We demonstrate the applicability of this methodology on an exemplary automotive supply chain use case, where several stakeholders interact to achieve EU AI Act compliance. | 翻訳日:2024-03-27 21:05:08 公開日:2024-03-26 |
# DISL: 固体スマートコントラクトの大規模データセットによる燃料研究
DISL: Fueling Research with A Large Dataset of Solidity Smart Contracts ( http://arxiv.org/abs/2403.16861v2 ) ライセンス: Link先を確認 | Gabriele Morello, Mojtaba Eshghie, Sofia Bobadilla, Martin Monperrus, | (参考訳) DISLデータセットには、Ethereumメインネットにデプロイされた514,506ドルのユニークなSolidityファイルのコレクションが含まれている。
現実世界のスマートコントラクトの大規模で多様なデータセットの必要性に対処する。
DISLは、機械学習システムの開発や、スマートコントラクト用に設計されたソフトウェアエンジニアリングツールのベンチマークのためのリソースとして機能する。
2024年1月15日までにEtherscanから認証されたすべてのスマートコントラクトを集約することで、DECは既存のデータセットをサイズと正確性で上回る。
The DISL dataset features a collection of $514,506$ unique Solidity files that have been deployed to Ethereum mainnet. It caters to the need for a large and diverse dataset of real-world smart contracts. DISL serves as a resource for developing machine learning systems and for benchmarking software engineering tools designed for smart contracts. By aggregating every verified smart contract from Etherscan up to January 15, 2024, DISL surpasses existing datasets in size and recency. | 翻訳日:2024-03-27 20:44:21 公開日:2024-03-26 |
# 事前学習言語モデルを用いたアドホック文書検索のための粗調整
Coarse-Tuning for Ad-hoc Document Retrieval Using Pre-trained Language Models ( http://arxiv.org/abs/2403.16915v2 ) ライセンス: Link先を確認 | Atsushi Keyaki, Ribeka Keyaki, | (参考訳) 事前学習言語モデル(PLMベースのIR)を用いた情報検索システムの微調整には,下流のタスク固有学習に加えて,クエリ表現とクエリ文書関係の学習が必要である。
本研究では,事前学習と微調整を橋渡しする中間学習段階として粗調整を導入する。
粗いチューニングにおける問合せ表現と問合せ文書の関係を学習することにより、微調整の負荷を低減し、下流IRタスクの学習効果を改善することを目指す。
粗いチューニングのためのクエリ文書ペア予測(QDPP)を提案し,クエリ文書ペアの適切性を予測する。
評価実験により,提案手法は4つのアドホック文書検索データセットにおいてMRRとnDCG@5を大幅に改善することが示された。
さらに,クエリ予測タスクの結果から,粗いチューニングがクエリ表現とクエリ文書関係の学習を促進することが示唆された。
Fine-tuning in information retrieval systems using pre-trained language models (PLM-based IR) requires learning query representations and query-document relations, in addition to downstream task-specific learning. This study introduces coarse-tuning as an intermediate learning stage that bridges pre-training and fine-tuning. By learning query representations and query-document relations in coarse-tuning, we aim to reduce the load of fine-tuning and improve the learning effect of downstream IR tasks. We propose Query-Document Pair Prediction (QDPP) for coarse-tuning, which predicts the appropriateness of query-document pairs. Evaluation experiments show that the proposed method significantly improves MRR and/or nDCG@5 in four ad-hoc document retrieval datasets. Furthermore, the results of the query prediction task suggested that coarse-tuning facilitated learning of query representation and query-document relations. | 翻訳日:2024-03-27 20:34:33 公開日:2024-03-26 |
# 人間の判断に適応する:大規模言語モデル評価におけるペアワイズ・プライオリティの役割
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators ( http://arxiv.org/abs/2403.16950v2 ) ライセンス: Link先を確認 | Yinhong Liu, Han Zhou, Zhijiang Guo, Ehsan Shareghi, Ivan Vulić, Anna Korhonen, Nigel Collier, | (参考訳) 大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
しかし、LLMは依然として評価のバイアスを示しており、人間の評価と一致した一貫性のある評価を生成するのに苦労することが多い。
本研究ではまず,LLM評価器と人的判断の相違を系統的に検討し,LLM評価器を効果的に整合させるには,バイアス軽減を目的とした既存の校正方法が不十分であることを明らかにした。
RLHFにおける選好データの利用に触発されて、評価をランキング問題として定式化し、LLMを用いてペアワイズ比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索法であるPairwise-preference Search(PairS)を導入する。
PairSは、代表評価タスクにおける最先端のパフォーマンスを実現し、直接スコアよりも大幅に改善されている。
さらに, LLMの遷移度を定量化する上でのペア選好の役割について考察し, PairSのキャリブレーションによるメリットを実証する。
Large Language Models (LLMs) have demonstrated promising capabilities as automatic evaluators in assessing the quality of generated natural language. However, LLMs still exhibit biases in evaluation and often struggle to generate coherent evaluations that align with human assessments. In this work, we first conduct a systematic study of the misalignment between LLM evaluators and human judgement, revealing that existing calibration methods aimed at mitigating biases are insufficient for effectively aligning LLM evaluators. Inspired by the use of preference data in RLHF, we formulate the evaluation as a ranking problem and introduce Pairwise-preference Search (PairS), an uncertainty-guided search method that employs LLMs to conduct pairwise comparisons and efficiently ranks candidate texts. PairS achieves state-of-the-art performance on representative evaluation tasks and demonstrates significant improvements over direct scoring. Furthermore, we provide insights into the role of pairwise preference in quantifying the transitivity of LLMs and demonstrate how PairS benefits from calibration. | 翻訳日:2024-03-27 20:24:47 公開日:2024-03-26 |
# AIOS: LLMエージェントオペレーティングシステム
AIOS: LLM Agent Operating System ( http://arxiv.org/abs/2403.16971v2 ) ライセンス: Link先を確認 | Kai Mei, Zelong Li, Shuyuan Xu, Ruosong Ye, Yingqiang Ge, Yongfeng Zhang, | (参考訳) 大規模言語モデル(LLM)ベースのインテリジェントエージェントの統合とデプロイは、その効率性と効率性を損なうような問題に直面している。
これらの課題には、LLM上のエージェント要求のサブ最適スケジューリングとリソース割り当て、エージェントとLLM間の相互作用におけるコンテキスト維持の難しさ、および異なる機能と特殊化を備えた異種エージェントの統合に固有の複雑さが含まれる。
エージェント量と複雑さの急速な増加はこれらの問題をさらに悪化させ、しばしばボトルネックとリソースの準最適利用につながる。
これらの課題に触発された本論文では,OSの頭脳として大規模言語モデルをオペレーティングシステム(OS)に組み込んだLLMエージェントオペレーティングシステムであるAIOSを提案する。
具体的には、AIOSはリソース割り当てを最適化し、エージェント間のコンテキストスイッチを容易にし、エージェントの同時実行を可能にし、エージェントのためのツールサービスを提供し、エージェントのアクセス制御を維持するように設計されている。
我々は、そのようなオペレーティングシステムのアーキテクチャを説明し、AIOSの基本設計と実装を提供する。
複数のエージェントの同時実行に関する実験は、AIOSモジュールの信頼性と効率を実証している。
これにより,LLMエージェントの性能と効率の向上だけでなく,将来的にはAIOSエコシステムのより良い開発と展開のパイオニアも目指す。
プロジェクトはhttps://github.com/agiresearch/AIOSでオープンソース化されている。
The integration and deployment of large language model (LLM)-based intelligent agents have been fraught with challenges that compromise their efficiency and efficacy. Among these issues are sub-optimal scheduling and resource allocation of agent requests over the LLM, the difficulties in maintaining context during interactions between agent and LLM, and the complexities inherent in integrating heterogeneous agents with different capabilities and specializations. The rapid increase of agent quantity and complexity further exacerbates these issues, often leading to bottlenecks and sub-optimal utilization of resources. Inspired by these challenges, this paper presents AIOS, an LLM agent operating system, which embeds large language model into operating systems (OS) as the brain of the OS, enabling an operating system "with soul" -- an important step towards AGI. Specifically, AIOS is designed to optimize resource allocation, facilitate context switch across agents, enable concurrent execution of agents, provide tool service for agents, and maintain access control for agents. We present the architecture of such an operating system, outline the core challenges it aims to resolve, and provide the basic design and implementation of the AIOS. Our experiments on concurrent execution of multiple agents demonstrate the reliability and efficiency of our AIOS modules. Through this, we aim to not only improve the performance and efficiency of LLM agents but also to pioneer for better development and deployment of the AIOS ecosystem in the future. The project is open-source at https://github.com/agiresearch/AIOS. | 翻訳日:2024-03-27 20:24:47 公開日:2024-03-26 |
# LLMを用いた数学質問に対する自動知識タグ付け
Automate Knowledge Concept Tagging on Math Questions with LLMs ( http://arxiv.org/abs/2403.17281v1 ) ライセンス: Link先を確認 | Hang Li, Tianlong Xu, Jiliang Tang, Qingsong Wen, | (参考訳) 質問に対する知識概念のタグ付けは、学習進行診断、実践的質問推薦、コースコンテンツ組織など、現代のインテリジェントな教育アプリケーションにおいて重要な役割を担っている。
伝統的に、これらのアノテーションは教育専門家の助けを借りて手作業で行われてきた。このタスクは、疑問の根源と知識の定義の両方について強力な意味的理解を必要とするだけでなく、問題解決ロジックと対応する知識概念を結びつけるための深い洞察も必要である。
本稿では,先進的な教育応用によってもたらされる課題において,概念タギングの需要が急速に増大する中で,従来の手作業手法が不可能なことに対応するため,Large Language Models (LLMs) を用いたタグ付けタスクの自動化について検討する。
さらに、LLMのゼロ/フェーショット学習能力は、教育シナリオでの応用に適しており、多くの場合、大規模で専門知識を付加したデータセット収集の課題に直面している。
様々な LLM を用いて広範な実験を行うことにより,LLM が数学問題における概念タグ付けのための有望なツールであることを実証する。
さらに, 異なるLLMの結果を調べる事例研究を通じて, LLMを自動的な概念タグ付けタスクに適用する上での鍵となる要因について, 実証的な結論を導いた。
Knowledge concept tagging for questions plays a crucial role in contemporary intelligent educational applications, including learning progress diagnosis, practice question recommendations, and course content organization. Traditionally, these annotations have been conducted manually with help from pedagogical experts, as the task requires not only a strong semantic understanding of both question stems and knowledge definitions but also deep insights into connecting question-solving logic with corresponding knowledge concepts. In this paper, we explore automating the tagging task using Large Language Models (LLMs), in response to the inability of prior manual methods to meet the rapidly growing demand for concept tagging in questions posed by advanced educational applications. Moreover, the zero/few-shot learning capability of LLMs makes them well-suited for application in educational scenarios, which often face challenges in collecting large-scale, expertise-annotated datasets. By conducting extensive experiments with a variety of representative LLMs, we demonstrate that LLMs are a promising tool for concept tagging in math questions. Furthermore, through case studies examining the results from different LLMs, we draw some empirical conclusions about the key factors for success in applying LLMs to the automatic concept tagging task. | 翻訳日:2024-03-27 17:15:36 公開日:2024-03-26 |
# 多モーダル対話における共通地面追跡
Common Ground Tracking in Multimodal Dialogue ( http://arxiv.org/abs/2403.17284v1 ) ライセンス: Link先を確認 | Ibrahim Khebour, Kenneth Lai, Mariah Bradford, Yifan Zhu, Richard Brutti, Christopher Tam, Jingxuan Tu, Benjamin Ibarra, Nathaniel Blanchard, Nikhil Krishnaswamy, James Pustejovsky, | (参考訳) AIとNLPにおける対話モデリングの研究の中で、過去の対話の動きと履歴を考慮し、対話における各ターンにおける話者のニーズの表現を更新する「対話状態追跡」 (DST) に多大な注意が払われている。
しかし、対話モデリングにおいてあまり研究されていないが、同様に重要なのが ''共通地上追跡' (CGT) であり、これは、タスク指向の対話において、すべての参加者が持つ共有信念空間を識別する。
本稿では,共有目標を持つグループの現在の共有信念と「議論中の質問」を自動的に識別する手法を提案する。
我々は、音声の書き起こし、韻律的特徴、ジェスチャー、行動、および協調の顔を含む共有物理空間におけるマルチモーダル相互作用のデータセットを注釈し、これらの特徴を深層ニューラルネットワークで使用して、共通基盤の構築に向けた動きを予測する。
モデルはカスケードを、位置する証拠と信念の公理と更新操作から導かれる正式な閉鎖規則の集合に出力する。
提案手法は, 提案手法を用いて, 基礎的真理に対する共通基盤構築への各特徴型の貢献を実証的に評価し, 課題の1つとして評価するものである。
Within Dialogue Modeling research in AI and NLP, considerable attention has been spent on ``dialogue state tracking'' (DST), which is the ability to update the representations of the speaker's needs at each turn in the dialogue by taking into account the past dialogue moves and history. Less studied but just as important to dialogue modeling, however, is ``common ground tracking'' (CGT), which identifies the shared belief space held by all of the participants in a task-oriented dialogue: the task-relevant propositions all participants accept as true. In this paper we present a method for automatically identifying the current set of shared beliefs and ``questions under discussion'' (QUDs) of a group with a shared goal. We annotate a dataset of multimodal interactions in a shared physical space with speech transcriptions, prosodic features, gestures, actions, and facets of collaboration, and operationalize these features for use in a deep neural model to predict moves toward construction of common ground. Model outputs cascade into a set of formal closure rules derived from situated evidence and belief axioms and update operations. We empirically assess the contribution of each feature type toward successful construction of common ground relative to ground truth, establishing a benchmark in this novel, challenging task. | 翻訳日:2024-03-27 17:15:36 公開日:2024-03-26 |
# 強化学習におけるスイッチバック設計の分析
An Analysis of Switchback Designs in Reinforcement Learning ( http://arxiv.org/abs/2403.17285v1 ) ライセンス: Link先を確認 | Qianglin Wen, Chengchun Shi, Ying Yang, Niansheng Tang, Hongtu Zhu, | (参考訳) 本稿では,A/Bテストにおけるスイッチバック設計について詳細に検討し,基本方針と新方針を時間とともに交互に検討する。
本研究の目的は,これらの設計が得られた平均処理効果(ATE)推定値の精度に与える影響を徹底的に評価することである。
マルコフ決定処理環境におけるこれらのATEの平均二乗誤差(MSE)の計算を大幅に単純化する「弱信号解析」フレームワークを提案する。
私たちの発見は
一 報酬誤差の大多数が正の相関関係にあるときは、日々の方針を切り替える連日設計よりも、スイッチバック設計の方が効率的である。
さらに、ポリシースイッチの頻度が増加すると、ATE推定器のMSEが減少する傾向にある。
2) 誤差が非相関である場合、これらの設計はすべて漸近的に等価となる。
三 エラーの大多数が負の相関関係にある場合において、変更日の設計が最適な選択となること。
これらの洞察は、A/Bテストで実験を設計する実践者のためのガイドラインとして重要である。
本分析は,モデルに基づく時間差分推定器,最小二乗時間差分推定器,二重強化学習推定器など,様々な政策価値推定器に対応し,強化学習における政策評価のための最適設計戦略の総合的理解を提供する。
This paper offers a detailed investigation of switchback designs in A/B testing, which alternate between baseline and new policies over time. Our aim is to thoroughly evaluate the effects of these designs on the accuracy of their resulting average treatment effect (ATE) estimators. We propose a novel "weak signal analysis" framework, which substantially simplifies the calculations of the mean squared errors (MSEs) of these ATEs in Markov decision process environments. Our findings suggest that (i) when the majority of reward errors are positively correlated, the switchback design is more efficient than the alternating-day design which switches policies in a daily basis. Additionally, increasing the frequency of policy switches tends to reduce the MSE of the ATE estimator. (ii) When the errors are uncorrelated, however, all these designs become asymptotically equivalent. (iii) In cases where the majority of errors are negative correlated, the alternating-day design becomes the optimal choice. These insights are crucial, offering guidelines for practitioners on designing experiments in A/B testing. Our analysis accommodates a variety of policy value estimators, including model-based estimators, least squares temporal difference learning estimators, and double reinforcement learning estimators, thereby offering a comprehensive understanding of optimal design strategies for policy evaluation in reinforcement learning. | 翻訳日:2024-03-27 17:05:31 公開日:2024-03-26 |
# すべてのフェデレーション学習アルゴリズムが等しくなるわけではない:性能評価研究
Not All Federated Learning Algorithms Are Created Equal: A Performance Evaluation Study ( http://arxiv.org/abs/2403.17287v1 ) ライセンス: Link先を確認 | Gustav A. Baumgart, Jaemin Shin, Ali Payani, Myungjin Lee, Ramana Rao Kompella, | (参考訳) フェデレートラーニング(FL)は、分散データからモデルをトレーニングするための実践的なアプローチとして登場した。
FLの増殖は、多くのFLアルゴリズムとメカニズムの開発につながった。
これまでの多くの取り組みでは、これらのアプローチの正確性に重点を置いてきたが、計算上のオーバーヘッドやパフォーマンス、トレーニングの安定性など、他の側面についてはほとんど理解されていない。
このギャップを埋めるために、Flameと呼ばれるオープンソースのフェデレート学習フレームワークを利用することで、いくつかの標準FLアルゴリズム(FedAvg、FedProx、FedYogi、FedAdam、SCAFFOLD、FedDyn)の性能評価を行う。
我々の総合的な測定結果から、異なるパフォーマンス指標に対して1つのアルゴリズムが最善を尽くさないことが判明した。
1) 最先端のアルゴリズムは、他のアルゴリズムよりも高い精度を達成するが、高い計算オーバーヘッド(FedDyn)または通信オーバーヘッド(SCAFFOLD)を発生させる。
2)最近のアルゴリズムでは、FedAvgよりもクライアント間での精度の標準偏差が小さくなり、高度なアルゴリズムの性能が安定していることが示されている。
しかし、FedDynやSCAFFOLDのようなアルゴリズムは、勾配クリッピングなどの追加技術をサポートせずに破滅的な失敗をしがちである。
FLアルゴリズムの評価において,コミュニティがベストプラクティスを構築する上で,私たちの経験的研究が有効であることを願っています。
Federated Learning (FL) emerged as a practical approach to training a model from decentralized data. The proliferation of FL led to the development of numerous FL algorithms and mechanisms. Many prior efforts have given their primary focus on accuracy of those approaches, but there exists little understanding of other aspects such as computational overheads, performance and training stability, etc. To bridge this gap, we conduct extensive performance evaluation on several canonical FL algorithms (FedAvg, FedProx, FedYogi, FedAdam, SCAFFOLD, and FedDyn) by leveraging an open-source federated learning framework called Flame. Our comprehensive measurement study reveals that no single algorithm works best across different performance metrics. A few key observations are: (1) While some state-of-the-art algorithms achieve higher accuracy than others, they incur either higher computation overheads (FedDyn) or communication overheads (SCAFFOLD). (2) Recent algorithms present smaller standard deviation in accuracy across clients than FedAvg, indicating that the advanced algorithms' performances are stable. (3) However, algorithms such as FedDyn and SCAFFOLD are more prone to catastrophic failures without the support of additional techniques such as gradient clipping. We hope that our empirical study can help the community to build best practices in evaluating FL algorithms. | 翻訳日:2024-03-27 17:05:31 公開日:2024-03-26 |
# アルゴリズム画像処理と深層学習に基づく3次元Cryo-et/em密度マップにおける分子パターンの追跡とセグメンテーション
Tracing and segmentation of molecular patterns in 3-dimensional cryo-et/em density maps through algorithmic image processing and deep learning-based techniques ( http://arxiv.org/abs/2403.17293v1 ) ライセンス: Link先を確認 | Salim Sazzed, | (参考訳) 生体高分子の構造を理解することは、細胞機能と密接に関連しているため非常に重要である。
正確な組織であるアクチンフィラメントを補完することは、細胞に構造的な支持を与え、細胞の内部と周囲を繋ぐ動的細胞骨格を形成するために重要である。
しかし,アクチンフィラメントの正確な組織決定は,低信号-ノイズ比(SNR)と欠落するくさびの存在に悩まされる低温電子トモグラフィー(cryo-ET)画像の品質の低下と,アクチンフィラメントの多彩な形状特性により困難である。
これらの困難な課題に対処するために、この論文の主要な構成要素は、アクチンフィラメントをトレースする高度な計算技術の開発である。
特に3つの新しい方法論が開発されている。
一 ステレオシリウムで発見された束状アクチンフィラメントをトレースするためのバンドルトラクス
二 緩い結束運動で個別に動くフィラメントの追跡のためのスパゲッティトレーサ
三 アクチンネットワークにおいて、ランダムに配向したアクチンフィラメントをトレースするための構造追跡器
論文の第2のコンポーネントは、中分解能(5-10アングストローム)3次元低温電子顕微鏡(cryo-EM)画像において、ヘリスやベータシートなどのタンパク質二次構造の位置を決定する畳み込みニューラルネットワーク(CNN)ベースのセグメンテーションモデルを導入する。
この手法は後にDeepSSETracerという名前のツールへと進化した。
この論文の最終構成要素は、中分解能クライオEM画像におけるヘリックス領域における画像構造マッチングを推定する、新しいアルゴリズムである円筒適合度尺度である。
全体として、私の論文は、様々な計算方法やツールを導入して、構造生物学における重要な研究課題に対処することに大きな貢献をしている。
Understanding the structures of biological macromolecules is highly important as they are closely associated with cellular functionalities. Comprehending the precise organization actin filaments is crucial because they form the dynamic cytoskeleton, which offers structural support to cells and connects the cell's interior with its surroundings. However, determining the precise organization of actin filaments is challenging due to the poor quality of cryo-electron tomography (cryo-ET) images, which suffer from low signal-to-noise (SNR) ratios and the presence of missing wedge, as well as diverse shape characteristics of actin filaments. To address these formidable challenges, the primary component of this dissertation focuses on developing sophisticated computational techniques for tracing actin filaments. In particular, three novel methodologies have been developed: i) BundleTrac, for tracing bundle-like actin filaments found in Stereocilium, ii) Spaghetti Tracer, for tracing filaments that move individually with loosely cohesive movements, and iii) Struwwel Tracer, for tracing randomly orientated actin filaments in the actin network. The second component of the dissertation introduces a convolutional neural network (CNN) based segmentation model to determine the location of protein secondary structures, such as helices and beta-sheets, in medium-resolution (5-10 Angstrom) 3-dimensional cryo-electron microscopy (cryo-EM) images. This methodology later evolved into a tool named DeepSSETracer. The final component of the dissertation presents a novel algorithm, cylindrical fit measure, to estimate image structure match at helix regions in medium-resolution cryo-EM images. Overall, my dissertation has made significant contributions to addressing critical research challenges in structural biology by introducing various computational methods and tools. | 翻訳日:2024-03-27 17:05:31 公開日:2024-03-26 |
# Hawk: セキュアルックアップテーブル計算を用いた高精度かつ高速なプライバシ保護機械学習
Hawk: Accurate and Fast Privacy-Preserving Machine Learning Using Secure Lookup Table Computation ( http://arxiv.org/abs/2403.17296v1 ) ライセンス: Link先を確認 | Hamza Saleem, Amir Ziashahabi, Muhammad Naveed, Salman Avestimehr, | (参考訳) 直接的なデータ共有のない複数のエンティティからのデータに対する機械学習モデルのトレーニングは、ビジネス、法的、倫理的制約によって妨げられるようなアプリケーションをアンロックすることができる。
本研究では、ロジスティック回帰とニューラルネットワークモデルのための新しいプライバシ保護機械学習プロトコルの設計と実装を行う。
データ所有者がデータを2つのサーバ間で秘密に共有し、そのデータをトレーニングし評価する2サーバモデルを採用しています。
既存の手法における非効率性と不正確性の重要な原因は、ヤオのガーブロード回路を用いて非線形活性化関数を計算することにある。
本研究では,秘密共有ルックアップテーブルに基づく非線形関数の計算手法を提案し,計算効率と精度の向上を両立させた。
漏洩のないテクニックを導入するだけでなく、プライバシー保護機械学習のための緩和されたセキュリティ対策の探求も開始します。
サーバが計算中に知識を得られないと主張するのではなく、ルックアップテーブルへのアクセスパターンに関する情報が明らかにされている一方で、epsilon-dX-privacyを維持している、と我々は主張する。
この緩和を活用すれば、トレーニングに必要な計算資源が大幅に削減される。
我々は、この緩和されたセキュリティパラダイムに合わせた新しい暗号プロトコルを提案し、漏洩を定義し、分析する。
評価の結果,ロジスティック回帰プロトコルは最大9倍高速であり,ニューラルネットワークトレーニングはSecureMLの最大688倍高速であることがわかった。
特に、我々のニューラルネットワークは15年代におけるMNISTの96.6%の精度を達成し、同じアーキテクチャを使用して93.4%の上限に達した以前のベンチマークを上回った。
Training machine learning models on data from multiple entities without direct data sharing can unlock applications otherwise hindered by business, legal, or ethical constraints. In this work, we design and implement new privacy-preserving machine learning protocols for logistic regression and neural network models. We adopt a two-server model where data owners secret-share their data between two servers that train and evaluate the model on the joint data. A significant source of inefficiency and inaccuracy in existing methods arises from using Yao's garbled circuits to compute non-linear activation functions. We propose new methods for computing non-linear functions based on secret-shared lookup tables, offering both computational efficiency and improved accuracy. Beyond introducing leakage-free techniques, we initiate the exploration of relaxed security measures for privacy-preserving machine learning. Instead of claiming that the servers gain no knowledge during the computation, we contend that while some information is revealed about access patterns to lookup tables, it maintains epsilon-dX-privacy. Leveraging this relaxation significantly reduces the computational resources needed for training. We present new cryptographic protocols tailored to this relaxed security paradigm and define and analyze the leakage. Our evaluations show that our logistic regression protocol is up to 9x faster, and the neural network training is up to 688x faster than SecureML. Notably, our neural network achieves an accuracy of 96.6% on MNIST in 15 epochs, outperforming prior benchmarks that capped at 93.4% using the same architecture. | 翻訳日:2024-03-27 17:05:31 公開日:2024-03-26 |
# インターンLM2技術報告
InternLM2 Technical Report ( http://arxiv.org/abs/2403.17297v1 ) ライセンス: Link先を確認 | Zheng Cai, Maosong Cao, Haojiong Chen, Kai Chen, Keyu Chen, Xin Chen, Xun Chen, Zehui Chen, Zhi Chen, Pei Chu, Xiaoyi Dong, Haodong Duan, Qi Fan, Zhaoye Fei, Yang Gao, Jiaye Ge, Chenya Gu, Yuzhe Gu, Tao Gui, Aijia Guo, Qipeng Guo, Conghui He, Yingfan Hu, Ting Huang, Tao Jiang, Penglong Jiao, Zhenjiang Jin, Zhikai Lei, Jiaxing Li, Jingwen Li, Linyang Li, Shuaibin Li, Wei Li, Yining Li, Hongwei Liu, Jiangning Liu, Jiawei Hong, Kaiwen Liu, Kuikun Liu, Xiaoran Liu, Chengqi Lv, Haijun Lv, Kai Lv, Li Ma, Runyuan Ma, Zerun Ma, Wenchang Ning, Linke Ouyang, Jiantao Qiu, Yuan Qu, Fukai Shang, Yunfan Shao, Demin Song, Zifan Song, Zhihao Sui, Peng Sun, Yu Sun, Huanze Tang, Bin Wang, Guoteng Wang, Jiaqi Wang, Jiayu Wang, Rui Wang, Yudong Wang, Ziyi Wang, Xingjian Wei, Qizhen Weng, Fan Wu, Yingtong Xiong, Chao Xu, Ruiliang Xu, Hang Yan, Yirong Yan, Xiaogui Yang, Haochen Ye, Huaiyuan Ying, Jia Yu, Jing Yu, Yuhang Zang, Chuyu Zhang, Li Zhang, Pan Zhang, Peng Zhang, Ruijie Zhang, Shuo Zhang, Songyang Zhang, Wenjian Zhang, Wenwei Zhang, Xingcheng Zhang, Xinyue Zhang, Hui Zhao, Qian Zhao, Xiaomeng Zhao, Fengzhe Zhou, Zaida Zhou, Jingming Zhuo, Yicheng Zou, Xipeng Qiu, Yu Qiao, Dahua Lin, | (参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)の進化は、人工知能(AGI)の出現に関する議論を引き起こしている。
しかし、そのような進歩をオープンソースモデルに複製することは困難である。
本稿では、6次元および30ベンチマーク、長期コンテキストモデリング、革新的な事前学習と最適化技術によるオープンな主観評価において、前者よりも優れた性能を発揮するオープンソースのLCMであるInternLM2を紹介する。
InternLM2の事前トレーニングプロセスは細部まで詳しく、テキスト、コード、長文データを含む多様なデータ型の作成が強調されている。
InternLM2は、4kトークンでトレーニングされた長期的な依存関係を効率的にキャプチャし、事前トレーニングと微調整の段階で32kトークンに前進し、200k ``Needle-in-a-Haystack"テストで顕著なパフォーマンスを示す。
InternLM2はさらに、Prevised Fine-Tuning (SFT) と、人間の好みと報酬のハッキングに対処する新しいConsitional Online Reinforcement Learning from Human Feedback (COOL RLHF) 戦略を用いて調整されている。
InternLM2モデルを異なるトレーニング段階とモデルサイズでリリースすることで、モデルの進化に関する洞察をコミュニティに提供する。
The evolution of Large Language Models (LLMs) like ChatGPT and GPT-4 has sparked discussions on the advent of Artificial General Intelligence (AGI). However, replicating such advancements in open-source models has been challenging. This paper introduces InternLM2, an open-source LLM that outperforms its predecessors in comprehensive evaluations across 6 dimensions and 30 benchmarks, long-context modeling, and open-ended subjective evaluations through innovative pre-training and optimization techniques. The pre-training process of InternLM2 is meticulously detailed, highlighting the preparation of diverse data types including text, code, and long-context data. InternLM2 efficiently captures long-term dependencies, initially trained on 4k tokens before advancing to 32k tokens in pre-training and fine-tuning stages, exhibiting remarkable performance on the 200k ``Needle-in-a-Haystack" test. InternLM2 is further aligned using Supervised Fine-Tuning (SFT) and a novel Conditional Online Reinforcement Learning from Human Feedback (COOL RLHF) strategy that addresses conflicting human preferences and reward hacking. By releasing InternLM2 models in different training stages and model sizes, we provide the community with insights into the model's evolution. | 翻訳日:2024-03-27 17:05:31 公開日:2024-03-26 |
# Decoding Probing:ミニマルペアを用いたニューラル言語モデルの内部言語構造の研究
Decoding Probing: Revealing Internal Linguistic Structures in Neural Language Models using Minimal Pairs ( http://arxiv.org/abs/2403.17299v1 ) ライセンス: Link先を確認 | Linyang He, Peili Chen, Ercong Nie, Yuanning Li, Jonathan R. Brennan, | (参考訳) 認知神経科学研究に触発されて、最小ペアベンチマーク(BLiMP)を用いて、ニューラルネットワークモデル層の内部言語特性を層別に探索する新しい「復号探索法」を導入する。
言語モデルを'brain'として、その表現を'neural activations'として扱うことで、中間層の表現から最小ペアの文法ラベルをデコードする。
このアプローチは明らかです。
1) 自己教師型言語モデルはGloVeとRNN言語モデルでは学べない中間層における抽象言語構造を捉えている。
2) 文法的文法性に関する情報は, GPT-2の第3層を通して強固に捕捉され, 後層に分布する。
文の複雑さが増大するにつれて、文法能力を学ぶためにより多くの層が必要とされる。
3) 形態的・意味的・構文的インタフェース関連機能は, 構文よりもキャプチャが難しい。
4) Transformer ベースのモデルでは,埋め込みと注意の両方が文法的特徴を捉えるが,異なるパターンを示す。
異なる注意の頭は、様々な言語現象に対して同様の傾向を示すが、様々な貢献がある。
Inspired by cognitive neuroscience studies, we introduce a novel `decoding probing' method that uses minimal pairs benchmark (BLiMP) to probe internal linguistic characteristics in neural language models layer by layer. By treating the language model as the `brain' and its representations as `neural activations', we decode grammaticality labels of minimal pairs from the intermediate layers' representations. This approach reveals: 1) Self-supervised language models capture abstract linguistic structures in intermediate layers that GloVe and RNN language models cannot learn. 2) Information about syntactic grammaticality is robustly captured through the first third layers of GPT-2 and also distributed in later layers. As sentence complexity increases, more layers are required for learning grammatical capabilities. 3) Morphological and semantics/syntax interface-related features are harder to capture than syntax. 4) For Transformer-based models, both embeddings and attentions capture grammatical features but show distinct patterns. Different attention heads exhibit similar tendencies toward various linguistic phenomena, but with varied contributions. | 翻訳日:2024-03-27 17:05:31 公開日:2024-03-26 |
# 自律走行における単眼深度推定に対する物理的3次元対向攻撃
Physical 3D Adversarial Attacks against Monocular Depth Estimation in Autonomous Driving ( http://arxiv.org/abs/2403.17301v1 ) ライセンス: Link先を確認 | Junhao Zheng, Chenhao Lin, Jiahao Sun, Zhengyu Zhao, Qian Li, Chao Shen, | (参考訳) 深層学習に基づく単眼深度推定(MDE)は、自律運転に広く適用されており、敵の攻撃に対して脆弱であることが知られている。
これまでのMDEモデルに対する物理的攻撃は2次元の敵パッチに依存していたため、MDEマップ内の小さな局所的な領域にしか影響しないが、様々な視点で失敗する。
これらの制約に対処するため、3D Depth Fool(3D$^2$Fool)を提案する。
3D$^2$Foolは、モデル車両に非依存な3D対向テクスチャの生成と、雨や霧などの悪天候条件下での堅牢性の改善に特化している。
実験により, 車両, MDEモデル, 気象条件, 視点など, 様々なシナリオにおける3D$^2$Foolの優れた性能が検証された。
物理車載モデルに3Dテクスチャを印刷した実世界の実験は、我々の3D$^2$Foolが10m以上のMDE誤差を引き起こすことをさらに証明している。
Deep learning-based monocular depth estimation (MDE), extensively applied in autonomous driving, is known to be vulnerable to adversarial attacks. Previous physical attacks against MDE models rely on 2D adversarial patches, so they only affect a small, localized region in the MDE map but fail under various viewpoints. To address these limitations, we propose 3D Depth Fool (3D$^2$Fool), the first 3D texture-based adversarial attack against MDE models. 3D$^2$Fool is specifically optimized to generate 3D adversarial textures agnostic to model types of vehicles and to have improved robustness in bad weather conditions, such as rain and fog. Experimental results validate the superior performance of our 3D$^2$Fool across various scenarios, including vehicles, MDE models, weather conditions, and viewpoints. Real-world experiments with printed 3D textures on physical vehicle models further demonstrate that our 3D$^2$Fool can cause an MDE error of over 10 meters. | 翻訳日:2024-03-27 17:05:31 公開日:2024-03-26 |
# 1つの石を持つ2羽の鳥:低消費電力SRAMメモリによる差分プライバシー
Two Birds with One Stone: Differential Privacy by Low-power SRAM Memory ( http://arxiv.org/abs/2403.17303v1 ) ライセンス: Link先を確認 | Jianqing Liu, Na Gong, Hritom Das, | (参考訳) ソフトウェアベースの差分プライバシー機構の実装は、軽量デバイスに友好的でも、サイドチャネル攻撃に対して安全でもないことが示されている。
本研究は,設計による差分プライバシーを実現するハードウェアベースの技術を開発することを目的としている。
従来のソフトウェアベースのノイズ発生・注入方式とは対照的に,本設計では,メモリに格納されたデータに固有のハードウェアノイズを制御されたLDPノイズに利用することにより,ローカル差分プライバシ(LDP)を実現する。
特に、このノイズは、新しいメモリ設計とパワーダウンスケーリング技術によって調整され、プライバシーと電力効率の両面的な向上につながります。
理論設計・分析・チップ実装・実験から成る総合的な研究について述べる。
その結果、この技術は差分プライベートであり、88.58%のシステムパワーを節約し、ソフトウェアベースのDPメカニズムを10^6倍に高速化する一方で、2.46%のチップオーバーヘッドと7.81%のデータリカバリしか発生しないことがわかった。
The software-based implementation of differential privacy mechanisms has been shown to be neither friendly for lightweight devices nor secure against side-channel attacks. In this work, we aim to develop a hardware-based technique to achieve differential privacy by design. In contrary to the conventional software-based noise generation and injection process, our design realizes local differential privacy (LDP) by harnessing the inherent hardware noise into controlled LDP noise when data is stored in the memory. Specifically, the noise is tamed through a novel memory design and power downscaling technique, which leads to double-faceted gains in privacy and power efficiency. A well-round study that consists of theoretical design and analysis and chip implementation and experiments is presented. The results confirm that the developed technique is differentially private, saves 88.58% system power, speeds up software-based DP mechanisms by more than 10^6 times, while only incurring 2.46% chip overhead and 7.81% estimation errors in data recovery. | 翻訳日:2024-03-27 17:05:31 公開日:2024-03-26 |
# 視覚幻覚:定義・定量化・規範的修復
Visual Hallucination: Definition, Quantification, and Prescriptive Remediations ( http://arxiv.org/abs/2403.17306v1 ) ライセンス: Link先を確認 | Vipula Rawte, Anku Rani, Harshad Sharma, Neeraj Anand, Krishnav Rajbangshi, Amit Sheth, Amitava Das, | (参考訳) 幻覚の急激な上昇は、おそらく、責任あるAIの進歩に最も重大な障害をもたらす。
近年,Large Language Models (LLMs) における幻覚の検出と緩和に注目が集まっている。
しかし、幻覚はビジョンランゲージモデル(VLM)でもかなり普及している点に注意が必要だ。
本稿では,2つの課題に基づくVLM幻覚の微細化について述べる。
一 画像キャプション及び画像キャプション
二 視覚質問応答(VQA)
視覚幻覚の8つのきめ細かい方向を明記する。
一 文脈ガイダンス
二 同一性
iii) 地理学的エラトゥム
四 視覚的幻覚
v)性異常
六 分類子としてのVLM
vii)Wrong Reading, and
viii) 数値的不一致
VHILT(Visual Hallucination eLiciTation)は,8つのVLMを用いて2つのタスクのキャプションとVQAにまたがって作成した2,000のサンプルと,前述のカテゴリに対する人間のアノテーションを組み合わせた公開データセットである。
The troubling rise of hallucination presents perhaps the most significant impediment to the advancement of responsible AI. In recent times, considerable research has focused on detecting and mitigating hallucination in Large Language Models (LLMs). However, it's worth noting that hallucination is also quite prevalent in Vision-Language models (VLMs). In this paper, we offer a fine-grained discourse on profiling VLM hallucination based on two tasks: i) image captioning, and ii) Visual Question Answering (VQA). We delineate eight fine-grained orientations of visual hallucination: i) Contextual Guessing, ii) Identity Incongruity, iii) Geographical Erratum, iv) Visual Illusion, v) Gender Anomaly, vi) VLM as Classifier, vii) Wrong Reading, and viii) Numeric Discrepancy. We curate Visual HallucInation eLiciTation (VHILT), a publicly available dataset comprising 2,000 samples generated using eight VLMs across two tasks of captioning and VQA along with human annotations for the categories as mentioned earlier. | 翻訳日:2024-03-27 17:05:31 公開日:2024-03-26 |
# HILL:階層型テキスト分類のための階層型情報ロスレスコントラスト学習
HILL: Hierarchy-aware Information Lossless Contrastive Learning for Hierarchical Text Classification ( http://arxiv.org/abs/2403.17307v1 ) ライセンス: Link先を確認 | He Zhu, Junran Wu, Ruomei Liu, Yue Hou, Ze Yuan, Shangzhe Li, Yicheng Pan, Ke Xu, | (参考訳) 既存の自然言語処理(NLP)、特に階層型テキスト分類(HTC)は、主に自己教師型コントラスト学習に重点を置いており、コントラスト的なサンプルを生成するための人間設計の強化ルールに非常に依存している。
本稿では,入力サンプルに固有の意味的・統語的情報が,比較サンプルに適切に保持され,学習過程中に融合するコントラスト学習方式の実現可能性について検討する。
具体的には,HTCにおける情報損失のないコントラスト学習戦略,すなわち,入力文書を表すテキストエンコーダと,その正のサンプルを直接生成する構造エンコーダとからなる,情報損失のないコントラスト学習戦略を提案する。
構造エンコーダは、文書埋め込みを入力として、構造エントロピー最小化の原則によりラベル階層に固有の本質的な構文情報を抽出し、階層的表現学習を介してテキスト表現に構文情報を注入する。
HILLの優位性を検証するために,3つの共通データセットの実験を行った。
Existing self-supervised methods in natural language processing (NLP), especially hierarchical text classification (HTC), mainly focus on self-supervised contrastive learning, extremely relying on human-designed augmentation rules to generate contrastive samples, which can potentially corrupt or distort the original information. In this paper, we tend to investigate the feasibility of a contrastive learning scheme in which the semantic and syntactic information inherent in the input sample is adequately reserved in the contrastive samples and fused during the learning process. Specifically, we propose an information lossless contrastive learning strategy for HTC, namely \textbf{H}ierarchy-aware \textbf{I}nformation \textbf{L}ossless contrastive \textbf{L}earning (HILL), which consists of a text encoder representing the input document, and a structure encoder directly generating the positive sample. The structure encoder takes the document embedding as input, extracts the essential syntactic information inherent in the label hierarchy with the principle of structural entropy minimization, and injects the syntactic information into the text representation via hierarchical representation learning. Experiments on three common datasets are conducted to verify the superiority of HILL. | 翻訳日:2024-03-27 17:05:31 公開日:2024-03-26 |
# ニューラルマルチモーダルトピックモデリング:包括的評価
Neural Multimodal Topic Modeling: A Comprehensive Evaluation ( http://arxiv.org/abs/2403.17308v1 ) ライセンス: Link先を確認 | Felipe González-Pizarro, Giuseppe Carenini, | (参考訳) ニューラルトピックモデルは、テキストデータの一貫性と多様なトピックをうまく見つけることができる。
しかし、それはマルチモーダルデータセット(例:画像、テキスト)を扱う場合に限られる。
本稿では,テキストと画像の両方を含む文書のマルチモーダル・トピック・モデリングの体系的および包括的評価について述べる。
本稿では,2つの新しいトピックモデリング手法と2つの新しい評価指標を提案する。
全体として、前代未聞の豊かで多様なデータセットのコレクションに対する評価は、両方のモデルが一貫性と多様なトピックを生成することを示している。
それにもかかわらず、一方の手法が他方よりも優れている範囲はメトリクスとデータセットの組み合わせに依存しており、これは将来のハイブリッドソリューションのさらなる探索を示唆している。
特に、我々の簡潔な人的評価は、提案した指標によって決定された結果と一致している。
このアライメントは、私たちのメトリクスの信頼性を強化するだけでなく、将来のマルチモーダルトピックモデリングの取り組みを導く上で、彼らのアプリケーションの可能性を強調します。
Neural topic models can successfully find coherent and diverse topics in textual data. However, they are limited in dealing with multimodal datasets (e.g., images and text). This paper presents the first systematic and comprehensive evaluation of multimodal topic modeling of documents containing both text and images. In the process, we propose two novel topic modeling solutions and two novel evaluation metrics. Overall, our evaluation on an unprecedented rich and diverse collection of datasets indicates that both of our models generate coherent and diverse topics. Nevertheless, the extent to which one method outperforms the other depends on the metrics and dataset combinations, which suggests further exploration of hybrid solutions in the future. Notably, our succinct human evaluation aligns with the outcomes determined by our proposed metrics. This alignment not only reinforces the credibility of our metrics but also highlights the potential for their application in guiding future multimodal topic modeling endeavors. | 翻訳日:2024-03-27 17:05:31 公開日:2024-03-26 |
# ALISA: 空間認識型KVキャッシングによる大規模言語モデル推論の高速化
ALISA: Accelerating Large Language Model Inference via Sparsity-Aware KV Caching ( http://arxiv.org/abs/2403.17312v1 ) ライセンス: Link先を確認 | Youpeng Zhao, Di Wu, Jun Wang, | (参考訳) Transformerアーキテクチャは、かなり高度な自然言語処理(NLP)を備えており、LLaMAやOPTといった幅広いNLPタスクを支配している大規模言語モデル(LLM)の開発に基礎を置いている。
精度が優れているにもかかわらず、LLMは計算とメモリ集約性に関して、実用的な推論においてユニークな課題を提示している。
LLM推論の自己回帰特性により、トランスフォーマーの注目層に対するKVキャッシュは、線形複雑メモリアクセスによる二次複雑度計算に代えて、LLM推論を効果的に高速化することができる。
しかし、より長いシーケンスを処理するために需要が増加するにつれて、このアプローチはメモリの増加を必要とします。
オーバーヘッドは、特に単一のコモディティGPUのようなリソース制限されたシステムにおいて、I/Oボトルネックやメモリ外エラーによるスループットの低下につながる。
本稿では,KVキャッシングによる課題に対処するアルゴリズム-システム共設計ソリューションであるALISAを提案する。
アルゴリズムレベルでは、ALISAはスパースウィンドウ注意(SWA)アルゴリズムを介して新しいトークンを生成する上で最も重要なトークンを優先順位付けする。
SWAは注目層に高い空間幅を導入し、KVキャッシュのメモリフットプリントを無視可能な精度損失で削減する。
システムレベルでは、ALISAは3段階のトークンレベルの動的スケジューリングを採用し、キャッシュと再計算の間のトレードオフを最適化する。
1つのGPU-CPUシステムにおいて、ALISAはワークロードの異なる場合、FlexGenやvLLMなどのベースラインシステムのスループットを最大3倍改善し、1.9倍向上することを示した。
The Transformer architecture has significantly advanced natural language processing (NLP) and has been foundational in developing large language models (LLMs) such as LLaMA and OPT, which have come to dominate a broad range of NLP tasks. Despite their superior accuracy, LLMs present unique challenges in practical inference, concerning the compute and memory-intensive nature. Thanks to the autoregressive characteristic of LLM inference, KV caching for the attention layers in Transformers can effectively accelerate LLM inference by substituting quadratic-complexity computation with linear-complexity memory accesses. Yet, this approach requires increasing memory as demand grows for processing longer sequences. The overhead leads to reduced throughput due to I/O bottlenecks and even out-of-memory errors, particularly on resource-constrained systems like a single commodity GPU. In this paper, we propose ALISA, a novel algorithm-system co-design solution to address the challenges imposed by KV caching. On the algorithm level, ALISA prioritizes tokens that are most important in generating a new token via a Sparse Window Attention (SWA) algorithm. SWA introduces high sparsity in attention layers and reduces the memory footprint of KV caching at negligible accuracy loss. On the system level, ALISA employs three-phase token-level dynamical scheduling and optimizes the trade-off between caching and recomputation, thus maximizing the overall performance in resource-constrained systems. In a single GPU-CPU system, we demonstrate that under varying workloads, ALISA improves the throughput of baseline systems such as FlexGen and vLLM by up to 3X and 1.9X, respectively. | 翻訳日:2024-03-27 17:05:31 公開日:2024-03-26 |
# Project MOSLA: 第二言語獲得のすべての動きを記録する
Project MOSLA: Recording Every Moment of Second Language Acquisition ( http://arxiv.org/abs/2403.17314v1 ) ライセンス: Link先を確認 | Masato Hagiwara, Joshua Tanner, | (参考訳) 第二言語習得(SLA)は複雑で動的なプロセスである。
このプロセスの記録と分析を試みた多くのSLA研究は、通常、単一のモダリティ(例えば、学習者のテキスト出力)に焦点を合わせ、短い時間しかカバーせず、制御が欠如している(例えば、学習プロセスのあらゆる側面を捉えなかった)。
プロジェクトMOSLA(Moments of Second Language Acquisition)では、参加者が2年間にわたってターゲット言語(アラビア語、スペイン語、中国語)の1つをスクラッチから学び、オンライン指導のみで、Zoomを使ってすべてのレッスンを録音することで、縦長、マルチモーダル、多言語、制御されたデータセットを作成しました。
データセットには、人間のアノテータと細調整された最先端の音声モデルの両方によって、話者/言語IDと転写文が半自動アノテートされる。
本実験は,学習者の時間的熟練度発達に関する言語学的知見と,無注釈マルチモーダルデータから画面の焦点領域を自動的に検出する可能性を明らかにする。
我々のデータセットは研究目的で自由に利用可能であり、SLA、熟練度評価、言語と音声処理、教育学、マルチモーダル学習分析など、幅広いアプリケーションに有用なリソースとして機能する。
Second language acquisition (SLA) is a complex and dynamic process. Many SLA studies that have attempted to record and analyze this process have typically focused on a single modality (e.g., textual output of learners), covered only a short period of time, and/or lacked control (e.g., failed to capture every aspect of the learning process). In Project MOSLA (Moments of Second Language Acquisition), we have created a longitudinal, multimodal, multilingual, and controlled dataset by inviting participants to learn one of three target languages (Arabic, Spanish, and Chinese) from scratch over a span of two years, exclusively through online instruction, and recording every lesson using Zoom. The dataset is semi-automatically annotated with speaker/language IDs and transcripts by both human annotators and fine-tuned state-of-the-art speech models. Our experiments reveal linguistic insights into learners' proficiency development over time, as well as the potential for automatically detecting the areas of focus on the screen purely from the unannotated multimodal data. Our dataset is freely available for research purposes and can serve as a valuable resource for a wide range of applications, including but not limited to SLA, proficiency assessment, language and speech processing, pedagogy, and multimodal learning analytics. | 翻訳日:2024-03-27 17:05:31 公開日:2024-03-26 |
# JMultiWOZ: 大規模日本語マルチドメインタスク指向対話データセット
JMultiWOZ: A Large-Scale Japanese Multi-Domain Task-Oriented Dialogue Dataset ( http://arxiv.org/abs/2403.17319v1 ) ライセンス: Link先を確認 | Atsumoto Ohashi, Ryu Hirai, Shinya Iizuka, Ryuichiro Higashinaka, | (参考訳) 対話データセットは深層学習に基づくタスク指向対話システム研究に不可欠である。
多くの英語多分野タスク指向対話データセットが開発され、タスク指向対話システムに多大な進歩をもたらしたが、そのようなデータセットは日本語には存在せず、この分野の研究は英語に比較して限られている。
本研究では,日本語におけるタスク指向対話システムの研究開発に向けて,日本語の大規模タスク指向対話データセットであるJMultiWOZを構築した。
JMultiWOZを用いて、既存の主要な英語ベンチマークデータセットMultiWOZ2.2と最新の大言語モデル(LLM)に基づいて、最先端手法の対話状態追跡と応答生成能力を評価した。
我々の評価結果は、JMultiWOZがMultiWOZ2.2と同等のベンチマークを提供することを示した。
また、モデルと人間との対話の評価実験を通じて、日本語におけるLLMのタスク完了能力の限界を明らかにした。
Dialogue datasets are crucial for deep learning-based task-oriented dialogue system research. While numerous English language multi-domain task-oriented dialogue datasets have been developed and contributed to significant advancements in task-oriented dialogue systems, such a dataset does not exist in Japanese, and research in this area is limited compared to that in English. In this study, towards the advancement of research and development of task-oriented dialogue systems in Japanese, we constructed JMultiWOZ, the first Japanese language large-scale multi-domain task-oriented dialogue dataset. Using JMultiWOZ, we evaluated the dialogue state tracking and response generation capabilities of the state-of-the-art methods on the existing major English benchmark dataset MultiWOZ2.2 and the latest large language model (LLM)-based methods. Our evaluation results demonstrated that JMultiWOZ provides a benchmark that is on par with MultiWOZ2.2. In addition, through evaluation experiments of interactive dialogues with the models and human participants, we identified limitations in the task completion capabilities of LLMs in Japanese. | 翻訳日:2024-03-27 17:05:31 公開日:2024-03-26 |
# 時間周波数相関と知識伝達による位置情報学習を用いたスペクトルからの音声感情認識の精度向上手法
Accuracy enhancement method for speech emotion recognition from spectrogram using temporal frequency correlation and positional information learning through knowledge transfer ( http://arxiv.org/abs/2403.17327v1 ) ライセンス: Link先を確認 | Jeong-Yoon Kim, Seung-Ho Lee, | (参考訳) 本稿では,視覚変換器(ViT)を用いた音声感情認識(SER)の精度向上手法を提案する。
提案手法は以下の独創性を有する。
一 経時的に周波数の相関を解析するために、対数メル分光器の垂直分割パッチを用いる。
この種のパッチは、特定の感情の最も関連性の高い周波数と、発声時間との相関を可能にする。
i) ViTに適した絶対位置符号化である画像座標符号化法を提案する。
画像の x, y 座標を -1 から 1 に正規化し、それらを画像に連結することにより、ViT に対して有効な絶対位置情報を効果的に提供できる。
三 特徴地図マッチングにより、教師ネットワークの地域性及び位置情報を学生ネットワークに効果的に送信する。
教師ネットワークは、画像座標符号化による畳み込み幹細胞と絶対位置情報の局所性を含むViTであり、学生ネットワークは、基本的なViT構造における位置符号化に欠ける構造である。
特徴写像マッチングの段階では、2つのネットワークの特徴写像間の差を最小限に抑えるために平均絶対誤差(L1損失)を訓練する。
提案手法を検証するために,音声からなる3つの感情データセット(SAVEE,EmoDB,CREMA-D)を対数メル分光器に変換して比較実験を行った。
実験結果から,提案手法は浮動小数点演算(FLOP)を著しく少なくしながら,重み付け精度で最先端の手法よりも優れていた。
提案手法は,効率と性能を向上し,SERに有望なソリューションを提供する。
In this paper, we propose a method to improve the accuracy of speech emotion recognition (SER) by using vision transformer (ViT) to attend to the correlation of frequency (y-axis) with time (x-axis) in spectrogram and transferring positional information between ViT through knowledge transfer. The proposed method has the following originality i) We use vertically segmented patches of log-Mel spectrogram to analyze the correlation of frequencies over time. This type of patch allows us to correlate the most relevant frequencies for a particular emotion with the time they were uttered. ii) We propose the use of image coordinate encoding, an absolute positional encoding suitable for ViT. By normalizing the x, y coordinates of the image to -1 to 1 and concatenating them to the image, we can effectively provide valid absolute positional information for ViT. iii) Through feature map matching, the locality and location information of the teacher network is effectively transmitted to the student network. Teacher network is a ViT that contains locality of convolutional stem and absolute position information through image coordinate encoding, and student network is a structure that lacks positional encoding in the basic ViT structure. In feature map matching stage, we train through the mean absolute error (L1 loss) to minimize the difference between the feature maps of the two networks. To validate the proposed method, three emotion datasets (SAVEE, EmoDB, and CREMA-D) consisting of speech were converted into log-Mel spectrograms for comparison experiments. The experimental results show that the proposed method significantly outperforms the state-of-the-art methods in terms of weighted accuracy while requiring significantly fewer floating point operations (FLOPs). Overall, the proposed method offers an promising solution for SER by providing improved efficiency and performance. | 翻訳日:2024-03-27 17:05:31 公開日:2024-03-26 |
# 遺伝的プログラミングによる交通信号制御の学習
Learning Traffic Signal Control via Genetic Programming ( http://arxiv.org/abs/2403.17328v1 ) ライセンス: Link先を確認 | Xiao-Cheng Liao, Yi Mei, Mengjie Zhang, | (参考訳) 交通信号の制御は交通効率の向上に不可欠である。
近年,学習に基づく手法,特に深層強化学習(DRL)は,より効率的な信号制御戦略の探求において大きな成功を収めている。
しかし、DRLにおける報酬の設計は、ドメイン知識を効果的な政策に収束させることを強く要求し、最終方針は説明可能性の観点からも困難を呈する。
本研究では,複雑な交差点における信号制御の新しい学習手法を提案する。
本手法では,各信号位相に対する位相緊急の概念を設計する。
信号遷移中、信号制御戦略は、位相緊急に基づいて次の位相を活性化する。
そこで我々は緊急関数を説明可能な木構造として表現することを提案した。
緊急関数は、現在の道路条件に基づいて特定位相の位相緊急を算出することができる。
遺伝的プログラミングを用いて、緊急関数の勾配なし最適化を行う。
我々は、複数の公共交通信号制御データセット上でアルゴリズムをテストする。
実験結果から,遺伝子プログラミングによって進化した木型緊急関数は,輸送分野における最先端の手法やDRLに基づく手法など,基礎的特性に優れていたことが示唆された。
The control of traffic signals is crucial for improving transportation efficiency. Recently, learning-based methods, especially Deep Reinforcement Learning (DRL), garnered substantial success in the quest for more efficient traffic signal control strategies. However, the design of rewards in DRL highly demands domain knowledge to converge to an effective policy, and the final policy also presents difficulties in terms of explainability. In this work, a new learning-based method for signal control in complex intersections is proposed. In our approach, we design a concept of phase urgency for each signal phase. During signal transitions, the traffic light control strategy selects the next phase to be activated based on the phase urgency. We then proposed to represent the urgency function as an explainable tree structure. The urgency function can calculate the phase urgency for a specific phase based on the current road conditions. Genetic programming is adopted to perform gradient-free optimization of the urgency function. We test our algorithm on multiple public traffic signal control datasets. The experimental results indicate that the tree-shaped urgency function evolved by genetic programming outperforms the baselines, including a state-of-the-art method in the transportation field and a well-known DRL-based method. | 翻訳日:2024-03-27 16:55:40 公開日:2024-03-26 |
# ディープサポートベクトル
Deep Support Vectors ( http://arxiv.org/abs/2403.17329v1 ) ライセンス: Link先を確認 | Junhoo Lee, Hyunho Lee, Kyomin Hwang, Nojun Kwak, | (参考訳) 深層学習の成功は、SVM(Support Vector Machines)と理論的等価性に起因することが一般的であるが、この関係の実践的意味は十分に解明されていない。
本稿では,深層学習モデルにおける深層支援ベクトル(DSV)の同定に着目し,この領域における探索の先駆者となる。
本稿では、ディープラーニングに適した従来のKKT条件の適応であるDeepKKT条件について紹介する。
実験的な調査を通じて、DSVはSVMにおけるサポートベクトルと類似性を示し、モデルの意思決定基準を解釈するための具体的な方法を提供する。
さらに,本研究では,SVM のプロセスに類似した DSV を用いてモデルを効果的に再構成できることが示唆された。
コードは利用可能です。
While the success of deep learning is commonly attributed to its theoretical equivalence with Support Vector Machines (SVM), the practical implications of this relationship have not been thoroughly explored. This paper pioneers an exploration in this domain, specifically focusing on the identification of Deep Support Vectors (DSVs) within deep learning models. We introduce the concept of DeepKKT conditions, an adaptation of the traditional Karush-Kuhn-Tucker (KKT) conditions tailored for deep learning. Through empirical investigations, we illustrate that DSVs exhibit similarities to support vectors in SVM, offering a tangible method to interpret the decision-making criteria of models. Additionally, our findings demonstrate that models can be effectively reconstructed using DSVs, resembling the process in SVM. The code will be available. | 翻訳日:2024-03-27 16:55:40 公開日:2024-03-26 |
# 都市環境における自律探査のための階段配置
Staircase Localization for Autonomous Exploration in Urban Environments ( http://arxiv.org/abs/2403.17330v1 ) ライセンス: Link先を確認 | Jinrae Kim, Sunggoo Jung, Sung-Kyun Kim, Youdan Kim, Ali-akbar Agha-mohammadi, | (参考訳) 都市環境を自律的に探索するロボットのための階段位置決め手法を提案する。
提案手法では, 階段検出, 線路セグメント検出, 階段位置決めモジュールの3つのモジュールからなるカスケードパイプラインの方式でモジュール設計を行う。
ステップ検出モジュールは、ディープラーニングに基づくオブジェクト検出アルゴリズムを使用して、関心領域(ROI)を生成する。
ROIから,線分検出アルゴリズムを用いて線分特徴を抽出する。
抽出された線分を用いて、階段の位置、方位、階段方向をローカライズする。
階段検出および位置決めは、単一のRGB-Dカメラでのみ実行される。
提案されたパイプラインの各コンポーネントは特に階段用に設計される必要はないため、パイプライン全体のメンテナンスが容易で、各コンポーネントを最先端のディープラーニング検出技術に置き換えることができる。
実世界の実験の結果,提案手法は, 人工物や自然物による影, 汚れ, 閉塞物を用いて, 地下階および地下階における自律探査において, 正確な階段検出と位置決めを行うことが可能であることが示唆された。
A staircase localization method is proposed for robots to explore urban environments autonomously. The proposed method employs a modular design in the form of a cascade pipeline consisting of three modules of stair detection, line segment detection, and stair localization modules. The stair detection module utilizes an object detection algorithm based on deep learning to generate a region of interest (ROI). From the ROI, line segment features are extracted using a deep line segment detection algorithm. The extracted line segments are used to localize a staircase in terms of position, orientation, and stair direction. The stair detection and localization are performed only with a single RGB-D camera. Each component of the proposed pipeline does not need to be designed particularly for staircases, which makes it easy to maintain the whole pipeline and replace each component with state-of-the-art deep learning detection techniques. The results of real-world experiments show that the proposed method can perform accurate stair detection and localization during autonomous exploration for various structured and unstructured upstairs and downstairs with shadows, dirt, and occlusions by artificial and natural objects. | 翻訳日:2024-03-27 16:55:40 公開日:2024-03-26 |
# MRIにおける多機能画像を用いたパーキンソンコホート内のラベリングサブタイプ -GreyとWhiteの情報を統合して-
Labeling subtypes in a Parkinson's Cohort using Multifeatures in MRI - Integrating Grey and White Matter Information ( http://arxiv.org/abs/2403.17332v1 ) ライセンス: Link先を確認 | Tanmayee Samantaray, Jitender Saini, Pramod Kumar Pal, Bithiah Grace Jaganathan, Vijaya V Saradhi, Gupta CN, | (参考訳) ネットワークの保持は、長い間、脳の接続分析において課題を提起してきた。
重み付きネットワークは通常、ネットワーク分析を容易にするしきい値を使って二項化される。
MRIベースの脳ネットワークに関するこれまでの研究は、パス長、クラスタリング係数、小世界の指標といったネットワーク指標から派生した特定の範囲で最適化された密度または疎性に基づくしきい値付け技術を主に利用してきた。
したがって、ネットワークの比較分析を容易にするための1つのしきい値の決定は、いまだ解明されていない。
そこで本研究では,脳ネットワーク解析のためのMKNNベースのしきい値解析について紹介する。
ここでは、最も近い隣人選択は、脳領域の特徴の最も高い相関に基づく。
脳ネットワークの構築は、各脳領域の灰白質量と白質量とのピアソン相関を計算することで達成された。
パーキンソン病180例のMRI像とNIMHANS70例の解析を行った。
パーキンソン病のサブタイプは, ソースベースモルフォメトリー分解法を用いて, 灰色および白質の体積萎縮症に基づいて同定した。
負荷係数は臨床的特徴と相関し, 解読されたサブタイプと臨床関係を識別した。
データマイニングでは, サブタイプA (N = 51, 中間型), サブタイプB (N = 57, 軽度運動症状を伴う軽度重症型), サブタイプAB (N = 36, 運動障害に先行する最重症型) が認められた。
サブタイプ特異的重み付き行列は、脳ネットワーク解析のためにMKNNベースのしきい値を用いて二項化した。
得られた二部グラフのネットワークメトリクスの置換試験では, 中心性と参加係数の有意なグループ差が認められた。
特定されたハブは各サブタイプに固有のものであり、いくつかのハブは異なるサブタイプにまたがって保存されていた。
Thresholding of networks has long posed a challenge in brain connectivity analysis. Weighted networks are typically binarized using threshold measures to facilitate network analysis. Previous studies on MRI-based brain networks have predominantly utilized density or sparsity-based thresholding techniques, optimized within specific ranges derived from network metrics such as path length, clustering coefficient, and small-world index. Thus, determination of a single threshold value for facilitating comparative analysis of networks remains elusive. To address this, our study introduces Mutual K-Nearest Neighbor (MKNN)-based thresholding for brain network analysis. Here, nearest neighbor selection is based on the highest correlation between features of brain regions. Construction of brain networks was accomplished by computing Pearson correlations between grey matter volume and white matter volume for each pair of brain regions. Structural MRI data from 180 Parkinsons patients and 70 controls from the NIMHANS, India were analyzed. Subtypes within Parkinsons disease were identified based on grey and white matter volume atrophy using source-based morphometric decomposition. The loading coefficients were correlated with clinical features to discern clinical relationship with the deciphered subtypes. Our data-mining approach revealed: Subtype A (N = 51, intermediate type), Subtype B (N = 57, mild-severe type with mild motor symptoms), and Subtype AB (N = 36, most-severe type with predominance in motor impairment). Subtype-specific weighted matrices were binarized using MKNN-based thresholding for brain network analysis. Permutation tests on network metrics of resulting bipartite graphs demonstrated significant group differences in betweenness centrality and participation coefficient. The identified hubs were specific to each subtype, with some hubs conserved across different subtypes. | 翻訳日:2024-03-27 16:55:40 公開日:2024-03-26 |
# 人工知能モデルにおけるフェアネスの探索:サーベイ
The Pursuit of Fairness in Artificial Intelligence Models: A Survey ( http://arxiv.org/abs/2403.17333v1 ) ライセンス: Link先を確認 | Tahsin Alamgir Kheya, Mohamed Reda Bouadjenek, Sunil Aryal, | (参考訳) 人工知能(AI)モデルは、現在、医療、教育、雇用など、私たちの生活のあらゆる面で利用されています。
多くのセンシティブな環境で使われ、人生を変える可能性のある決定を下すため、潜在的な偏見のある結果がプレッシャーとなる。
開発者は、そのようなモデルが特定の性別、民族、または障害者の偏見のような予期せぬ差別行為を起こさないようにしなければならない。
ユビキタスなAIシステムの普及に伴い、研究者や実践者は不公平なモデルに気付き、偏見を和らげる傾向にある。
このような問題に対処するために、モデルが意図的または意図せずにバイアスを持続しないよう、重要な研究がなされている。
この調査は、研究者がAIシステムの公正性を促進する方法の相乗効果を提供する。
本稿は、現在の文献に存在する公平性の異なる定義について考察する。
我々は、異なる種類のバイアスを分類し、異なるアプリケーションドメインにおけるバイアスAIのケースを調査することによって、包括的な分類を作成する。
AIモデルのバイアスを軽減するために研究者が採用したアプローチとテクニックについて、徹底的な研究がなされている。
さらに,バイアスモデルがユーザエクスペリエンスに与える影響や,そのようなモデルの開発と展開において考慮すべき倫理的考察についても検討する。
この調査は、研究者や実践者がAIシステムの公平さと偏見の複雑な詳細を理解するのに役立つことを願っている。
この徹底的な調査を共有することで、公平で責任あるAIの領域におけるさらなる議論を促進することを目指している。
Artificial Intelligence (AI) models are now being utilized in all facets of our lives such as healthcare, education and employment. Since they are used in numerous sensitive environments and make decisions that can be life altering, potential biased outcomes are a pressing matter. Developers should ensure that such models don't manifest any unexpected discriminatory practices like partiality for certain genders, ethnicities or disabled people. With the ubiquitous dissemination of AI systems, researchers and practitioners are becoming more aware of unfair models and are bound to mitigate bias in them. Significant research has been conducted in addressing such issues to ensure models don't intentionally or unintentionally perpetuate bias. This survey offers a synopsis of the different ways researchers have promoted fairness in AI systems. We explore the different definitions of fairness existing in the current literature. We create a comprehensive taxonomy by categorizing different types of bias and investigate cases of biased AI in different application domains. A thorough study is conducted of the approaches and techniques employed by researchers to mitigate bias in AI models. Moreover, we also delve into the impact of biased models on user experience and the ethical considerations to contemplate when developing and deploying such models. We hope this survey helps researchers and practitioners understand the intricate details of fairness and bias in AI systems. By sharing this thorough survey, we aim to promote additional discourse in the domain of equitable and responsible AI. | 翻訳日:2024-03-27 16:55:40 公開日:2024-03-26 |
# OVER-NAV:Open-Vocabulary DetectionとStructurEd表現を用いた反復的視覚・言語ナビゲーション
OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation ( http://arxiv.org/abs/2403.17334v1 ) ライセンス: Link先を確認 | Ganlong Zhao, Guanbin Li, Weikai Chen, Yizhou Yu, | (参考訳) 近年のIterative Vision-and-Language Navigation (IVLN)の進歩は、エージェントの記憶を様々な場面で維持することで、より有意義で実践的なVLNパラダイムを導入している。
長期記憶はVLNタスクの永続性によく適合するが、高度に構造化されていないナビゲーションメモリを極めて少ない監視で利用する方法により多くの課題が生じる。
そこで本研究では,現在のIVLN技術を超越することを目的としたOVER-NAVを提案する。
特に,LLMとオープンボキャブラリ検出器を組み込んでキー情報を蒸留し,マルチモーダル信号間の対応を確立することを提案する。
このようなメカニズムは、信頼性の高いクロスモーダル監視を導入し、追加のアノテーションや再トレーニングを必要とせずに、オンザフライでの一般化を可能にする。
インタプリタナビゲーションデータを完全に活用するために,構造化表現であるOmnigraphを導入し,ツアーに沿ったマルチモーダル情報を効果的に統合する。
新たなオムニグラフ融合機構を伴い、OVER-NAVはオムニグラフから最も関連性の高い知識を抽出し、より正確なナビゲーションを行うことができる。
さらに、OVER-NAVは統一されたフレームワークの下で、離散環境と連続環境の両方をシームレスにサポートする。
我々は、OVER-NAVの広範な実験における優位性を実証する。
Recent advances in Iterative Vision-and-Language Navigation (IVLN) introduce a more meaningful and practical paradigm of VLN by maintaining the agent's memory across tours of scenes. Although the long-term memory aligns better with the persistent nature of the VLN task, it poses more challenges on how to utilize the highly unstructured navigation memory with extremely sparse supervision. Towards this end, we propose OVER-NAV, which aims to go over and beyond the current arts of IVLN techniques. In particular, we propose to incorporate LLMs and open-vocabulary detectors to distill key information and establish correspondence between multi-modal signals. Such a mechanism introduces reliable cross-modal supervision and enables on-the-fly generalization to unseen scenes without the need of extra annotation and re-training. To fully exploit the interpreted navigation data, we further introduce a structured representation, coded Omnigraph, to effectively integrate multi-modal information along the tour. Accompanied with a novel omnigraph fusion mechanism, OVER-NAV is able to extract the most relevant knowledge from omnigraph for a more accurate navigating action. In addition, OVER-NAV seamlessly supports both discrete and continuous environments under a unified framework. We demonstrate the superiority of OVER-NAV in extensive experiments. | 翻訳日:2024-03-27 16:55:40 公開日:2024-03-26 |
# Don't Listen to Me: 大規模言語モデルのジェイルブレイクプロンプトの理解と探索
Don't Listen To Me: Understanding and Exploring Jailbreak Prompts of Large Language Models ( http://arxiv.org/abs/2403.17336v1 ) ライセンス: Link先を確認 | Zhiyuan Yu, Xiaogeng Liu, Shunning Liang, Zach Cameron, Chaowei Xiao, Ning Zhang, | (参考訳) 生成AIの最近の進歩は、大規模言語モデル(LLM)へのユビキタスアクセスを可能にしている。
人間のような文章を理解して生成する素晴らしい能力によって、これらのモデルは我々の社会にますます統合されつつある。
同時に、この強力な技術の潜在的な誤用も懸念され、サービス提供者からの防衛措置が促される。
このような保護を克服するために、ジェイルブレイクのプロンプトは、セキュリティ制限を回避し、本来禁止されるように設計された有害なコンテンツを引き出す最も効果的なメカニズムの1つとして最近登場した。
LLMの急速な発展と自然言語によるアクセスの容易さにより、ジェイルブレイクプロンプトの前線はオンラインフォーラムやホビイストの間で広く見られる。
意味的に意味のあるジェイルブレイクプロンプトの脅威状況をよりよく理解するために,既存のプロンプトを体系化し,そのジェイルブレイクの有効性を実証的に測定した。
さらに, 多様な背景を持つ92名の被験者を対象に, ジェイルブレイクプロンプトを手作業で作成する過程を明らかにするために, ユーザスタディを行った。
LLMの専門知識に関わらず、ユーザはジェイルブレイクを成功させることが多い。
ユーザスタディから得られた知見に基づいて,我々は,Jailbreakの即時生成プロセスを自動化するアシスタントとしてAIを用いたシステムを開発した。
Recent advancements in generative AI have enabled ubiquitous access to large language models (LLMs). Empowered by their exceptional capabilities to understand and generate human-like text, these models are being increasingly integrated into our society. At the same time, there are also concerns on the potential misuse of this powerful technology, prompting defensive measures from service providers. To overcome such protection, jailbreaking prompts have recently emerged as one of the most effective mechanisms to circumvent security restrictions and elicit harmful content originally designed to be prohibited. Due to the rapid development of LLMs and their ease of access via natural languages, the frontline of jailbreak prompts is largely seen in online forums and among hobbyists. To gain a better understanding of the threat landscape of semantically meaningful jailbreak prompts, we systemized existing prompts and measured their jailbreak effectiveness empirically. Further, we conducted a user study involving 92 participants with diverse backgrounds to unveil the process of manually creating jailbreak prompts. We observed that users often succeeded in jailbreak prompts generation regardless of their expertise in LLMs. Building on the insights from the user study, we also developed a system using AI as the assistant to automate the process of jailbreak prompt generation. | 翻訳日:2024-03-27 16:55:40 公開日:2024-03-26 |
# 安全臨界系に対する適応制御バリア関数を用いた強化学習に基づく回帰水平制御
Reinforcement Learning-based Receding Horizon Control using Adaptive Control Barrier Functions for Safety-Critical Systems ( http://arxiv.org/abs/2403.17338v1 ) ライセンス: Link先を確認 | Ehsan Sabouni, H. M. Sabbir Ahmad, Vittorio Giammarino, Christos G. Cassandras, Ioannis Ch. Paschalidis, Wenchao Li, | (参考訳) 最適制御法は、安全クリティカルな問題に対する解決策を提供するが、容易に難解になる。
制御バリア関数(CBF)は、性能損失を犠牲にして、前方不変性を通じて、安全を確実に保証することで、そのソリューションを促進するポピュラーなテクニックとして登場した。
このアプローチでは、常に実施しなければならないCBFベースの安全制約と並行して、パフォーマンス目標を定義する。
残念ながら、パフォーマンスとソリューションの実現性の両方が、2つの重要な要因によって大きく影響を受ける可能性がある。
一 コスト関数及び関連するパラメータの選択
二 CBFに基づく制約の中でパラメータの校正を行い、性能と保守性のトレードオフを捉える。
%であった。
これらの課題に対処するために,モデル予測制御(MPC)とCBF(MPC-CBF)を併用した強化学習(RL)に基づく回帰水平制御(RHC)アプローチを提案する。
特に、制御器をパラメータ化して二段階最適化を行い、MPCが最適制御入力を計算している間に、RLを用いて最適パラメータを学習する。
本手法は,衝突する道路におけるコネクテッド・アンド・オートマチック・ビークル(CAV)の難易度自動マージ制御問題に適用することで検証する。
その結果,CBF ベースの制御器をチューニングする従来のヒューリスティックな手法と比較して,性能向上と有効ケース数の大幅な削減が図られ,提案手法の有効性が示された。
Optimal control methods provide solutions to safety-critical problems but easily become intractable. Control Barrier Functions (CBFs) have emerged as a popular technique that facilitates their solution by provably guaranteeing safety, through their forward invariance property, at the expense of some performance loss. This approach involves defining a performance objective alongside CBF-based safety constraints that must always be enforced. Unfortunately, both performance and solution feasibility can be significantly impacted by two key factors: (i) the selection of the cost function and associated parameters, and (ii) the calibration of parameters within the CBF-based constraints, which capture the trade-off between performance and conservativeness. %as well as infeasibility. To address these challenges, we propose a Reinforcement Learning (RL)-based Receding Horizon Control (RHC) approach leveraging Model Predictive Control (MPC) with CBFs (MPC-CBF). In particular, we parameterize our controller and use bilevel optimization, where RL is used to learn the optimal parameters while MPC computes the optimal control input. We validate our method by applying it to the challenging automated merging control problem for Connected and Automated Vehicles (CAVs) at conflicting roadways. Results demonstrate improved performance and a significant reduction in the number of infeasible cases compared to traditional heuristic approaches used for tuning CBF-based controllers, showcasing the effectiveness of the proposed method. | 翻訳日:2024-03-27 16:55:40 公開日:2024-03-26 |
# ICCV 2023第1回科学フィギュアキャプションチャレンジの解法
The Solution for the ICCV 2023 1st Scientific Figure Captioning Challenge ( http://arxiv.org/abs/2403.17342v1 ) ライセンス: Link先を確認 | Dian Chao, Xin Song, Shupeng Zhong, Boyuan Wang, Xiangyu Wu, Chen Zhu, Yang Yang, | (参考訳) 本稿では,紙の数字に対して生成されたキャプションの品質を向上する手法を提案する。
画像キャプションを生成するために,論文中のテキスト内容を要約するアプローチを採用する。
本研究を通じて,オペレーショナルデータセットに提供されるOCR情報の相違点に遭遇した。
そこで我々はPaddleOCRツールキットを用いて全画像からOCR情報を抽出する。
さらに, 公式論文のテキスト内容は, キャプションに関係のない画像に関係しており, キャプション生成時にノイズが発生することが観察された。
この問題を軽減するため、LLaMAを利用して画像参照に基づいてテキストコンテンツをクエリし、外部情報を効果的にフィルタリングすることで、画像固有情報を抽出する。
さらに、テキスト生成における最大推定の一次利用と、生成されたキャプションの品質を評価するために使用されるROUGEなどの評価指標との相違も認識する。
このギャップを埋めるため、BRIOモデルフレームワークを統合し、生成プロセスと評価プロセスの間により一貫性のあるアライメントを可能にする。
最終テストでは4.49点で1位にランクインした。
In this paper, we propose a solution for improving the quality of captions generated for figures in papers. We adopt the approach of summarizing the textual content in the paper to generate image captions. Throughout our study, we encounter discrepancies in the OCR information provided in the official dataset. To rectify this, we employ the PaddleOCR toolkit to extract OCR information from all images. Moreover, we observe that certain textual content in the official paper pertains to images that are not relevant for captioning, thereby introducing noise during caption generation. To mitigate this issue, we leverage LLaMA to extract image-specific information by querying the textual content based on image mentions, effectively filtering out extraneous information. Additionally, we recognize a discrepancy between the primary use of maximum likelihood estimation during text generation and the evaluation metrics such as ROUGE employed to assess the quality of generated captions. To bridge this gap, we integrate the BRIO model framework, enabling a more coherent alignment between the generation and evaluation processes. Our approach ranked first in the final test with a score of 4.49. | 翻訳日:2024-03-27 16:55:40 公開日:2024-03-26 |
# バイオメディカルイメージングタスクのための言語モデルとフリーブースター
Language Models are Free Boosters for Biomedical Imaging Tasks ( http://arxiv.org/abs/2403.17343v1 ) ライセンス: Link先を確認 | Zhixin Lai, Jing Wu, Suiyao Chen, Yucheng Zhou, Anna Hovakimyan, Naira Hovakimyan, | (参考訳) 本研究では,従来の言語やテキストデータがない領域であるバイオメディカルイメージングタスクのエンコーダの一部として,残留型大規模言語モデル(LLM)の予期せぬ有効性を明らかにする。
この手法は、予め訓練されたLCMから抽出した冷凍変圧器ブロックを、視覚トークンの直接処理のための革新的なエンコーダ層として利用することにより、確立した手法から分岐する。
この戦略は、言語駆動のプロンプトとインプットを隠蔽する標準のマルチモーダルビジョン言語フレームワークから大きく離れている。
これらのLLMは,2次元および3次元の視覚的分類タスクを含む,様々なバイオメディカルイメージングアプリケーションにおいて,プラグ・アンド・プレイ・ブースターとしての性能向上を図っている。
より興味深いことに,提案したフレームワークは,MedMNIST-2Dおよび3Dの広範囲な標準化データセットに対して,最先端の結果を新たに設定し,優れた性能を実現した。
本研究は, バイオメディカルイメージングにLLMを応用し, 本専門領域におけるその可能性の理解を深めるための新たな道を開くことを目的としている。
In this study, we uncover the unexpected efficacy of residual-based large language models (LLMs) as part of encoders for biomedical imaging tasks, a domain traditionally devoid of language or textual data. The approach diverges from established methodologies by utilizing a frozen transformer block, extracted from pre-trained LLMs, as an innovative encoder layer for the direct processing of visual tokens. This strategy represents a significant departure from the standard multi-modal vision-language frameworks, which typically hinge on language-driven prompts and inputs. We found that these LLMs could boost performance across a spectrum of biomedical imaging applications, including both 2D and 3D visual classification tasks, serving as plug-and-play boosters. More interestingly, as a byproduct, we found that the proposed framework achieved superior performance, setting new state-of-the-art results on extensive, standardized datasets in MedMNIST-2D and 3D. Through this work, we aim to open new avenues for employing LLMs in biomedical imaging and enriching the understanding of their potential in this specialized domain. | 翻訳日:2024-03-27 16:55:40 公開日:2024-03-26 |
# 大規模言語モデルを用いた関係発見による曖昧なエンティティマッチング
Disambiguate Entity Matching through Relation Discovery with Large Language Models ( http://arxiv.org/abs/2403.17344v1 ) ライセンス: Link先を確認 | Zezhou Huang, | (参考訳) エンティティマッチングは、ファジィ結合や重複解消といったタスクの中心にある、データ統合とクリーニングにおいて重要な課題である。
従来のアプローチでは、編集距離やJaccardの類似性、最近では、GPTのような大規模言語モデル(LLM)の進歩を含む組み込みやディープニューラルネットワークなど、ファジィな項表現の克服に重点を置いてきた。
しかし、エンティティマッチングにおける中核的な課題は、特に外部データベースとの統合において「マッチ」を構成するものを定義することの曖昧さにまで及んでいる。
この曖昧さは、実体間の詳細と粒度の異なるレベルから生じ、正確な一致を複雑にする。
本稿では,意味的類似性を純粋に識別するアプローチから,マッチングにおけるあいまいさの解消に不可欠なエンティティ間の「関係」を理解し定義するアプローチを提案する。
本手法では,タスクに関連する一連の関係を事前に定義することにより,類似性のスペクトルをより効率的にナビゲートすることができる。
Entity matching is a critical challenge in data integration and cleaning, central to tasks like fuzzy joins and deduplication. Traditional approaches have focused on overcoming fuzzy term representations through methods such as edit distance, Jaccard similarity, and more recently, embeddings and deep neural networks, including advancements from large language models (LLMs) like GPT. However, the core challenge in entity matching extends beyond term fuzziness to the ambiguity in defining what constitutes a "match," especially when integrating with external databases. This ambiguity arises due to varying levels of detail and granularity among entities, complicating exact matches. We propose a novel approach that shifts focus from purely identifying semantic similarities to understanding and defining the "relations" between entities as crucial for resolving ambiguities in matching. By predefining a set of relations relevant to the task at hand, our method allows analysts to navigate the spectrum of similarity more effectively, from exact matches to conceptually related entities. | 翻訳日:2024-03-27 16:55:40 公開日:2024-03-26 |
# 量子推定は、どれくらいのビットを返しますか?
How many bits does your quantum estimation return? ( http://arxiv.org/abs/2403.17345v1 ) ライセンス: Link先を確認 | Xi Lu, Wojciech Górecki, Chiara Macchiavello, Lorenzo Maccone, | (参考訳) 任意の量子推定戦略において、相互情報に2つの上限を与える。
1つ目は、推定装置のいくつかの単純なフーリエ特性に基づいている。
第2は第1の手法を用いて導出されるが、興味深いことに、パラメータのフィッシャー情報にのみ依存するため、量子推定を越えても有効である。
ノイズの存在下での量子位相推定アルゴリズムを特徴付けることにより,これらの境界の有用性を示す。
また、ノイズレスの場合においても、境界の適用を超えて分析を拡張し、この話題に現れる不正確さを明確にし、最適に絡み合った適応戦略について議論する。
We give two upper bounds to the mutual information in arbitrary quantum estimation strategies. The first is based on some simple Fourier properties of the estimation apparatus. The second is derived using the first but, interestingly, depends only on the Fisher information of the parameter, so it is valid even beyond quantum estimation. We illustrate the usefulness of these bounds by characterizing the quantum phase estimation algorithm in the presence of noise. In addition, for the noiseless case, we extend the analysis beyond applying the bound and we discuss the optimal entangled and adaptive strategies, clarifying inaccuracies appearing on this topic in the literature. | 翻訳日:2024-03-27 16:55:40 公開日:2024-03-26 |
# TRAM:3D映像から見る人間の世界的軌道と動き
TRAM: Global Trajectory and Motion of 3D Humans from in-the-wild Videos ( http://arxiv.org/abs/2403.17346v1 ) ライセンス: Link先を確認 | Yufu Wang, Ziyun Wang, Lingjie Liu, Kostas Daniilidis, | (参考訳) 我々は,TRAMを提案する。TRAMは人間のグローバルな軌道と動きを,線内ビデオから再構成する2段階の手法である。
TRAMはSLAMを強固にし、ダイナミックな人間の存在下でカメラの動きを回復させ、シーン背景を用いてモーションスケールを導出する。
回収したカメラをメートルスケールの基準フレームとして使用し、人間の運動運動を抑えるためのビデオトランスフォーマーモデル(VIMO)を導入する。
これら2つの動きを合成することにより、世界空間における3次元人間の正確な回復を実現し、グローバルな動き誤差を以前の作業から60%削減する。
https://yufu-wang.github.io/tram4d/
We propose TRAM, a two-stage method to reconstruct a human's global trajectory and motion from in-the-wild videos. TRAM robustifies SLAM to recover the camera motion in the presence of dynamic humans and uses the scene background to derive the motion scale. Using the recovered camera as a metric-scale reference frame, we introduce a video transformer model (VIMO) to regress the kinematic body motion of a human. By composing the two motions, we achieve accurate recovery of 3D humans in the world space, reducing global motion errors by 60% from prior work. https://yufu-wang.github.io/tram4d/ | 翻訳日:2024-03-27 16:55:40 公開日:2024-03-26 |
# ゾディアックキラーの340文字暗号の解法
The Solution of the Zodiac Killer's 340-Character Cipher ( http://arxiv.org/abs/2403.17350v1 ) ライセンス: Link先を確認 | David Oranchak, Sam Blake, Jarl Van Eycke, | (参考訳) ゾディアック・キラー事件は、歴史上最も広く知られている未解決の連続殺人事件の一つである。
身元不明の犯人は5人の既知の犠牲者を殺害し、カリフォルニア州を脅かした。
また、報道機関や法執行機関とも広く連絡を取り合っていた。
殺人の他に、ゾディアックは暗号を使ったことで知られていた。
第1のゾディアック暗号は出版から1週間以内に解かれ、第2の暗号は51年後に著者らによって解かれた。
本稿では,この暗号の歴史的意義と,その解法における多くの取り組みについて詳述する。
The case of the Zodiac Killer is one of the most widely known unsolved serial killer cases in history. The unidentified killer murdered five known victims and terrorized the state of California. He also communicated extensively with the press and law enforcement. Besides his murders, Zodiac was known for his use of ciphers. The first Zodiac cipher was solved within a week of its publication, while the second cipher was solved by the authors after 51 years, when it was discovered to be a transposition and homophonic substitution cipher with unusual qualities. In this paper, we detail the historical significance of this cipher and the numerous efforts which culminated in its solution. | 翻訳日:2024-03-27 16:55:40 公開日:2024-03-26 |
# Heterophilyから学ぶ: Heterophilous Information-enhanced Graph Neural Network
Learn from Heterophily: Heterophilous Information-enhanced Graph Neural Network ( http://arxiv.org/abs/2403.17351v1 ) ライセンス: Link先を確認 | Yilun Zheng, Jiahao Xu, Lihui Chen, | (参考訳) 異なるラベルを持つノードが意味的意味に基づいて接続される傾向にあるヘテロフィリーの状況下では、グラフニューラルネットワーク(GNN)は、しばしば準最適性能を示す。
グラフヘテロフィリーの研究は、主に集約キャリブレーションや隣接する拡張に焦点を当て、ノードの特徴や構造情報を利用してGNN表現を改善することでヘテロフィリー問題に対処している。
本稿では,グラフ内の各ノード毎の隣人の分布を調査することにより,ヘテロフィリーに固有の意味情報をグラフ学習に有効に活用できることを示す。
グラフ学習の強化における考え方の有効性を実証するために理論的解析を行った。
この分析に基づいて,ノード分布を利用して,類似のセマンティック特性を持つノード間の接続性を高めることで異種情報を統合する,新たなグラフ構造を構築する革新的な手法であるHiGNNを提案する。
我々は、同好性ベンチマークと異好性ベンチマークの両方を用いてノード分類タスクに関する経験的評価を行い、HiGNNを一般的なGNNベースラインとSoTAメソッドと比較し、グラフ表現の改善の有効性を確認した。
さらに, 異種情報を組み込むことにより, 既存のGNNベースアプローチの顕著な向上と, 実世界のデータセット間のホモフィリディエンスを実証し, 提案手法の有効性を確認した。
Under circumstances of heterophily, where nodes with different labels tend to be connected based on semantic meanings, Graph Neural Networks (GNNs) often exhibit suboptimal performance. Current studies on graph heterophily mainly focus on aggregation calibration or neighbor extension and address the heterophily issue by utilizing node features or structural information to improve GNN representations. In this paper, we propose and demonstrate that the valuable semantic information inherent in heterophily can be utilized effectively in graph learning by investigating the distribution of neighbors for each individual node within the graph. The theoretical analysis is carried out to demonstrate the efficacy of the idea in enhancing graph learning. Based on this analysis, we propose HiGNN, an innovative approach that constructs an additional new graph structure, that integrates heterophilous information by leveraging node distribution to enhance connectivity between nodes that share similar semantic characteristics. We conduct empirical assessments on node classification tasks using both homophilous and heterophilous benchmark datasets and compare HiGNN to popular GNN baselines and SoTA methods, confirming the effectiveness in improving graph representations. In addition, by incorporating heterophilous information, we demonstrate a notable enhancement in existing GNN-based approaches, and the homophily degree across real-world datasets, thus affirming the efficacy of our approach. | 翻訳日:2024-03-27 16:55:40 公開日:2024-03-26 |
# デュアルエンコーダを用いた多目的軌道計画
Multi-Objective Trajectory Planning with Dual-Encoder ( http://arxiv.org/abs/2403.17353v1 ) ライセンス: Link先を確認 | Beibei Zhang, Tian Xiang, Chentao Mao, Yuhua Zheng, Shuai Li, Haoyi Niu, Xiangming Xi, Wenyuan Bai, Feng Gao, | (参考訳) 時空最適軌道計画は、動的タスクにおけるロボットアームの性能向上に不可欠である。
従来の手法は複雑な非線形プログラミング問題を解くことに依存しており、最適化された軌道を生成するのにかなりの遅延をもたらす。
本稿では,時空最適軌道計画の高速化のための2段階の手法を提案する。
まず,デュアルエンコーダをベースとしたトランスモデルを導入し,良好な予備軌道を確立する。
この軌道はその後、その最適性と堅牢性を改善するためにシーケンシャルな二次計画によって洗練される。
提案手法は,軌道計画時間を最大79.72倍に短縮する。
従来の手法と比較して,目的関数値が最大29.9\%減少するにつれて,最適性ギャップを小さくする。
Time-jerk optimal trajectory planning is crucial in advancing robotic arms' performance in dynamic tasks. Traditional methods rely on solving complex nonlinear programming problems, bringing significant delays in generating optimized trajectories. In this paper, we propose a two-stage approach to accelerate time-jerk optimal trajectory planning. Firstly, we introduce a dual-encoder based transformer model to establish a good preliminary trajectory. This trajectory is subsequently refined through sequential quadratic programming to improve its optimality and robustness. Our approach outperforms the state-of-the-art by up to 79.72\% in reducing trajectory planning time. Compared with existing methods, our method shrinks the optimality gap with the objective function value decreasing by up to 29.9\%. | 翻訳日:2024-03-27 16:45:50 公開日:2024-03-26 |
# MESIA:自動コメント生成のためのメソッドレベルのコメントの補助的性質の理解と活用
MESIA: Understanding and Leveraging Supplementary Nature of Method-level Comments for Automatic Comment Generation ( http://arxiv.org/abs/2403.17357v1 ) ライセンス: Link先を確認 | Xinglu Pan, Chenxiao Liu, Yanzhen Zou, Tao Xie, Bing Xie, | (参考訳) コードコメントは、プログラムの理解において開発者にとって重要である。
メソッドの解釈と再利用のシナリオでは、開発者はメソッドシグネチャ以外の補足的な情報を提供するためにコードコメントを期待する。
しかし、このような追加情報の範囲は、コードコメントによって大きく異なる。
本稿では,メソッドレベルのコメントの補足性に対する意識を高めるとともに,コードコメントが提供する補足情報量を評価するためのMESIA(Mean Supplementary Information Amount)という新しい指標を提案する。
MESIA測定値を用いて、一般的なコード圧縮データセットと3種類のニューラルアプローチを用いて、メソッドレベルのコメントを生成する実験を行う。
本研究は,本研究の意義を実証し,多くの知見を得た。
1)小規模なMESIAコメントはデータセットの約20%を占めており,主にWHATコメントカテゴリに分類される。
2) 様々な必須情報を提供できるため,既存のニューラルアプローチでは,データセットにおける大きなMESIAコメントの生成が困難である。
(3) 既存のニューラルアプローチによる大規模MESIAコメントの生成能力の向上は, トレーニングセットにおける小規模MESIAコメントの割合を削減できる。
(4) 再訓練されたモデルでは,小量MESIAテストセットのメソッドに対して重要な補足情報を伝える大量MESIAコメントを生成することができるが,評価において低いBLEUスコアが得られる。
これらの結果は、優れたトレーニングデータがあれば、自動生成されたコメントは、時に人間による参照コメントを超越する可能性があり、評価に適切な根拠を持たないことは、自動コメント生成の今後の研究で対処する必要がある問題であることを示している。
Code comments are important for developers in program comprehension. In scenarios of comprehending and reusing a method, developers expect code comments to provide supplementary information beyond the method signature. However, the extent of such supplementary information varies a lot in different code comments. In this paper, we raise the awareness of the supplementary nature of method-level comments and propose a new metric named MESIA (Mean Supplementary Information Amount) to assess the extent of supplementary information that a code comment can provide. With the MESIA metric, we conduct experiments on a popular code-comment dataset and three common types of neural approaches to generate method-level comments. Our experimental results demonstrate the value of our proposed work with a number of findings. (1) Small-MESIA comments occupy around 20% of the dataset and mostly fall into only the WHAT comment category. (2) Being able to provide various kinds of essential information, large-MESIA comments in the dataset are difficult for existing neural approaches to generate. (3) We can improve the capability of existing neural approaches to generate large-MESIA comments by reducing the proportion of small-MESIA comments in the training set. (4) The retrained model can generate large-MESIA comments that convey essential meaningful supplementary information for methods in the small-MESIA test set, but will get a lower BLEU score in evaluation. These findings indicate that with good training data, auto-generated comments can sometimes even surpass human-written reference comments, and having no appropriate ground truth for evaluation is an issue that needs to be addressed by future work on automatic comment generation. | 翻訳日:2024-03-27 16:45:50 公開日:2024-03-26 |
# Recursive Dual Ascent を用いた筋萎縮性POMDP計画への取り組み
Addressing Myopic Constrained POMDP Planning with Recursive Dual Ascent ( http://arxiv.org/abs/2403.17358v1 ) ライセンス: Link先を確認 | Paula Stocco, Suhas Chundi, Arec Jamgochian, Mykel J. Kochenderfer, | (参考訳) ラグランジアン誘導のモンテカルロ木探索は、大規模な制約付き部分的に観測可能なマルコフ決定過程(CPOMDP)をオンラインで解くために応用されている。
本研究では、これらの大域的双対パラメータが探索中の筋活動選択につながり、究極的には最適下決定に繋がることを示した。
そこで本研究では,局所的な行動選択を誘導し,再帰的2重昇華を最適化する履歴依存型2次変数を提案する。
我々は,モチベーション玩具の事例と2つの大きなCPOMDPに対するアプローチの性能を実証的に比較し,改良された探索,そして究極的にはより安全な結果を示した。
Lagrangian-guided Monte Carlo tree search with global dual ascent has been applied to solve large constrained partially observable Markov decision processes (CPOMDPs) online. In this work, we demonstrate that these global dual parameters can lead to myopic action selection during exploration, ultimately leading to suboptimal decision making. To address this, we introduce history-dependent dual variables that guide local action selection and are optimized with recursive dual ascent. We empirically compare the performance of our approach on a motivating toy example and two large CPOMDPs, demonstrating improved exploration, and ultimately, safer outcomes. | 翻訳日:2024-03-27 16:45:50 公開日:2024-03-26 |
# Chain-of-Action: 大規模言語モデルによる忠実でマルチモーダルな質問
Chain-of-Action: Faithful and Multimodal Question Answering through Large Language Models ( http://arxiv.org/abs/2403.17359v1 ) ライセンス: Link先を確認 | Zhenyu Pan, Haozheng Luo, Manling Li, Han Liu, | (参考訳) 本稿では,マルチモーダルおよび検索強化質問応答(QA)のためのChain-of-Action(CoA)フレームワークを提案する。
文献と比較すると、CoAは現在のQAアプリケーションにおける2つの大きな課題を克服している。
一 リアルタイム又はドメイン事実に反する不信の幻覚
(二)構成情報に対する推論性能の弱いこと。
私たちの重要な貢献は、複雑な質問を体系的なプロンプトと事前設計されたアクションを通じて推論チェーンに分解する、新しい推論-検索メカニズムである。
提案手法は,異種情報源からリアルタイム情報を取得するための3種類のドメイン適応型 ‘Plug-and-Play' アクションを提案する。
また,Multi-Reference faith score (MRFS) を提案する。
実証的には、公開ベンチマークとWeb3ケーススタディの両方を利用して、他のメソッドよりもCoAの能力を実証します。
We present a Chain-of-Action (CoA) framework for multimodal and retrieval-augmented Question-Answering (QA). Compared to the literature, CoA overcomes two major challenges of current QA applications: (i) unfaithful hallucination that is inconsistent with real-time or domain facts and (ii) weak reasoning performance over compositional information. Our key contribution is a novel reasoning-retrieval mechanism that decomposes a complex question into a reasoning chain via systematic prompting and pre-designed actions. Methodologically, we propose three types of domain-adaptable `Plug-and-Play' actions for retrieving real-time information from heterogeneous sources. We also propose a multi-reference faith score (MRFS) to verify and resolve conflicts in the answers. Empirically, we exploit both public benchmarks and a Web3 case study to demonstrate the capability of CoA over other methods. | 翻訳日:2024-03-27 16:45:50 公開日:2024-03-26 |
# 活動バイオメトリックス:日々の活動から個人を同定する
Activity-Biometrics: Person Identification from Daily Activities ( http://arxiv.org/abs/2403.17360v1 ) ライセンス: Link先を確認 | Shehreen Azad, Yogesh Singh Rawat, | (参考訳) 本研究では,日常活動中に個人識別に焦点をあてた新たな課題について検討する。
RGBビデオから生体機能を学ぶことは、時空間の複雑さと衣服の色や背景などの外観バイアスの存在のために困難である。
ABNetは,生体と非生体の特徴の絡み合いを利用して,日々の行動から効果的な人物識別を行う新しいフレームワークである。
ABNetはバイアスのない教師に頼って、RGBビデオから生体的特徴を学習し、生体的歪みの助けを借りて、非生体的特徴を明示的に歪めている。
さらに、ABNetはバイオメトリックスに先立つ活動を利用しており、これは共同でバイオメトリックスとアクティビティの学習が可能である。
既存のアクティビティ認識ベンチマークから得られた5つの異なるデータセットに対して,提案手法の包括的な評価を行う。
さらに、ABNetと個人識別の既存の研究を広範囲に比較し、5つのデータセットすべてにわたるアクティビティベースのバイオメトリックスの有効性を実証する。
コードとデータセットは以下の通りアクセスできる。
In this work, we study a novel problem which focuses on person identification while performing daily activities. Learning biometric features from RGB videos is challenging due to spatio-temporal complexity and presence of appearance biases such as clothing color and background. We propose ABNet, a novel framework which leverages disentanglement of biometric and non-biometric features to perform effective person identification from daily activities. ABNet relies on a bias-less teacher to learn biometric features from RGB videos and explicitly disentangle non-biometric features with the help of biometric distortion. In addition, ABNet also exploits activity prior for biometrics which is enabled by joint biometric and activity learning. We perform comprehensive evaluation of the proposed approach across five different datasets which are derived from existing activity recognition benchmarks. Furthermore, we extensively compare ABNet with existing works in person identification and demonstrate its effectiveness for activity-based biometrics across all five datasets. The code and dataset can be accessed at: \url{https://github.com/sacrcv/Activity-Biometrics/} | 翻訳日:2024-03-27 16:45:50 公開日:2024-03-26 |
# ファクト検証のためのブリッジングテクストとタブラルワールド:軽量・アテンションベースモデル
Bridging Textual and Tabular Worlds for Fact Verification: A Lightweight, Attention-Based Model ( http://arxiv.org/abs/2403.17361v1 ) ライセンス: Link先を確認 | Shirin Dabbaghi Varnosfaderani, Canasai Kruengkrai, Ramin Yahyapour, Junichi Yamagishi, | (参考訳) FEVEROUSは、構造化されていないテキストと構造化された表データを含む事実抽出と検証タスクに焦点を当てた、ベンチマークおよび研究イニシアチブである。
FEVEROUSでは、既存の作業は広範囲の事前処理に頼り、ルールベースのデータ変換を利用することが多いため、潜在的なコンテキスト損失や誤解を招くエンコーディングにつながる。
本稿では,モダリティ変換の必要性を解消し,元のエビデンスの文脈を保存するための,シンプルながら強力なモデルを提案する。
各種テキストおよび表データセットの事前学習モデルを活用するとともに、軽量な注意に基づくメカニズムを取り入れることで、異なるデータ型間の遅延接続を効果的に活用し、包括的で信頼性の高い検証予測を実現する。
モデルのモジュラー構造は、マルチモーダル情報を十分に管理し、元の証拠の完全性と信頼性が未妥協であることを保証する。
比較分析の結果,提案手法は競合性能を示し,FEVEROUSベンチマークの上位モデルと密接に一致していることがわかった。
FEVEROUS is a benchmark and research initiative focused on fact extraction and verification tasks involving unstructured text and structured tabular data. In FEVEROUS, existing works often rely on extensive preprocessing and utilize rule-based transformations of data, leading to potential context loss or misleading encodings. This paper introduces a simple yet powerful model that nullifies the need for modality conversion, thereby preserving the original evidence's context. By leveraging pre-trained models on diverse text and tabular datasets and by incorporating a lightweight attention-based mechanism, our approach efficiently exploits latent connections between different data types, thereby yielding comprehensive and reliable verdict predictions. The model's modular structure adeptly manages multi-modal information, ensuring the integrity and authenticity of the original evidence are uncompromised. Comparative analyses reveal that our approach exhibits competitive performance, aligning itself closely with top-tier models on the FEVEROUS benchmark. | 翻訳日:2024-03-27 16:45:50 公開日:2024-03-26 |
# ノイズの多い音声から生体物質を抽出する
Extracting Biomedical Entities from Noisy Audio Transcripts ( http://arxiv.org/abs/2403.17363v1 ) ライセンス: Link先を確認 | Nima Ebadi, Kellen Morgan, Adrian Tan, Billy Linares, Sheri Osborn, Emma Majors, Jeremy Davis, Anthony Rios, | (参考訳) 自動音声認識(ASR)技術は、医療領域において医療転写の合理化や電子健康記録(Electronic Health Record, EHR)システムとの統合など、音声言語をテキストに翻訳する上で基本的な技術である。
それでも、特に書き起こしがノイズを含む場合には課題が続き、自然言語処理(NLP)モデルを適用すると、性能が大幅に低下する。
名付けられたエンティティ認識(NER)は、特にそのようなノイズの影響を受けており、しばしばASR-NLPギャップと呼ばれる。
以前の研究は、清潔な録音におけるASRの効率を主に研究しており、ノイズの多い環境でのパフォーマンスに関する研究のギャップを残している。
本稿では,生物医学領域におけるASR-NLPギャップを埋めるための新しいデータセットであるBioASR-NERを紹介する。
私たちのデータセットは、2000近いクリーンでノイズの多い録音を包括的に収集しています。
ノイズ問題に対処するため,GPT4を用いた書き起こしクリーン化手法を提案し,ゼロショット法と少数ショット法の両方について検討する。
本研究は、さらに誤り解析、転写ソフトウェアにおけるエラーの種類、GPT4による修正、そしてGPT4が直面する課題に光を当てる。
本稿では、ASR-NLPギャップに対する理解と潜在的な解決策の向上を目標とし、最終的に医療文書化の強化を支援することを目的とする。
Automatic Speech Recognition (ASR) technology is fundamental in transcribing spoken language into text, with considerable applications in the clinical realm, including streamlining medical transcription and integrating with Electronic Health Record (EHR) systems. Nevertheless, challenges persist, especially when transcriptions contain noise, leading to significant drops in performance when Natural Language Processing (NLP) models are applied. Named Entity Recognition (NER), an essential clinical task, is particularly affected by such noise, often termed the ASR-NLP gap. Prior works have primarily studied ASR's efficiency in clean recordings, leaving a research gap concerning the performance in noisy environments. This paper introduces a novel dataset, BioASR-NER, designed to bridge the ASR-NLP gap in the biomedical domain, focusing on extracting adverse drug reactions and mentions of entities from the Brief Test of Adult Cognition by Telephone (BTACT) exam. Our dataset offers a comprehensive collection of almost 2,000 clean and noisy recordings. In addressing the noise challenge, we present an innovative transcript-cleaning method using GPT4, investigating both zero-shot and few-shot methodologies. Our study further delves into an error analysis, shedding light on the types of errors in transcription software, corrections by GPT4, and the challenges GPT4 faces. This paper aims to foster improved understanding and potential solutions for the ASR-NLP gap, ultimately supporting enhanced healthcare documentation practices. | 翻訳日:2024-03-27 16:45:50 公開日:2024-03-26 |
# LQRメタポリシー推定のためのモローエンベロープアプローチ
A Moreau Envelope Approach for LQR Meta-Policy Estimation ( http://arxiv.org/abs/2403.17364v1 ) ライセンス: Link先を確認 | Ashwin Aravind, Mohammad Taha Toghani, César A. Uribe, | (参考訳) 離散時間線形時間不変不確実な力学系における線形二次レギュレータ(LQR)のポリシー推定問題について検討する。
本研究では,不確実なシステムの有限な実現集合から構築したモロー・エンベロープに基づく代理LQRコストを提案し,新しい実現に効率的に対応可能なメタポリティクスを定義する。
さらに,メタLQRコスト関数の1次定常点を近似的に求めるアルゴリズムを設計する。
数値計算の結果,提案手法は線形システムの新たな実現法において,制御器の平均値よりも優れていた。
また,本手法がモデルに依存しないメタラーニング(MAML)アプローチよりも,サンプルの複雑さが優れているという実証的証拠も提示する。
We study the problem of policy estimation for the Linear Quadratic Regulator (LQR) in discrete-time linear time-invariant uncertain dynamical systems. We propose a Moreau Envelope-based surrogate LQR cost, built from a finite set of realizations of the uncertain system, to define a meta-policy efficiently adjustable to new realizations. Moreover, we design an algorithm to find an approximate first-order stationary point of the meta-LQR cost function. Numerical results show that the proposed approach outperforms naive averaging of controllers on new realizations of the linear system. We also provide empirical evidence that our method has better sample complexity than Model-Agnostic Meta-Learning (MAML) approaches. | 翻訳日:2024-03-27 16:45:50 公開日:2024-03-26 |
# ChatGPTは、人間のように自然言語による説明の質を高める:しかし、どのスケールで?
ChatGPT Rates Natural Language Explanation Quality Like Humans: But on Which Scales? ( http://arxiv.org/abs/2403.17368v1 ) ライセンス: Link先を確認 | Fan Huang, Haewoon Kwak, Kunwoo Park, Jisun An, | (参考訳) AIが私たちの生活にますます不可欠なものになっていくと、透明性と責任の必要性が増す。
自然言語の説明(NLE)は、AI決定の背後にある理由を明らかにする上で不可欠であるが、主観性と詳細な評価の必要性のため、人間の判断による評価は複雑でリソース集約的である。
本研究では,ChatGPTと人的評価(二分数,三分数,七分数)のアライメントについて検討した。
3つのNLEデータセットから300のデータインスタンスをサンプリングし、テキストの品質測定として、情報度と明瞭度スコアの両方に900人のアノテーションを収集する。
さらに,8,346人のアノテーションの基準となる主観性スコアの異なる範囲でペア比較実験を行った。
以上の結果から,ChatGPTはより粗いスケールで人間とよく一致していることがわかった。
また、ペア比較と動的プロンプト(すなわちプロンプトに意味的に類似した例を提供する)はアライメントを改善する。
本研究は,大規模言語モデルの能力の理解を深め,AI開発に責任を負うための異なる構成のテキスト説明品質を評価する。
As AI becomes more integral in our lives, the need for transparency and responsibility grows. While natural language explanations (NLEs) are vital for clarifying the reasoning behind AI decisions, evaluating them through human judgments is complex and resource-intensive due to subjectivity and the need for fine-grained ratings. This study explores the alignment between ChatGPT and human assessments across multiple scales (i.e., binary, ternary, and 7-Likert scale). We sample 300 data instances from three NLE datasets and collect 900 human annotations for both informativeness and clarity scores as the text quality measurement. We further conduct paired comparison experiments under different ranges of subjectivity scores, where the baseline comes from 8,346 human annotations. Our results show that ChatGPT aligns better with humans in more coarse-grained scales. Also, paired comparisons and dynamic prompting (i.e., providing semantically similar examples in the prompt) improve the alignment. This research advances our understanding of large language models' capabilities to assess the text explanation quality in different configurations for responsible AI development. | 翻訳日:2024-03-27 16:45:50 公開日:2024-03-26 |
# CoDA:重度対応型ビジュアルプロンプトチューニングによるドメイン適応の指導
CoDA: Instructive Chain-of-Domain Adaptation with Severity-Aware Visual Prompt Tuning ( http://arxiv.org/abs/2403.17369v1 ) ライセンス: Link先を確認 | Ziyang Gong, Fuhao Li, Yupeng Deng, Deblina Bhattacharjee, Xiangwei Zhu, Zhenming Ji, | (参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインからラベル付きターゲットドメインへのモデルを適応することを目的としている。
悪い場面に適応する場合、既存のUDA手法は指示の欠如によりうまく機能せず、そのモデルがすべての悪い場面で相違点を見落としてしまう。
そこで本研究では,シーンレベルと画像レベルにおいて,これらの相違点を識別,焦点付け,学習するようにモデルに指示するCoDAを提案する。
具体的には、CoDAはChain-of-Domain(CoD)戦略とSeverity-Aware Visual Prompt Tuning(SAVPT)メカニズムで構成される。
CoDは、すべての悪いシーンを、簡単で困難なシーンに分割するためのシーンレベルの指示に焦点を当て、ソースから容易なシーンイメージのドメインに適応するモデルを誘導し、そして、ハードなシーンイメージのドメインに適応させる。
この基盤の上に構築されたSAVPTを用いて、より詳細な画像レベルのインストラクションを掘り下げ、パフォーマンスを向上させる。
SAVPTは、すべての有害なシーンイメージを低重度と高重度に分割する新しいメトリクスの重大度を特徴としている。
次に、Severityは視覚的なプロンプトとアダプタを指示し、モデルアーキテクチャに複雑さを加えることなく、シーン固有の機能ではなく、統一された深刻度機能に集中するようモデルに指示する。
CoDAは、あらゆる悪い場面で広く使用されているベンチマークでSOTAのパフォーマンスを達成する。
特にCoDAは、フォギー・ドライビングとフォギー・チューリッヒのベンチマークで、既存のものよりも4.6%、mIoUが10.3%上回っている。
私たちのコードはhttps://github.com/Cuzyoung/CoDAで利用可能です。
Unsupervised Domain Adaptation (UDA) aims to adapt models from labeled source domains to unlabeled target domains. When adapting to adverse scenes, existing UDA methods fail to perform well due to the lack of instructions, leading their models to overlook discrepancies within all adverse scenes. To tackle this, we propose CoDA which instructs models to distinguish, focus, and learn from these discrepancies at scene and image levels. Specifically, CoDA consists of a Chain-of-Domain (CoD) strategy and a Severity-Aware Visual Prompt Tuning (SAVPT) mechanism. CoD focuses on scene-level instructions to divide all adverse scenes into easy and hard scenes, guiding models to adapt from source to easy domains with easy scene images, and then to hard domains with hard scene images, thereby laying a solid foundation for whole adaptations. Building upon this foundation, we employ SAVPT to dive into more detailed image-level instructions to boost performance. SAVPT features a novel metric Severity that divides all adverse scene images into low-severity and high-severity images. Then Severity directs visual prompts and adapters, instructing models to concentrate on unified severity features instead of scene-specific features, without adding complexity to the model architecture. CoDA achieves SOTA performances on widely-used benchmarks under all adverse scenes. Notably, CoDA outperforms the existing ones by 4.6%, and 10.3% mIoU on the Foggy Driving, and Foggy Zurich benchmarks, respectively. Our code is available at https://github.com/Cuzyoung/CoDA | 翻訳日:2024-03-27 16:45:50 公開日:2024-03-26 |
# AIDE: 自律運転における物体検出のための自動データエンジン
AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving ( http://arxiv.org/abs/2403.17373v1 ) ライセンス: Link先を確認 | Mingfu Liang, Jong-Chyi Su, Samuel Schulter, Sparsh Garg, Shiyu Zhao, Ying Wu, Manmohan Chandraker, | (参考訳) 自動運転車(AV)システムは、安全保証の基礎として堅牢な認識モデルに依存している。
しかし、道路で遭遇した物体は長い尾の分布を示しており、珍しいか見えないカテゴリーが配置された知覚モデルに挑戦している。
これは、人間の努力でデータを継続的にキュレートし、注釈付けする、高価なプロセスを必要とする。
本稿では、視覚言語と大規模言語モデルにおける最近の進歩を活用して、問題を自動的に識別し、データを効率よくキュレートし、自動ラベル付けによりモデルを改善し、多様なシナリオの生成を通じてモデルを検証する自動データエンジン(AIDE)を設計することを提案する。
このプロセスは反復的に動作し、モデルの継続的な自己改善を可能にする。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
Autonomous vehicle (AV) systems rely on robust perception models as a cornerstone of safety assurance. However, objects encountered on the road exhibit a long-tailed distribution, with rare or unseen categories posing challenges to a deployed perception model. This necessitates an expensive process of continuously curating and annotating data with significant human effort. We propose to leverage recent advances in vision-language and large language models to design an Automatic Data Engine (AIDE) that automatically identifies issues, efficiently curates data, improves the model through auto-labeling, and verifies the model through generation of diverse scenarios. This process operates iteratively, allowing for continuous self-improvement of the model. We further establish a benchmark for open-world detection on AV datasets to comprehensively evaluate various learning paradigms, demonstrating our method's superior performance at a reduced cost. | 翻訳日:2024-03-27 16:45:50 公開日:2024-03-26 |
# 摂動誘導による自己回帰拡散サンプリング
Self-Rectifying Diffusion Sampling with Perturbed-Attention Guidance ( http://arxiv.org/abs/2403.17377v1 ) ライセンス: Link先を確認 | Donghoon Ahn, Hyoungwon Cho, Jaewon Min, Wooseok Jang, Jungwoo Kim, SeonHwa Kim, Hyun Hee Park, Kyong Hwan Jin, Seungryong Kim, | (参考訳) 近年の研究では、拡散モデルが高品質なサンプルを生成可能であることが示されているが、その品質は、分類器ガイダンス(CG)や分類器フリーガイダンス(CFG)といったサンプリングガイダンス技術に大きく依存している。
これらの手法は、無条件生成や画像復元のような様々な下流タスクには適用されないことが多い。
本稿では,無条件および条件条件の両方で拡散サンプルの品質を向上し,追加のトレーニングや外部モジュールの統合を必要とせず,新たなサンプリングガイダンスであるPerturbed-Attention Guidance(PAG)を提案する。
PAGは、denoisingプロセスを通してサンプルの構造を徐々に強化するよう設計されている。
分散U-Netで選択された自己アテンションマップをアイデンティティ行列に置換し、自己アテンション機構が構造情報をキャプチャする能力を考慮し、これらの劣化したサンプルから退化過程を導くことによって、劣化した構造を持つ中間サンプルを生成する。
ADMとStable Diffusionの両方において、PAGは驚くほど、条件付きおよび条件なしのシナリオにおけるサンプル品質を改善します。
さらに、CGやCFGのような既存のガイダンスを十分に活用できないダウンストリームタスクにおいて、PAGは、空のプロンプトを持つControlNetや、塗装やデブロアリングなどのイメージ復元など、ベースライン性能を著しく向上させる。
Recent studies have demonstrated that diffusion models are capable of generating high-quality samples, but their quality heavily depends on sampling guidance techniques, such as classifier guidance (CG) and classifier-free guidance (CFG). These techniques are often not applicable in unconditional generation or in various downstream tasks such as image restoration. In this paper, we propose a novel sampling guidance, called Perturbed-Attention Guidance (PAG), which improves diffusion sample quality across both unconditional and conditional settings, achieving this without requiring additional training or the integration of external modules. PAG is designed to progressively enhance the structure of samples throughout the denoising process. It involves generating intermediate samples with degraded structure by substituting selected self-attention maps in diffusion U-Net with an identity matrix, by considering the self-attention mechanisms' ability to capture structural information, and guiding the denoising process away from these degraded samples. In both ADM and Stable Diffusion, PAG surprisingly improves sample quality in conditional and even unconditional scenarios. Moreover, PAG significantly improves the baseline performance in various downstream tasks where existing guidances such as CG or CFG cannot be fully utilized, including ControlNet with empty prompts and image restoration such as inpainting and deblurring. | 翻訳日:2024-03-27 16:45:50 公開日:2024-03-26 |
# 機械学習におけるアプリケーション駆動イノベーション
Application-Driven Innovation in Machine Learning ( http://arxiv.org/abs/2403.17381v1 ) ライセンス: Link先を確認 | David Rolnick, Alan Aspuru-Guzik, Sara Beery, Bistra Dilkina, Priya L. Donti, Marzyeh Ghassemi, Hannah Kerner, Claire Monteleoni, Esther Rolf, Milind Tambe, Adam White, | (参考訳) 機械学習の応用が拡大するにつれ、特定の現実世界の課題にインスパイアされた革新的なアルゴリズムがますます重要になっている。
このような作業は、アプリケーションドメインだけでなく、機械学習自体にも大きな影響を与える可能性がある。
本稿では,機械学習におけるアプリケーション駆動研究のパラダイムについて述べる。
アプリケーション駆動機械学習の利点と、このアプローチがメソッド駆動の作業と生産的に相乗効果をもたらす方法について説明する。
これらのメリットにもかかわらず、マシンラーニングにおけるレビュー、採用、教育のプラクティスが、アプリケーション駆動のイノベーションを後押しすることが多いことに気付きます。
これらのプロセスがどのように改善されるのかを概説する。
As applications of machine learning proliferate, innovative algorithms inspired by specific real-world challenges have become increasingly important. Such work offers the potential for significant impact not merely in domains of application but also in machine learning itself. In this paper, we describe the paradigm of application-driven research in machine learning, contrasting it with the more standard paradigm of methods-driven research. We illustrate the benefits of application-driven machine learning and how this approach can productively synergize with methods-driven work. Despite these benefits, we find that reviewing, hiring, and teaching practices in machine learning often hold back application-driven innovation. We outline how these processes may be improved. | 翻訳日:2024-03-27 16:45:50 公開日:2024-03-26 |
# NPM, PyPI, カーゴパッケージの依存性更新プラクティスの特徴付け
Characterizing Dependency Update Practice of NPM, PyPI and Cargo Packages ( http://arxiv.org/abs/2403.17382v1 ) ライセンス: Link先を確認 | Imranur Rahman, Nusrat Zahan, Stephen Magill, William Enck, Laurie Williams, | (参考訳) 依存関係を最新に保つことで、時代遅れで脆弱な依存関係によるソフトウェアサプライチェーンの攻撃が防止される。
開発者は、パッケージを依存関係として選択するための選択基準の1つとして、パッケージの依存性更新プラクティスを使用することができる。
しかしながら、パッケージの依存性更新プラクティスを特徴付けるメトリクスの欠如は、この評価を困難にしている。
パッケージの最新の特性を測定するために,依存関係管理の側面に注目し,それぞれ依存性の更新性と脆弱性のある依存関係の更新性を測定するために,TOOD(Time-Out-Of-Date)とPFET(Post-Fix-Exposure-Time)の2つの更新指標を提案する。
異なる時間間隔で依存関係関係を安定化するアルゴリズムを設計し,提案するパッケージのメトリクスを算出する。
提案手法を用いて,2004年から2023年にかけて,NPM,PyPI,Cargoにおける2.9Mパッケージ,66.8Mパッケージバージョン,26.8M独自のパッケージ依存性関係を持つ更新メトリクスの大規模調査を行った。
3つのエコシステムにおけるパッケージの依存性更新プラクティスをキャプチャする上で,提案手法の特徴を分析した。
PFETメトリックよりも大量のデータを生成するTOODメトリックを考えると、これらのメトリクス間の数値関係をさらに調べて、脆弱性数メトリクスの代用としての可能性を評価する。
PyPIパッケージはNPMやCargoよりも早く依存関係を更新する。
逆に、Cargoパッケージは脆弱な依存関係をNPMやPyPIよりも早く更新する。
また,汎用的な更新基準であるTOODが,セキュリティを重視した更新基準であるPFETのプロキシとなることも確認した。
Keeping dependencies up-to-date prevents software supply chain attacks through outdated and vulnerable dependencies. Developers may use packages' dependency update practice as one of the selection criteria for choosing a package as a dependency. However, the lack of metrics characterizing packages' dependency update practice makes this assessment difficult. To measure the up-to-date characteristics of packages, we focus on the dependency management aspect and propose two update metrics: Time-Out-Of-Date (TOOD) and Post-Fix-Exposure-Time (PFET), to measure the updatedness of dependencies and updatedness of vulnerable dependencies, respectively. We design an algorithm to stabilize the dependency relationships in different time intervals and compute the proposed metrics for each package. Using our proposed metrics, we conduct a large-scale empirical study of update metrics with 2.9M packages, 66.8M package versions, and 26.8M unique package-dependency relations in NPM, PyPI, and Cargo, ranging from the year 2004 to 2023. We analyze the characteristics of the proposed metrics for capturing packages' dependency update practice in the three ecosystems. Given that the TOOD metric generates a greater volume of data than the PFET metric, we further explore the numerical relationship between these metrics to assess their potential as substitutes for vulnerability counts metrics. We find that PyPI packages update dependencies faster than NPM and Cargo. Conversely, Cargo packages update their vulnerable dependencies faster than NPM and PyPI. We also find that the general purpose update metric, TOOD, can be a proxy for the security-focused update metric, PFET. | 翻訳日:2024-03-27 16:45:50 公開日:2024-03-26 |
# 大気状態推定における観測影響解析のための説明可能なグラフニューラルネットワーク
Explainable Graph Neural Networks for Observation Impact Analysis in Atmospheric State Estimation ( http://arxiv.org/abs/2403.17384v1 ) ライセンス: Link先を確認 | Hyeon-Ju Jeon, Jeon-Ho Kang, In-Hyuk Kwon, O-Joun Lee, | (参考訳) 本稿では,グラフニューラルネットワーク(GNN)と説明可能性法を用いた気象予報システムにおける大気状態推定に対する観測の影響について検討する。
観測値と数値気象予測値(NWP)を気象グラフに統合し,NWP点を中心に$k$-hopのサブグラフを抽出する。
自己監督型GNNは、これらの$k$-hop radii内のデータを集約することで大気状態を推定するために使用される。
本研究は、推定過程における異なる観測の意義を定量化するために、勾配に基づく説明可能性法を適用した。
その結果, 気象予報における観測データの重要性を可視化し, 観測データの理解と最適化を向上する効果が示された。
This paper investigates the impact of observations on atmospheric state estimation in weather forecasting systems using graph neural networks (GNNs) and explainability methods. We integrate observation and Numerical Weather Prediction (NWP) points into a meteorological graph, extracting $k$-hop subgraphs centered on NWP points. Self-supervised GNNs are employed to estimate the atmospheric state by aggregating data within these $k$-hop radii. The study applies gradient-based explainability methods to quantify the significance of different observations in the estimation process. Evaluated with data from 11 satellite and land-based observations, the results highlight the effectiveness of visualizing the importance of observation types, enhancing the understanding and optimization of observational data in weather forecasting. | 翻訳日:2024-03-27 16:45:50 公開日:2024-03-26 |
# ELEN:効率的な名前付きエンティティ認識のための極端に軽量な教師付き学習
ELLEN: Extremely Lightly Supervised Learning For Efficient Named Entity Recognition ( http://arxiv.org/abs/2403.17385v1 ) ライセンス: Link先を確認 | Haris Riaz, Razvan-Gabriel Dumitru, Mihai Surdeanu, | (参考訳) 本研究では,クラス毎に10例のみを含む辞書からなる,極めて軽量な監視に焦点を当てた半教師付きエンティティ認識(NER)の問題を再考する。
ELENは,微調整言語モデルと言語規則をブレンドした,シンプルで完全にモジュール化されたニューロシンボリックな手法である。
これらのルールには、'One Sense Per Discourse'のような洞察、マスケッド言語モデルを教師なしのNERとして使用し、未ラベルのエンティティを偽陰性として識別し排除するために音声タグを活用し、局所的およびグローバル的文脈における分類器の信頼性スコアに関する他の直観が含まれる。
ELLENは、上のレキシコンから最小限の監視を使用する場合、CoNLL-2003データセット上で非常に高い性能を達成する。
また、既存の(そしてかなり複雑な)半教師付きNERメソッドを、文献で一般的に使用されるのと同じ監督設定(トレーニングデータの5%)で上回っている。
さらに,WNUT-17のゼロショットシナリオでCoNLL-2003モデルを評価したところ,GPT-3.5より優れ,GPT-4に匹敵する性能が得られた。
ゼロショット設定では、ELENは金のデータに基づいてトレーニングされた強力で完全な教師付きモデルの75%以上の性能を達成する。
私たちのコードは、https://github.com/hriaz17/ELLEN.comで利用可能です。
In this work, we revisit the problem of semi-supervised named entity recognition (NER) focusing on extremely light supervision, consisting of a lexicon containing only 10 examples per class. We introduce ELLEN, a simple, fully modular, neuro-symbolic method that blends fine-tuned language models with linguistic rules. These rules include insights such as ''One Sense Per Discourse'', using a Masked Language Model as an unsupervised NER, leveraging part-of-speech tags to identify and eliminate unlabeled entities as false negatives, and other intuitions about classifier confidence scores in local and global context. ELLEN achieves very strong performance on the CoNLL-2003 dataset when using the minimal supervision from the lexicon above. It also outperforms most existing (and considerably more complex) semi-supervised NER methods under the same supervision settings commonly used in the literature (i.e., 5% of the training data). Further, we evaluate our CoNLL-2003 model in a zero-shot scenario on WNUT-17 where we find that it outperforms GPT-3.5 and achieves comparable performance to GPT-4. In a zero-shot setting, ELLEN also achieves over 75% of the performance of a strong, fully supervised model trained on gold data. Our code is available at: https://github.com/hriaz17/ELLEN. | 翻訳日:2024-03-27 16:36:05 公開日:2024-03-26 |
# 半教師付きモノクロ3次元物体検出のためのデカップリング擬似ラベル
Decoupled Pseudo-labeling for Semi-Supervised Monocular 3D Object Detection ( http://arxiv.org/abs/2403.17387v1 ) ライセンス: Link先を確認 | Jiacheng Zhang, Jiaming Li, Xiangru Lin, Wei Zhang, Xiao Tan, Junyu Han, Errui Ding, Jingdong Wang, Guanbin Li, | (参考訳) 半教師付きモノクロ3Dオブジェクト検出(SSM3OD)のための擬似ラベリングを探索し、3D属性と2D属性の予測品質の相違と、擬似ラベリングから派生した深度監督の傾向という2つの主要な問題を発見し、他の信頼性のある監督形態との重大な最適化競合をもたらす。
SSM3ODに対するDPL(decoupled pseudo-labeling)アプローチを提案する。
提案手法は,2D属性と3D属性を別々に処理することで,擬似ラベルを効率的に生成できるデカップリング擬似ラベル生成(DPG)モジュールを備える。
このモジュールは、特に3D属性のために、BEV空間における信頼できる擬似ラベルを識別するためのユニークなホモグラフィーに基づく手法を取り入れている。
さらに、擬似ラベルのノイズの多い深さ監視による最適化競合を緩和し、奥行き勾配を効果的に分離し、矛盾する勾配を除去するDGPモジュールを提案する。
この二重分離戦略は、擬似ラベル生成と勾配レベルの両方において、SSM3ODにおける擬似ラベルの利用を著しく改善する。
KITTIベンチマークに関する包括的実験は,既存の手法よりも提案手法の方が優れていることを示す。
We delve into pseudo-labeling for semi-supervised monocular 3D object detection (SSM3OD) and discover two primary issues: a misalignment between the prediction quality of 3D and 2D attributes and the tendency of depth supervision derived from pseudo-labels to be noisy, leading to significant optimization conflicts with other reliable forms of supervision. We introduce a novel decoupled pseudo-labeling (DPL) approach for SSM3OD. Our approach features a Decoupled Pseudo-label Generation (DPG) module, designed to efficiently generate pseudo-labels by separately processing 2D and 3D attributes. This module incorporates a unique homography-based method for identifying dependable pseudo-labels in BEV space, specifically for 3D attributes. Additionally, we present a DepthGradient Projection (DGP) module to mitigate optimization conflicts caused by noisy depth supervision of pseudo-labels, effectively decoupling the depth gradient and removing conflicting gradients. This dual decoupling strategy-at both the pseudo-label generation and gradient levels-significantly improves the utilization of pseudo-labels in SSM3OD. Our comprehensive experiments on the KITTI benchmark demonstrate the superiority of our method over existing approaches. | 翻訳日:2024-03-27 16:36:05 公開日:2024-03-26 |
# 環境支援制御による量子システムの最適化のための非コヒーレントGRAPE(inGRAPE)
Incoherent GRAPE (inGRAPE) for optimization of quantum systems with environmentally assisted control ( http://arxiv.org/abs/2403.17388v1 ) ライセンス: Link先を確認 | Vadim Petruhanov, Alexander Pechen, | (参考訳) 本稿では、GRAPE(Gradient Ascent Pulse Engineering)アプローチの非コヒーレントバージョンの開発と応用について、コヒーレント制御と非コヒーレント制御の両方によって駆動されるオープン量子システムの最適化について概説する。
非コヒーレント制御アプローチでは、環境はコヒーレントフィールドと共に制御として機能し、デコヒーレンスレートは一般に時間依存となる。
量子ビットに対して、密度行列の進化の明示的な解析式はカルダーノ法による立方方程式を解くことによって得られる。
オープン1ビットおよび2ビット系における高忠実度ゲート生成への非コヒーレントGRAPE法の応用と、基礎となるコントロールランドスケープの驚くべき特性について論じ、アダマール、C-NOT、C-Zゲートのスムーズな単一ピークランドスケープと、Tゲートの2つのピーク(または$\pi/8$)とのより複雑な2つのグループを形成する。
クエトリットには、環境支援型非コヒーレント制御と時間依存デコヒーレンス率の定式化が提供される。
In this work, we review several results on development and application of incoherent version of GRAPE (Gradient Ascent Pulse Engineering) approach, inGRAPE, to optimization for open quantum systems driven by both coherent and incoherent controls. In the incoherent control approach, the environment serves as a control together with coherent field, and decoherence rates become generally time-dependent. For a qubit, explicit analytic expressions for evolution of the density matrix were obtained by solving a cubic equation via Cardano method. We discuss applications of incoherent GRAPE method to high fidelity gate generation for open one- and two-qubit systems and surprising properties of the underlying control landscapes, forming two groups - smooth single peak landscapes for Hadamard, C-NOT and C-Z gates, and more complicated with two peaks for T (or $\pi/8$) gate. For a qutrit, a formulation of the environment-assisted incoherent control with time-dependent decoherence rates is provided. | 翻訳日:2024-03-27 16:36:05 公開日:2024-03-26 |
# 量子化によるニューズベンダー問題の最適化
Quantum-Enhanced Simulation-Based Optimization for Newsvendor Problems ( http://arxiv.org/abs/2403.17389v1 ) ライセンス: Link先を確認 | Monit Sharma, Hoong Chuin Lau, Rudy Raymond, | (参考訳) シミュレーションに基づく最適化は確率的最適化問題を解決するために広く用いられている手法である。
本手法は,目的関数の期待値の最大化により最適解を同定することを目的とする。
しかし、計算複雑性のため、関数を直接的に評価することはできず、シミュレーションによって推定される。
古典モンテカルロシミュレーションと比較して量子振幅推定(QAE)の高効率化を図り、古典的なシミュレーションに基づく最適化をしばしば上回り、様々なシナリオにおいて顕著な性能向上をもたらす。
本研究では、シミュレーションに基づく最適化に量子拡張アルゴリズムを用い、NPハードであることが知られている古典的ニューズベンダー問題の変種を解くためにそれを適用する。
このような問題は、特にリスクや不確実性の下での在庫管理と調達最適化においてサプライチェーン管理のためのビルディングブロックを提供する。
Simulation-based optimization is a widely used method to solve stochastic optimization problems. This method aims to identify an optimal solution by maximizing the expected value of the objective function. However, due to its computational complexity, the function cannot be accurately evaluated directly, hence it is estimated through simulation. Exploiting the enhanced efficiency of Quantum Amplitude Estimation (QAE) compared to classical Monte Carlo simulation, it frequently outpaces classical simulation-based optimization, resulting in notable performance enhancements in various scenarios. In this work, we make use of a quantum-enhanced algorithm for simulation-based optimization and apply it to solve a variant of the classical Newsvendor problem which is known to be NP-hard. Such problems provide the building block for supply chain management, particularly in inventory management and procurement optimization under risks and uncertainty | 翻訳日:2024-03-27 16:36:05 公開日:2024-03-26 |
# SSF3D:スイッチングフィルタを用いたSSF3D半監督3次元物体検出
SSF3D: Strict Semi-Supervised 3D Object Detection with Switching Filter ( http://arxiv.org/abs/2403.17390v1 ) ライセンス: Link先を確認 | Songbur Wong, | (参考訳) SSF3Dは、ポイントクラウドデータ用に特別に設計された半教師付き3Dオブジェクト検出(SS3DOD)フレームワークを変更した。
点雲における対象物体の非衝突特性と弱相関性を利用して、擬似ラベルの量と品質のバランスを追求する代わりに、真偽ラベルのみを保持し、他のファジィラベルをポイントでトリミングする戦略を採用する。
さらに、フィルタを変更することで、モデルを異なる分散ターゲットに適合させることができることに気付き、トレーニングボトルネックを壊すのに役立ちます。
以上のアイデアを実現するために、厳密なしきい値とフィルタスイッチングという2つのメカニズムが導入された。
以上の手法の有効性とシステム全体の性能への影響を明らかにする実験を行った。
KITTIデータセットから評価すると、SSF3Dは現在の最先端手法よりも優れたパフォーマンスを示している。
コードはここでリリースされる。
SSF3D modified the semi-supervised 3D object detection (SS3DOD) framework, which designed specifically for point cloud data. Leveraging the characteristics of non-coincidence and weak correlation of target objects in point cloud, we adopt a strategy of retaining only the truth-determining pseudo labels and trimming the other fuzzy labels with points, instead of pursuing a balance between the quantity and quality of pseudo labels. Besides, we notice that changing the filter will make the model meet different distributed targets, which is beneficial to break the training bottleneck. Two mechanism are introduced to achieve above ideas: strict threshold and filter switching. The experiments are conducted to analyze the effectiveness of above approaches and their impact on the overall performance of the system. Evaluating on the KITTI dataset, SSF3D exhibits superior performance compared to the current state-of-the-art methods. The code will be released here. | 翻訳日:2024-03-27 16:36:05 公開日:2024-03-26 |
# 強化学習型大規模ブールネットワークのためのオープンソースのエンドツーエンド論理最適化フレームワーク
An Open-source End-to-End Logic Optimization Framework for Large-scale Boolean Network with Reinforcement Learning ( http://arxiv.org/abs/2403.17395v1 ) ライセンス: Link先を確認 | Zhen Li, Kaixiang Zhu, Xuegong Zhou, Lingli Wang, | (参考訳) 本稿では,大規模ブールネットワークのためのオープンソースのエンドツーエンド論理最適化フレームワークを提案する。
We propose an open-source end-to-end logic optimization framework for large-scale boolean network with reinforcement learning. | 翻訳日:2024-03-27 16:36:05 公開日:2024-03-26 |
# 量子近似最適化アルゴリズムによる圧縮センシング
Compressed sensing enhanced by quantum approximate optimization algorithm ( http://arxiv.org/abs/2403.17399v1 ) ライセンス: Link先を確認 | Baptiste Chevalier, Wojciech Roga, Masahiro Takeoka, | (参考訳) 本稿では,量子サブルーチンを用いた大規模圧縮センシング問題に対処する枠組みを提案する。
スパース信号再構成アルゴリズムにおける検出を支援するために,量子近似最適化アルゴリズム(QAOA)を適用した。
このアルゴリズムで必要とされる制約付き最適化は、問題のサイズが大きく、制約が非構造化パターンによって与えられる場合、処理が困難である。
本フレームワークでは,Isingソルバを用いて検索可能なIsingモデルの解に対する最適化問題を操作しやすくする,特別に設計された制約を利用する。
本研究では,量子コンピュータのシミュレータ上でQAOAの性能を検証した。
提案手法は,従来の手法よりも優れた性能を示す。
本研究は, 量子コンピュータを圧縮センシング分野に適用する有望な方法を探るものである。
We present a framework to deal with a range of large scale compressive sensing problems using a quantum subroutine. We apply a quantum approximate optimization algorithm (QAOA) to support detection in a sparse signal reconstruction algorithm: matching pursuit. The constrained optimization required in this algorithm is difficult to handle when the size of the problem is large and constraints are given by unstructured patterns. Our framework utilizes specially designed structured constraints that are easy to manipulate and reduce the optimization problem to the solution of an Ising model which can be found using Ising solvers. In this research, we test the performance of QAOA for this purpose on a simulator of quantum computer. We observe that our method can outperform reference classical methods. Our results explore a promising path of applying quantum computers in the compressive sensing field. | 翻訳日:2024-03-27 16:36:05 公開日:2024-03-26 |
# Sparse Mixture-of-Expertsの一般化誤差解析 : 予備的検討
Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study ( http://arxiv.org/abs/2403.17404v1 ) ライセンス: Link先を確認 | Jinze Zhao, Peihao Wang, Zhangyang Wang, | (参考訳) Mixture-of-Experts (MoE) は、いくつかの専門的なサブモデル(専門家として参照)からの予測をアマルガメートするアンサンブル方法論である。
この融合はルータ機構を通じて達成され、入力データに基づいて各専門家の貢献に動的に重みを割り当てる。
従来のMoEメカニズムは、利用可能なすべての専門家を選択し、かなりの計算コストを発生させる。
Sparse Mixture-of-Experts (Sparse MoE) とは対照的に、限られた数、あるいは1人の専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する。
広い範囲の応用とこれらの有利な特性にもかかわらず、MoEの理論的基盤は解明され続けている。
本稿では,Sparse MoEの様々な要因に関する一般化誤差について検討する。
具体的には、データサンプル数、専門家の総数、専門家選択の空間性、ルーティング機構の複雑さ、個々の専門家の複雑さの影響について検討する。
我々の分析は、古典的学習理論の観点から洞察を提供するため、textit{how \textbf{sparsity} が MoE の一般化に寄与することを示している。
Mixture-of-Experts (MoE) represents an ensemble methodology that amalgamates predictions from several specialized sub-models (referred to as experts). This fusion is accomplished through a router mechanism, dynamically assigning weights to each expert's contribution based on the input data. Conventional MoE mechanisms select all available experts, incurring substantial computational costs. In contrast, Sparse Mixture-of-Experts (Sparse MoE) selectively engages only a limited number, or even just one expert, significantly reducing computation overhead while empirically preserving, and sometimes even enhancing, performance. Despite its wide-ranging applications and these advantageous characteristics, MoE's theoretical underpinnings have remained elusive. In this paper, we embark on an exploration of Sparse MoE's generalization error concerning various critical factors. Specifically, we investigate the impact of the number of data samples, the total number of experts, the sparsity in expert selection, the complexity of the routing mechanism, and the complexity of individual experts. Our analysis sheds light on \textit{how \textbf{sparsity} contributes to the MoE's generalization}, offering insights from the perspective of classical learning theory. | 翻訳日:2024-03-27 16:36:05 公開日:2024-03-26 |
# ジェネレーティブAIの不況 : 幸福への脅威
The recessionary pressures of generative AI: A threat to wellbeing ( http://arxiv.org/abs/2403.17405v1 ) ライセンス: Link先を確認 | Jo-An Occhipinti, Ante Prodan, William Hynes, Roy Green, Sharan Burrow, Harris A Eyre, Adam Skinner, Goran Ujdur, John Buchanan, Ian B Hickie, Mark Heffernan, Christine Song, Marcel Tanner, | (参考訳) 創造的人工知能(AI)は、パラドックスを示す変革的な力であり、生産性向上のための前例のない機会を提供すると同時に、経済の安定と社会的幸福への重大な脅威を生じさせる可能性がある。
多くの人は、生成AIは以前の技術進歩と類似していると考え、昔ながらの先例を用いて、広範な仕事のずれの恐れは未確立であると主張する一方で、生成AIが非ルーチン認知タスクを遂行するユニークな能力は、他の形態の自動化資本とは切り離され、安定した社会を支える仕事の品質と可用性への脅威であると主張している。
本稿では,両者が真である可能性のある条件について考察する。
我々は、不況の自己抑制サイクルを誘発し、社会的格差を悪化させ、社会的結束を減少させ、緊張を増し、安定を維持するために持続的な政府の介入を必要とする、AI資本と労働比のしきい値の存在を仮定する。
これを防ぐために, 社会・経済の進歩的政策を特徴とする, 堅牢な規制枠組みと新たな社会的契約を通じて, リスク低減を推奨する, 積極的な政策対応の必要性を強調した。
このアプローチは、人間の経済への貢献が維持され、生産的なAIと統合され、国のメンタルウェルスを高める持続可能な、包括的で回復力のある経済の将来を保証することを目的としている。
Generative Artificial Intelligence (AI) stands as a transformative force that presents a paradox; it offers unprecedented opportunities for productivity growth while potentially posing significant threats to economic stability and societal wellbeing. Many consider generative AI as akin to previous technological advancements, using historical precedent to argue that fears of widespread job displacement are unfounded, while others contend that generative AI`s unique capacity to undertake non-routine cognitive tasks sets it apart from other forms of automation capital and presents a threat to the quality and availability of work that underpin stable societies. This paper explores the conditions under which both may be true. We posit the existence of an AI-capital-to-labour ratio threshold beyond which a self-reinforcing cycle of recessionary pressures could be triggered, exacerbating social disparities, reducing social cohesion, heightening tensions, and requiring sustained government intervention to maintain stability. To prevent this, the paper underscores the urgent need for proactive policy responses, making recommendations to reduce these risks through robust regulatory frameworks and a new social contract characterised by progressive social and economic policies. This approach aims to ensure a sustainable, inclusive, and resilient economic future where human contribution to the economy is retained and integrated with generative AI to enhance the Mental Wealth of nations. | 翻訳日:2024-03-27 16:36:05 公開日:2024-03-26 |
# 地域方言によるベンガル文字のIPAへの翻訳
Transcribing Bengali Text with Regional Dialects to IPA using District Guided Tokens ( http://arxiv.org/abs/2403.17407v1 ) ライセンス: Link先を確認 | S M Jishanul Islam, Sadia Ahmmed, Sahid Hossain Mustakim, | (参考訳) 国際音声アルファベット (IPA) へのベンガル文字の正確な転写は、言語の複雑な音韻論と文脈に依存した音変化のために難しい課題である。
この課題は、これらの方言の標準化された綴り規則が適用できないこと、これらの地域で人気がある地域や外国語の存在、様々な地域における音韻学的多様性により、ベンガル方言にとってさらに大きな意味を持つ。
本稿では,バングラデシュの6つの地区にまたがる新しいデータセットにDGT手法を導入することにより,このシーケンス・ツー・シーケンス問題へのアプローチを提案する。
鍵となる考え方は、IPA転写を生成する前に、入力されたテキストの地域方言または「区切り」に関する明示的な情報をモデルに提供することである。
これは、地区トークンを入力シーケンスに前置し、各地区に関連付けられた独特の音韻パターンを理解するためのモデルを効果的に導くことによって達成される。
DGTテクニックは、この新しいデータセットに基づいて、いくつかのトランスフォーマーベースのモデルを微調整する。
ByT5モデルは,mT5,BanglaT5,UmT5などの単語ベースモデルよりも優れた性能を示した。
これは、ByT5がテストセット内の語彙外単語を高い割合で処理できる能力に起因している。
提案手法は,多様な音韻変化を持つ言語に対して,地域方言情報をユビキタスな自然言語処理システムに組み込むことの重要性を強調した。
Bhashamulは、ベンガル語の方言と、IPAの転写に関する問題を、https://www.kaggle.com/competitions/regipa/で解決することを目的としている。
トレーニングと推論のノートブックは、コンペティションリンクから入手できる。
Accurate transcription of Bengali text to the International Phonetic Alphabet (IPA) is a challenging task due to the complex phonology of the language and context-dependent sound changes. This challenge is even more for regional Bengali dialects due to unavailability of standardized spelling conventions for these dialects, presence of local and foreign words popular in those regions and phonological diversity across different regions. This paper presents an approach to this sequence-to-sequence problem by introducing the District Guided Tokens (DGT) technique on a new dataset spanning six districts of Bangladesh. The key idea is to provide the model with explicit information about the regional dialect or "district" of the input text before generating the IPA transcription. This is achieved by prepending a district token to the input sequence, effectively guiding the model to understand the unique phonetic patterns associated with each district. The DGT technique is applied to fine-tune several transformer-based models, on this new dataset. Experimental results demonstrate the effectiveness of DGT, with the ByT5 model achieving superior performance over word-based models like mT5, BanglaT5, and umT5. This is attributed to ByT5's ability to handle a high percentage of out-of-vocabulary words in the test set. The proposed approach highlights the importance of incorporating regional dialect information into ubiquitous natural language processing systems for languages with diverse phonological variations. The following work was a result of the "Bhashamul" challenge, which is dedicated to solving the problem of Bengali text with regional dialects to IPA transcription https://www.kaggle.com/competitions/regipa/. The training and inference notebooks are available through the competition link. | 翻訳日:2024-03-27 16:36:05 公開日:2024-03-26 |
# ニューラルクラスタリングに基づく視覚表現学習
Neural Clustering based Visual Representation Learning ( http://arxiv.org/abs/2403.17409v1 ) ライセンス: Link先を確認 | Guikun Chen, Xia Li, Yi Yang, Wenguan Wang, | (参考訳) 機械学習とデータ分析における最も古典的なアプローチの1つであるクラスタリングを再考することにより、特徴を測定することによる、マシンビジョンの基本的な側面について検討する。
ConvNets, ViTs, MLPsなどの既存の視覚特徴抽出器は、画像を長方形の領域として表現している。
しかし、そのようなグリッドスタイルのパラダイムはエンジニアリングの実践に基づいて構築されており、データ分散の明示的なモデリングを欠いている。
本研究では,特徴抽出をデータから代表者を選択するプロセスとみなし,その基盤となるデータ分布を自動的にキャプチャする,概念的にエレガントだが驚くほど高度な解釈可能なニューラルクラスタリングフレームワークである,クラスタリング(FEC)による特徴抽出を提案する。
画像が与えられた場合、FECは個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
このような反復的な動作機構は、複数のニューラルネットワーク層の形で実装され、最後の代表者は下流のタスクに使用できる。
人間の観察と検査が可能な層間のクラスタ割り当ては、FECの前方プロセスを完全に透明化し、有望なアドホック解釈性で権限を与える。
様々な視覚認識モデルおよびタスクに関する広範囲な実験は、FECの有効性、一般性、解釈可能性を検証する。
この作業が、現在のデファクトグリッドスタイルのパラダイムを再考することを期待しています。
We investigate a fundamental aspect of machine vision: the measurement of features, by revisiting clustering, one of the most classic approaches in machine learning and data analysis. Existing visual feature extractors, including ConvNets, ViTs, and MLPs, represent an image as rectangular regions. Though prevalent, such a grid-style paradigm is built upon engineering practice and lacks explicit modeling of data distribution. In this work, we propose feature extraction with clustering (FEC), a conceptually elegant yet surprisingly ad-hoc interpretable neural clustering framework, which views feature extraction as a process of selecting representatives from data and thus automatically captures the underlying data distribution. Given an image, FEC alternates between grouping pixels into individual clusters to abstract representatives and updating the deep features of pixels with current representatives. Such an iterative working mechanism is implemented in the form of several neural layers and the final representatives can be used for downstream tasks. The cluster assignments across layers, which can be viewed and inspected by humans, make the forward process of FEC fully transparent and empower it with promising ad-hoc interpretability. Extensive experiments on various visual recognition models and tasks verify the effectiveness, generality, and interpretability of FEC. We expect this work will provoke a rethink of the current de facto grid-style paradigm. | 翻訳日:2024-03-27 16:36:05 公開日:2024-03-26 |
# 置換不変ニューラルネットワークについて
On permutation-invariant neural networks ( http://arxiv.org/abs/2403.17410v1 ) ライセンス: Link先を確認 | Masanari Kimura, Ryotaro Shimizu, Yuki Hirakawa, Ryosuke Goto, Yuki Saito, | (参考訳) 従来の機械学習アルゴリズムは、入力データがベクトル中心のパラダイムに重点を置いてベクトルベースのフォーマットに従うという仮定の下で伝統的に設計されてきた。
しかし、セットベース入力に関わるタスクの需要が高まるにつれて、これらの課題に対処する研究コミュニティのパラダイムシフトが進んでいる。
近年、Deep SetsやTransformersといったニューラルネットワークアーキテクチャの出現は、セットベースのデータ処理において大きな進歩を見せている。
これらのアーキテクチャは、集合を入力として自然に適応するように特別に設計されており、集合構造のより効率的な表現と処理を可能にしている。
その結果、集合関数の近似を含む様々なタスクに対して、これらのアーキテクチャの能力を探索し活用するための研究が急増した。
この総合的な調査は、設定関数を近似するニューラルネットワークに関する様々な問題設定と進行中の研究の概観を提供することを目的としている。
これらのアプローチの複雑さを掘り下げて、関連する課題を解明することで、この調査は、読者にその分野を包括的に理解させることを目的としている。
この包括的視点を通じて、研究者たちは、セットベースのニューラルネットワークの潜在的な応用、固有の制限、そして将来の方向性について、貴重な洞察を得ることができることを願っている。
実際、この調査から2つの洞察を得た。
一 深集合及びその変種は、集約関数の差分により一般化することができる。
二 ディープセットの挙動は、アグリゲーション関数の選択に敏感である。
これらの観測結果から,置換不変ニューラルネットワークとしてよく知られたDeep Setsが準パラメータ平均の意味で一般化できることが示唆された。
Conventional machine learning algorithms have traditionally been designed under the assumption that input data follows a vector-based format, with an emphasis on vector-centric paradigms. However, as the demand for tasks involving set-based inputs has grown, there has been a paradigm shift in the research community towards addressing these challenges. In recent years, the emergence of neural network architectures such as Deep Sets and Transformers has presented a significant advancement in the treatment of set-based data. These architectures are specifically engineered to naturally accommodate sets as input, enabling more effective representation and processing of set structures. Consequently, there has been a surge of research endeavors dedicated to exploring and harnessing the capabilities of these architectures for various tasks involving the approximation of set functions. This comprehensive survey aims to provide an overview of the diverse problem settings and ongoing research efforts pertaining to neural networks that approximate set functions. By delving into the intricacies of these approaches and elucidating the associated challenges, the survey aims to equip readers with a comprehensive understanding of the field. Through this comprehensive perspective, we hope that researchers can gain valuable insights into the potential applications, inherent limitations, and future directions of set-based neural networks. Indeed, from this survey we gain two insights: i) Deep Sets and its variants can be generalized by differences in the aggregation function, and ii) the behavior of Deep Sets is sensitive to the choice of the aggregation function. From these observations, we show that Deep Sets, one of the well-known permutation-invariant neural networks, can be generalized in the sense of a quasi-arithmetic mean. | 翻訳日:2024-03-27 16:36:05 公開日:2024-03-26 |
# PCToolkit: 大規模言語モデルのための統一的なプラグアンドプレイプロンプト圧縮ツールキット
PCToolkit: A Unified Plug-and-Play Prompt Compression Toolkit of Large Language Models ( http://arxiv.org/abs/2403.17411v1 ) ライセンス: Link先を確認 | Jinyi Li, Yihuai Lan, Lei Wang, Hao Wang, | (参考訳) プロンプト圧縮は、重要な情報を保持しながら入力プロンプトを効率的に凝縮する革新的な方法である。
クイックスタートサービス,ユーザフレンドリなインターフェース,一般的なデータセットやメトリクスとの互換性を実現するため,PCToolkitのPrompt Compression Toolkit(PCToolkit)を提示する。
このツールキットはLarge Language Models (LLM) のプロンプトを圧縮するための統一的なプラグアンドプレイソリューションであり、最先端のプロンプト圧縮機、多様なデータセット、総合的なパフォーマンス評価のためのメトリクスを備えている。
PCToolkitはモジュラー設計で、ポータブルでユーザフレンドリーなインターフェースを通じて、新しいデータセットとメトリクスを簡単に統合できる。
本稿では,PCToolkitの主要なコンポーネントと機能について概説する。
我々は,PCToolkit内の圧縮機を,再構成,要約,数学的問題解決,質問応答,少数ショット学習,合成タスク,コード補完,ブール表現,複数選択質問,嘘認識など,さまざまな自然言語タスクで評価した。
Prompt compression is an innovative method for efficiently condensing input prompts while preserving essential information. To facilitate quick-start services, user-friendly interfaces, and compatibility with common datasets and metrics, we present the Prompt Compression Toolkit (PCToolkit). This toolkit is a unified plug-and-play solution for compressing prompts in Large Language Models (LLMs), featuring cutting-edge prompt compressors, diverse datasets, and metrics for comprehensive performance evaluation. PCToolkit boasts a modular design, allowing for easy integration of new datasets and metrics through portable and user-friendly interfaces. In this paper, we outline the key components and functionalities of PCToolkit. We conducted evaluations of the compressors within PCToolkit across various natural language tasks, including reconstruction, summarization, mathematical problem-solving, question answering, few-shot learning, synthetic tasks, code completion, boolean expressions, multiple choice questions, and lies recognition. | 翻訳日:2024-03-27 16:36:05 公開日:2024-03-26 |
# LM-Combiner:中国語文法誤り訂正のための文脈書き換えモデル
LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction ( http://arxiv.org/abs/2403.17413v1 ) ライセンス: Link先を確認 | Yixuan Wang, Baoxin Wang, Yijun Liu, Dayong Wu, Wanxiang Che, | (参考訳) 過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
投票に基づくモデルアンサンブルを用いた最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
しかしながら、これらの方法はいくつかのGECシステムの出力を必要としており、必然的にエラーリコールの削減につながる。
本稿では,GEC出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
具体的には、提案したK-fold Cross Inference法によって構築されたオーバー補正データセットに基づいてモデルをトレーニングし、オリジナルテキストとオーバー修正テキストを組み合わせることで、フィルタ文を直接生成することができる。
推論段階では、他のシステムの原文と出力結果を直接入力とし、LM-Combinerを通してフィルタ文を取得する。
FCGECデータセットを用いた実験により,提案手法は誤りの再現性を維持しつつ,元のシステム(+18.2精度)の過度な補正を効果的に緩和することを示した。
さらに, LM-Combiner は小さいパラメータと少ないトレーニングデータでも良好な書き換え性能を有しており, ブラックボックス GEC システムの過度な補正 (ChatGPT など) をコスト効率よく緩和できることがわかった。
Over-correction is a critical problem in Chinese grammatical error correction (CGEC) task. Recent work using model ensemble methods based on voting can effectively mitigate over-correction and improve the precision of the GEC system. However, these methods still require the output of several GEC systems and inevitably lead to reduced error recall. In this light, we propose the LM-Combiner, a rewriting model that can directly modify the over-correction of GEC system outputs without a model ensemble. Specifically, we train the model on an over-correction dataset constructed through the proposed K-fold cross inference method, which allows it to directly generate filtered sentences by combining the original and the over-corrected text. In the inference stage, we directly take the original sentences and the output results of other systems as input and then obtain the filtered sentences through LM-Combiner. Experiments on the FCGEC dataset show that our proposed method effectively alleviates the over-correction of the original system (+18.2 Precision) while ensuring the error recall remains unchanged. Besides, we find that LM-Combiner still has a good rewriting performance even with small parameters and few training data, and thus can cost-effectively mitigate the over-correction of black-box GEC systems (e.g., ChatGPT). | 翻訳日:2024-03-27 16:36:05 公開日:2024-03-26 |
# プライバシポリシの許可モデル:プライバシポリシの統一ビュー
The Privacy Policy Permission Model: A Unified View of Privacy Policies ( http://arxiv.org/abs/2403.17414v1 ) ライセンス: Link先を確認 | Maryam Majedi, Ken Barker, | (参考訳) 企業はプライバシポリシを使用して、データ収集のプラクティスをクライアントに伝える。
プライバシポリシ(英: privacy policy)とは、組織がどのようにクライアントのデータを収集し、利用し、開示し、保持するかを指定するステートメントのセットである。
しかしながら、ほとんどのプライバシポリシには、データプロバイダの情報の使用方法に関する明確で完全な説明が欠けている。
プライバシポリシ許可モデル(PPPM)と呼ばれるモデリング手法を提案する。プライバシポリシの統一的で理解しやすい表現を提供する。
この手法を用いて、プライバシーポリシーを図として捉えます。
この図は、プライバシーポリシーの不整合と不正確な点を強調します。
この方法論は、組織のプライバシポリシーを適切に明確に記述する上で、プライバシオフィサーを支援する。
Organizations use privacy policies to communicate their data collection practices to their clients. A privacy policy is a set of statements that specifies how an organization gathers, uses, discloses, and maintains a client's data. However, most privacy policies lack a clear, complete explanation of how data providers' information is used. We propose a modeling methodology, called the Privacy Policy Permission Model (PPPM), that provides a uniform, easy-to-understand representation of privacy policies, which can accurately and clearly show how data is used within an organization's practice. Using this methodology, a privacy policy is captured as a diagram. The diagram is capable of highlighting inconsistencies and inaccuracies in the privacy policy. The methodology supports privacy officers in properly and clearly articulating an organization's privacy policy. | 翻訳日:2024-03-27 16:36:05 公開日:2024-03-26 |
# AIの安全性:必要だが不十分で、おそらく問題がある
AI Safety: Necessary, but insufficient and possibly problematic ( http://arxiv.org/abs/2403.17419v1 ) ライセンス: Link先を確認 | Deepak P, | (参考訳) この記事では、AI安全性に関する最近の誇大広告について批判的に考察する。
私たちはまず、AIの安全性の誇大宣伝が政府や企業によって支配されていることを指摘し、社会改善に関するAI研究の他の方法と対比することから始めます。
AIの安全性」とは実際に何を意味するのかを考察し、AIの安全性のデジタルフットプリントが持つ支配的な概念を概説する。
AIの安全性は、透明性や社会的善に関連する他の関連概念とあいまいで不安な関係にあると仮定し、その目的が広い意味での社会的善である場合、それは不十分な概念であることを示す。
AIの安全性に関する議論は、おそらくそれほど望ましい方向ではなく、AIにおける規制の取り組みにすでに影響を与えている。
私たちはまた、AIの安全性が、悪用され有害なAIを安全のために提供することによって、構造的な害を助長するAIを正規化する方法に関する懸念も共有しています。
This article critically examines the recent hype around AI safety. We first start with noting the nature of the AI safety hype as being dominated by governments and corporations, and contrast it with other avenues within AI research on advancing social good. We consider what 'AI safety' actually means, and outline the dominant concepts that the digital footprint of AI safety aligns with. We posit that AI safety has a nuanced and uneasy relationship with transparency and other allied notions associated with societal good, indicating that it is an insufficient notion if the goal is that of societal good in a broad sense. We note that the AI safety debate has already influenced some regulatory efforts in AI, perhaps in not so desirable directions. We also share our concerns on how AI safety may normalize AI that advances structural harm through providing exploitative and harmful AI with a veneer of safety. | 翻訳日:2024-03-27 16:26:20 公開日:2024-03-26 |
# 事前知識のない混合音からの音源の可視化学習
Learning to Visually Localize Sound Sources from Mixtures without Prior Source Knowledge ( http://arxiv.org/abs/2403.17420v1 ) ライセンス: Link先を確認 | Dongjin Kim, Sung Jin Um, Sangmin Lee, Jung Uk Kim, | (参考訳) マルチサウンド音源定位タスクの目標は、混合音からの音源を個別にローカライズすることである。
近年,複数音源のローカライズ手法では性能が向上しているが,分離対象数に関する事前情報に依存しているため,課題に直面している。
本稿では, この制限を克服するために, 音源数の事前知識を必要とせず, 局所化を行うことのできる, マルチサウンド音源定位法を提案する。
この目的を達成するために,反復的オブジェクト識別(IOI)モジュールを提案する。
音声生成対象の領域を見つけた後、IOIモジュールを誘導するオブジェクト類似性クラスタリング(OSC)ロスを考案し、同一オブジェクトの領域を効果的に結合すると同時に、異なるオブジェクトとバックグラウンドを区別する。
これにより、事前の知識を必要とせずに、音像の正確な位置決めを行うことができる。
MUSIC と VGGSound のベンチマークによる大規模な実験結果から,提案手法の既存手法よりも優れた性能が得られた。
私たちのコードは、https://github.com/VisualAIKHU/NoPrior_MultiSSLで利用可能です。
The goal of the multi-sound source localization task is to localize sound sources from the mixture individually. While recent multi-sound source localization methods have shown improved performance, they face challenges due to their reliance on prior information about the number of objects to be separated. In this paper, to overcome this limitation, we present a novel multi-sound source localization method that can perform localization without prior knowledge of the number of sound sources. To achieve this goal, we propose an iterative object identification (IOI) module, which can recognize sound-making objects in an iterative manner. After finding the regions of sound-making objects, we devise object similarity-aware clustering (OSC) loss to guide the IOI module to effectively combine regions of the same object but also distinguish between different objects and backgrounds. It enables our method to perform accurate localization of sound-making objects without any prior knowledge. Extensive experimental results on the MUSIC and VGGSound benchmarks show the significant performance improvements of the proposed method over the existing methods for both single and multi-source. Our code is available at: https://github.com/VisualAIKHU/NoPrior_MultiSSL | 翻訳日:2024-03-27 16:26:20 公開日:2024-03-26 |
# MA4DIV:検索結果の多様化のためのマルチエージェント強化学習
MA4DIV: Multi-Agent Reinforcement Learning for Search Result Diversification ( http://arxiv.org/abs/2403.17421v1 ) ライセンス: Link先を確認 | Yiqun Chen, Jiaxin Mao, Yi Zhang, Dehong MA, Long Xia, Jun Fan, Daiting Shi, Zhicong Cheng, Dawei Yin, | (参考訳) 検索結果の多様化(SRD)の目的は、選択した文書が可能な限り多くのサブトピックをカバーすることである。
既存の手法は主に「欲求選択(greedy selection)」というパラダイムを用いており、すなわち、一度に最も多様性の高い文書を選択する。
これらのアプローチは非効率であり、最適以下の状態に容易に閉じ込められる傾向にある。
さらに、例えば$\alpha$-NDCGのように、多様性の計量を概ね最適化することを目的としている方法もあるが、結果は依然として準最適である。
これらの課題に対処するために,MARL (Multi-Agent reinforcement learning) を導入した。
このアプローチでは、各文書はエージェントであり、検索結果の多様化は複数のエージェント間の協調的なタスクとしてモデル化される。
このアプローチにより、$\alpha$-NDCGなどの多様性メトリクスを直接最適化し、高いトレーニング効率を達成することができる。
公開TRECデータセットの予備実験を行い,MA4DIVの有効性と可能性を実証した。
パブリックTRECデータセットのクエリ数が限られていることを考慮し、業界ソースから大規模なデータセットを構築し、MA4DIVが既存の産業規模データセットのベースラインよりも有効性と効率の両方を著しく向上させることを示す。
The objective of search result diversification (SRD) is to ensure that selected documents cover as many different subtopics as possible. Existing methods primarily utilize a paradigm of "greedy selection", i.e., selecting one document with the highest diversity score at a time. These approaches tend to be inefficient and are easily trapped in a suboptimal state. In addition, some other methods aim to approximately optimize the diversity metric, such as $\alpha$-NDCG, but the results still remain suboptimal. To address these challenges, we introduce Multi-Agent reinforcement learning (MARL) for search result DIVersity, which called MA4DIV. In this approach, each document is an agent and the search result diversification is modeled as a cooperative task among multiple agents. This approach allows for directly optimizing the diversity metrics, such as $\alpha$-NDCG, while achieving high training efficiency. We conducted preliminary experiments on public TREC datasets to demonstrate the effectiveness and potential of MA4DIV. Considering the limited number of queries in public TREC datasets, we construct a large-scale dataset from industry sources and show that MA4DIV achieves substantial improvements in both effectiveness and efficiency than existing baselines on a industrial scale dataset. | 翻訳日:2024-03-27 16:26:20 公開日:2024-03-26 |
# InterHandGen:カスケード逆拡散による双方向インタラクション生成
InterHandGen: Two-Hand Interaction Generation via Cascaded Reverse Diffusion ( http://arxiv.org/abs/2403.17422v1 ) ライセンス: Link先を確認 | Jihyun Lee, Shunsuke Saito, Giljoo Nam, Minhyuk Sung, Tae-Kyun Kim, | (参考訳) 両手インタラクションに先立って生成を学習する新しいフレームワークであるInterHandGenを提案する。
我々のモデルからサンプリングすると、オブジェクトとの密接な相互作用において、可塑性で多様な2手形状が得られる。
私たちの前者は、不適切な設定であいまいさを減らすため、任意の最適化や学習方法に組み込むことができます。
我々のキーとなる観察は、複数のインスタンスの結合分布を直接モデル化することは、その組み合わせの性質により、学習の複雑さを増すことである。
そこで本稿では, 連立分布のモデル化を非条件分布と条件付き単一インスタンス分布のモデル化に分解する。
特に,条件付きドロップアウトにより,片手分布を無条件かつ条件付きで学習する拡散モデルを導入する。
サンプリングにアンチ・ペネティフィケーションとクラシファイアフリー・ガイダンスを組み合わせることで、プラプシブル・ジェネレーションを実現する。
さらに,両手合成の厳密な評価プロトコルを確立し,本手法は妥当性と多様性の観点からベースライン生成モデルを大幅に上回っている。
また,この拡散により,単眼画像からの両手再構成の性能が向上し,新しい最先端の精度が達成できることを示す。
We present InterHandGen, a novel framework that learns the generative prior of two-hand interaction. Sampling from our model yields plausible and diverse two-hand shapes in close interaction with or without an object. Our prior can be incorporated into any optimization or learning methods to reduce ambiguity in an ill-posed setup. Our key observation is that directly modeling the joint distribution of multiple instances imposes high learning complexity due to its combinatorial nature. Thus, we propose to decompose the modeling of joint distribution into the modeling of factored unconditional and conditional single instance distribution. In particular, we introduce a diffusion model that learns the single-hand distribution unconditional and conditional to another hand via conditioning dropout. For sampling, we combine anti-penetration and classifier-free guidance to enable plausible generation. Furthermore, we establish the rigorous evaluation protocol of two-hand synthesis, where our method significantly outperforms baseline generative models in terms of plausibility and diversity. We also demonstrate that our diffusion prior can boost the performance of two-hand reconstruction from monocular in-the-wild images, achieving new state-of-the-art accuracy. | 翻訳日:2024-03-27 16:26:20 公開日:2024-03-26 |
# 画像強調機能を備えたテスト時間適応:不確実性を考慮したロジットスイッチングによる精度向上
Test-time Adaptation Meets Image Enhancement: Improving Accuracy via Uncertainty-aware Logit Switching ( http://arxiv.org/abs/2403.17423v1 ) ライセンス: Link先を確認 | Shohei Enomoto, Naoya Hasegawa, Kazuki Adachi, Taku Sasaki, Shin'ya Yamaguchi, Satoshi Suzuki, Takeharu Eda, | (参考訳) ディープニューラルネットワークは、様々なコンピュータビジョンアプリケーションで顕著な成功を収めている。
しかし、データ分散がトレーニングとテストの間でシフトする場合、精度を低下させる問題がある。
この問題の解法として、テスト時間適応~(TTA)は実用性からよく研究されている。
TTA法は,テスト時にモデルを更新することで分布シフト時の精度を向上させるが,不確実性予測を用いることで精度を劣化させることが知られている。
入力画像は分布シフトの根本であるので,TTA手法に入力画像を強化する新たな視点を取り入れ,予測の不確実性を低減させる。
入力画像の強調は予測の不確かさを低減し、TTA法の精度を高めるという仮説を立てる。
本仮説に基づいて,テスト時間エンハンサーと分類器適応~(TECA)という新しい手法を提案する。
TECAでは、入力画像を認識しやすいものに変換する画像強調モデルと組み合わせ、これらのモデルを既存のTTA法で更新する。
さらに,拡張画像からの予測は,元の画像からの予測よりも必ずしも不確実性が低いとは限らないことがわかった。
そこで本稿では,これらの予測の不確かさを比較検討し,より低い値を出力するロジットスイッチングを提案する。
実験では, TECAを様々なTTA手法で評価し, TECAは過パラメータやパラメータのオーバーヘッドが少ないにもかかわらず, 予測の不確かさを低減し, TTA手法の精度を向上することを示した。
Deep neural networks have achieved remarkable success in a variety of computer vision applications. However, there is a problem of degrading accuracy when the data distribution shifts between training and testing. As a solution of this problem, Test-time Adaptation~(TTA) has been well studied because of its practicality. Although TTA methods increase accuracy under distribution shift by updating the model at test time, using high-uncertainty predictions is known to degrade accuracy. Since the input image is the root of the distribution shift, we incorporate a new perspective on enhancing the input image into TTA methods to reduce the prediction's uncertainty. We hypothesize that enhancing the input image reduces prediction's uncertainty and increase the accuracy of TTA methods. On the basis of our hypothesis, we propose a novel method: Test-time Enhancer and Classifier Adaptation~(TECA). In TECA, the classification model is combined with the image enhancement model that transforms input images into recognition-friendly ones, and these models are updated by existing TTA methods. Furthermore, we found that the prediction from the enhanced image does not always have lower uncertainty than the prediction from the original image. Thus, we propose logit switching, which compares the uncertainty measure of these predictions and outputs the lower one. In our experiments, we evaluate TECA with various TTA methods and show that TECA reduces prediction's uncertainty and increases accuracy of TTA methods despite having no hyperparameters and little parameter overhead. | 翻訳日:2024-03-27 16:26:20 公開日:2024-03-26 |
# Masked Multi-Domain Network:単一モデルによるマルチタイプ・マルチシナリオ変換率予測
Masked Multi-Domain Network: Multi-Type and Multi-Scenario Conversion Rate Prediction with a Single Model ( http://arxiv.org/abs/2403.17425v1 ) ライセンス: Link先を確認 | Wentao Ouyang, Xiuwu Zhang, Chaofeng Guo, Shukui Ren, Yupei Sui, Kun Zhang, Jinmei Luo, Yunfeng Chen, Dongbo Xu, Xiangzheng Liu, Yanlong Du, | (参考訳) 現実世界の広告システムでは、変換は性質が異なり、異なる表示シナリオで広告を表示することができ、どちらも実際の変換速度(CVR)に大きな影響を与える。
これにより、マルチタイプおよびマルチシナリオCVR予測問題が発生する。
この問題の望ましいモデルは以下の要件を満たすべきである。
1) 精度: モデルは, 任意の表示シナリオにおける変換タイプに対して, きめ細かい精度を達成すべきである。
2) スケーラビリティ: モデルパラメータのサイズは手頃な価格でなければならない。
3) 利便性: モデルはデータパーティショニング、サブセット処理、分離ストレージに多大な労力を必要としてはならない。
既存のアプローチはこれらの要件を同時に満たすことはできない。
例えば、それぞれの(変換タイプ、表示シナリオ)ペアに対して別々のモデルを構築することは、スケーラブルでも便利でもない。
変換タイプと2つの機能を含む表示シナリオを備えた、すべてのデータでトレーニングされた統一モデルの構築は、十分に正確ではない。
本稿では,この問題を解決するためにMasked Multi-domain Network (MMN)を提案する。
この精度を実現するために,ドメイン固有パラメータをモデル化し,各ミニバッチ内の損失スケール不均衡問題を考慮した動的重み付き損失を提案する。
拡張性要件を実現するために,モデルパラメータを製品空間から和空間へ還元するパラメータ共有と構成戦略を提案する。
この利便性を実現するために,全てのドメインから混合データを入力として得る自動マスキング方式を提案する。
データパーティショニング、個別処理、分離ストレージによるオーバーヘッドを回避する。
オフライン・オンライン両方の実験結果から,マルチタイプ・マルチシナリオCVR予測におけるMMNの優位性を検証した。
MMNは現在、UC ToutiaoにおけるリアルタイムCVR予測のサービスモデルとなっている。
In real-world advertising systems, conversions have different types in nature and ads can be shown in different display scenarios, both of which highly impact the actual conversion rate (CVR). This results in the multi-type and multi-scenario CVR prediction problem. A desired model for this problem should satisfy the following requirements: 1) Accuracy: the model should achieve fine-grained accuracy with respect to any conversion type in any display scenario. 2) Scalability: the model parameter size should be affordable. 3) Convenience: the model should not require a large amount of effort in data partitioning, subset processing and separate storage. Existing approaches cannot simultaneously satisfy these requirements. For example, building a separate model for each (conversion type, display scenario) pair is neither scalable nor convenient. Building a unified model trained on all the data with conversion type and display scenario included as two features is not accurate enough. In this paper, we propose the Masked Multi-domain Network (MMN) to solve this problem. To achieve the accuracy requirement, we model domain-specific parameters and propose a dynamically weighted loss to account for the loss scale imbalance issue within each mini-batch. To achieve the scalability requirement, we propose a parameter sharing and composition strategy to reduce model parameters from a product space to a sum space. To achieve the convenience requirement, we propose an auto-masking strategy which can take mixed data from all the domains as input. It avoids the overhead caused by data partitioning, individual processing and separate storage. Both offline and online experimental results validate the superiority of MMN for multi-type and multi-scenario CVR prediction. MMN is now the serving model for real-time CVR prediction in UC Toutiao. | 翻訳日:2024-03-27 16:26:20 公開日:2024-03-26 |
# 食餌用フットプリントの改良のための知識を活用した勧告
Knowledge-Powered Recommendation for an Improved Diet Water Footprint ( http://arxiv.org/abs/2403.17426v1 ) ライセンス: Link先を確認 | Saurav Joshi, Filip Ilievski, Jay Pujara, | (参考訳) WWFによると、11億人が水へのアクセスを欠いており、少なくとも1か月は水不足を経験している。
2025年までに世界の人口の3分の2が水不足に直面している可能性がある。
これは、特に食品のような水集約的な分野において、水の使用を効率的に管理する緊急性を強調している。
本稿では,サステナブルで健全な食品消費を促進することを目的とした,知識グラフを活用したレコメンデーションエンジンを提案する。
このエンジンは、栄養価を向上し、環境、特に水足場を減少させるユーザーレシピの代替品を推奨している。
システムアーキテクチャには、ソース識別、情報抽出、スキーマアライメント、知識グラフ構築、ユーザインターフェース開発が含まれる。
この研究は、健康的な食事習慣を促進し、水保護活動に貢献するための有望なツールを提供する。
According to WWF, 1.1 billion people lack access to water, and 2.7 billion experience water scarcity at least one month a year. By 2025, two-thirds of the world's population may be facing water shortages. This highlights the urgency of managing water usage efficiently, especially in water-intensive sectors like food. This paper proposes a recommendation engine, powered by knowledge graphs, aiming to facilitate sustainable and healthy food consumption. The engine recommends ingredient substitutes in user recipes that improve nutritional value and reduce environmental impact, particularly water footprint. The system architecture includes source identification, information extraction, schema alignment, knowledge graph construction, and user interface development. The research offers a promising tool for promoting healthier eating habits and contributing to water conservation efforts. | 翻訳日:2024-03-27 16:26:20 公開日:2024-03-26 |
# 症状記述と要約による精神科面接促進のための大規模言語モデルの調整
Aligning Large Language Models for Enhancing Psychiatric Interviews through Symptom Delineation and Summarization ( http://arxiv.org/abs/2403.17428v1 ) ライセンス: Link先を確認 | Jae-hee So, Joonhwan Chang, Eunji Kim, Junho Na, JiYeon Choi, Jy-yong Sohn, Byung-Hoon Kim, Sang Hui Chu, | (参考訳) 近年のLarge Language Models (LLM) の進歩により,様々な領域での利用が加速している。
精神科面接がプロの面接者と面接者の目標志向と構造化された対話であるという事実を考えると、LLMが実質的な価値を貢献できる最も未調査領域の1つである。
本稿では、北朝鮮の亡命者からのカウンセリングデータをトラウマ的事象や精神健康問題で分析し、LLMを用いた精神科面接の強化について検討する。
具体的には,(1)精神医学的症状を示唆する会話の一部を記述し,その症状を命名し,(2)面接台詞に基づいてストレスや症状を要約することができるかを検討する。
ここでは, LLMのトレーニングと評価のために, 精神保健の専門家によって, 転写データがラベル付けされた。
実験結果から, LLM は症状記述タスクと要約タスクの両方において高い性能が得られることが示された。
本研究は, LLMを精神医学的面接に適用する新たな分野に寄与し, 精神保健実践者を支援する上での有効性を実証する。
Recent advancements in Large Language Models (LLMs) have accelerated their usage in various domains. Given the fact that psychiatric interviews are goal-oriented and structured dialogues between the professional interviewer and the interviewee, it is one of the most underexplored areas where LLMs can contribute substantial value. Here, we explore the use of LLMs for enhancing psychiatric interviews, by analyzing counseling data from North Korean defectors with traumatic events and mental health issues. Specifically, we investigate whether LLMs can (1) delineate the part of the conversation that suggests psychiatric symptoms and name the symptoms, and (2) summarize stressors and symptoms, based on the interview dialogue transcript. Here, the transcript data was labeled by mental health experts for training and evaluation of LLMs. Our experimental results show that appropriately prompted LLMs can achieve high performance on both the symptom delineation task and the summarization task. This research contributes to the nascent field of applying LLMs to psychiatric interview and demonstrates their potential effectiveness in aiding mental health practitioners. | 翻訳日:2024-03-27 16:26:20 公開日:2024-03-26 |
# アーサース・ケリー不等式に対する初期不確かさの伝播
Propagation of initial uncertainties to Arthurs-Kelly inequality ( http://arxiv.org/abs/2403.17429v1 ) ライセンス: Link先を確認 | Mi-Ra Hwang, Eylee Jung, DaeKil Park, | (参考訳) 相互作用ハミルトニアンが$\widehat{H}_I = \kappa \left(\hat{x}_3 \hat{p}_1 + \hat{p}_3 \hat{p_2} \right)$ for large $\kappa$と初期量子状態が$\Psi_{in} (x_1, x_2, x_3) = \prod_{j=1}^3 \phi_j (x_j)$とすると、相補変数$x_3$と$p_3$の合同測定は、不確実性$\Delta_{\hat{x}_1} (t = 1 / \kappa) \Delta \hat{x} (t = 1 / \kappa) \Delta \hat{x} (t = 1 / \kappa) \hat{x} (x_1, x_3)=1\Psi_{in} (x_1, x_2, x_3) = \prod_{j=1}^3 \phi_j (x_j)$である。
これはよく知られたアーサース・ケラーの不等式 $\Delta_{\hat{x}_1} (t = 1 / \kappa) \Delta_{ \hat{x}_2} (t = 1 / \kappa) \geq 1$ の一般化版で、すべての $\phi_j (x_j)$ が最小の不確実ガウス状態であるときに生じる。
初期プローブ状態が絡み合っている場合、一般化されたアーサース・ケリーの不等式が破れることが示される。
特例を導入することで、違反を明示的に示す。
When the interaction Hamiltonian is $\widehat{H}_I = \kappa \left(\hat{x}_3 \hat{p}_1 + \hat{p}_3 \hat{p_2} \right)$ for large $\kappa$ and the initial quantum state is $\Psi_{in} (x_1, x_2, x_3) = \prod_{j=1}^3 \phi_j (x_j)$, the joint measurement of complementary variables $x_3$ and $p_3$ at $t = 1 / \kappa$ induces the uncertainty $\Delta_{\hat{x}_1} (t = 1 / \kappa) \Delta_{ \hat{x}_2} (t = 1 / \kappa) \geq \frac{1}{2} (\Delta_{\hat{x}_1} \Delta_{\hat{p}_1} + \Delta_{\hat{x}_2} \Delta_{\hat{p}_2} ) + \Delta_{\hat{x}_3} \Delta_{\hat{p}_3}$ , where the standard deviations in the right hand are the deviations at $t=0$. This is a generalized version of the well-known Arthurs-Keller inequality $\Delta_{\hat{x}_1} (t = 1 / \kappa) \Delta_{ \hat{x}_2} (t = 1 / \kappa) \geq 1$ arising when all $\phi_j (x_j)$ are the minimal uncertainty Gaussian states. If the initial probe state is entangled, it is shown that the generalized Arthurs-Kelly inequality can be violated. We show the violation explicitly by introducing a special example. | 翻訳日:2024-03-27 16:26:20 公開日:2024-03-26 |
# 大規模言語モデルのためのロバストでスケーラブルなモデル編集
Robust and Scalable Model Editing for Large Language Models ( http://arxiv.org/abs/2403.17431v1 ) ライセンス: Link先を確認 | Yingfa Chen, Zhengyan Zhang, Xu Han, Chaojun Xiao, Zhiyuan Liu, Chen Chen, Kuai Li, Tao Yang, Maosong Sun, | (参考訳) 大規模言語モデル(LLM)は、パラメトリック知識(モデルの重みに符号化された知識)または文脈知識(文脈に提示された知識)を用いて予測を行うことができる。
多くのシナリオにおいて、LLMは、パラメトリック知識と矛盾する場合に文脈知識を優先し、文脈が無関係である場合にはパラメトリック知識を使用することにフォールバックする。
これにより、リトレーニングではなく、コンテキスト内編集によってモデルの知識を更新し、修正することができる。
これまでの研究では、LLMは文脈的知識を無視する傾向があり、無関係な文脈で提示された場合、パラメトリックな知識に確実にフォールバックしないことが示されている。
本研究では、適切なプロンプト法により、命令を微調整したLLMは文脈知識によって高度に制御可能であり、無関係な文脈に対して堅牢であることを示す。
この機能を利用することで、LEM編集のスケーラビリティと堅牢性を向上させるために、EREN(Reading Notesによる編集モデル)を提案する。
モデルエディタの堅牢性をよりよく評価するために、既存のデータセットよりも難しい無関係な質問を含む、新しいデータセットを収集します。
実験の結果,本手法は最先端の手法よりも大きなマージンで優れていることがわかった。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する(逆もまた)。
ソースコードはhttps://github.com/thunlp/ERENで確認できる。
Large language models (LLMs) can make predictions using parametric knowledge--knowledge encoded in the model weights--or contextual knowledge--knowledge presented in the context. In many scenarios, a desirable behavior is that LLMs give precedence to contextual knowledge when it conflicts with the parametric knowledge, and fall back to using their parametric knowledge when the context is irrelevant. This enables updating and correcting the model's knowledge by in-context editing instead of retraining. Previous works have shown that LLMs are inclined to ignore contextual knowledge and fail to reliably fall back to parametric knowledge when presented with irrelevant context. In this work, we discover that, with proper prompting methods, instruction-finetuned LLMs can be highly controllable by contextual knowledge and robust to irrelevant context. Utilizing this feature, we propose EREN (Edit models by REading Notes) to improve the scalability and robustness of LLM editing. To better evaluate the robustness of model editors, we collect a new dataset, that contains irrelevant questions that are more challenging than the ones in existing datasets. Empirical results show that our method outperforms current state-of-the-art methods by a large margin. Unlike existing techniques, it can integrate knowledge from multiple edits, and correctly respond to syntactically similar but semantically unrelated inputs (and vice versa). The source code can be found at https://github.com/thunlp/EREN. | 翻訳日:2024-03-27 16:26:20 公開日:2024-03-26 |
# マンバシーケンスモデルと階層的アップサンプリングネットワークの統合による多発性硬化症レジオンの正確なセマンティックセマンティックセグメンテーション
Integrating Mamba Sequence Model and Hierarchical Upsampling Network for Accurate Semantic Segmentation of Multiple Sclerosis Legion ( http://arxiv.org/abs/2403.17432v1 ) ライセンス: Link先を確認 | Kazi Shahriar Sanjid, Md. Tanzim Hossain, Md. Shakib Shahariar Junayed, Dr. Mohammad Monir Uddin, | (参考訳) 医療画像セグメント化における畳み込みニューラルネットワークと状態空間モデルからのコンポーネントの統合は、精度と効率を高めるための魅力的なアプローチである。
我々は,堅牢で効率的なセグメンテーションタスクに適した新しいアーキテクチャであるMamba HUNetを紹介する。
Mamba UNetの強みとHUNet(Hierarchical Upsampling Network)の軽量バージョンを活用して、Mamba HUNetは畳み込みニューラルネットワークの局所的特徴抽出能力と、状態空間モデルによる長距離依存性モデリング機能を組み合わせた。
私たちはまず、HUNetを軽量バージョンに変換し、パフォーマンスの同等性を保ち、この軽量版HUNetをMamba HUNetに統合し、その効率をさらに向上した。
アーキテクチャは、入力されたグレースケール画像をパッチに分割し、Vision TransformersやMambaモデルに似た処理効率の1Dシーケンスに変換する。
Visual State Spaceブロックとパッチマージレイヤを通じて、空間情報を保存しながら階層的特徴を抽出する。
特に多発性硬化症病変のセグメンテーションでは,Mamba HUNetが様々なセグメンテーションタスクで有効であることが示されている。
モデルの堅牢性と柔軟性は、複雑な解剖学的構造を扱う可能性を示している。
これらの結果から,マンバHUNetは医用画像のセグメンテーションを推し進める上で有望な解決策であり,臨床的意思決定プロセスの改善に寄与すると考えられる。
Integrating components from convolutional neural networks and state space models in medical image segmentation presents a compelling approach to enhance accuracy and efficiency. We introduce Mamba HUNet, a novel architecture tailored for robust and efficient segmentation tasks. Leveraging strengths from Mamba UNet and the lighter version of Hierarchical Upsampling Network (HUNet), Mamba HUNet combines convolutional neural networks local feature extraction power with state space models long range dependency modeling capabilities. We first converted HUNet into a lighter version, maintaining performance parity and then integrated this lighter HUNet into Mamba HUNet, further enhancing its efficiency. The architecture partitions input grayscale images into patches, transforming them into 1D sequences for processing efficiency akin to Vision Transformers and Mamba models. Through Visual State Space blocks and patch merging layers, hierarchical features are extracted while preserving spatial information. Experimental results on publicly available Magnetic Resonance Imaging scans, notably in Multiple Sclerosis lesion segmentation, demonstrate Mamba HUNet's effectiveness across diverse segmentation tasks. The model's robustness and flexibility underscore its potential in handling complex anatomical structures. These findings establish Mamba HUNet as a promising solution in advancing medical image segmentation, with implications for improving clinical decision making processes. | 翻訳日:2024-03-27 16:26:20 公開日:2024-03-26 |
# ALICE実験における不完全データからの機械学習による粒子識別
Particle identification with machine learning from incomplete data in the ALICE experiment ( http://arxiv.org/abs/2403.17436v1 ) ライセンス: Link先を確認 | Maja Karwowska, Łukasz Graczykowski, Kamil Deja, Miłosz Kasak, Małgorzata Janik, | (参考訳) LHCでのALICE実験は、超相対論的重イオン衝突で形成される強く相互作用する物質の特性を測定する。
このような研究には正確な粒子識別(PID)が必要である。
ALICEは、約100MeV/cから20GeV/cまでの運動量を持つ粒子の複数の検出器を介してPID情報を提供する。
伝統的に、粒子は長方形の切断で選択される。
機械学習(ML)メソッドでは、パフォーマンスが大幅に向上する。
私たちのソリューションでは、バイナリ分類器として複数のニューラルネットワーク(NN)を使用します。
さらに,不完全サンプルを用いたデータトレーニングのために,特徴セット埋め込みと注意を付加した粒子分類器を拡張した。
また、ALICE解析ソフトウェアとMLプロジェクトの統合について述べるとともに、シミュレーションデータと実実験データの間で知識を伝達するために必要なML技術であるドメイン適応について論じる。
The ALICE experiment at the LHC measures properties of the strongly interacting matter formed in ultrarelativistic heavy-ion collisions. Such studies require accurate particle identification (PID). ALICE provides PID information via several detectors for particles with momentum from about 100 MeV/c up to 20 GeV/c. Traditionally, particles are selected with rectangular cuts. Acmuch better performance can be achieved with machine learning (ML) methods. Our solution uses multiple neural networks (NN) serving as binary classifiers. Moreover, we extended our particle classifier with Feature Set Embedding and attention in order to train on data with incomplete samples. We also present the integration of the ML project with the ALICE analysis software, and we discuss domain adaptation, the ML technique needed to transfer the knowledge between simulated and real experimental data. | 翻訳日:2024-03-27 16:26:20 公開日:2024-03-26 |
# GitHubにおけるChatGPT関連プロジェクトに関する実証的研究
An Empirical Study of ChatGPT-related projects on GitHub ( http://arxiv.org/abs/2403.17437v1 ) ライセンス: Link先を確認 | Zheng Lin, Neng Zhang, | (参考訳) ChatGPTは自然言語処理とコード解析に強力な能力を持っているため、ローンチ以来広く注目を集めている。
開発者は世界中の最大のオープンソースプラットフォーム(GitHub)にホストされているソフトウェアプロジェクトを通じて、その強力な機能をさまざまなドメインに適用した。
同時に、これらのプロジェクトは広範な議論を巻き起こした。
これらのプロジェクトの研究内容を理解し、議論されている潜在的な要件を理解するために、GitHubプラットフォームからChatGPT関連プロジェクトを収集し、LDAトピックモデルを使用して議論トピックを特定しました。
具体的には、ChatGPT実装とトレーニング、ChatGPTアプリケーション、ChatGPT改善と拡張という3つの主要なカテゴリに分類して、200のプロジェクトを選択しました。
その後,課題テキストから10のトピックを識別するためにLDAのトピックモデルを用い,3つの主要なプロジェクトカテゴリで発見されたトピックの分布と進化の傾向を比較した。
本研究は, 主要な3つのプロジェクトカテゴリにおいて, 1ヶ月で成長するプロジェクトの数とChatGPTの開発が密接に関連していることを示す。
2)3つの主要なプロジェクトカテゴリにおいて,各トピックの人気には大きな違いがある。
3)3つの主要プロジェクトカテゴリにおける各トピックの絶対的影響の月次変化は多様であり,そのカテゴリが所有するプロジェクトの数の変化と密接に関連していることが多い。
(4) 時間が経つにつれて,各トピックの相対的な影響は,3つの主要なプロジェクトカテゴリにおいて異なる展開傾向を示す。
これらの知見に基づき、開発者やユーザへの影響について論じる。
As ChatGPT possesses powerful capabilities in natural language processing and code analysis, it has received widespread attention since its launch. Developers have applied its powerful capabilities to various domains through software projects which are hosted on the largest open-source platform (GitHub) worldwide. Simultaneously, these projects have triggered extensive discussions. In order to comprehend the research content of these projects and understand the potential requirements discussed, we collected ChatGPT-related projects from the GitHub platform and utilized the LDA topic model to identify the discussion topics. Specifically, we selected 200 projects, categorizing them into three primary categories through analyzing their descriptions: ChatGPT implementation & training, ChatGPT application, ChatGPT improvement & extension. Subsequently, we employed the LDA topic model to identify 10 topics from issue texts, and compared the distribution and evolution trend of the discovered topics within the three primary project categories. Our observations include (1) The number of projects growing in a single month for the three primary project categories are closely associated with the development of ChatGPT. (2) There exist significant variations in the popularity of each topic for the three primary project categories. (3) The monthly changes in the absolute impact of each topic for the three primary project categories are diverse, which is often closely associated with the variation in the number of projects owned by that category. (4) With the passage of time, the relative impact of each topic exhibits different development trends in the three primary project categories. Based on these findings, we discuss implications for developers and users. | 翻訳日:2024-03-27 16:26:20 公開日:2024-03-26 |
# マルチビュー特徴抽出のための量子加速クロスレグレッションアルゴリズム
Quantum accelerated cross regression algorithm for multiview feature extraction ( http://arxiv.org/abs/2403.17444v1 ) ライセンス: Link先を確認 | Hai-Ling Liu, Ya-Qian Zhao, Ren-Gang Li, Xin Zhang, | (参考訳) マルチビュー特徴抽出(MvFE)は、機械学習、画像処理、その他の分野に広く応用されている。
大規模高次元データを扱う場合、MvFEにより古典コンピュータの性能は深刻な問題に直面し、高価な行列計算を行う。
この課題に対処するために、MvFEのための量子加速クロスレグレッションアルゴリズムを提案する。
1) MvFE の分野における量子コンピューティングのギャップを埋める MvFE の量子バージョンアルゴリズムを提案し、(2) 量子アルゴリズムは対象データ行列のブロックエンコーディングを構築するように設計され、ブロックエンコーディングフレームワークに基づく最適なハミルトンシミュレーション技術を使用して、対象データ行列の量子シミュレーションを効率的に実現することができる。
提案手法は,アルゴリズムのシミュレーション誤差への依存を低減し,アルゴリズム性能を向上させる。(3)古典的アルゴリズムと比較して,提案アルゴリズムは,データ点数,データ点の次元,ビューデータ数において多項式加速度を有する。
Multi-view Feature Extraction (MvFE) has wide applications in machine learning, image processing and other fields. When dealing with massive high-dimensional data, the performance of classical computer faces severe challenges due to MvFE involves expensive matrix calculation. To address this challenge, a quantum-accelerated cross-regression algorithm for MvFE is proposed. The main contributions are as follows:(1) a quantum version algorithm for MvFE is proposed for the first time, filling the gap of quantum computing in the field of MvFE;(2) a quantum algorithm is designed to construct the block-encoding of the target data matrix, so that the optimal Hamiltonian simulation technology based on the block-encoding framework can be used to efficiently realize the quantum simulation of the target data matrix. This approach reduces the dependence of the algorithm's on simulation errors to enhance algorithm performance;(3) compared with the classical counterpart algorithm, the proposed quantum algorithm has a polynomial acceleration in the number of data points, the dimension of data points and the number of view data. | 翻訳日:2024-03-27 16:26:20 公開日:2024-03-26 |
# MLPへの指数平滑化:単純だが効果的なシーケンスモデル
Incorporating Exponential Smoothing into MLP: A Simple but Effective Sequence Model ( http://arxiv.org/abs/2403.17445v1 ) ライセンス: Link先を確認 | Jiqun Chu, Zuoquan Lin, | (参考訳) シーケンシャルデータにおける長距離依存関係のモデリングは、シーケンシャルラーニングの重要なステップである。
最近開発されたStructured State Space (S4) は、長距離シーケンスをモデル化する上で大きな効果を示した。
しかし、S4の成功が複雑なパラメータ化とHiPPOの初期化によるものなのか、あるいは単に状態空間モデル(SSM)によるものなのかは定かではない。
深部SSMのポテンシャルを更に研究するために,まずは単純なSSMである指数スムージング(ETS)から始め,それを要素的に直接 MLP に組み込むことにより,積み重ねたアーキテクチャを提案する。
誘導バイアスを低減するため、単純なETSをパラメータと複素場を追加して拡張する。
要素量 MLP のパラメータの 1\% 未満の増加にもかかわらず,我々のモデルは LRA ベンチマークで S4 に匹敵する結果を得た。
Modeling long-range dependencies in sequential data is a crucial step in sequence learning. A recently developed model, the Structured State Space (S4), demonstrated significant effectiveness in modeling long-range sequences. However, It is unclear whether the success of S4 can be attributed to its intricate parameterization and HiPPO initialization or simply due to State Space Models (SSMs). To further investigate the potential of the deep SSMs, we start with exponential smoothing (ETS), a simple SSM, and propose a stacked architecture by directly incorporating it into an element-wise MLP. We augment simple ETS with additional parameters and complex field to reduce the inductive bias. Despite increasing less than 1\% of parameters of element-wise MLP, our models achieve comparable results to S4 on the LRA benchmark. | 翻訳日:2024-03-27 16:26:20 公開日:2024-03-26 |
# 圧縮の連鎖:畳み込みニューラルネットワークを併用するための体系的アプローチ
Chain of Compression: A Systematic Approach to Combinationally Compress Convolutional Neural Networks ( http://arxiv.org/abs/2403.17447v1 ) ライセンス: Link先を確認 | Yingtao Shen, Minqing Sun, Jie Zhao, An Zou, | (参考訳) 畳み込みニューラルネットワーク(CNN)は非常に人気があるが、その計算とメモリの強度は、特にリアルタイムパフォーマンスの前提条件で、リソース制約のコンピューティングシステムに課題をもたらす。
この重荷を解放するために、モデル圧縮は重要な研究の焦点となっている。
量子化、プルーニング、早期出口、知識蒸留といった多くのアプローチは、ニューラルネットワークの冗長性を減少させる効果を示している。
より精査すると、それぞれのアプローチがニューラルネットワークを圧縮するために独自の特徴を生かし、組み合わせることで相補的な振る舞いを示すことが明らかになる。
相互作用を探索し、相補的特徴の利点を享受するために、ニューラルネットワークの圧縮にこれらの一般的な手法を適用するために組み合わせシーケンスで動作する圧縮の連鎖(Chain of Compression)を提案する。
そこで提案したChain of Compressionは,画像に基づく回帰と分類ネットワークを用いて,ベースラインモデルと比較して計算コストを100~1000倍に圧縮する。
Convolutional neural networks (CNNs) have achieved significant popularity, but their computational and memory intensity poses challenges for resource-constrained computing systems, particularly with the prerequisite of real-time performance. To release this burden, model compression has become an important research focus. Many approaches like quantization, pruning, early exit, and knowledge distillation have demonstrated the effect of reducing redundancy in neural networks. Upon closer examination, it becomes apparent that each approach capitalizes on its unique features to compress the neural network, and they can also exhibit complementary behavior when combined. To explore the interactions and reap the benefits from the complementary features, we propose the Chain of Compression, which works on the combinational sequence to apply these common techniques to compress the neural network. Validated on the image-based regression and classification networks across different data sets, our proposed Chain of Compression can significantly compress the computation cost by 100-1000 times with ignorable accuracy loss compared with the baseline model. | 翻訳日:2024-03-27 16:16:34 公開日:2024-03-26 |
# 量子カーネル化されたバイナリ分類における二次的スピードアップ
Quadratic speed-ups in quantum kernelized binary classification ( http://arxiv.org/abs/2403.17453v1 ) ライセンス: Link先を確認 | Jungyun Lee, Daniel K. Park, | (参考訳) 分類はデータ駆動予測と意思決定のコアであり、教師付き機械学習の基本的なタスクを表している。
近年、量子カーネルをデータ間の類似性の尺度として用いた量子機械学習アルゴリズムが登場し、量子状態として符号化されたデータセットのバイナリ分類が行われた。
量子カーネルの潜在的な利点は、量子コンピュータが、データやコンピューティングカーネルのパターンをより効率的にキャプチャする上で、従来のカーネルよりも効果的に構築できる能力から生じる。
しかし、既存の量子カーネルベースの分類アルゴリズムは、追加の強化のために量子重ね合わせにデータサンプルを持つ能力を利用していない。
本研究では,量子カーネル化バイナリ分類器 (QKC) において,量子振幅推定 (QAE) を用いて2次高速化を実現する方法を示す。
さらに,QKCに対する新しい量子回路を提案し,量子ビットの数を1つ減らし,サンプルデータ数に対して回路深さを線形に低減する。
Irisデータセットの数値シミュレーションにより,従来の手法よりも2次的な高速化を検証した。
Classification is at the core of data-driven prediction and decision-making, representing a fundamental task in supervised machine learning. Recently, several quantum machine learning algorithms that use quantum kernels as a measure of similarities between data have emerged to perform binary classification on datasets encoded as quantum states. The potential advantages of quantum kernels arise from the ability of quantum computers to construct kernels that are more effective than their classical counterparts in capturing patterns in data or computing kernels more efficiently. However, existing quantum kernel-based classification algorithms do not harness the capability of having data samples in quantum superposition for additional enhancements. In this work, we demonstrate how such capability can be leveraged in quantum kernelized binary classifiers (QKCs) through Quantum Amplitude Estimation (QAE) for quadratic speed-up. Additionally, we propose new quantum circuits for the QKCs in which the number of qubits is reduced by one, and the circuit depth is reduced linearly with respect to the number of sample data. We verify the quadratic speed-up over previous methods through numerical simulations on the Iris dataset. | 翻訳日:2024-03-27 16:16:34 公開日:2024-03-26 |
# 強化学習におけるコスト制約行動の緩和
Imitating Cost-Constrained Behaviors in Reinforcement Learning ( http://arxiv.org/abs/2403.17456v1 ) ライセンス: Link先を確認 | Qian Shao, Pradeep Varakantham, Shih-Fen Cheng, | (参考訳) 複雑な計画とスケジューリングの問題は、様々な最適化やヒューリスティックなアプローチで長い間解決されてきた。
近年,これらの問題を解決する代替手段として,専門家によるデモンストレーションから学ぶことを目的とした模倣学習が提案されている。
一般的には、模倣学習は、専門家の行動を観察して報酬(または好み)モデルまたは行動方針を直接学習するように設計されている。
既存の模倣学習や逆強化学習は、主に制約のない環境(例えば、車両が消費する燃料に制限はない)で模倣に焦点を当てている。
しかし、多くの現実世界のドメインでは、専門家の振る舞いは報酬(または好み)だけでなく、制約によっても支配される。
例えば、自動運転車の配送に関する決定は、ルートの選好/回帰(過去の需要データに依存する)だけでなく、車の燃料や利用可能な時間にも依存している。
このような問題では、報酬モデルによって決定されるだけでなく、コスト制約のあるモデルにも依存するため、模倣学習は困難である。
本稿では,トラジェクティブコスト制約の存在下での専門家分布と一致する複数の方法を提案する。
(a)ラグランジュ的方法
ロ メタグラディエントは、期待したリターンと制約違反の最小化との間に良いトレードオフを見出すことができる。
(c)コスト違反に基づく交互化勾配。
試行錯誤学習アプローチは,コスト制約の少ない動作を模倣し,メタグラディエントベースのアプローチが最高のパフォーマンスを達成することを実証的に示す。
Complex planning and scheduling problems have long been solved using various optimization or heuristic approaches. In recent years, imitation learning that aims to learn from expert demonstrations has been proposed as a viable alternative to solving these problems. Generally speaking, imitation learning is designed to learn either the reward (or preference) model or directly the behavioral policy by observing the behavior of an expert. Existing work in imitation learning and inverse reinforcement learning has focused on imitation primarily in unconstrained settings (e.g., no limit on fuel consumed by the vehicle). However, in many real-world domains, the behavior of an expert is governed not only by reward (or preference) but also by constraints. For instance, decisions on self-driving delivery vehicles are dependent not only on the route preferences/rewards (depending on past demand data) but also on the fuel in the vehicle and the time available. In such problems, imitation learning is challenging as decisions are not only dictated by the reward model but are also dependent on a cost-constrained model. In this paper, we provide multiple methods that match expert distributions in the presence of trajectory cost constraints through (a) Lagrangian-based method; (b) Meta-gradients to find a good trade-off between expected return and minimizing constraint violation; and (c) Cost-violation-based alternating gradient. We empirically show that leading imitation learning approaches imitate cost-constrained behaviors poorly and our meta-gradient-based approach achieves the best performance. | 翻訳日:2024-03-27 16:16:34 公開日:2024-03-26 |
# 期待対現実:実践における侵入検知システムの評価
Expectations Versus Reality: Evaluating Intrusion Detection Systems in Practice ( http://arxiv.org/abs/2403.17458v1 ) ライセンス: Link先を確認 | Jake Hesford, Daniel Cheng, Alan Wan, Larry Huynh, Seungho Kim, Hyoungshick Kim, Jin B. Hong, | (参考訳) 本稿は,近年のIDS間の実証的な比較を行い,利用者が要求に応じて最適なソリューションを選択するための客観的比較を行う。
以上の結果から,攻撃の種類や複雑性,データセット内のネットワーク環境など,外部変数に依存するソリューションがひとつもないことが示唆された。
例えば、BoT_IoTとStratosphere IoTデータセットはいずれもIoT関連の攻撃をキャプチャするが、深いニューラルネットワークはBoT_IoTデータセットを使用したテストでは最高、HELADはStratosphere IoTデータセットを使用したテストでは最高だった。
したがって、ディープニューラルネットワークソリューションは、テストされたデータセットで平均的なF1スコアが高かったが、必ずしも最高のパフォーマンスであるとは限らない。
さらに、文献やプロジェクトリポジトリからIDSを使用することの難しさについても論じる。
Our paper provides empirical comparisons between recent IDSs to provide an objective comparison between them to help users choose the most appropriate solution based on their requirements. Our results show that no one solution is the best, but is dependent on external variables such as the types of attacks, complexity, and network environment in the dataset. For example, BoT_IoT and Stratosphere IoT datasets both capture IoT-related attacks, but the deep neural network performed the best when tested using the BoT_IoT dataset while HELAD performed the best when tested using the Stratosphere IoT dataset. So although we found that a deep neural network solution had the highest average F1 scores on tested datasets, it is not always the best-performing one. We further discuss difficulties in using IDS from literature and project repositories, which complicated drawing definitive conclusions regarding IDS selection. | 翻訳日:2024-03-27 16:16:34 公開日:2024-03-26 |
# 空間的・時間的解像度にまたがる橋--変化優先と条件拡散モデルによる参照型超解法-
Building Bridges across Spatial and Temporal Resolutions: Reference-Based Super-Resolution via Change Priors and Conditional Diffusion Model ( http://arxiv.org/abs/2403.17460v1 ) ライセンス: Link先を確認 | Runmin Dong, Shuai Yuan, Bin Luo, Mengxuan Chen, Jinxiao Zhang, Lixian Zhang, Weijia Li, Juepeng Zheng, Haohuan Fu, | (参考訳) 参照ベース超解像(RefSR)は、リモートセンシング画像の空間的および時間的解像度にまたがる橋を構築する可能性がある。
しかし、既存のRefSR法は、コンテンツ再構成の忠実さと、大規模なスケーリング要因におけるテクスチャ転送の有効性によって制限されている。
条件付き拡散モデルは、現実的な高解像度画像を生成する新たな機会を開いたが、これらのモデル内の参照画像を有効に活用することは、さらなる探索の場として残されている。
さらに,参照情報のない領域では,コンテンツ忠実性を保証することは困難である。
これらの問題を解決するために,Ref-Diff for RefSRという変更対応拡散モデルを提案する。
具体的には,先行情報をデノナイジングモデルに注入し,変化領域における参照情報の活用を改善するとともに,変化領域における意味的関連コンテンツの再構築を規制する。
この強力なガイダンスにより、セマンティクスに導かれた記述とテクスチャに導かれる記述プロセスを分離し、モデルの性能を改善する。
提案手法の有効性とロバスト性は, 定量評価と定性評価の両方において, 最先端のRefSR法と比較した。
コードとデータはhttps://github.com/dongrunmin/RefDiff.comで公開されている。
Reference-based super-resolution (RefSR) has the potential to build bridges across spatial and temporal resolutions of remote sensing images. However, existing RefSR methods are limited by the faithfulness of content reconstruction and the effectiveness of texture transfer in large scaling factors. Conditional diffusion models have opened up new opportunities for generating realistic high-resolution images, but effectively utilizing reference images within these models remains an area for further exploration. Furthermore, content fidelity is difficult to guarantee in areas without relevant reference information. To solve these issues, we propose a change-aware diffusion model named Ref-Diff for RefSR, using the land cover change priors to guide the denoising process explicitly. Specifically, we inject the priors into the denoising model to improve the utilization of reference information in unchanged areas and regulate the reconstruction of semantically relevant content in changed areas. With this powerful guidance, we decouple the semantics-guided denoising and reference texture-guided denoising processes to improve the model performance. Extensive experiments demonstrate the superior effectiveness and robustness of the proposed method compared with state-of-the-art RefSR methods in both quantitative and qualitative evaluations. The code and data are available at https://github.com/dongrunmin/RefDiff. | 翻訳日:2024-03-27 16:16:34 公開日:2024-03-26 |
# 拡散生成画像検出のための遅延再構成誤差に基づくLaRE^2
LaRE^2: Latent Reconstruction Error Based Method for Diffusion-Generated Image Detection ( http://arxiv.org/abs/2403.17465v1 ) ライセンス: Link先を確認 | Yunpeng Luo, Junlong Du, Ke Yan, Shouhong Ding, | (参考訳) 拡散モデルの進化により、画像生成の品質が劇的に向上し、実際の画像と生成された画像の区別がますます困難になっている。
この開発は印象的ではあるが、プライバシーとセキュリティの懸念も大きく高まっている。
これに対応するために,拡散生成画像を検出するための新しい遅延再構成誤り誘導特徴再構成法 (LaRE^2) を提案する。
ラテント再構成誤差 (LaRE) は, 画像検出のための遅延空間における最初のリコンストラクションエラーに基づく特徴である。
LaREは、特徴抽出効率の観点から既存の手法を超越し、本物と偽物の区別に必要な重要な手がかりを保存する。
LaREを利用するために,LaREによって誘導される画像の特徴を洗練し,特徴の識別性を向上するError-Guided Feature Refinement Module (EGRE)を提案する。
我々のEGREはアライメント・then-refine機構を利用しており、空間的・チャネル的な視点から生成画像を検出するために画像特徴を効果的に洗練する。
大規模なGenImageベンチマークによる大規模な実験では、最も優れたSoTA法を最大11.9%/12.1%上回るLaRE^2が8つの画像生成装置にまたがって平均ACC/APを最大11.9%/12.1%上回っていることが示されている。
LaREはまた、機能抽出コストの観点から既存の方法を超え、8倍のスピード向上を実現している。
The evolution of Diffusion Models has dramatically improved image generation quality, making it increasingly difficult to differentiate between real and generated images. This development, while impressive, also raises significant privacy and security concerns. In response to this, we propose a novel Latent REconstruction error guided feature REfinement method (LaRE^2) for detecting the diffusion-generated images. We come up with the Latent Reconstruction Error (LaRE), the first reconstruction-error based feature in the latent space for generated image detection. LaRE surpasses existing methods in terms of feature extraction efficiency while preserving crucial cues required to differentiate between the real and the fake. To exploit LaRE, we propose an Error-Guided feature REfinement module (EGRE), which can refine the image feature guided by LaRE to enhance the discriminativeness of the feature. Our EGRE utilizes an align-then-refine mechanism, which effectively refines the image feature for generated-image detection from both spatial and channel perspectives. Extensive experiments on the large-scale GenImage benchmark demonstrate the superiority of our LaRE^2, which surpasses the best SoTA method by up to 11.9%/12.1% average ACC/AP across 8 different image generators. LaRE also surpasses existing methods in terms of feature extraction cost, delivering an impressive speed enhancement of 8 times. | 翻訳日:2024-03-27 16:16:34 公開日:2024-03-26 |
# Green HPC: Top500に基づくドメインの分析
Green HPC: An analysis of the domain based on Top500 ( http://arxiv.org/abs/2403.17466v1 ) ライセンス: Link先を確認 | Abdessalam Benhari, Denis Trystram, Fanny Dufossé, Yves Denneulin, Frédéric Desprez, | (参考訳) コンピューティングパワーの需要は、長年にわたって成長を止めていない。
現在、最も強力なシステムの性能はエクサスケールを超え、ペタスケールシステムの数は増え続けている。
残念なことに、この成長はエネルギーコストの増大と相まって進行している。
本稿では, 環境問題の観点から, HPC システムのエネルギー消費の隠蔽問題について考察する。
コンストラクタのデータにアクセスするのは容易ではないため、Top500を氷山の一角とみなして領域全体の傾向を把握し、Top500およびGreen500データを様々な観点から分析し、その環境影響に関するドメインの動態を明らかにする。
この貢献は、性能とエネルギーの両面からHPCコンピューティングシステムの進化を規定する実証的な法則を定め、大規模コンピューティングシステムの性能とエネルギー効率を開発するための最も関連性の高いデータを分析し、これらの分析を影響と影響(HPCシステムの寿命)の観点から考察し、最終的に水平線2030内のHPCセクターの重量予測モデルを導出することである。
The demand in computing power has never stopped growing over the years. Today, the performance of the most powerful systems exceeds the exascale and the number of petascale systems continues to grow. Unfortunately, this growth also goes hand in hand with ever-increasing energy costs, which in turn means a significant carbon footprint. In view of the environmental crisis, this paper intents to look at the often hidden issue of energy consumption of HPC systems. As it is not easy to access the data of the constructors, we then consider the Top500 as the tip of the iceberg to identify the trends of the whole domain.The objective of this work is to analyze Top500 and Green500 data from several perspectives in order to identify the dynamic of the domain regarding its environmental impact. The contributions are to take stock of the empirical laws governing the evolution of HPC computing systems both from the performance and energy perspectives, to analyze the most relevant data for developing the performance and energy efficiency of large-scale computing systems, to put these analyses into perspective with effects and impacts (lifespan of the HPC systems) and finally to derive a predictive model for the weight of HPC sector within the horizon 2030. | 翻訳日:2024-03-27 16:16:34 公開日:2024-03-26 |
# ニューラルネットワーク学習のための統一カーネル
A Unified Kernel for Neural Network Learning ( http://arxiv.org/abs/2403.17467v1 ) ライセンス: Link先を確認 | Shao-Qun Zhang, Zong-Yi Chen, Yong-Ming Tian, Xun Lu, | (参考訳) 過去数十年間、ニューラルネットワーク学習とカーネル学習の区別と関連性に大きな関心を寄せてきた。
近年の進歩は、無限大のニューラルネットワークとガウス過程を接続する理論的な進歩をもたらした。
ニューラルネットワークガウス過程(NNGP)とニューラルタンジェントカーネル(NTK)の2つの主要なアプローチが出現している。
前者はベイズ予想に根づくゼロ階核を表すが、後者は勾配降下の接空間に接する一階核である。
本稿では、勾配降下とパラメータ初期化を伴うニューラルネットワークの学習力学を特徴付けるUnified Neural Kernel(UNK)を提案する。
提案したUNKカーネルは、NNGPとNTKの両方の制限特性を維持し、学習ステップが無限に近づくと、NTKに類似した動作を示し、NNGPに収束する。
さらに、UNKカーネルの均一な厳密性と学習収束性を理論的に特徴付け、この統一カーネルに関する包括的な洞察を提供する。
提案手法の有効性を実験的に評価した。
Past decades have witnessed a great interest in the distinction and connection between neural network learning and kernel learning. Recent advancements have made theoretical progress in connecting infinite-wide neural networks and Gaussian processes. Two predominant approaches have emerged: the Neural Network Gaussian Process (NNGP) and the Neural Tangent Kernel (NTK). The former, rooted in Bayesian inference, represents a zero-order kernel, while the latter, grounded in the tangent space of gradient descents, is a first-order kernel. In this paper, we present the Unified Neural Kernel (UNK), which characterizes the learning dynamics of neural networks with gradient descents and parameter initialization. The proposed UNK kernel maintains the limiting properties of both NNGP and NTK, exhibiting behaviors akin to NTK with a finite learning step and converging to NNGP as the learning step approaches infinity. Besides, we also theoretically characterize the uniform tightness and learning convergence of the UNK kernel, providing comprehensive insights into this unified kernel. Experimental results underscore the effectiveness of our proposed method. | 翻訳日:2024-03-27 16:16:34 公開日:2024-03-26 |
# DiffGaze:360度画像を用いた連続的な注視系列生成のための拡散モデル
DiffGaze: A Diffusion Model for Continuous Gaze Sequence Generation on 360° Images ( http://arxiv.org/abs/2403.17477v1 ) ライセンス: Link先を確認 | Chuhan Jiao, Yao Wang, Guanhua Zhang, Mihai Bâce, Zhiming Hu, Andreas Bulling, | (参考訳) DiffGazeは,360{\deg}画像上で,条件付きスコアに基づく認知拡散モデルに基づいて,現実的で多様な人間の視線シーケンスを生成する新しい手法である。
360{\deg}画像上の人間の視線を生成することは、大規模な視線追跡データセットの作成や仮想人間の現実的なアニメーションなど、様々な人-コンピュータインタラクションやコンピュータグラフィックスアプリケーションにとって重要である。
しかし、既存の手法は個別の固定シーケンスや集計されたサリエンシマップの予測に限られており、それによって自然の視線行動の重要な部分を無視している。
提案手法は,360{\deg}画像から抽出した特徴を条件として用い,連続した人間の視線の時間的および空間的依存性をモデル化するために2つのトランスフォーマーを用いた。
視線シーケンス生成のための2つの360{\deg}画像ベンチマークでDiffGazeを評価し,スキャンパスの予測とサリエンシの予測を行った。
評価の結果、DiffGazeは両ベンチマークの全てのタスクにおいて最先端の手法よりも優れていることがわかった。
また,21名の被験者を対象に,実際の人文列と区別不能な視線列を生成することを報告した。
We present DiffGaze, a novel method for generating realistic and diverse continuous human gaze sequences on 360{\deg} images based on a conditional score-based denoising diffusion model. Generating human gaze on 360{\deg} images is important for various human-computer interaction and computer graphics applications, e.g. for creating large-scale eye tracking datasets or for realistic animation of virtual humans. However, existing methods are limited to predicting discrete fixation sequences or aggregated saliency maps, thereby neglecting crucial parts of natural gaze behaviour. Our method uses features extracted from 360{\deg} images as condition and uses two transformers to model the temporal and spatial dependencies of continuous human gaze. We evaluate DiffGaze on two 360{\deg} image benchmarks for gaze sequence generation as well as scanpath prediction and saliency prediction. Our evaluations show that DiffGaze outperforms state-of-the-art methods on all tasks on both benchmarks. We also report a 21-participant user study showing that our method generates gaze sequences that are indistinguishable from real human sequences. | 翻訳日:2024-03-27 16:16:34 公開日:2024-03-26 |
# 自然言語の要求量に基づくテスト容易性測定
Natural Language Requirements Testability Measurement Based on Requirement Smells ( http://arxiv.org/abs/2403.17479v1 ) ライセンス: Link先を確認 | Morteza Zakeri-Nasrabadi, Saeed Parsa, | (参考訳) 要件は、ソフトウェアシステムの義務とタスクを定義する基盤となる。
テスト可能な要件は、障害の防止、メンテナンスコストの削減、受け入れテストの実行を容易にする。
しかし,要求テスト容易性の測定と定量化が重要であるにもかかわらず,要求の匂いに基づいて要求テスト容易性を自動的に測定する方法は提案されていない。
本稿では,9つの要求の匂いと自動検出,および要件長とその適用領域によって決定される受入テストの取り組みに基づいて,自然言語の要求テスト容易性を評価・ランク付けする数学的モデルを提案する。
ほとんどの臭いは、可算形容詞、文脈に敏感な、曖昧な言葉に由来する。
そのような単語を検出するには包括的な辞書が必要である。
このような辞書を自動生成するニューラルワード埋め込み技術を提案する。
この辞書を用いて、10のアプリケーションドメインで初めて、ポリセミ臭(ドメイン固有の曖昧さ)を自動的に検出できる。
6つの著名な産業・学術プロジェクトによる1000近いソフトウェア要件に関する実証研究は、提案された嗅覚検出アプローチが、要求の匂いを検出する上で最先端のツールであるSmellaより優れていることを実証している。
検出精度は平均0.03と0.33と、最先端と比較して改善されている。
提案モデルでは, 平均絶対誤差0.12, 平均二乗誤差0.03を用いて, 985 要件の検証可能性を測定し, 実用上の可能性を示す。
Requirements form the basis for defining software systems' obligations and tasks. Testable requirements help prevent failures, reduce maintenance costs, and make it easier to perform acceptance tests. However, despite the importance of measuring and quantifying requirements testability, no automatic approach for measuring requirements testability has been proposed based on the requirements smells, which are at odds with the requirements testability. This paper presents a mathematical model to evaluate and rank the natural language requirements testability based on an extensive set of nine requirements smells, detected automatically, and acceptance test efforts determined by requirement length and its application domain. Most of the smells stem from uncountable adjectives, context-sensitive, and ambiguous words. A comprehensive dictionary is required to detect such words. We offer a neural word-embedding technique to generate such a dictionary automatically. Using the dictionary, we could automatically detect Polysemy smell (domain-specific ambiguity) for the first time in 10 application domains. Our empirical study on nearly 1000 software requirements from six well-known industrial and academic projects demonstrates that the proposed smell detection approach outperforms Smella, a state-of-the-art tool, in detecting requirements smells. The precision and recall of smell detection are improved with an average of 0.03 and 0.33, respectively, compared to the state-of-the-art. The proposed requirement testability model measures the testability of 985 requirements with a mean absolute error of 0.12 and a mean squared error of 0.03, demonstrating the model's potential for practical use. | 翻訳日:2024-03-27 16:16:34 公開日:2024-03-26 |
# メモリ・スイッチングコストを考慮したモチベーション付きオンライン非凸最適化問題
Capacity Provisioning Motivated Online Non-Convex Optimization Problem with Memory and Switching Cost ( http://arxiv.org/abs/2403.17480v1 ) ライセンス: Link先を確認 | Rahul Vaze, Jayakrishnan Nair, | (参考訳) オンラインの非凸最適化問題は、アクティブサーバ数を変更することでジョブセットのフロー時間(トータル遅延)を最小化することを目的としているが、時間とともにアクティブサーバ数を変更することで切り替えコストがかかる。
各ジョブは、いつでも1つの固定速度サーバで処理できる。
スイッチングコストの通常のオンライン凸最適化(OCO)問題と比較すると、客観的関数は非凸であり、さらに重要なのは、現在のものだけではなく、過去のすべての決定に依存することである。
最悪のケースと確率的な入力の両方が考慮され、どちらの場合も競合アルゴリズムが導出される。
An online non-convex optimization problem is considered where the goal is to minimize the flow time (total delay) of a set of jobs by modulating the number of active servers, but with a switching cost associated with changing the number of active servers over time. Each job can be processed by at most one fixed speed server at any time. Compared to the usual online convex optimization (OCO) problem with switching cost, the objective function considered is non-convex and more importantly, at each time, it depends on all past decisions and not just the present one. Both worst-case and stochastic inputs are considered; for both cases, competitive algorithms are derived. | 翻訳日:2024-03-27 16:16:34 公開日:2024-03-26 |
# コンピュータから量子力学へ:高校生のためのアクセシブル・ハンズオン量子コンピューティング教育
From Computing to Quantum Mechanics: Accessible and Hands-On Quantum Computing Education for High School Students ( http://arxiv.org/abs/2403.17485v1 ) ライセンス: Link先を確認 | Qihong Sun, Shuangxiang Zhou, Ronghang Chen, Guanru Feng, Shi-Yao Hou, Bei Zeng, | (参考訳) 本稿では,先進的な数学と物理学の知識に乏しい学生を対象に,高校における量子コンピューティング教育の代替的アプローチを概説する。
このアプローチは、量子力学を徐々に導入する前に、古典コンピューティングの基本的な概念に基づいて構築することで従来の方法から分岐し、この複雑な分野への参入を単純化する。
このコースは最初、香港教育局(Hong Kong Education Bureau)の下で贈与された高校生向けのプログラムで実施され、より広い学生の観衆にその可能性を示す励ましのフィードバックを受けた。
このアプローチの重要な要素は、ポータブルなNMR量子コンピュータによる実践的応用であり、学生にハンズオン体験を提供する。
本稿では、講義の組織化、ポータブル核磁気共鳴(NMR)量子コンピュータのハードウェアの統合、Gemini/Triangulumシリーズ、付録の詳細な講義ノートなど、コースの構造について述べる。
専門プログラムの初歩的な成功と、香港と深センの通常の高校へのコース拡大に向けた議論は、このアプローチがより広範な教育的応用に有効であることを示唆している。
アクセシビリティと学生のエンゲージメントに焦点をあてることで、高校生の理解と分野への関心を高めることを目的として、量子コンピューティングの概念を高校レベルで導入する上で貴重な視点を示す。
This paper outlines an alternative approach to teaching quantum computing at the high school level, tailored for students with limited prior knowledge in advanced mathematics and physics. This approach diverges from traditional methods by building upon foundational concepts in classical computing before gradually introducing quantum mechanics, thereby simplifying the entry into this complex field. The course was initially implemented in a program for gifted high school students under the Hong Kong Education Bureau and received encouraging feedback, indicating its potential effectiveness for a broader student audience. A key element of this approach is the practical application through portable NMR quantum computers, which provides students with hands-on experience. The paper describes the structure of the course, including the organization of the lectures, the integration of the hardware of the portable nuclear magnetic resonance (NMR) quantum computers, the Gemini/Triangulum series, and detailed lecture notes in an appendix. The initial success in the specialized program and ongoing discussions to expand the course to regular high schools in Hong Kong and Shenzhen suggest the viability of this approach for wider educational application. By focusing on accessibility and student engagement, this approach presents a valuable perspective on introducing quantum computing concepts at the high school level, aiming to enhance student understanding and interest in the field. | 翻訳日:2024-03-27 16:16:34 公開日:2024-03-26 |
# KDMCSE:Adaptive Angular margin Contrastive Learningを用いた知識蒸留マルチモーダル文埋め込み
KDMCSE: Knowledge Distillation Multimodal Sentence Embeddings with Adaptive Angular margin Contrastive Learning ( http://arxiv.org/abs/2403.17486v1 ) ライセンス: Link先を確認 | Cong-Duy Nguyen, Thong Nguyen, Xiaobao Wu, Anh Tuan Luu, | (参考訳) 従来のマルチモーダル文の埋め込みに関する研究は、マルチモーダルコントラスト学習を提案し、有望な結果を得た。
しかし, バッチの残りの部分を負のサンプルとして用いて, コントラスト対を形成する際には, 疑わしい, うるさい負の例が多くみられ, 全体の性能に有意な影響を及ぼした。
そこで本研究では,KDMCSE(Knowledge Distillation Multimodal contrastive learning of Sentence Embeddings)を提案する。これは,マルチモーダル表現の識別と一般化性を向上し,教師モデルからの知識を継承して,正と負のインスタンスの違いを学習する手法であり,この手法により,対照的な目的で計算される前に,雑音と誤のサンプルを効果的に検出することができる。
さらに, 負の対における変化のモデル化の限界を克服するために, アダパセ(AdapACSE, Adaptive Angular Margin Supervised Contrastive Learning for Multimodal sentence embeddeds)を導入する。
広く使われているセマンティックテキスト類似性(STS)ベンチマークの実験結果から,本手法の有効性が示された。
Previous work on multimodal sentence embedding has proposed multimodal contrastive learning and achieved promising results. However, by taking the rest of the batch as negative samples without reviewing when forming contrastive pairs, those studies encountered many suspicious and noisy negative examples, significantly affecting the methods' overall performance. In this work, we propose KDMCSE (Knowledge Distillation Multimodal contrastive learning of Sentence Embeddings), a novel approach that enhances the discrimination and generalizability of multimodal representation and inherits the knowledge from the teacher model to learn the difference between positive and negative instances and via that, can detect noisy and wrong negative samples effectively before they are calculated in the contrastive objective. Furthermore, to overcome the limitation of modeling the variation within negative pairs, we introduce a new contrastive objective, AdapACSE (Adaptive Angular Margin Supervised Contrastive Learning for Multimodal sentence embeddings), that enhances the discriminative representation by strengthening the margin within the angular space while capturing varying semantics within the negative. Experimental results on widely used Semantic Textual Similarity (STS) benchmarks demonstrate the effectiveness of our approach. | 翻訳日:2024-03-27 16:16:34 公開日:2024-03-26 |
# DGoT:科学的な抽象生成のための思考の動的グラフ
DGoT: Dynamic Graph of Thoughts for Scientific Abstract Generation ( http://arxiv.org/abs/2403.17491v1 ) ライセンス: Link先を確認 | Xinyu Ning, Yutong Zhao, Yitong Liu, Hongwen Yang, | (参考訳) ドメインデータセットに基づく言語モデルを訓練する方法は、科学論文の要約を生成するタスクにおいて、重要な成果を得た。
しかし、そのようなモデルは一般化と高価な訓練コストの問題に直面している。
大きな言語モデル(LLM)を用いて論文の要約を生成することで、モデルトレーニングのコストを削減できる。
しかし, LLMの幻覚的問題のため, グラフ・オブ・シント(GoT)のような複数ラウンドのクエリプロンプトアプローチにより, 結果の信頼性を向上させる必要がしばしばある。
本稿では,動的思考グラフ(DGoT)を提案する。
既存のGoTプロンプトアプローチの利点を継承するだけでなく、モデル推論コストを低減しつつ、データ特性に応じてグラフ構造を動的に調整する。
実験結果から,他の複数ラウンドクエリプロンプト手法の43.7%から56.4%に過ぎなかった。
私たちのコードはhttps://github.com/JayceNing/DGoT.comで利用可能です。
The method of training language models based on domain datasets has obtained significant achievements in the task of generating scientific paper abstracts. However, such models face problems of generalization and expensive training costs. The use of large language models (LLMs) to solve the task of generating paper abstracts saves the cost of model training. However, due to the hallucination problem of LLM, it is often necessary to improve the reliability of the results through multi-round query prompt approach such as Graph of Thoughts (GoT), which also brings additional reasoning costs. In this paper, we propose a Dynamic Graph of Thought (DGoT). It not only inherits the advantages of the existing GoT prompt approach, but also dynamically adjust the graph structure according to data characteristics while reducing model reasoning cost. Experimental results show that our method's cost-effectiveness in abstract generation tasks is only 43.7% to 56.4% of other multi-round query prompt approaches. Our code is available at https://github.com/JayceNing/DGoT. | 翻訳日:2024-03-27 16:16:34 公開日:2024-03-26 |
# FaultGuard: スマートグリッドにおける耐障害性予測のためのジェネレーティブアプローチ
FaultGuard: A Generative Approach to Resilient Fault Prediction in Smart Electrical Grids ( http://arxiv.org/abs/2403.17494v1 ) ライセンス: Link先を確認 | Emad Efatinasab, Francesco Marchiori, Alessandro Brighente, Mirco Rampazzo, Mauro Conti, | (参考訳) 電力網における故障の予測と分類は、未中断の供給と維持コストの最小化に不可欠である。
スマートグリッドによって提供される分野の進歩により、障害予測タスクに対処するためのデータ駆動型アプローチが文献で提案されている。
これらのシステムの実装は、最適エネルギー消費や迅速な復旧など、いくつかの改善をもたらした。
したがって、これらはスマートグリッドの重要なコンポーネントとなっている。
しかし、これらのシステムによる敵攻撃に対する堅牢性と安全性は、まだ広く研究されていない。
これらの攻撃はグリッド全体に障害を与え、インフラにさらなるダメージを与え、故障検知システムを破壊し、復旧を妨害する。
本稿では,障害タイプおよびゾーン分類のための最初のフレームワークであるFaultGuardについて述べる。
システムのセキュリティを確保するために,新たなジェネレーティブ・ディレクショナリ・ネットワーク・トレーニング・レイヤを活用した異常検知システム(ADS)を用いて攻撃を識別する。
さらに,ロバスト性を高めるために,低複雑さ故障予測モデルとオンライン逆行訓練手法を提案する。
我々は,耐障害性予測ベンチマークのための最先端技術であるIEEE13-AdvAttackデータセットを用いて,様々な敵攻撃に対するフレームワークの性能を総合的に評価する。
我々のモデルは、敵を考慮せずに、最大0.958の精度で最先端の技術を駆使している。
さらに、当社のADSでは、攻撃検出能力を最大1,000の精度で表示しています。
最後に、新しいトレーニング層がフレームワーク全体のパフォーマンスを大幅に向上し、ADSの精度が154%、モデル精度が118%向上したことを実証する。
Predicting and classifying faults in electricity networks is crucial for uninterrupted provision and keeping maintenance costs at a minimum. Thanks to the advancements in the field provided by the smart grid, several data-driven approaches have been proposed in the literature to tackle fault prediction tasks. Implementing these systems brought several improvements, such as optimal energy consumption and quick restoration. Thus, they have become an essential component of the smart grid. However, the robustness and security of these systems against adversarial attacks have not yet been extensively investigated. These attacks can impair the whole grid and cause additional damage to the infrastructure, deceiving fault detection systems and disrupting restoration. In this paper, we present FaultGuard, the first framework for fault type and zone classification resilient to adversarial attacks. To ensure the security of our system, we employ an Anomaly Detection System (ADS) leveraging a novel Generative Adversarial Network training layer to identify attacks. Furthermore, we propose a low-complexity fault prediction model and an online adversarial training technique to enhance robustness. We comprehensively evaluate the framework's performance against various adversarial attacks using the IEEE13-AdvAttack dataset, which constitutes the state-of-the-art for resilient fault prediction benchmarking. Our model outclasses the state-of-the-art even without considering adversaries, with an accuracy of up to 0.958. Furthermore, our ADS shows attack detection capabilities with an accuracy of up to 1.000. Finally, we demonstrate how our novel training layers drastically increase performances across the whole framework, with a mean increase of 154% in ADS accuracy and 118% in model accuracy. | 翻訳日:2024-03-27 16:16:34 公開日:2024-03-26 |
# 将来エネルギーグリッドの量子最適化:概要と量子実用性
Quantum Optimization for the Future Energy Grid: Summary and Quantum Utility Prospects ( http://arxiv.org/abs/2403.17495v1 ) ライセンス: Link先を確認 | Jonas Blenninger, David Bucher, Giorgio Cortiana, Kumar Ghosh, Naeimeh Mohseni, Jonas Nüßlein, Corey O'Meara, Daniel Porawski, Benedikt Wimmer, | (参考訳) 本稿では,ドイツ連邦教育研究省(BMBF)が出資した「Q-GRID」プロジェクトにおいて,電力網における量子ユーティリティ最適化の適用可能性を評価することを目的とした,主要な成果とユースケースについて要約する。
このプロジェクトは、分散エネルギーの生成と伝達に関連する2つの最適化問題と、Peer-2-Peerエネルギートレーディングやマイクログリッド形成のような新しいエネルギー輸送/交換手法に焦点を当てている。
エネルギーグリッド最適化問題を選択するために、小さな問題の場合であっても指数関数的古典的オプティマイザランタイムスケーリングを実演し、QAOAやハイブリッド量子アニーリングソルバのような変分量子アルゴリズムが、同様のソリューション品質を得るためにより好ましいランタイムスケーリングを提供するという初期の知見を示す。
これらの初期の結果は、量子コンピューティングが将来のエネルギー移行において鍵となる技術であり、小さな問題インスタンスサイズで既に困難であるビジネス上の問題を解決することができることを示唆している。
In this project summary paper, we summarize the key results and use-cases explored in the German Federal Ministry of Education and Research (BMBF) funded project "Q-GRID" which aims to assess potential quantum utility optimization applications in the electrical grid. The project focuses on two layers of optimization problems relevant to decentralized energy generation and transmission as well as novel energy transportation/exchange methods such as Peer-2-Peer energy trading and microgrid formation. For select energy grid optimization problems, we demonstrate exponential classical optimizer runtime scaling even for small problem instances, and present initial findings that variational quantum algorithms such as QAOA and hybrid quantum annealing solvers may provide more favourable runtime scaling to obtain similar solution quality. These initial results suggest that quantum computing may be a key enabling technology in the future energy transition insofar that they may be able to solve business problems which are already challenging at small problem instance sizes. | 翻訳日:2024-03-27 16:06:48 公開日:2024-03-26 |
# Dr.Hair:ラインセグメントの微分レンダリングによる事前トレーニングのないスカルプ接続型ヘアストランドの再構築
Dr.Hair: Reconstructing Scalp-Connected Hair Strands without Pre-training via Differentiable Rendering of Line Segments ( http://arxiv.org/abs/2403.17496v1 ) ライセンス: Link先を確認 | Yusuke Takimoto, Hikari Takehara, Hiroyuki Sato, Zihao Zhu, Bo Zheng, | (参考訳) 映画やゲーム業界では、現実的な髪型を達成するには、頭皮由来の鎖を使うのが一般的である。
しかし、観察された毛髪の表面像からこれらのストランドを再構築することは大きな課題である。
地上真実(GT)データを取得することの難しさは、手作業による合成CGデータによる事前学習に依存する最先端の学習ベースの手法を導いた。
このプロセスは、労働集約的でコストがかかるだけでなく、実際のデータと比較した場合のドメインギャップによる複雑さも引き起こす。
本研究では,事前学習の必要性を解消する最適化手法を提案する。
本手法は,頭皮から成長する線分としてヘアストランドを表現し,新しい微分可能レンダリングアルゴリズムを用いて最適化する。
大域的最適化を用いた3次元配向推定,ラプラス方程式に基づくストランド初期化,幾何学的接続性および空間的近接性を利用した再パラメータ化を導入する。
既存の最適化手法とは異なり,本手法は内毛髪の流れを絶対方向に再構築することができる。
提案手法は,既存の手法の精度を越え,処理速度を大幅に向上させるとともに,堅牢かつ高精度な逆レンダリングを実現する。
In the film and gaming industries, achieving a realistic hair appearance typically involves the use of strands originating from the scalp. However, reconstructing these strands from observed surface images of hair presents significant challenges. The difficulty in acquiring Ground Truth (GT) data has led state-of-the-art learning-based methods to rely on pre-training with manually prepared synthetic CG data. This process is not only labor-intensive and costly but also introduces complications due to the domain gap when compared to real-world data. In this study, we propose an optimization-based approach that eliminates the need for pre-training. Our method represents hair strands as line segments growing from the scalp and optimizes them using a novel differentiable rendering algorithm. To robustly optimize a substantial number of slender explicit geometries, we introduce 3D orientation estimation utilizing global optimization, strand initialization based on Laplace's equation, and reparameterization that leverages geometric connectivity and spatial proximity. Unlike existing optimization-based methods, our method is capable of reconstructing internal hair flow in an absolute direction. Our method exhibits robust and accurate inverse rendering, surpassing the quality of existing methods and significantly improving processing speed. | 翻訳日:2024-03-27 16:06:48 公開日:2024-03-26 |
# 成功のコストの共有: 協力的マルチエージェント指導のギビングとフォローポリシーの評価と学習のためのゲーム
Sharing the Cost of Success: A Game for Evaluating and Learning Collaborative Multi-Agent Instruction Giving and Following Policies ( http://arxiv.org/abs/2403.17497v1 ) ライセンス: Link先を確認 | Philipp Sadler, Sherzod Hakimov, David Schlangen, | (参考訳) 協調的な目標志向の設定では、参加者は成果を達成することに関心があるだけでなく、(互いに適応することによって)相互作用に費やした努力を暗黙的に交渉する。
本研究では,2人のプレイヤーが視覚と言語観測に基づいて協調する必要がある,対話型参照ゲームを提案する。
このゲームにおける学習信号は、達成したゴールと、相互作用中のプレイヤーの想定された努力を考慮に入れたスコア(プレイ後の)である。
本稿では,PPOの標準設定が,人間と人間の相互作用の分析から洞察を得られるヒューリスティックなパートナー行動によってブートストラップされた場合,高い成功率を達成することを示す。
そして、ペアリングされたニューラルパートナーは、繰り返し遊んでいるときに測定された関節の労力を減らすことに気付きました。
しかし、合理的なヒューリスティックなペアリングと比べれば、まだ改善の余地がある。
In collaborative goal-oriented settings, the participants are not only interested in achieving a successful outcome, but do also implicitly negotiate the effort they put into the interaction (by adapting to each other). In this work, we propose a challenging interactive reference game that requires two players to coordinate on vision and language observations. The learning signal in this game is a score (given after playing) that takes into account the achieved goal and the players' assumed efforts during the interaction. We show that a standard Proximal Policy Optimization (PPO) setup achieves a high success rate when bootstrapped with heuristic partner behaviors that implement insights from the analysis of human-human interactions. And we find that a pairing of neural partners indeed reduces the measured joint effort when playing together repeatedly. However, we observe that in comparison to a reasonable heuristic pairing there is still room for improvement -- which invites further research in the direction of cost-sharing in collaborative interactions. | 翻訳日:2024-03-27 16:06:48 公開日:2024-03-26 |
# 変分グラフオートエンコーダを用いた半教師付き分類のための帰納学習法
Variational Graph Auto-Encoder Based Inductive Learning Method for Semi-Supervised Classification ( http://arxiv.org/abs/2403.17500v1 ) ライセンス: Link先を確認 | Hanxuan Yang, Zhaoxin Yu, Qingchao Kong, Wei Liu, Wenji Mao, | (参考訳) グラフ表現学習は、様々な分野のアプリケーションにおいて基本的な研究課題であり、推論中に目に見えないグラフ構造に一般化するモデルを必要とするため、帰納的学習問題は特に困難である。
近年、グラフニューラルネットワーク(GNN)はノード分類などの帰納的学習タスクのための強力なグラフモデルとして登場し、一般的には完全に教師付きトレーニング環境下では注釈付きノードに大きく依存している。
GNNベースの手法と比較して、変分グラフオートエンコーダ(VGAE)はノードラベルに依存しないグラフの内部構造情報をより一般化できることが知られ、複数の教師なし学習タスクにおいて顕著なパフォーマンスを達成している。
しかしながら,教師付き手法によるモデルのトレーニングが困難であり,グラフの近接情報を過度に適合させないため,VGAEフレームワークの帰納的学習への活用に注力する作業は依然として不足している。
これらの問題を解決するために,帰納的グラフ表現学習のためのVGAEのモデル性能を改善するために,本研究では,自己ラベル拡張VGAEモデルを提案する。
学習にラベル情報を活用するため,本モデルではノードラベルをワンホット符号化入力とし,モデルトレーニングにおいてラベル再構成を行う。
半教師付き設定におけるノードラベルの不足を克服するため,我々は,ノードワイドマスキング手法を用いてモデルによって生成された擬似ラベルを用いてラベル情報を強化する自己ラベル拡張手法 (SLAM) を提案する。
ベンチマーク帰納学習グラフデータセットの実験により,提案したモデルが,半教師付き学習環境下でのノード分類において有望な結果を示すことを確認した。
Graph representation learning is a fundamental research issue in various domains of applications, of which the inductive learning problem is particularly challenging as it requires models to generalize to unseen graph structures during inference. In recent years, graph neural networks (GNNs) have emerged as powerful graph models for inductive learning tasks such as node classification, whereas they typically heavily rely on the annotated nodes under a fully supervised training setting. Compared with the GNN-based methods, variational graph auto-encoders (VGAEs) are known to be more generalizable to capture the internal structural information of graphs independent of node labels and have achieved prominent performance on multiple unsupervised learning tasks. However, so far there is still a lack of work focusing on leveraging the VGAE framework for inductive learning, due to the difficulties in training the model in a supervised manner and avoiding over-fitting the proximity information of graphs. To solve these problems and improve the model performance of VGAEs for inductive graph representation learning, in this work, we propose the Self-Label Augmented VGAE model. To leverage the label information for training, our model takes node labels as one-hot encoded inputs and then performs label reconstruction in model training. To overcome the scarcity problem of node labels for semi-supervised settings, we further propose the Self-Label Augmentation Method (SLAM), which uses pseudo labels generated by our model with a node-wise masking approach to enhance the label information. Experiments on benchmark inductive learning graph datasets verify that our proposed model archives promising results on node classification with particular superiority under semi-supervised learning settings. | 翻訳日:2024-03-27 16:06:48 公開日:2024-03-26 |
# SeNM-VAE:階層型変分オートエンコーダを用いた半教師付きノイズモデリング
SeNM-VAE: Semi-Supervised Noise Modeling with Hierarchical Variational Autoencoder ( http://arxiv.org/abs/2403.17502v1 ) ライセンス: Link先を確認 | Dihan Zheng, Yihang Zou, Xiaowen Zhang, Chenglong Bao, | (参考訳) データボトルネックは、学習に基づく画像復元法における根本的な課題として浮上している。
研究者たちは、この課題に対処するために、ペアまたはアンペアのサンプルを使用して合成されたトレーニングデータの生成を試みた。
本研究では、ペアとアンペアの両方のデータセットを利用して現実的な劣化データを生成するセミ教師付きノイズモデリング手法であるSeNM-VAEを提案する。
本手法は, 特別に設計されたグラフィカルモデルを用いて, 劣化画像とクリーン画像の条件分布をモデル化することに基づく。
変分推論フレームワークでは,ペアデータとアンペアデータの両方を扱う客観的関数を開発する。
実世界の画像認識と超分解能タスクのためのペアトレーニングサンプルを生成するために,本手法を用いた。
提案手法は, 合成劣化画像の品質を, 他の不対とペアのノイズモデリング法と比較して向上させる。
さらに,本手法は,限られたペアデータであっても,下流画像復元作業において顕著な性能を示す。
よりペア化されたデータにより、本手法はSIDDデータセット上で最高の性能を達成する。
The data bottleneck has emerged as a fundamental challenge in learning based image restoration methods. Researchers have attempted to generate synthesized training data using paired or unpaired samples to address this challenge. This study proposes SeNM-VAE, a semi-supervised noise modeling method that leverages both paired and unpaired datasets to generate realistic degraded data. Our approach is based on modeling the conditional distribution of degraded and clean images with a specially designed graphical model. Under the variational inference framework, we develop an objective function for handling both paired and unpaired data. We employ our method to generate paired training samples for real-world image denoising and super-resolution tasks. Our approach excels in the quality of synthetic degraded images compared to other unpaired and paired noise modeling methods. Furthermore, our approach demonstrates remarkable performance in downstream image restoration tasks, even with limited paired data. With more paired data, our method achieves the best performance on the SIDD dataset. | 翻訳日:2024-03-27 16:06:48 公開日:2024-03-26 |
# DS-AL: 初級クラス増分学習のためのデュアルストリーム分析学習
DS-AL: A Dual-Stream Analytic Learning for Exemplar-Free Class-Incremental Learning ( http://arxiv.org/abs/2403.17503v1 ) ライセンス: Link先を確認 | Huiping Zhuang, Run He, Kai Tong, Ziqian Zeng, Cen Chen, Zhiping Lin, | (参考訳) クラスインクリメンタル・ラーニング (CIL) は, 先進的な制約を伴わず, 重大な課題を呈している。
この制約に固執する既存の手法は、過去のサンプルへのアクセスを維持するリプレイベースの技術よりも、破滅的な忘れがちである。
本稿では,従来のCIL問題を解決するために,Dual-Stream Analytic Learning (DS-AL) アプローチを提案する。
DS-ALは、解析的(すなわち閉形式)線形解を提供する主ストリームと、線形写像を採用することにより固有の不適合限界を改善する補償ストリームとを含む。
メインストリームはCIL問題をC-RLS(Concatenated Recursive Least Squares)タスクに再定義し、CILと共同学習の同等性を実現する。
補償ストリームはDual-Activation Compensation (DAC)モジュールによって管理される。
このモジュールは、メインストリームと異なるアクティベーション関数で埋め込みを再活性化し、メインストリームのリニアマッピングのヌル空間に埋め込みを投影することで適合補償を求める。
実証的な結果は、DS-ALは、典型的なフリーテクニックであるにもかかわらず、CIFAR-100、ImageNet-100、ImageNet-Fullなど、さまざまなデータセットにわたるリプレイベースのメソッドと同等以上のパフォーマンスを提供することを示している。
さらに、C-RLSの等価性により、DS-ALは位相不変の方法でCILを実行することができる。
これは、前例のない500フェーズCIL ImageNetタスクによって証明され、5フェーズのタスクと同じレベルで実行される。
我々のコードはhttps://github.com/ZHUANGHP/Analytic-Continual-learningで入手できる。
Class-incremental learning (CIL) under an exemplar-free constraint has presented a significant challenge. Existing methods adhering to this constraint are prone to catastrophic forgetting, far more so than replay-based techniques that retain access to past samples. In this paper, to solve the exemplar-free CIL problem, we propose a Dual-Stream Analytic Learning (DS-AL) approach. The DS-AL contains a main stream offering an analytical (i.e., closed-form) linear solution, and a compensation stream improving the inherent under-fitting limitation due to adopting linear mapping. The main stream redefines the CIL problem into a Concatenated Recursive Least Squares (C-RLS) task, allowing an equivalence between the CIL and its joint-learning counterpart. The compensation stream is governed by a Dual-Activation Compensation (DAC) module. This module re-activates the embedding with a different activation function from the main stream one, and seeks fitting compensation by projecting the embedding to the null space of the main stream's linear mapping. Empirical results demonstrate that the DS-AL, despite being an exemplar-free technique, delivers performance comparable with or better than that of replay-based methods across various datasets, including CIFAR-100, ImageNet-100 and ImageNet-Full. Additionally, the C-RLS' equivalent property allows the DS-AL to execute CIL in a phase-invariant manner. This is evidenced by a never-before-seen 500-phase CIL ImageNet task, which performs on a level identical to a 5-phase one. Our codes are available at https://github.com/ZHUANGHP/Analytic-continual-learning. | 翻訳日:2024-03-27 16:06:48 公開日:2024-03-26 |
# EL-MLFFs: 機械学習による力場学習
EL-MLFFs: Ensemble Learning of Machine Leaning Force Fields ( http://arxiv.org/abs/2403.17507v1 ) ライセンス: Link先を確認 | Bangchen Yin, Yue Yin, Yuda W. Tang, Hai Xiao, | (参考訳) 機械学習力場(MLFF)は、量子力学的手法の精度と古典的な力場の効率を橋渡しする、有望なアプローチとして登場した。
しかし、MLFFモデルの存在と原子間力の正確な予測の難しさは、その実用化に重大な障害をもたらす。
本稿では,新たなアンサンブル学習フレームワークであるEL-MLFFを提案する。
分子構造のグラフ表現を構築し、グラフニューラルネットワーク(GNN)をメタモデルとして使用することにより、EL-MLFFは原子間相互作用を効果的に捕捉し、力の予測を洗練する。
我々は,Cu(100)表面に吸着したメタン分子とメタノールの2つの異なるデータセットに対するアプローチを評価した。
その結果, EL-MLFFは個々のMLFFと比較して力の予測精度を有意に向上し, 8つのモデルが組み合わさって最高の性能が得られることがわかった。
さらに,我々のアブレーション研究は,モデルアーキテクチャにおける残差ネットワークとグラフアテンション層の重要な役割を強調した。
EL-MLFFsフレームワークは、MLFFにおけるモデル選択と力の予測精度の課題に対する有望な解決策を提供し、より信頼性が高く効率的な分子シミュレーションの道を開く。
Machine learning force fields (MLFFs) have emerged as a promising approach to bridge the accuracy of quantum mechanical methods and the efficiency of classical force fields. However, the abundance of MLFF models and the challenge of accurately predicting atomic forces pose significant obstacles in their practical application. In this paper, we propose a novel ensemble learning framework, EL-MLFFs, which leverages the stacking method to integrate predictions from diverse MLFFs and enhance force prediction accuracy. By constructing a graph representation of molecular structures and employing a graph neural network (GNN) as the meta-model, EL-MLFFs effectively captures atomic interactions and refines force predictions. We evaluate our approach on two distinct datasets: methane molecules and methanol adsorbed on a Cu(100) surface. The results demonstrate that EL-MLFFs significantly improves force prediction accuracy compared to individual MLFFs, with the ensemble of all eight models yielding the best performance. Moreover, our ablation study highlights the crucial roles of the residual network and graph attention layers in the model's architecture. The EL-MLFFs framework offers a promising solution to the challenges of model selection and force prediction accuracy in MLFFs, paving the way for more reliable and efficient molecular simulations. | 翻訳日:2024-03-27 16:06:48 公開日:2024-03-26 |
# ランダム結合型ニューラルネットワーク
Random-coupled Neural Network ( http://arxiv.org/abs/2403.17512v1 ) ライセンス: Link先を確認 | Haoran Liu, Mingzhe Liu, Peng Li, Jiahui Wu, Xin Jiang, Zhuo Zuo, Bingqi Liu, | (参考訳) 近年、現在のニューラルネットワークの効率を改善し、生体神経システムでそれらをモデル化することが研究の方向性として人気を博している。
パルス結合ニューラルネットワーク(PCNN)は、コンピュータビジョンとニューラルネットワークの分野における人間の脳の計算特性を模倣する、よく応用されたモデルである。
しかし、PCNNと生物学的ニューラルネットワークの違いは、限られた神経接続、高い計算コスト、確率的特性の欠如である。
本研究では,ランダム結合ニューラルネットワーク(RCNN)を提案する。
ランダム不活性化プロセスを通じて、PCNNのニューロモルフィックコンピューティングにおけるこれらの困難を克服する。
このプロセスは、リンク入力のランダム不活性化重み行列によって実現されたRCNNモデルのいくつかのニューラルネットワークをランダムにクローズする。
これにより、PCNNの計算負担が解放され、膨大なニューラルネットワークを実現するのに安価になる。
さらに,RCNNの画像処理機構と映像処理機構について検討した。
周期的なスパイク・トレインや周期的な刺激をカオス的なスパイク・トレインとしてエンコードする。
最後に、RCNNは画像分割、融合、パルス形状判別サブタスクに適用される。
強靭で、効率的で、非常にアンチノイズ化されており、上述した全てのアプリケーションで優れた性能を発揮している。
Improving the efficiency of current neural networks and modeling them in biological neural systems have become popular research directions in recent years. Pulse-coupled neural network (PCNN) is a well applicated model for imitating the computation characteristics of the human brain in computer vision and neural network fields. However, differences between the PCNN and biological neural systems remain: limited neural connection, high computational cost, and lack of stochastic property. In this study, random-coupled neural network (RCNN) is proposed. It overcomes these difficulties in PCNN's neuromorphic computing via a random inactivation process. This process randomly closes some neural connections in the RCNN model, realized by the random inactivation weight matrix of link input. This releases the computational burden of PCNN, making it affordable to achieve vast neural connections. Furthermore, the image and video processing mechanisms of RCNN are researched. It encodes constant stimuli as periodic spike trains and periodic stimuli as chaotic spike trains, the same as biological neural information encoding characteristics. Finally, the RCNN is applicated to image segmentation, fusion, and pulse shape discrimination subtasks. It is demonstrated to be robust, efficient, and highly anti-noised, with outstanding performance in all applications mentioned above. | 翻訳日:2024-03-27 16:06:48 公開日:2024-03-26 |
# トレーニングと推論における予測共有
Prediction-sharing During Training and Inference ( http://arxiv.org/abs/2403.17515v1 ) ライセンス: Link先を確認 | Yotam Gafni, Ronen Gradwohl, Moshe Tennenholtz, | (参考訳) 2つの企業が競争予測タスクに従事しています。
各会社には2つのデータソース -- ラベル付き履歴データとラベル付き推論時間データ — があり、前者は予測モデルを導き、後者は新たなインスタンスの予測を行う。
両社間のデータ共有契約について検討する。
本研究の新規性は,予測モデルのみを共有する契約,推論時間のみを共有する契約,両方を共有する契約の相違を紹介・強調することである。
私たちの分析は3段階に進む。
まず,本研究を円滑に進める一般ベイズ的枠組みを開発する。
次に、このフレームワーク内の2つの自然な設定に焦点を絞ります。
一 各会社の予測モデルの正確さが共通の知識であるが、各モデル間の相関関係が不明な状況
二 最適予測器に関する二つの仮説が存在し、かつ、その一方が、その推論において構造上の優位性を有する設定
この2つの設定の中で、最適なコントラクトの選択を研究します。
より具体的には、いくつかの顕著なケースに対して、個々に合理的かつパレート最適の契約を見つけ、異なる共有契約が最適なものとして出現する特定の設定を記述します。
最後に、本分析の第3段階において、実ローンデータを用いた合成シミュレーションにおいて、概念の適用性を示す。
Two firms are engaged in a competitive prediction task. Each firm has two sources of data -- labeled historical data and unlabeled inference-time data -- and uses the former to derive a prediction model, and the latter to make predictions on new instances. We study data-sharing contracts between the firms. The novelty of our study is to introduce and highlight the differences between contracts that share prediction models only, contracts to share inference-time predictions only, and contracts to share both. Our analysis proceeds on three levels. First, we develop a general Bayesian framework that facilitates our study. Second, we narrow our focus to two natural settings within this framework: (i) a setting in which the accuracy of each firm's prediction model is common knowledge, but the correlation between the respective models is unknown; and (ii) a setting in which two hypotheses exist regarding the optimal predictor, and one of the firms has a structural advantage in deducing it. Within these two settings we study optimal contract choice. More specifically, we find the individually rational and Pareto-optimal contracts for some notable cases, and describe specific settings where each of the different sharing contracts emerge as optimal. Finally, in the third level of our analysis we demonstrate the applicability of our concepts in a synthetic simulation using real loan data. | 翻訳日:2024-03-27 16:06:48 公開日:2024-03-26 |
# MapGuide: 脳活動から継続的言語を再構築するためのシンプルで効果的な方法
MapGuide: A Simple yet Effective Method to Reconstruct Continuous Language from Brain Activities ( http://arxiv.org/abs/2403.17516v1 ) ライセンス: Link先を確認 | Xinpei Zhao, Jingyuan Sun, Shaonan Wang, Jing Ye, Xiaohan Zhang, Chengqing Zong, | (参考訳) 脳の活動から連続した言語を復号することは、恐ろしいが有望な研究分野である。
特に、言語障害のある人が脳信号を通してコミュニケーションするのを助けることが重要である。
このフィールドは、脳信号をテキストにマッピングする複雑なタスクに対処する。
最初は、テキストから脳活動をエンコードし、予測された脳反応と整合して、テキスト生成をガイドすることから始まりました。
対照的に、本研究では、脳活動からマッピングされた予測されたテキスト埋め込みと直接比較することで、テキスト再構成をガイドする簡易かつ効果的な方法を提案する。
総合実験の結果,本手法は最先端モデルよりも優れており,BLEUとMETEORのスコアに対して平均77%,54%の改善が見られた。
我々はさらに、詳細なアブレーション研究とケース分析を通じて提案したモジュールを検証し、より正確に脳活動をテキスト埋め込みにマッピングするほど、テキスト再構成結果がより良くなるという、重要な相関関係を強調した。
このような洞察は、将来の作業のために脳の活動から言語を再構築する作業を単純化し、脳からテキストへの埋め込みマッピング技術を改善することの重要性を強調します。
Decoding continuous language from brain activity is a formidable yet promising field of research. It is particularly significant for aiding people with speech disabilities to communicate through brain signals. This field addresses the complex task of mapping brain signals to text. The previous best attempt reverse-engineered this process in an indirect way: it began by learning to encode brain activity from text and then guided text generation by aligning with predicted brain responses. In contrast, we propose a simple yet effective method that guides text reconstruction by directly comparing them with the predicted text embeddings mapped from brain activities. Comprehensive experiments reveal that our method significantly outperforms the current state-of-the-art model, showing average improvements of 77% and 54% on BLEU and METEOR scores. We further validate the proposed modules through detailed ablation studies and case analyses and highlight a critical correlation: the more precisely we map brain activities to text embeddings, the better the text reconstruction results. Such insight can simplify the task of reconstructing language from brain activities for future work, emphasizing the importance of improving brain-to-text-embedding mapping techniques. | 翻訳日:2024-03-27 16:06:48 公開日:2024-03-26 |
# Fisher-Rao Norm-based Regularization による対人訓練の強化
Boosting Adversarial Training via Fisher-Rao Norm-based Regularization ( http://arxiv.org/abs/2403.17520v1 ) ライセンス: Link先を確認 | Xiangyu Yin, Wenjie Ruan, | (参考訳) 敵のトレーニングは、ディープニューラルネットワークの敵の堅牢性を改善するために広く利用されている。
しかし、逆学習モデルにおける標準一般化性能の低下を緩和することは未解決の問題である。
本稿では,モデル複雑性のレンズを用いてこの問題の解決を試みる。
まず、モデル複雑性の幾何学的不変量であるFisher-Raoノルムを用いて、ReLU活性化多層パーセプトロンに対するクロスエントロピーロスに基づくラデマッハ複雑性の非自明な境界を確立する。
次に,モデル幅の変化や,逆行訓練におけるトレードオフ要因に敏感な複雑性関連変数を一般化する。
さらに、集中的な経験的証拠は、この変数が、特に訓練過程の初期および最終段階において、対向訓練されたモデルと標準訓練されたモデルの間のクロスエントロピー損失の一般化ギャップと高い相関関係があることを証明している。
この観測に基づいて,ロジット指向逆行訓練(LOAT)と呼ばれる新たな正規化フレームワークを提案する。
提案手法は, PGD-AT, TRADES, TRADES (LSE), MART, DM-ATなど, 様々なネットワークアーキテクチャにおいて, 一般的な学習アルゴリズムの性能向上を図っている。
私たちのコードはhttps://github.com/TrustAI/LOAT.comで公開されます。
Adversarial training is extensively utilized to improve the adversarial robustness of deep neural networks. Yet, mitigating the degradation of standard generalization performance in adversarial-trained models remains an open problem. This paper attempts to resolve this issue through the lens of model complexity. First, We leverage the Fisher-Rao norm, a geometrically invariant metric for model complexity, to establish the non-trivial bounds of the Cross-Entropy Loss-based Rademacher complexity for a ReLU-activated Multi-Layer Perceptron. Then we generalize a complexity-related variable, which is sensitive to the changes in model width and the trade-off factors in adversarial training. Moreover, intensive empirical evidence validates that this variable highly correlates with the generalization gap of Cross-Entropy loss between adversarial-trained and standard-trained models, especially during the initial and final phases of the training process. Building upon this observation, we propose a novel regularization framework, called Logit-Oriented Adversarial Training (LOAT), which can mitigate the trade-off between robustness and accuracy while imposing only a negligible increase in computational overhead. Our extensive experiments demonstrate that the proposed regularization strategy can boost the performance of the prevalent adversarial training algorithms, including PGD-AT, TRADES, TRADES (LSE), MART, and DM-AT, across various network architectures. Our code will be available at https://github.com/TrustAI/LOAT. | 翻訳日:2024-03-27 16:06:48 公開日:2024-03-26 |
# 神経言語学的ステガノグラフィーの安全性
Provably Secure Disambiguating Neural Linguistic Steganography ( http://arxiv.org/abs/2403.17524v1 ) ライセンス: Link先を確認 | Yuang Qi, Kejiang Chen, Kai Zeng, Weiming Zhang, Nenghai Yu, | (参考訳) 近年、確実に安全な神経言語ステガノグラフィーの研究は、送信側が盗聴者からの疑念を起こさないようにステゴテキストを解読しなければならないという重要な側面を見落としている。
サブワードに基づく言語モデルを使用する際に生じるセグメンテーション曖昧性問題は、これらのモデルに基づく全てのニューラルネットワークステガノグラフィー実装において時折デコード障害を引き起こす。
この問題に対する現在の解決策は、候補単語の確率分布を変更することであり、確実に安全なステガノグラフィーと互換性がない。
そこで我々はSyncPoolという,セグメンテーションのあいまいさ問題に効果的に対処する,セキュアな曖昧さ回避手法を提案する。
ステガノグラフ埋め込みアルゴリズムが実行される前に,全てのトークンをプレフィックス関係でグループ化し,不明瞭なトークン間の不確実性を排除した。
受信機が送信者のサンプリングプロセスを同期できるように、共有暗号セキュアな擬似乱数生成器(CSPRNG)を配置してあいまいさプールからトークンを選択する。
SyncPoolは、候補プールのサイズやトークンの分布を変えないため、確実に安全な言語ステガノグラフィー手法に適用できる。
理論的な証明を提供し、様々な言語やモデルに適用可能であることを実験的に証明し、ニューラル言語ステガノグラフィーシステムの信頼性と安全性を著しく向上させる可能性を示した。
Recent research in provably secure neural linguistic steganography has overlooked a crucial aspect: the sender must detokenize stegotexts to avoid raising suspicion from the eavesdropper. The segmentation ambiguity problem, which arises when using language models based on subwords, leads to occasional decoding failures in all neural language steganography implementations based on these models. Current solutions to this issue involve altering the probability distribution of candidate words, rendering them incompatible with provably secure steganography. We propose a novel secure disambiguation method named SyncPool, which effectively addresses the segmentation ambiguity problem. We group all tokens with prefix relationships in the candidate pool before the steganographic embedding algorithm runs to eliminate uncertainty among ambiguous tokens. To enable the receiver to synchronize the sampling process of the sender, a shared cryptographically-secure pseudorandom number generator (CSPRNG) is deployed to select a token from the ambiguity pool. SyncPool does not change the size of the candidate pool or the distribution of tokens and thus is applicable to provably secure language steganography methods. We provide theoretical proofs and experimentally demonstrate the applicability of our solution to various languages and models, showing its potential to significantly improve the reliability and security of neural linguistic steganography systems. | 翻訳日:2024-03-27 16:06:48 公開日:2024-03-26 |
# テクスチャ・スケッチ表現のための文脈対応位置符号化によるスケッチ・パッチの取得
Equipping Sketch Patches with Context-Aware Positional Encoding for Graphic Sketch Representation ( http://arxiv.org/abs/2403.17525v1 ) ライセンス: Link先を確認 | Sicong Zang, Zhijun Fang, | (参考訳) スケッチの描画順序は、人間によるストローク・バイ・ストロークの作り方を記録する。
図形スケッチ表現学習において,近年の研究では,各パッチを他のパッチにリンクすることで,図形描画命令をグラフエッジ構築に注入する手法が提案されている。
しかし、このような構築されたグラフのエッジは、スケッチが図面の変種を持つ可能性があるため、信頼性が低い可能性がある。
本稿では,図形スケッチ表現の学習において,描画順序をよりよく活用するために,図形スケッチと文脈認識位置符号化(PE)を併用した変分描画保護手法を提案する。
スケッチ描画をグラフエッジに注入する代わりに、これらのシーケンシャル情報をグラフノードにのみ埋め込む。
より具体的には、各パッチ埋め込みは、描画順序におけるシーケンシャル位置を強調する正弦波絶対PEを備える。
そして、その近傍のパッチは、パッチ埋め込み間の自己注意スコアの値にランク付けされ、学習可能な相対的PEを備えて、近隣の文脈的位置を復元する。
グラフ畳み込みネットワークを介してメッセージアグリゲーションを行う際、ノードは、パッチ埋め込みからセマンティックコンテンツと、隣人によるPEからのコンテキストパターンの両方を受け取り、描画順序付きスケッチ表現に到達する。
実験結果から,本手法はスケッチのヒーリングと制御可能なスケッチ合成を大幅に改善することが示された。
The drawing order of a sketch records how it is created stroke-by-stroke by a human being. For graphic sketch representation learning, recent studies have injected sketch drawing orders into graph edge construction by linking each patch to another in accordance to a temporal-based nearest neighboring strategy. However, such constructed graph edges may be unreliable, since a sketch could have variants of drawings. In this paper, we propose a variant-drawing-protected method by equipping sketch patches with context-aware positional encoding (PE) to make better use of drawing orders for learning graphic sketch representation. Instead of injecting sketch drawings into graph edges, we embed these sequential information into graph nodes only. More specifically, each patch embedding is equipped with a sinusoidal absolute PE to highlight the sequential position in the drawing order. And its neighboring patches, ranked by the values of self-attention scores between patch embeddings, are equipped with learnable relative PEs to restore the contextual positions within a neighborhood. During message aggregation via graph convolutional networks, a node receives both semantic contents from patch embeddings and contextual patterns from PEs by its neighbors, arriving at drawing-order-enhanced sketch representations. Experimental results indicate that our method significantly improves sketch healing and controllable sketch synthesis. | 翻訳日:2024-03-27 16:06:48 公開日:2024-03-26 |
# Multilingual Sentence-T5: マルチ言語アプリケーションのためのスケーラブルな文エンコーダ
Multilingual Sentence-T5: Scalable Sentence Encoders for Multilingual Applications ( http://arxiv.org/abs/2403.17528v1 ) ライセンス: Link先を確認 | Chihiro Yano, Akihiko Fukuchi, Shoko Fukasawa, Hideyuki Tachibana, Yotaro Watanabe, | (参考訳) 多言語文の埋め込みに関する先行研究は、自然言語推論(NLI)データを用いた高性能モデルの構築が従来の手法より優れていることを示した。
しかし、数十億のパラメータを持つ言語モデルの最近の ‘exponential' 成長による潜在的な利点は、まだ十分に調査されていない。
本稿では,既存のモノリンガルモデルであるSentence T5を拡張して,NLIに基づく多言語文埋め込みのモデルとして,Multilingual Sentence T5(m-ST5)を導入する。
低ランク適応(LoRA)技術を用いることで、モデルのサイズを570億のパラメータに拡張することに成功した。
文の埋め込み性能を評価する実験を行い,NLIに基づく先行手法よりも優れていることを確認した。
さらに,モデルのサイズと性能の正の相関も確認した。
特に、リソースが少ない言語や、英語との言語的類似性が低い言語は、パラメータの増加の恩恵を受けていた。
私たちのモデルはhttps://huggingface.co/pkshatech/m-ST5.comで利用可能です。
Prior work on multilingual sentence embedding has demonstrated that the efficient use of natural language inference (NLI) data to build high-performance models can outperform conventional methods. However, the potential benefits from the recent ``exponential'' growth of language models with billions of parameters have not yet been fully explored. In this paper, we introduce Multilingual Sentence T5 (m-ST5), as a larger model of NLI-based multilingual sentence embedding, by extending Sentence T5, an existing monolingual model. By employing the low-rank adaptation (LoRA) technique, we have achieved a successful scaling of the model's size to 5.7 billion parameters. We conducted experiments to evaluate the performance of sentence embedding and verified that the method outperforms the NLI-based prior approach. Furthermore, we also have confirmed a positive correlation between the size of the model and its performance. It was particularly noteworthy that languages with fewer resources or those with less linguistic similarity to English benefited more from the parameter increase. Our model is available at https://huggingface.co/pkshatech/m-ST5. | 翻訳日:2024-03-27 16:06:48 公開日:2024-03-26 |
# 医用画像分類のためのアンタングル型自己監督学習とメタラーニングによるFew-Shot学習の強化
Boosting Few-Shot Learning with Disentangled Self-Supervised Learning and Meta-Learning for Medical Image Classification ( http://arxiv.org/abs/2403.17530v1 ) ライセンス: Link先を確認 | Eva Pachetti, Sotirios A. Tsaftaris, Sara Colantonio, | (参考訳) 背景と目的: 医用画像などの重要な領域でディープラーニングモデルを採用することは、トレーニングデータの限られた可用性に関連する課題を引き起こす。
低データ体制下で訓練されたモデルの性能と一般化能力を改善するための戦略を提案する。
方法: 提案手法は, 自己教師付き学習環境において学習した特徴を, 下流タスクの表現の堅牢性を改善するために切り離す事前学習段階から始める。
次に、メタファインニングのステップを導入し、メタトレーニングとメタテストフェーズの関連クラスを活用するが、粒度レベルは変化する。
本手法は,メタトレーニング時により困難な分類タスクに公開し,より簡単なタスクで評価することで,メタテスト時の臨床関連性を高めることによって,モデルの一般化能力を高めることを目的とする。
提案手法は,MRIデータからの前立腺癌攻撃性の分類と顕微鏡画像からの乳癌悪性度の分類という,2つの異なる医療課題において,いくつかのバックボーン,多様な事前訓練および微調整スキームを探索する一連の実験を通じて,提案手法の有効性を実証する。
結果: 提案手法は, トレーニングと評価データ間の分散シフトが生じた場合でも, 競争力を維持しつつ, 良好な性能を示すことが示唆された。
結論: 広範囲にわたる実験により,提案手法の有効性と適用性を示した。
この研究は、データスカース画像領域における学習問題に対処するための新たなソリューションとして、さらに追加されることを願っている。
Background and objective: Employing deep learning models in critical domains such as medical imaging poses challenges associated with the limited availability of training data. We present a strategy for improving the performance and generalization capabilities of models trained in low-data regimes. Methods: The proposed method starts with a pre-training phase, where features learned in a self-supervised learning setting are disentangled to improve the robustness of the representations for downstream tasks. We then introduce a meta-fine-tuning step, leveraging related classes between meta-training and meta-testing phases but varying the granularity level. This approach aims to enhance the model's generalization capabilities by exposing it to more challenging classification tasks during meta-training and evaluating it on easier tasks but holding greater clinical relevance during meta-testing. We demonstrate the effectiveness of the proposed approach through a series of experiments exploring several backbones, as well as diverse pre-training and fine-tuning schemes, on two distinct medical tasks, i.e., classification of prostate cancer aggressiveness from MRI data and classification of breast cancer malignity from microscopic images. Results: Our results indicate that the proposed approach consistently yields superior performance w.r.t. ablation experiments, maintaining competitiveness even when a distribution shift between training and evaluation data occurs. Conclusion: Extensive experiments demonstrate the effectiveness and wide applicability of the proposed approach. We hope that this work will add another solution to the arsenal of addressing learning issues in data-scarce imaging domains. | 翻訳日:2024-03-27 16:06:48 公開日:2024-03-26 |
# KC-GenRe:知識グラフ補完のための大規模言語モデルに基づく知識制約付き生成復級法
KC-GenRe: A Knowledge-constrained Generative Re-ranking Method Based on Large Language Models for Knowledge Graph Completion ( http://arxiv.org/abs/2403.17532v1 ) ライセンス: Link先を確認 | Yilin Wang, Minghao Hu, Zhen Huang, Dongsheng Li, Dong Yang, Xicheng Lu, | (参考訳) 知識グラフ補完(KGC)の目標は、エンティティ間の行方不明な事実を予測することである。
KGCの再ランク付けのための従来の手法は、ほとんどの場合、各候補の確率を得るために、生成言語モデルに基づいて構築されている。
近年,情報抽出やダイアログシステムなどのタスクにおいて,ジェネレーティブな大規模言語モデル (LLM) が優れた性能を発揮している。
それらをKGCの再評価に活用することは、訓練済みの広範な知識と強力な生成能力を活用する上で有益である。
しかし、タスクを達成する際には、ミスマッチ、ミスオーダー、省略という新たな問題が発生する可能性がある。
そこで本研究では,KGC のための LLM に基づく知識制約付き生成復号法である KC-GenRe を紹介する。
ミスマッチ問題を克服するために、生成LDMによって実装された候補識別子ソート生成問題として、KGC再分類タスクを定式化する。
誤注文問題に対処するため,候補者の識別とランク付けを強化する知識誘導型対話型トレーニング手法を開発した。
省略問題に対処するために、文脈的プロンプトと制御された生成を可能にする知識強化制約推論手法を設計し、有効なランキングを得る。
実験の結果、KG-GenReは4つのデータセットで最先端のパフォーマンスを達成し、MRRおよびHits@1測定値の最大6.7%と7.7%の上昇、9.0%と11.1%の上昇を示した。
広範囲な分析により、KG-GenReの成分の有効性が示されている。
The goal of knowledge graph completion (KGC) is to predict missing facts among entities. Previous methods for KGC re-ranking are mostly built on non-generative language models to obtain the probability of each candidate. Recently, generative large language models (LLMs) have shown outstanding performance on several tasks such as information extraction and dialog systems. Leveraging them for KGC re-ranking is beneficial for leveraging the extensive pre-trained knowledge and powerful generative capabilities. However, it may encounter new problems when accomplishing the task, namely mismatch, misordering and omission. To this end, we introduce KC-GenRe, a knowledge-constrained generative re-ranking method based on LLMs for KGC. To overcome the mismatch issue, we formulate the KGC re-ranking task as a candidate identifier sorting generation problem implemented by generative LLMs. To tackle the misordering issue, we develop a knowledge-guided interactive training method that enhances the identification and ranking of candidates. To address the omission issue, we design a knowledge-augmented constrained inference method that enables contextual prompting and controlled generation, so as to obtain valid rankings. Experimental results show that KG-GenRe achieves state-of-the-art performance on four datasets, with gains of up to 6.7% and 7.7% in the MRR and Hits@1 metric compared to previous methods, and 9.0% and 11.1% compared to that without re-ranking. Extensive analysis demonstrates the effectiveness of components in KG-GenRe. | 翻訳日:2024-03-27 15:57:01 公開日:2024-03-26 |
# BVR Gym: ビジュアルラジエアーコンバットの強化学習環境
BVR Gym: A Reinforcement Learning Environment for Beyond-Visual-Range Air Combat ( http://arxiv.org/abs/2403.17533v1 ) ライセンス: Link先を確認 | Edvards Scukins, Markus Klein, Lars Kroon, Petter Ögren, | (参考訳) 新しい戦闘戦術を作成し、新しい戦術を発見するには、多くの専門パイロットの時間を要する。
さらに、異なる戦闘シナリオごとに、機器性能の小さな変更が航空戦結果を大きく変える可能性があるため、同じ戦略は機能しない可能性がある。
そこで我々は,近距離空戦(BVR)分野における潜在的な空戦戦術,BVR Gymの探索を支援するため,強化学習環境を構築した。
長距離ミサイルは、しばしば空中戦闘で使用される最初の兵器であるため、この種の空中戦闘は重要である。
いくつかの既存の環境は高忠実度シミュレーションを提供しているが、オープンソースではないか、BVR空戦領域に適応していない。
他の環境はオープンソースだが、より正確なシミュレーションモデルを使用する。
本研究は、オープンソースのフライトダイナミクスシミュレータJSBSimに基づく高忠実度環境を提供し、BVR空戦領域に適応する。
この記事では、環境の構成要素といくつかのユースケースについて説明する。
Creating new air combat tactics and discovering novel maneuvers can require numerous hours of expert pilots' time. Additionally, for each different combat scenario, the same strategies may not work since small changes in equipment performance may drastically change the air combat outcome. For this reason, we created a reinforcement learning environment to help investigate potential air combat tactics in the field of beyond-visual-range (BVR) air combat: the BVR Gym. This type of air combat is important since long-range missiles are often the first weapon to be used in aerial combat. Some existing environments provide high-fidelity simulations but are either not open source or are not adapted to the BVR air combat domain. Other environments are open source but use less accurate simulation models. Our work provides a high-fidelity environment based on the open-source flight dynamics simulator JSBSim and is adapted to the BVR air combat domain. This article describes the building blocks of the environment and some use cases. | 翻訳日:2024-03-27 15:57:01 公開日:2024-03-26 |
# 木バンクからの自動文法規則抽出のための高次特徴をもつスパースロジスティック回帰
Sparse Logistic Regression with High-order Features for Automatic Grammar Rule Extraction from Treebanks ( http://arxiv.org/abs/2403.17534v1 ) ライセンス: Link先を確認 | Santiago Herrera, Caio Corro, Sylvain Kahane, | (参考訳) 記述文法は非常に価値がありますが、それらを書くのに時間がかかり、難しいのです。
さらに、言語学者はコーパスを用いてコーパスを作成するのが一般的であるが、文法の記述には量的なデータがないことが多い。
形式文法については、解釈が難しい場合がある。
本稿では,木バンクから重要な粒度文法パターンと潜在的な構文文法規則を抽出し,探索し,理解し易いコーパスベース文法を作成する手法を提案する。
より具体的には,2つの言語現象,合意と語順に関する記述と規則を抽出し,大規模な検索空間を用いて,抽出した規則のランク付け順序に特別な注意を払う。
そのため、線形分類器を用いて、研究中の言語現象を予測する最も健全な特徴を抽出する。
我々は,各ルールに統計情報を関連付けるとともに,モデルの結果を他の量的・統計的尺度と比較する。
我々の手法は、スペイン語、フランス語、ウーロフにおける有名な文法規則とあまり知られていない重要な文法規則の両方を捉えている。
Descriptive grammars are highly valuable, but writing them is time-consuming and difficult. Furthermore, while linguists typically use corpora to create them, grammar descriptions often lack quantitative data. As for formal grammars, they can be challenging to interpret. In this paper, we propose a new method to extract and explore significant fine-grained grammar patterns and potential syntactic grammar rules from treebanks, in order to create an easy-to-understand corpus-based grammar. More specifically, we extract descriptions and rules across different languages for two linguistic phenomena, agreement and word order, using a large search space and paying special attention to the ranking order of the extracted rules. For that, we use a linear classifier to extract the most salient features that predict the linguistic phenomena under study. We associate statistical information to each rule, and we compare the ranking of the model's results to those of other quantitative and statistical measures. Our method captures both well-known and less well-known significant grammar rules in Spanish, French, and Wolof. | 翻訳日:2024-03-27 15:57:01 公開日:2024-03-26 |
# ILLUMINER:Few-shot Intent ClassifierとSlot Fillerとしての命令調整型大規模言語モデル
ILLUMINER: Instruction-tuned Large Language Models as Few-shot Intent Classifier and Slot Filler ( http://arxiv.org/abs/2403.17536v1 ) ライセンス: Link先を確認 | Paramita Mirza, Viju Sudhi, Soumya Ranjan Sahoo, Sinchana Ramakanth Bhat, | (参考訳) State-of-the-art intent classification (IC) と slot fill (SF) の手法は、しばしばデータ集約的なディープラーニングモデルに依存し、産業アプリケーションに対する実用性を制限する。
一方、大規模言語モデル、特に命令調整型モデル(インストラクト-LLM)は、様々な自然言語タスクにおいて顕著なゼロショット性能を示す。
本研究では,IC と SF のベンチマークデータセットに対するインストラクト-LLM の評価を行い,より少ない例から学ぶ能力を強調した。
Instruct-LLM の言語生成タスクとして IC と SF をフレーミングする ILLUMINER を導入する。
FLAN-T5 11B モデルを用いた複数のベースラインとの総合的な比較により,提案手法は最先端のジョイントIC+SF法や GPT3.5 (175B) を用いたインコンテクスト学習よりも優れており,特にスロットフィリングにおいて 11.1-32.2 ポイント向上している。
さらに,パラメータ効率のよい微調整は,従来のフルウェイト微調整と同等の性能を発揮するために,6%未満のトレーニングデータを必要とすることを示した。
State-of-the-art intent classification (IC) and slot filling (SF) methods often rely on data-intensive deep learning models, limiting their practicality for industry applications. Large language models on the other hand, particularly instruction-tuned models (Instruct-LLMs), exhibit remarkable zero-shot performance across various natural language tasks. This study evaluates Instruct-LLMs on popular benchmark datasets for IC and SF, emphasizing their capacity to learn from fewer examples. We introduce ILLUMINER, an approach framing IC and SF as language generation tasks for Instruct-LLMs, with a more efficient SF-prompting method compared to prior work. A comprehensive comparison with multiple baselines shows that our approach, using the FLAN-T5 11B model, outperforms the state-of-the-art joint IC+SF method and in-context learning with GPT3.5 (175B), particularly in slot filling by 11.1--32.2 percentage points. Additionally, our in-depth ablation study demonstrates that parameter-efficient fine-tuning requires less than 6% of training data to yield comparable performance with traditional full-weight fine-tuning. | 翻訳日:2024-03-27 15:57:01 公開日:2024-03-26 |
# NeRF-HuGS:Huistics-Guided Segmentation を用いた非定常シーンにおけるニューラル放射場の改善
NeRF-HuGS: Improved Neural Radiance Fields in Non-static Scenes Using Heuristics-Guided Segmentation ( http://arxiv.org/abs/2403.17537v1 ) ライセンス: Link先を確認 | Jiahao Chen, Yipeng Qin, Lingjie Liu, Jiangbo Lu, Guanbin Li, | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、新しいビュー合成と3次元シーン再構成に優れていたことが広く認識されている。
しかし、それらの効果は本質的に静的な場面の仮定と結びついており、移動物体や影のような過渡的な邪魔者に直面しているときに、望ましくない人工物に感受性がある。
本研究では,手作りヒューリスティックスと最先端セグメンテーションモデルの強みを調和させることにより,静的シーンと過渡的気晴らしの分離を著しく促進する新しいパラダイム,HuGSを提案する。
さらに、我々はヒューリスティックスを綿密に設計し、SfM(Structure-from-Motion)ベースのヒューリスティックスとカラー残留ヒューリスティックスをシームレスに融合させ、多様なテクスチャプロファイルに対応させた。
非定常場面で訓練されたNeRFの過渡的乱れを緩和する手法の優位性とロバスト性を示す実験を行った。
プロジェクトページ:https://cnhaox.github.io/NeRF-HuGS/。
Neural Radiance Field (NeRF) has been widely recognized for its excellence in novel view synthesis and 3D scene reconstruction. However, their effectiveness is inherently tied to the assumption of static scenes, rendering them susceptible to undesirable artifacts when confronted with transient distractors such as moving objects or shadows. In this work, we propose a novel paradigm, namely "Heuristics-Guided Segmentation" (HuGS), which significantly enhances the separation of static scenes from transient distractors by harmoniously combining the strengths of hand-crafted heuristics and state-of-the-art segmentation models, thus significantly transcending the limitations of previous solutions. Furthermore, we delve into the meticulous design of heuristics, introducing a seamless fusion of Structure-from-Motion (SfM)-based heuristics and color residual heuristics, catering to a diverse range of texture profiles. Extensive experiments demonstrate the superiority and robustness of our method in mitigating transient distractors for NeRFs trained in non-static scenes. Project page: https://cnhaox.github.io/NeRF-HuGS/. | 翻訳日:2024-03-27 15:57:01 公開日:2024-03-26 |
# 大規模言語モデルは文法的誤り訂正のための最先端評価器である
Large Language Models Are State-of-the-Art Evaluator for Grammatical Error Correction ( http://arxiv.org/abs/2403.17540v1 ) ライセンス: Link先を確認 | Masamune Kobayashi, Masato Mita, Mamoru Komachi, | (参考訳) 大規模言語モデル(LLM)は、テキスト要約や機械翻訳などのタスクにおいて、既存の自動評価指標より優れていることが報告されている。
しかし,文法的誤り訂正(GEC)における評価器としてのLLMの研究は乏しい。
本研究では,従来の研究から着想を得た各種評価基準を取り入れたプロンプトを用いて,GEC評価におけるLCMの性能について検討した。
以上の結果から, GPT-4はKendallの0.662と人的判断の相関を達成し, 既存のすべての手法を上回る結果となった。
さらに,近年のGEC評価では,LLMs尺度の重要性が強調され,評価基準における流速の重要性が特に強調されている。
Large Language Models (LLMs) have been reported to outperform existing automatic evaluation metrics in some tasks, such as text summarization and machine translation. However, there has been a lack of research on LLMs as evaluators in grammatical error correction (GEC). In this study, we investigate the performance of LLMs in GEC evaluation by employing prompts designed to incorporate various evaluation criteria inspired by previous research. Our extensive experimental results demonstrate that GPT-4 achieved Kendall's rank correlation of 0.662 with human judgments, surpassing all existing methods. Furthermore, in recent GEC evaluations, we have underscored the significance of the LLMs scale and particularly emphasized the importance of fluency among evaluation criteria. | 翻訳日:2024-03-27 15:57:01 公開日:2024-03-26 |
# WordRobe:テクスチャ付き3Dガーメントのテキストガイド
WordRobe: Text-Guided Generation of Textured 3D Garments ( http://arxiv.org/abs/2403.17541v1 ) ライセンス: Link先を確認 | Astitva Srivastava, Pranav Manu, Amit Raj, Varun Jampani, Avinash Sharma, | (参考訳) 本稿では,高品質なテクスチャを用いた3D衣料のテクスチャ生成という,テキスト駆動による新たな課題に取り組む。
ユーザフレンドリーなテキストプロンプトから非ポーズでテクスチャ化された3Dメッシュを生成するための新しいフレームワークであるWordRobeを提案する。
そこで我々は,新しい粗いトレーニング戦略と潜伏解離の損失を用いて3次元衣服の潜伏表現を学習し,より潜伏補間を促進させることにより,これを実現した。
その後,布地をCLIP埋め込み空間に整列させ,テキストによる3D衣料生成と編集を可能にする。
外観モデリングでは、制御ネットのゼロショット生成機能を利用して、単一のフィードフォワード推論ステップでビュー一貫性のあるテクスチャマップを合成し、既存の手法と比較して生成時間を劇的に短縮する。
定量的評価と質的ユーザスタディによって支援された3次元衣服の潜伏空間、衣服補間、テキスト駆動テクスチャ合成の学習において、現在のSOTAよりも優れた性能を示す。
WordRobeを使って生成された非ポーズの3Dメッシュは、後処理なしで標準的な布のシミュレーションとアニメーションパイプラインに直接供給することができる。
In this paper, we tackle a new and challenging problem of text-driven generation of 3D garments with high-quality textures. We propose "WordRobe", a novel framework for the generation of unposed & textured 3D garment meshes from user-friendly text prompts. We achieve this by first learning a latent representation of 3D garments using a novel coarse-to-fine training strategy and a loss for latent disentanglement, promoting better latent interpolation. Subsequently, we align the garment latent space to the CLIP embedding space in a weakly supervised manner, enabling text-driven 3D garment generation and editing. For appearance modeling, we leverage the zero-shot generation capability of ControlNet to synthesize view-consistent texture maps in a single feed-forward inference step, thereby drastically decreasing the generation time as compared to existing methods. We demonstrate superior performance over current SOTAs for learning 3D garment latent space, garment interpolation, and text-driven texture synthesis, supported by quantitative evaluation and qualitative user study. The unposed 3D garment meshes generated using WordRobe can be directly fed to standard cloth simulation & animation pipelines without any post-processing. | 翻訳日:2024-03-27 15:57:01 公開日:2024-03-26 |
# VDSC: 価値の相違と状態カウントによる探索タイムの強化
VDSC: Enhancing Exploration Timing with Value Discrepancy and State Counts ( http://arxiv.org/abs/2403.17542v1 ) ライセンス: Link先を確認 | Marius Captari, Remo Sasso, Matthia Sabatelli, | (参考訳) 深層強化学習における『textit{how much} 』と『textit{how to} 』の疑問に対する大きな関心にもかかわらず、『textit{when} 』を探索するための『textit{when} 』の研究は、いまだにあまり研究されていない。
より洗練された探索戦略は、特定の、しばしば希薄な報酬環境において優れているが、$\epsilon$-greedyのような既存の単純なアプローチは、より広い範囲の領域でそれらを上回り続ける。
これらのより単純な戦略の魅力は、実装の容易さと幅広い領域にわたる一般性にある。
欠点は、これらの方法が本質的には、エージェントの内部状態を完全に無視するブラインドスイッチング機構であることだ。
本稿では,エージェントの内部状態を利用して,ブラインドスイッチング機構の欠点に対処する。
本稿では,効率的な探索タイミングのための新しいアプローチであるホメオスタシス(VDSC)を通して,値の相違と状態のカウントを提示する。
Atari スイートの実験結果は、$\epsilon$-greedy や Boltzmann といった従来の手法や、Noisy Nets のようなより洗練された手法よりも、我々の戦略が優れていることを示す。
Despite the considerable attention given to the questions of \textit{how much} and \textit{how to} explore in deep reinforcement learning, the investigation into \textit{when} to explore remains relatively less researched. While more sophisticated exploration strategies can excel in specific, often sparse reward environments, existing simpler approaches, such as $\epsilon$-greedy, persist in outperforming them across a broader spectrum of domains. The appeal of these simpler strategies lies in their ease of implementation and generality across a wide range of domains. The downside is that these methods are essentially a blind switching mechanism, which completely disregards the agent's internal state. In this paper, we propose to leverage the agent's internal state to decide \textit{when} to explore, addressing the shortcomings of blind switching mechanisms. We present Value Discrepancy and State Counts through homeostasis (VDSC), a novel approach for efficient exploration timing. Experimental results on the Atari suite demonstrate the superiority of our strategy over traditional methods such as $\epsilon$-greedy and Boltzmann, as well as more sophisticated techniques like Noisy Nets. | 翻訳日:2024-03-27 15:57:01 公開日:2024-03-26 |
# あいまいな日本語質問の明確化のための迷路型視覚質問応答データセット
A Gaze-grounded Visual Question Answering Dataset for Clarifying Ambiguous Japanese Questions ( http://arxiv.org/abs/2403.17545v1 ) ライセンス: Link先を確認 | Shun Inadumi, Seiya Kawano, Akishige Yuguchi, Yasutomo Kawanishi, Koichiro Yoshino, | (参考訳) 視覚情報は視覚的質問応答(VQA)と呼ばれ、しばしば指示情報への依存によって生じる曖昧さを含む。
日本語など一部の言語では主観的・客観的な用語を省略することが多いため、この問題は悪化している。
このような質問のあいまいさは、ユーザとの共同注意やユーザ視線情報など、会話の状況におけるコンテキストによって明確化されることが多い。
本研究では,視線情報を用いて曖昧な質問を明確化するGaze-grounded VQAデータセット(GazeVQA)を提案する。
また,視線目標推定結果を用いてGazeVQAタスクの精度を向上させる手法を提案する。
実験の結果,提案手法はGazeVQA上でのVQAシステムの性能を向上し,改善すべきGazeVQAタスクの典型的な問題を明らかにした。
Situated conversations, which refer to visual information as visual question answering (VQA), often contain ambiguities caused by reliance on directive information. This problem is exacerbated because some languages, such as Japanese, often omit subjective or objective terms. Such ambiguities in questions are often clarified by the contexts in conversational situations, such as joint attention with a user or user gaze information. In this study, we propose the Gaze-grounded VQA dataset (GazeVQA) that clarifies ambiguous questions using gaze information by focusing on a clarification process complemented by gaze information. We also propose a method that utilizes gaze target estimation results to improve the accuracy of GazeVQA tasks. Our experimental results showed that the proposed method improved the performance in some cases of a VQA system on GazeVQA and identified some typical problems of GazeVQA tasks that need to be improved. | 翻訳日:2024-03-27 15:57:01 公開日:2024-03-26 |
# デコード卓越性:テキストマイニングによるオペレーションとサプライチェーンプロフェッショナルの心理的特性の需要のマッピング
Decoding excellence: Mapping the demand for psychological traits of operations and supply chain professionals through text mining ( http://arxiv.org/abs/2403.17546v1 ) ライセンス: Link先を確認 | S. Di Luozzo, A. Fronzetti Colladon, M. M. Schiraldi, | (参考訳) 本研究は、オペレーティング・マネジメント(OM)とサプライ・チェーン・マネジメント(SCM)の専門家の心理的特徴をプロファイリングするための革新的な方法論を提案する。
テキストマイニングとソーシャル・ネットワーク・アナリティクスの革新的な手法とツールを用いて、一連の仕事記述から関連するスキルの需要をマッピングし、心理的特徴に着目した。
提案手法は、関連する心理的構成、テキストマイニング技術、革新的な指標、すなわちセマンティックブランドスコアを組み合わせることで、特定の特性の市場需要を評価することを目的としている。
提案手法を,心理学的特徴を含む必要なスキルのマッピングを提供することを目的として,OMおよびSCM専門家の業務記述のデータセットに適用する。
さらに、職務記述の発行地域、組織規模、開放位置の年長レベルを考慮し、そのニュアンスを理解することにより、分析を詳述する。
最後に、トピックモデリングを用いて、キーコンポーネントとそのジョブ記述における相対的意義について検討する。
新たな方法論を採用し、文脈要因を考慮し、専門家を区別する直交特性の革新的な理解を提供する。
本研究は, 人材育成, 人材育成, 人材育成活動に寄与し, 運用管理とサプライチェーン管理の専門職の有効性と成功のために, 新たな数字と視点を提供する。
The current study proposes an innovative methodology for the profiling of psychological traits of Operations Management (OM) and Supply Chain Management (SCM) professionals. We use innovative methods and tools of text mining and social network analysis to map the demand for relevant skills from a set of job descriptions, with a focus on psychological characteristics. The proposed approach aims to evaluate the market demand for specific traits by combining relevant psychological constructs, text mining techniques, and an innovative measure, namely, the Semantic Brand Score. We apply the proposed methodology to a dataset of job descriptions for OM and SCM professionals, with the objective of providing a mapping of their relevant required skills, including psychological characteristics. In addition, the analysis is then detailed by considering the region of the organization that issues the job description, its organizational size, and the seniority level of the open position in order to understand their nuances. Finally, topic modeling is used to examine key components and their relative significance in job descriptions. By employing a novel methodology and considering contextual factors, we provide an innovative understanding of the attitudinal traits that differentiate professionals. This research contributes to talent management, recruitment practices, and professional development initiatives, since it provides new figures and perspectives to improve the effectiveness and success of Operations Management and Supply Chain Management professionals. | 翻訳日:2024-03-27 15:57:01 公開日:2024-03-26 |
# 医用画像解析における高度なクラウドサービスと生成AIシステムの実用化
Practical Applications of Advanced Cloud Services and Generative AI Systems in Medical Image Analysis ( http://arxiv.org/abs/2403.17549v1 ) ライセンス: Link先を確認 | Jingyu Xu, Binbin Wu, Jiaxin Huang, Yulu Gong, Yifan Zhang, Bo Liu, | (参考訳) 医療分野は人工知能技術の応用における重要な分野の1つである。
医療データの爆発的な成長と多様化に加え、医療ニーズと課題の継続的な改善により、人工知能技術は医療分野においてますます重要な役割を担っている。
コンピュータビジョン、自然言語処理、機械学習に代表される人工知能技術は、医療画像、健康管理、医療情報、医薬品研究開発などの様々なシナリオに広く浸透し、医療サービスのレベルと品質を向上させる上で重要な推進力となっている。この記事では、医療画像における生成AIの変革の可能性を探り、合成ACM-2データの生成能力、画像の強化、異常検出の支援、画像から画像への変換を容易にすることを強調する。
モデル複雑性のような課題にもかかわらず、Med-PaLM 2技術を含む医療における生成モデルの適用は有望な結果を示している。
データセットのサイズと多様性の制限に対処することにより、これらのモデルはより正確な診断と患者の結果の改善に寄与する。
しかし、利害関係者間の倫理的配慮と協力は責任ある実施に不可欠である。
この研究は、GANを利用して脳腫瘍のMRIデータセットを増強する実験を通じて、生成AIが画像の品質と多様性を高め、最終的に医学的診断と患者のケアを向上することを示す。
The medical field is one of the important fields in the application of artificial intelligence technology. With the explosive growth and diversification of medical data, as well as the continuous improvement of medical needs and challenges, artificial intelligence technology is playing an increasingly important role in the medical field. Artificial intelligence technologies represented by computer vision, natural language processing, and machine learning have been widely penetrated into diverse scenarios such as medical imaging, health management, medical information, and drug research and development, and have become an important driving force for improving the level and quality of medical services.The article explores the transformative potential of generative AI in medical imaging, emphasizing its ability to generate syntheticACM-2 data, enhance images, aid in anomaly detection, and facilitate image-to-image translation. Despite challenges like model complexity, the applications of generative models in healthcare, including Med-PaLM 2 technology, show promising results. By addressing limitations in dataset size and diversity, these models contribute to more accurate diagnoses and improved patient outcomes. However, ethical considerations and collaboration among stakeholders are essential for responsible implementation. Through experiments leveraging GANs to augment brain tumor MRI datasets, the study demonstrates how generative AI can enhance image quality and diversity, ultimately advancing medical diagnostics and patient care. | 翻訳日:2024-03-27 15:57:01 公開日:2024-03-26 |
# DeepMIF:大規模LiDAR3Dマッピングのためのディープモノトニックインシシシトフィールド
DeepMIF: Deep Monotonic Implicit Fields for Large-Scale LiDAR 3D Mapping ( http://arxiv.org/abs/2403.17550v1 ) ライセンス: Link先を確認 | Kutay Yılmaz, Matthias Nießner, Anastasiia Kornilova, Alexey Artemov, | (参考訳) 近年、特にLiDARセンサのような近代的な取得装置を用いて、実際の屋外3D環境を検知する大きな進歩が達成されている。
残念ながら、それらは基本的に、密集した完全な3Dシーンを生成する能力に制限されている。
この問題に対処するため、近年の学習ベース手法では、ニューラル暗黙表現と最適化可能な特徴グリッドを統合して、3Dシーンの表面を近似する。
しかし, 生のLiDAR線に沿った試料は, スパースの性質からノイズの多い3次元マッピング結果をもたらす。
代わりに、この作業では、正確にLiDARデータをフィッティングすることから離れ、代わりにネットワークは3D空間で定義された非メトリックモノトニックな暗黙の場を最適化する。
本研究は,ニューラルモノトニック場を最適化し,大規模3次元マッピングの最近の進歩を生かしたモノトニック性損失を学習システムとして設計する。
提案アルゴリズムは,Mai City, Newer College, KITTIベンチマークで得られた複数の量的および知覚的測定値と視覚的結果を用いて,高品質な高密度3Dマッピング性能を実現する。
このアプローチのコードは公開されます。
Recently, significant progress has been achieved in sensing real large-scale outdoor 3D environments, particularly by using modern acquisition equipment such as LiDAR sensors. Unfortunately, they are fundamentally limited in their ability to produce dense, complete 3D scenes. To address this issue, recent learning-based methods integrate neural implicit representations and optimizable feature grids to approximate surfaces of 3D scenes. However, naively fitting samples along raw LiDAR rays leads to noisy 3D mapping results due to the nature of sparse, conflicting LiDAR measurements. Instead, in this work we depart from fitting LiDAR data exactly, instead letting the network optimize a non-metric monotonic implicit field defined in 3D space. To fit our field, we design a learning system integrating a monotonicity loss that enables optimizing neural monotonic fields and leverages recent progress in large-scale 3D mapping. Our algorithm achieves high-quality dense 3D mapping performance as captured by multiple quantitative and perceptual measures and visual results obtained for Mai City, Newer College, and KITTI benchmarks. The code of our approach will be made publicly available. | 翻訳日:2024-03-27 15:57:01 公開日:2024-03-26 |
# ベイズに基づく大規模言語モデルのための文脈拡張
Naive Bayes-based Context Extension for Large Language Models ( http://arxiv.org/abs/2403.17552v1 ) ライセンス: Link先を確認 | Jianlin Su, Murtadha Ahmed, Wenbo, Luo Ao, Mingren Zhu, Yunfeng Liu, | (参考訳) 大規模言語モデル(LLM)は、コンテキスト内学習の有望な能力を示している。
しかし、従来のインコンテキスト学習(ICL)アプローチは、多くの実演例から監督を効果的に統合しようとする場合、トランスフォーマーアーキテクチャの長さ制限によってしばしば妨げられる。
本稿では,既存のLCMが,そのコンテキストサイズを大きく拡張して,より多くの実演でICLを実行できるようにする,Naive Bayes-based Context Extension (NBCE) という新しいフレームワークを提案する。
重要なことは、この拡張は、線形効率を保ちながら、特定のモデルアーキテクチャへの微調整や依存を必要としないことである。
NBCEは当初、コンテキストをLLMの最大長に合う等サイズのウィンドウに分割した。
次に、最も関連性の高いウィンドウを選択するための投票機構を導入し、後続のコンテキストと見なす。
最後に、これはベイズの定理を用いてテストタスクを生成する。
実験の結果,NBCEは実演例の数が増えるにつれて性能を著しく向上し,代替手法を一貫して上回っていることがわかった。
NBCEのコードは一般公開される予定だ。
NBCEのコードは、https://github.com/amurtadha/NBCE-masterで入手できる。
Large Language Models (LLMs) have shown promising in-context learning abilities. However, conventional In-Context Learning (ICL) approaches are often impeded by length limitations of transformer architecture, which pose challenges when attempting to effectively integrate supervision from a substantial number of demonstration examples. In this paper, we introduce a novel framework, called Naive Bayes-based Context Extension (NBCE), to enable existing LLMs to perform ICL with an increased number of demonstrations by significantly expanding their context size. Importantly, this expansion does not require fine-tuning or dependence on particular model architectures, all the while preserving linear efficiency. NBCE initially splits the context into equal-sized windows fitting the target LLM's maximum length. Then, it introduces a voting mechanism to select the most relevant window, regarded as the posterior context. Finally, it employs Bayes' theorem to generate the test task. Our experimental results demonstrate that NBCE substantially enhances performance, particularly as the number of demonstration examples increases, consistently outperforming alternative methods. The NBCE code will be made publicly accessible. The code NBCE is available at: https://github.com/amurtadha/NBCE-master | 翻訳日:2024-03-27 15:57:01 公開日:2024-03-26 |
# RuBia: ロシア語のバイアス検出データセット
RuBia: A Russian Language Bias Detection Dataset ( http://arxiv.org/abs/2403.17553v1 ) ライセンス: Link先を確認 | Veronika Grigoreva, Anastasiia Ivanova, Ilseyar Alimova, Ekaterina Artemova, | (参考訳) 警告: この作品には、コンテンツを混乱させたり、混乱させたりすることが含まれる。
大規模言語モデル(LLM)は、生の事前学習データに存在する社会的・文化的バイアスを学習する傾向がある。
LLMの動作が公正かどうかをテストするために、機能データセットが採用され、その目的のため、これらのデータセットは言語と文化に特有である。
本稿では,RuBiaと呼ばれるロシア語に特化して設計されたバイアス検出データセットを提示することで,多言語バイアス評価の範囲のギャップを解消する。
RuBiaデータセットは、性別、国籍、社会経済的地位、多様性の4つのドメインに分けられ、それぞれのドメインは、さらに複数のきめ細かいサブドメインに分割される。
データセットのすべての例は、2つの文で構成され、第1は潜在的に有害なステレオタイプまたはトロープを補強し、第2はそれと矛盾する。
これらの文対は最初ボランティアによって書かれ、その後、母語話者のクラウドソーシング労働者によって検証された。
全体として、ルビアには19のサブドメインに2000近いユニークな文対がある。
このデータセットの目的を説明するために、我々は、最先端または近最先端のLCMの診断評価を行い、LCMの社会的偏見に対する偏見について論じる。
Warning: this work contains upsetting or disturbing content. Large language models (LLMs) tend to learn the social and cultural biases present in the raw pre-training data. To test if an LLM's behavior is fair, functional datasets are employed, and due to their purpose, these datasets are highly language and culture-specific. In this paper, we address a gap in the scope of multilingual bias evaluation by presenting a bias detection dataset specifically designed for the Russian language, dubbed as RuBia. The RuBia dataset is divided into 4 domains: gender, nationality, socio-economic status, and diverse, each of the domains is further divided into multiple fine-grained subdomains. Every example in the dataset consists of two sentences with the first reinforcing a potentially harmful stereotype or trope and the second contradicting it. These sentence pairs were first written by volunteers and then validated by native-speaking crowdsourcing workers. Overall, there are nearly 2,000 unique sentence pairs spread over 19 subdomains in RuBia. To illustrate the dataset's purpose, we conduct a diagnostic evaluation of state-of-the-art or near-state-of-the-art LLMs and discuss the LLMs' predisposition to social biases. | 翻訳日:2024-03-27 15:57:01 公開日:2024-03-26 |
# m3P:マルチモーダルプロンプトによるマルチモーダル多言語翻訳を目指して
m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt ( http://arxiv.org/abs/2403.17556v1 ) ライセンス: Link先を確認 | Jian Yang, Hongcheng Guo, Yuwei Yin, Jiaqi Bai, Bing Wang, Jiaheng Liu, Xinnian Liang, Linzheng Cahi, Liqun Yang, Zhoujun Li, | (参考訳) 多言語翻訳は、共有空間に全ての言語を投影することで、複数の翻訳方向をサポートするが、翻訳品質は、特に言語数が大きければ、テキストのみのモダリティにおける言語の違いによって損なわれる。
このギャップを埋めるために、多言語翻訳を容易にする汎用言語非依存表現として視覚的コンテキストを導入する。
本稿では,マルチモーダル型多言語ニューラル・マシン・トランスフォーメーション(m3P)の指導にマルチモーダル・プロンプトを活用するフレームワークを提案する。
102言語をサポートする多言語マルチモーダル命令データセット(InstrMulti102)を構築した。
本手法は, 中心言語としてのイメージを考慮し, 異なる言語の表現距離を最小化することを目的とする。
実験の結果,m3Pは従来のテキストのみのベースラインや多言語マルチモーダルメソッドよりも大きなマージンで優れていた。
さらに,低リソース・多言語シナリオ下での翻訳向上における提案手法の有効性を検証した。
Multilingual translation supports multiple translation directions by projecting all languages in a shared space, but the translation quality is undermined by the difference between languages in the text-only modality, especially when the number of languages is large. To bridge this gap, we introduce visual context as the universal language-independent representation to facilitate multilingual translation. In this paper, we propose a framework to leverage the multimodal prompt to guide the Multimodal Multilingual neural Machine Translation (m3P), which aligns the representations of different languages with the same meaning and generates the conditional vision-language memory for translation. We construct a multilingual multimodal instruction dataset (InstrMulti102) to support 102 languages. Our method aims to minimize the representation distance of different languages by regarding the image as a central language. Experimental results show that m3P outperforms previous text-only baselines and multilingual multimodal methods by a large margin. Furthermore, the probing experiments validate the effectiveness of our method in enhancing translation under the low-resource and massively multilingual scenario. | 翻訳日:2024-03-27 15:57:01 公開日:2024-03-26 |
# ディープラーニングと最先端応用に関する調査研究
A Survey on Deep Learning and State-of-the-arts Applications ( http://arxiv.org/abs/2403.17561v1 ) ライセンス: Link先を確認 | Mohd Halim Mohd Noor, Ayokunle Olalekan Ige, | (参考訳) ディープラーニング(Deep Learning)は、人工知能の一分野であり、複数の相互接続されたユニット(ニューロン)を用いて、生の入力データから直接複雑なパターンや表現を学習する計算モデルである。
この学習能力を活用して、複雑な問題を解決する強力なツールとなり、多くの画期的な技術やイノベーションの中核を担っている。
ディープラーニングモデルの構築は、アルゴリズムの複雑さと現実世界の問題の動的な性質のため、難しい作業である。
いくつかの研究はディープラーニングの概念と応用をレビューしている。
しかしながら、研究は主に、ディープラーニングモデルと畳み込みニューラルネットワークアーキテクチャのタイプに注目し、ディープラーニングモデルの最先端技術とその異なるドメインにわたる複雑な問題の解決への応用を限定的にカバーした。
そこで,本研究では,コンピュータビジョン,自然言語処理,時系列解析,広範コンピューティングにおける最先端のディープラーニングモデルを網羅的にレビューすることを目的としている。
モデルの主要な特徴と、各ドメイン内の問題を解決する上での有効性を強調します。
さらに,本研究では,深層学習,各種深層学習モデル,および顕著な畳み込みニューラルネットワークアーキテクチャの基礎について述べる。
最後に、ディープラーニング研究における課題と今後の方向性について論じ、将来の研究者に幅広い視点を提供する。
Deep learning, a branch of artificial intelligence, is a computational model that uses multiple layers of interconnected units (neurons) to learn intricate patterns and representations directly from raw input data. Empowered by this learning capability, it has become a powerful tool for solving complex problems and is the core driver of many groundbreaking technologies and innovations. Building a deep learning model is a challenging task due to the algorithm`s complexity and the dynamic nature of real-world problems. Several studies have reviewed deep learning concepts and applications. However, the studies mostly focused on the types of deep learning models and convolutional neural network architectures, offering limited coverage of the state-of-the-art of deep learning models and their applications in solving complex problems across different domains. Therefore, motivated by the limitations, this study aims to comprehensively review the state-of-the-art deep learning models in computer vision, natural language processing, time series analysis and pervasive computing. We highlight the key features of the models and their effectiveness in solving the problems within each domain. Furthermore, this study presents the fundamentals of deep learning, various deep learning model types and prominent convolutional neural network architectures. Finally, challenges and future directions in deep learning research are discussed to offer a broader perspective for future researchers. | 翻訳日:2024-03-27 15:47:16 公開日:2024-03-26 |
# Task-Oriented Paraphrase Analytics
Task-Oriented Paraphrase Analytics ( http://arxiv.org/abs/2403.17564v1 ) ライセンス: Link先を確認 | Marcel Gohsen, Matthias Hagen, Martin Potthast, Benno Stein, | (参考訳) パラフレーズ化は未定義のタスクであるため、"paraphrasing"という用語は異なる特徴を持つテキスト変換タスクをカバーしている。
その結果、既存のパラフレーズ研究は、ある一対のテキストがパラフレーズと見なされる時期について、かなり異なる(明示的で暗黙的な)基準を適用し、その全ては特定の意味論や語彙的類似性を仮定している。
本稿では,25-identified paraphrasing (sub-)tasksを組織化するための文献レビューを行い,分類法を提案する。
与えられたパラフレーズインスタンスが適合するタスクを特定するために訓練された分類器を用いて、既知のパラフレーズコーパス内のタスク固有のインスタンスの分布が著しく異なることを発見した。
これは、これらのコーパスの使用は、それぞれのパラフレーズ条件が明確に定義されていない(通常の場合)ため、相容れない、誤った結果をもたらす必要があることを意味する。
Since paraphrasing is an ill-defined task, the term "paraphrasing" covers text transformation tasks with different characteristics. Consequently, existing paraphrasing studies have applied quite different (explicit and implicit) criteria as to when a pair of texts is to be considered a paraphrase, all of which amount to postulating a certain level of semantic or lexical similarity. In this paper, we conduct a literature review and propose a taxonomy to organize the 25~identified paraphrasing (sub-)tasks. Using classifiers trained to identify the tasks that a given paraphrasing instance fits, we find that the distributions of task-specific instances in the known paraphrase corpora vary substantially. This means that the use of these corpora, without the respective paraphrase conditions being clearly defined (which is the normal case), must lead to incomparable and misleading results. | 翻訳日:2024-03-27 15:47:16 公開日:2024-03-26 |
# 正の温度で相互作用する格子フェルミオンの磁化とエッジ電流の等式
Equality of magnetization and edge current for interacting lattice fermions at positive temperature ( http://arxiv.org/abs/2403.17566v1 ) ライセンス: Link先を確認 | Jonas Lampart, Massimo Moscolari, Stefan Teufel, Tom Wessel, | (参考訳) バルク磁化は、ギブス状態の局所的不連続性を満たす有限範囲相互作用を持つ格子フェルミオンの大規模なモデルの熱力学的限界におけるエッジ電流と等しいことを証明した。
これらの系におけるエッジ電流はバルク特性によって決定され,従って境界付近の大きな摂動に対して安定である。
さらに、化学ポテンシャルに関して誘導体を服用した後も同値性は持続する。
このようなバルクエッジ対応は、本質的にはギブス状態のバルクおよび局所性における均質性の結果であることを示す。
重要な中間結果は、2次元系に対するブロッホの定理の新たなバージョンであり、永久電流はバルクで消えると述べている。
We prove that the bulk magnetization is equal to the edge current in the thermodynamic limit for a large class of models of lattice fermions with finite-range interactions satisfying local indistinguishability of the Gibbs state, a condition known to hold for sufficiently high temperatures. Our result implies that edge currents in such systems are determined by bulk properties and are therefore stable against large perturbations near the boundaries. Moreover, the equality persists also after taking the derivative with respect to the chemical potential. We show that this form of bulk-edge correspondence is essentially a consequence of homogeneity in the bulk and locality of the Gibbs state. An important intermediate result is a new version of Bloch's theorem for two-dimensional systems, stating that persistent currents vanish in the bulk. | 翻訳日:2024-03-27 15:47:16 公開日:2024-03-26 |
# Ransomware: Live Forensic Techniqueの分析と評価とLinuxベースのIoTシステムへの影響
Ransomware: Analysis and Evaluation of Live Forensic Techniques and the Impact on Linux based IoT Systems ( http://arxiv.org/abs/2403.17571v1 ) ライセンス: Link先を確認 | Salko Korac, Leandros Maglaras, Naghmeh Moradpoor, Bill Buchanan, Berk Canberk, | (参考訳) ランサムウェアは、主にWindowsシステムに対する脅威である。
しかし、Linuxシステムはサイバー犯罪者にとって興味深いものとなり、この傾向は続くと予想されている。
多くのIoTシステムはLinux(例えばクラウドインフラストラクチャとゲートウェイ)をベースとしています。
本稿では,現在採用されている法医学的手法をLinuxランサムウェアに適用し,その成熟度とシステムへの影響を評価する。
Windowsベースのランサムウェアは主に鍵管理にRSAとAESを使用しているが、Linuxでは様々なアプローチが特定された。
サイバー犯罪者は故意にRSAとAESから離れ、Liveの法医学的調査を困難にしているようだ。
Linuxランサムウェアは事前に定義された目標のために開発されており、損傷の可能性を最大限に活用していない。
初期段階にあり、Windowsベースのマルウェアと同様の可能性を秘めている。
その結果、開発初期段階におけるIoT産業への影響を議論し、評価するための、優れた基本的な理解が得られました。
Ransomware has been predominantly a threat to Windows systems. But, Linux systems became interesting for cybercriminals and this trend is expected to continue. This endangers IoT ecosystems, whereas many IoT systems are based on Linux (e.g. cloud infrastructure and gateways). This paper researches how currently employed forensic techniques can be applied to Linux ransomware and evaluates the maturity as well as the impact on the system. While Windows-based ransomware predominantly uses RSA and AES for key management, a variety of approaches was identified for Linux. Cybercriminals appear to be deliberately moving away from RSA and AES to make Live forensic investigations more difficult. Linux ransomware is developed for a predefined goal and does not exploit the full potential of damage. It appears in an early stage and is expected to reach a similar potential to Windows-based malware. The results generated provided an excellent basic understanding to discuss and assess implications on the IoT industry at an early stage of development. | 翻訳日:2024-03-27 15:47:16 公開日:2024-03-26 |
# 地域教育によるフェデレーション学習におけるプライバシ向上
Enhancing Privacy in Federated Learning through Local Training ( http://arxiv.org/abs/2403.17572v1 ) ライセンス: Link先を確認 | Nicola Bastianello, Changxin Liu, Karl H. Johansson, | (参考訳) 本稿では,フェデレーション学習のためのフェデレーション・プライベート・ローカル・トレーニング・アルゴリズム(Fed-PLT)を提案する。
(i)高価な通信及び通信
(二)プライバシー保護
特集にあたって
(i) 中央コーディネータと計算機エージェント間の通信ラウンドの数を著しく減少させる部分的参加と局所訓練の両立を可能にした。
このアルゴリズムは、ローカルトレーニングの使用が明らかに正確性に影響を与えないという意味で、最先端のアルゴリズムと一致している。
さらに、エージェントは、(確率的な)勾配降下や加速された勾配降下など、様々な局所的なトレーニングソルバから選択する柔軟性がある。
さらに,ローカルトレーニングの活用がプライバシ,対処ポイントをいかに向上させるかを検討する。
(II)。
特に、差分プライバシー境界を導出し、局所的なトレーニングエポックの数への依存を強調する。
提案手法を他の手法と比較することにより,提案手法の有効性を評価する。
In this paper we propose the federated private local training algorithm (Fed-PLT) for federated learning, to overcome the challenges of (i) expensive communications and (ii) privacy preservation. We address (i) by allowing for both partial participation and local training, which significantly reduce the number of communication rounds between the central coordinator and computing agents. The algorithm matches the state of the art in the sense that the use of local training demonstrably does not impact accuracy. Additionally, agents have the flexibility to choose from various local training solvers, such as (stochastic) gradient descent and accelerated gradient descent. Further, we investigate how employing local training can enhance privacy, addressing point (ii). In particular, we derive differential privacy bounds and highlight their dependence on the number of local training epochs. We assess the effectiveness of the proposed algorithm by comparing it to alternative techniques, considering both theoretical analysis and numerical results from a classification task. | 翻訳日:2024-03-27 15:47:16 公開日:2024-03-26 |
# SPES: サーバレス機能のためのパフォーマンスとリソースのトレードオフを最適化する
SPES: Towards Optimizing Performance-Resource Trade-Off for Serverless Functions ( http://arxiv.org/abs/2403.17574v1 ) ライセンス: Link先を確認 | Cheryl Lee, Zhouruixin Zhu, Tianyi Yang, Yintong Huo, Yuxin Su, Pinjia He, Michael R. Lyu, | (参考訳) クラウドコンピューティングのデプロイメントのパラダイムとして、サーバーレスコンピューティングは、その効率性とオンデマンドのクラウドリソースを活用する能力により、勢いを増している。
しかし、コールドスタートの問題という形で大きなハードルが残っており、新しいファンクションインスタンスをスクラッチから起動する際にレイテンシが発生する。
既存のソリューションでは、コールドスタート遅延とリソース浪費の間のトレードオフを満足のいく最適化を施すことなく、関数のプリロード/アンロードを単純化した戦略を使う傾向があります。
このギャップを埋めるために、サーバーレス関数のプロビジョニングを最適化し、実行時コールドスタート緩和のための最初の差別化スケジューラSPESを提案する。
私たちの洞察では、サーバレスシステムの共通アーキテクチャは、特定の呼び出しパターンの集中化を促し、予測可能な呼び出し動作をもたらします。
これにより、正確な呼び出し予測に基づいて、よりきめ細かい戦略で関数を分類し、適切な関数インスタンスをプリロード/アンロードできます。
実験では、サーバーレス関数のプロビジョニングを最適化するSPESの成功を実証している。75パーセントのコールドスタート率を49.77%削減し、時間の無駄なメモリ時間を56.43%削減する。
コールドスタート問題を緩和することにより、SPESは、サーバレスアーキテクチャにデプロイされたクラウドサービスを容易にするための、有望な進歩である。
As an emerging cloud computing deployment paradigm, serverless computing is gaining traction due to its efficiency and ability to harness on-demand cloud resources. However, a significant hurdle remains in the form of the cold start problem, causing latency when launching new function instances from scratch. Existing solutions tend to use over-simplistic strategies for function pre-loading/unloading without full invocation pattern exploitation, rendering unsatisfactory optimization of the trade-off between cold start latency and resource waste. To bridge this gap, we propose SPES, the first differentiated scheduler for runtime cold start mitigation by optimizing serverless function provision. Our insight is that the common architecture of serverless systems prompts the con- centration of certain invocation patterns, leading to predictable invocation behaviors. This allows us to categorize functions and pre-load/unload proper function instances with finer-grained strategies based on accurate invocation prediction. Experiments demonstrate the success of SPES in optimizing serverless function provision on both sides: reducing the 75th-percentile cold start rates by 49.77% and the wasted memory time by 56.43%, compared to the state-of-the-art. By mitigating the cold start issue, SPES is a promising advancement in facilitating cloud services deployed on serverless architectures. | 翻訳日:2024-03-27 15:47:16 公開日:2024-03-26 |
# Zero-Data, Controllable, Adaptive Dialog System の実現に向けて
Towards a Zero-Data, Controllable, Adaptive Dialog System ( http://arxiv.org/abs/2403.17582v1 ) ライセンス: Link先を確認 | Dirk Väth, Lindsey Vanderlyn, Ngoc Thang Vu, | (参考訳) 会話木探索(英: Conversational Tree Search, V\"ath et al , 2023)は、ドメインの専門家がダイアログツリーを通して強化学習エージェントの振舞いを形作る、制御可能なダイアログシステムに対する最近のアプローチである。
エージェントは、異なるユーザの情報ニーズ、例えばドメイン親しみやすさに適応しながら、このツリーを効率的にナビゲートすることを学ぶ。
しかし、追加のトレーニングデータの必要性は、新しいドメインへのデプロイメントを妨げる。
この問題に対処するために、ダイアログツリーから直接このデータを生成するアプローチについて検討する。
生成のために商用のLarge Language Modelを使用する場合と、単一のGPU上で動作するより小さなオープンソースモデルを使用する場合の両方において、合成データでトレーニングされたエージェントが、人間のデータでトレーニングされたモデルに匹敵するダイアログを達成可能であることを示す。
OnBOARDは外国人が新しい都市に移住するのを助ける新しいドメインであり、医学領域のDIAGNOSEは頭皮と頭部の症状に関連するウィキペディアのサブセットである。
最後に、人間の実験を行い、人体で訓練されたモデルと生成されたデータの両方の客観的または主観的な尺度に統計的に有意な差は見つからなかった。
Conversational Tree Search (V\"ath et al., 2023) is a recent approach to controllable dialog systems, where domain experts shape the behavior of a Reinforcement Learning agent through a dialog tree. The agent learns to efficiently navigate this tree, while adapting to information needs, e.g., domain familiarity, of different users. However, the need for additional training data hinders deployment in new domains. To address this, we explore approaches to generate this data directly from dialog trees. We improve the original approach, and show that agents trained on synthetic data can achieve comparable dialog success to models trained on human data, both when using a commercial Large Language Model for generation, or when using a smaller open-source model, running on a single GPU. We further demonstrate the scalability of our approach by collecting and testing on two new datasets: ONBOARD, a new domain helping foreign residents moving to a new city, and the medical domain DIAGNOSE, a subset of Wikipedia articles related to scalp and head symptoms. Finally, we perform human testing, where no statistically significant differences were found in either objective or subjective measures between models trained on human and generated data. | 翻訳日:2024-03-27 15:47:16 公開日:2024-03-26 |
# チャンプトーナメントにおけるブライリーのパラメータ解析
Parameterized Analysis of Bribery in Challenge the Champ Tournaments ( http://arxiv.org/abs/2403.17587v1 ) ライセンス: Link先を確認 | Juhi Chaudhary, Hendrik Molter, Meirav Zehavi, | (参考訳) チャンプトーナメントへの挑戦は、(最初に選ばれた)シャンプが他のプレイヤーによって繰り返し挑戦される最も単純な競技形態の1つである。
プレイヤーがシャンプを打つと、そのプレイヤーは新しい(現在の)シャンプと見なされる。
競技者の各選手は、現在のシャンパンを1度、一定の順序で挑戦します。
最終ラウンドのシャンプはトーナメントの勝者と見なされている。
本研究では,初期チャンプに対する勝利確率を低くするために,選手を賄うことができる環境について検討する。
ゴールは、他の選手を刺してトーナメントに勝った最初のシャンプの確率を最大にすることであり、贈賄の予算を超えないことである。
Mattei et al [Journal of Applied Logic, 2015] は、問題を擬似ポリノミカル時間で解くことができ、プレイヤー数によってパラメータ化されると XP であることを示した。
プレイヤー数によってパラメータ化される場合、問題はNP-hard と W[1]-hard に弱いことが示される。
アルゴリズム側では、異なる収差値の個数または異なる確率値の個数によってパラメータ化される場合、その問題は固定パラメータ抽出可能であることを示す。
この目的のために、我々は独立した関心を持ついくつかの結果を確立する。
特に、製品knapsack問題は、knapsack内のアイテム数でパラメータ化された場合W[1]-hardであり、また、プレイヤー数でパラメータ化された場合、カップトーナメントの構成的収賄はW[1]-hardであることを示す。
さらに、混合整数線形プログラムを設計し、全ての変数が整数である最適解を確保する新しい方法を提案する。
Challenge the champ tournaments are one of the simplest forms of competition, where a (initially selected) champ is repeatedly challenged by other players. If a player beats the champ, then that player is considered the new (current) champ. Each player in the competition challenges the current champ once in a fixed order. The champ of the last round is considered the winner of the tournament. We investigate a setting where players can be bribed to lower their winning probability against the initial champ. The goal is to maximize the probability of the initial champ winning the tournament by bribing the other players, while not exceeding a given budget for the bribes. Mattei et al. [Journal of Applied Logic, 2015] showed that the problem can be solved in pseudo-polynomial time, and that it is in XP when parameterized by the number of players. We show that the problem is weakly NP-hard and W[1]-hard when parameterized by the number of players. On the algorithmic side, we show that the problem is fixed-parameter tractable when parameterized either by the number of different bribe values or the number of different probability values. To this end, we establish several results that are of independent interest. In particular, we show that the product knapsack problem is W[1]-hard when parameterized by the number of items in the knapsack, and that constructive bribery for cup tournaments is W[1]-hard when parameterized by the number of players. Furthermore, we present a novel way of designing mixed integer linear programs, ensuring optimal solutions where all variables are integers. | 翻訳日:2024-03-27 15:47:16 公開日:2024-03-26 |
# forest-ORE: Mining Optimal Rule Ensemble to Interpret Random Forest Model
Forest-ORE: Mining Optimal Rule Ensemble to interpret Random Forest models ( http://arxiv.org/abs/2403.17588v1 ) ライセンス: Link先を確認 | Haddouchi Maissae, Berrado Abdelaziz, | (参考訳) ランダムフォレスト(RF)は,予測性能の観点から,効率的なアンサンブル学習法としてよく知られている。
また、何百本もの深い決定木があるため、ブラックボックスと見なされている。
このような解釈可能性の欠如は、いくつかの現実のアプリケーション、特に医療、セキュリティ、法律などの生活に影響を及ぼすものにおいて、RFモデルを受け入れる真の欠点となる可能性がある。
本研究では、局所的およびグローバルな解釈のために最適化されたルールアンサンブル(ORE)を介してRFを解釈する手法であるフォレスト-OREを提案する。
RFモデルの解釈を目的とした他のルールベースアプローチとは異なり、この手法は解釈可能なルールアンサンブルの選択に影響を与えるいくつかのパラメータを同時に検討する。
既存の方法は、解釈可能性のカバレッジよりも予測性能を優先し、既存の重複やルール間の相互作用に関する情報を提供しないことが多い。
Forest-OREは混合整数最適化プログラムを使用して、予測性能、解釈可能性カバレッジ、モデルサイズ(ルールアンサンブルのサイズ、ルールの長さ、ルールオーバーラップ)のトレードオフを考慮したOREを構築する。
RFの予測性能に競争力のあるOREを提供するのに加えて、この方法は相補的な情報を提供する他のルールを通じてOREを豊かにする。
また、ルール選択プロセスの監視を可能にし、最終モデルのグラフィカルな表現を生成するために使用できる様々なメトリクスを提供する。
このフレームワークは例によって説明され、その堅牢性は36のベンチマークデータセットを通じて評価される。
良く知られた手法の比較分析は、フォレスト-OREが予測性能、解釈可能性カバレッジ、モデルサイズの間の優れたトレードオフを提供することを示している。
Random Forest (RF) is well-known as an efficient ensemble learning method in terms of predictive performance. It is also considered a Black Box because of its hundreds of deep decision trees. This lack of interpretability can be a real drawback for acceptance of RF models in several real-world applications, especially those affecting one's lives, such as in healthcare, security, and law. In this work, we present Forest-ORE, a method that makes RF interpretable via an optimized rule ensemble (ORE) for local and global interpretation. Unlike other rule-based approaches aiming at interpreting the RF model, this method simultaneously considers several parameters that influence the choice of an interpretable rule ensemble. Existing methods often prioritize predictive performance over interpretability coverage and do not provide information about existing overlaps or interactions between rules. Forest-ORE uses a mixed-integer optimization program to build an ORE that considers the trade-off between predictive performance, interpretability coverage, and model size (size of the rule ensemble, rule lengths, and rule overlaps). In addition to providing an ORE competitive in predictive performance with RF, this method enriches the ORE through other rules that afford complementary information. It also enables monitoring of the rule selection process and delivers various metrics that can be used to generate a graphical representation of the final model. This framework is illustrated through an example, and its robustness is assessed through 36 benchmark datasets. A comparative analysis of well-known methods shows that Forest-ORE provides an excellent trade-off between predictive performance, interpretability coverage, and model size. | 翻訳日:2024-03-27 15:47:16 公開日:2024-03-26 |
# Dual Memory Networks:視覚言語モデルのためのVersatile Adaptation Approach
Dual Memory Networks: A Versatile Adaptation Approach for Vision-Language Models ( http://arxiv.org/abs/2403.17589v1 ) ライセンス: Link先を確認 | Yabin Zhang, Wenjie Zhu, Hui Tang, Zhiyuan Ma, Kaiyang Zhou, Lei Zhang, | (参考訳) CLIPのような事前学習された視覚言語モデルの出現に伴い、様々な下流分類タスクへの適応方法が近年の研究では大きな注目を集めている。
適応戦略は通常、ゼロショット適応、少数ショット適応、最近提案されたトレーニングなしの少数ショット適応の3つのパラダイムに分類される。
既存のアプローチのほとんどは、特定の設定に合わせて調整されており、これらのパラダイムの1つまたは2つにしか対応できない。
本稿では,3つの設定すべてで効果的に機能する多目的適応手法を提案する。
具体的には、動的および静的なメモリコンポーネントからなるデュアルメモリネットワークを提案する。
静的メモリはトレーニングの知識をキャッシュし、トレーニング不要な数ショットの適応を可能にし、動的メモリはテストプロセス中にオンラインの履歴テスト機能を保存し、トレーニングセット以外の追加データインサイトを探索する。
この新たな機能は、数ショット設定におけるモデルパフォーマンスを高め、トレーニングデータがない場合にモデル使用性を可能にする。
2つのメモリネットワークは同じフレキシブルなメモリインタラクティブ戦略を採用しており、トレーニング不要モードで動作でき、学習可能なプロジェクション層を組み込むことでさらに拡張することができる。
私たちのアプローチは、3つのタスク設定の下で11のデータセットでテストされます。
注目すべきは、ゼロショットのシナリオでは、既存のメソッドを3倍以上上回り、外部トレーニングデータを利用するメソッドに対して優れた結果を示すことだ。
さらに,本手法は自然分布シフトに対して頑健な性能を示す。
コードは \url{https://github.com/YBZh/DMN} で公開されている。
With the emergence of pre-trained vision-language models like CLIP, how to adapt them to various downstream classification tasks has garnered significant attention in recent research. The adaptation strategies can be typically categorized into three paradigms: zero-shot adaptation, few-shot adaptation, and the recently-proposed training-free few-shot adaptation. Most existing approaches are tailored for a specific setting and can only cater to one or two of these paradigms. In this paper, we introduce a versatile adaptation approach that can effectively work under all three settings. Specifically, we propose the dual memory networks that comprise dynamic and static memory components. The static memory caches training data knowledge, enabling training-free few-shot adaptation, while the dynamic memory preserves historical test features online during the testing process, allowing for the exploration of additional data insights beyond the training set. This novel capability enhances model performance in the few-shot setting and enables model usability in the absence of training data. The two memory networks employ the same flexible memory interactive strategy, which can operate in a training-free mode and can be further enhanced by incorporating learnable projection layers. Our approach is tested across 11 datasets under the three task settings. Remarkably, in the zero-shot scenario, it outperforms existing methods by over 3\% and even shows superior results against methods utilizing external training data. Additionally, our method exhibits robust performance against natural distribution shifts. Codes are available at \url{https://github.com/YBZh/DMN}. | 翻訳日:2024-03-27 15:47:16 公開日:2024-03-26 |
# アウト・オブ・ディストリビューション一般化におけるオーバーパラメータ化の効果について
On the Benefits of Over-parameterization for Out-of-Distribution Generalization ( http://arxiv.org/abs/2403.17592v1 ) ライセンス: Link先を確認 | Yifan Hao, Yong Lin, Difan Zou, Tong Zhang, | (参考訳) 近年、機械学習モデルは、独立に、同一に分散された仮定に基づいて成功している。
しかし、この仮定は現実世界のアプリケーションでは容易に破られ、アウト・オブ・ディストリビューション(OOD)問題に繋がる。
現代の過度パラメータ化DNNは、現在の理論的理解が不十分であるため、非自明な自然分布シフトの下でどのように振る舞うかを理解することが不可欠である。
既存の理論的研究は、OODシナリオにおける過度にパラメータ化されたモデルに対して無意味な結果を与えるか、あるいは経験的な結果に矛盾する。
そこで本研究では,OOD一般化における過度パラメータ化モデルの性能について,一般的な過度適合条件下で検討している。
本分析はランダムな特徴モデルに焦点をあて,非自明な自然分布変化を考察する。そこでは,過剰分布(ID)損失がゼロであるにもかかわらず,良性過剰分布推定器が一定に過剰なOOD損失を示す。
このシナリオでは、モデルのパラメータ化をさらに増加させることで、OOD損失が大幅に減少することを示した。
直感的には、長い尾の特徴の直交性のため、ID損失の分散項は依然として低く、訓練中のノイズ過収は一般にテスト損失を生じない。
しかし、OODの場合、分布シフトは分散項を増加させる。
ありがたいことに、本質的なシフトは個々の x とは無関係であり、長い尾の特徴の直交性を維持する。
隠れた次元を拡張することで、これらの特徴を高次元空間にマッピングすることで、この直交性も改善され、したがって分散項が減少する。
さらに,モデルアンサンブルによりOOD損失が改善し,モデル能力が向上することを示す。
これらの知見は、モデルアンサンブルによる拡張OOD一般化の実証的な現象を説明し、理論的な結果と一貫したシミュレーションによって支持される。
In recent years, machine learning models have achieved success based on the independently and identically distributed assumption. However, this assumption can be easily violated in real-world applications, leading to the Out-of-Distribution (OOD) problem. Understanding how modern over-parameterized DNNs behave under non-trivial natural distributional shifts is essential, as current theoretical understanding is insufficient. Existing theoretical works often provide meaningless results for over-parameterized models in OOD scenarios or even contradict empirical findings. To this end, we are investigating the performance of the over-parameterized model in terms of OOD generalization under the general benign overfitting conditions. Our analysis focuses on a random feature model and examines non-trivial natural distributional shifts, where the benign overfitting estimators demonstrate a constant excess OOD loss, despite achieving zero excess in-distribution (ID) loss. We demonstrate that in this scenario, further increasing the model's parameterization can significantly reduce the OOD loss. Intuitively, the variance term of ID loss remains low due to orthogonality of long-tail features, meaning overfitting noise during training generally doesn't raise testing loss. However, in OOD cases, distributional shift increases the variance term. Thankfully, the inherent shift is unrelated to individual x, maintaining the orthogonality of long-tail features. Expanding the hidden dimension can additionally improve this orthogonality by mapping the features into higher-dimensional spaces, thereby reducing the variance term. We further show that model ensembles also improve OOD loss, akin to increasing model capacity. These insights explain the empirical phenomenon of enhanced OOD generalization through model ensembles, supported by consistent simulations with theoretical results. | 翻訳日:2024-03-27 15:47:16 公開日:2024-03-26 |
# 文化的感性のある音声アシスタントの未来を想像する
Coimagining the Future of Voice Assistants with Cultural Sensitivity ( http://arxiv.org/abs/2403.17599v1 ) ライセンス: Link先を確認 | Katie Seaborn, Yuto Sawa, Mizuki Watanabe, | (参考訳) 音声アシスタント(VA)は私たちの日常生活の特徴になりつつある。
しかし、ユーザエクスペリエンス(UX)はしばしば制限され、未使用、拡張、放棄につながります。
潜在的エンドユーザーとのVAの共設計相互作用は有用である。
このプロセスをクラウドソーシングすることで、匿名で価値が生まれる可能性がある。
しかし、ほとんどの研究は英語を話す西欧の対話データセットで行われている。
我々は、言語、社会的相互作用、技術に対する態度の文化的差異に敏感でなければならない。
我が国の非西洋的文脈におけるVAの共設計の価値を探究し,文化的感受性の必要性を実証することを目的とした。
我々は,米国人 (n = 64) と日本人 (n = 71) が対話 (N = 282) と活動 (N = 73) と将来のVAとの対話を想像するオンライン勧誘調査 (N = 135) を行った。
今後のVAとの対話を想像することの意味を論じ,日本語と英語のアメリカにおける文脈におけるデザインガイドラインを提供し,VAデザインと奨学金で文化的な複数の機会を提案する。
Voice assistants (VAs) are becoming a feature of our everyday life. Yet, the user experience (UX) is often limited, leading to underuse, disengagement, and abandonment. Co-designing interactions for VAs with potential end-users can be useful. Crowdsourcing this process online and anonymously may add value. However, most work has been done in the English-speaking West on dialogue data sets. We must be sensitive to cultural differences in language, social interactions, and attitudes towards technology. Our aims were to explore the value of co-designing VAs in the non-Western context of Japan and demonstrate the necessity of cultural sensitivity. We conducted an online elicitation study (N = 135) where Americans (n = 64) and Japanese people (n = 71) imagined dialogues (N = 282) and activities (N = 73) with future VAs. We discuss the implications for coimagining interactions with future VAs, offer design guidelines for the Japanese and English-speaking US contexts, and suggest opportunities for cultural plurality in VA design and scholarship. | 翻訳日:2024-03-27 15:47:16 公開日:2024-03-26 |
# LASIL:長期マイクロトラフィックシミュレーションのための学習者支援型模倣学習
LASIL: Learner-Aware Supervised Imitation Learning For Long-term Microscopic Traffic Simulation ( http://arxiv.org/abs/2403.17601v1 ) ライセンス: Link先を確認 | Ke Guo, Zhenwei Miao, Wei Jing, Weiwei Liu, Weizi Li, Dayang Hao, Jia Pan, | (参考訳) 微視的交通シミュレーションは、個々の車両の挙動や交通の流れに関する洞察を提供することによって、輸送工学において重要な役割を担っている。
しかし,様々な交通条件下での運転動作を正確に再現する現実的なシミュレータを作成することは,大きな課題となる。
ヒューリスティックなモデルに依存する従来のシミュレータは、現実の交通環境の複雑さのために正確なシミュレーションを行うことができないことが多い。
共変量シフトの問題により、既存の模倣学習ベースのシミュレータは安定した長期シミュレーションを生成できないことが多い。
本稿では,マルチエージェント模倣学習における共変量シフト問題に対処するために,学習者認識による模倣学習と呼ばれる新しい手法を提案する。
エキスパートと学習者の状態分布を同時にモデル化する変分オートエンコーダを活用することにより、拡張状態が学習者の状態分布を認識しているように専門家の状態を強化する。
都市交通シミュレーションに応用した本手法は,実世界のデータセットpNEUMAで評価した場合,短期的および長期的マクロ的リアリズムにおいて,既存の最先端ベースラインよりも大幅に改善されていることを示す。
Microscopic traffic simulation plays a crucial role in transportation engineering by providing insights into individual vehicle behavior and overall traffic flow. However, creating a realistic simulator that accurately replicates human driving behaviors in various traffic conditions presents significant challenges. Traditional simulators relying on heuristic models often fail to deliver accurate simulations due to the complexity of real-world traffic environments. Due to the covariate shift issue, existing imitation learning-based simulators often fail to generate stable long-term simulations. In this paper, we propose a novel approach called learner-aware supervised imitation learning to address the covariate shift problem in multi-agent imitation learning. By leveraging a variational autoencoder simultaneously modeling the expert and learner state distribution, our approach augments expert states such that the augmented state is aware of learner state distribution. Our method, applied to urban traffic simulation, demonstrates significant improvements over existing state-of-the-art baselines in both short-term microscopic and long-term macroscopic realism when evaluated on the real-world dataset pNEUMA. | 翻訳日:2024-03-27 15:47:16 公開日:2024-03-26 |
# Intel Data Center GPUにおける完全融合マルチ層パーセプトロン
Fully-fused Multi-Layer Perceptrons on Intel Data Center GPUs ( http://arxiv.org/abs/2403.17607v1 ) ライセンス: Link先を確認 | Kai Yuan, Christoph Bauinger, Xiangyi Zhang, Pascal Baehr, Matthias Kirchhart, Darius Dabert, Adrien Tousnakhoff, Pierre Boudier, Michael Paulitsch, | (参考訳) 本稿では,Multi-Layer Perceptrons(MLP)のSYCL実装について述べる。
本実装では,MLPの各層に演算を融合させることで,汎用レジスタファイルと共有ローカルメモリ内のデータ再利用を最大化することにより,グローバルメモリアクセスの遅さを最小化する。
単純な屋上モデルを用いて、演算強度が大幅に増加し、特に推論において性能が向上することを示す。
MLPのCUDA実装と同じようなアプローチを比較し、Intel Data Center GPUの実装はNvidiaのH100 GPU上のCUDA実装を最大2.84の推論と1.75のトレーニングで上回っていることを示す。
また、画像圧縮、ニューラルラジアンスフィールド、物理インフォームド機械学習の3つの重要な領域において、SYCLの実装の効率性を示す。
あらゆるケースにおいて、当社の実装は、同じIntel GPU上の既製のIntel Extension for PyTorch(IPEX)実装を最大30倍、NvidiaのH100 GPU上のCUDA PyTorchバージョンを最大19倍に上回ります。
コードはhttps://github.com/intel/tiny-dpcpp-nnで見ることができる。
This paper presents a SYCL implementation of Multi-Layer Perceptrons (MLPs), which targets and is optimized for the Intel Data Center GPU Max 1550. To increase the performance, our implementation minimizes the slow global memory accesses by maximizing the data reuse within the general register file and the shared local memory by fusing the operations in each layer of the MLP. We show with a simple roofline model that this results in a significant increase in the arithmetic intensity, leading to improved performance, especially for inference. We compare our approach to a similar CUDA implementation for MLPs and show that our implementation on the Intel Data Center GPU outperforms the CUDA implementation on Nvidia's H100 GPU by a factor up to 2.84 in inference and 1.75 in training. The paper also showcases the efficiency of our SYCL implementation in three significant areas: Image Compression, Neural Radiance Fields, and Physics-Informed Machine Learning. In all cases, our implementation outperforms the off-the-shelf Intel Extension for PyTorch (IPEX) implementation on the same Intel GPU by up to a factor of 30 and the CUDA PyTorch version on Nvidia's H100 GPU by up to a factor 19. The code can be found at https://github.com/intel/tiny-dpcpp-nn. | 翻訳日:2024-03-27 15:47:16 公開日:2024-03-26 |
# フェイクかJPEGか? 生成した画像検出データセットの共通バイアスを明らかにする
Fake or JPEG? Revealing Common Biases in Generated Image Detection Datasets ( http://arxiv.org/abs/2403.17608v1 ) ライセンス: Link先を確認 | Patrick Grommelt, Louis Weiss, Franz-Josef Pfreundt, Janis Keuper, | (参考訳) 生成画像モデルの普及により、人工的コンテンツを検出する緊急の必要性が浮き彫りになってきた。
その結果、多数の検出器と関連するデータセットが出現した。
しかし、これらのデータセットの多くは必然的に望ましくないバイアスを導入し、検出器の有効性と評価に影響を与える。
本稿では,AI生成画像検出のための多くのデータセットにはJPEG圧縮と画像サイズに関するバイアスが含まれていることを強調する。
GenImageデータセットを用いて、検出者がこれらの望ましくない要因から実際に学習できることを実証する。
さらに,名前付きバイアスの除去はJPEG圧縮に対するロバスト性を大幅に向上させ,評価検出器のクロスジェネレータ性能を著しく変化させることを示した。
具体的には、GenImageデータセット上のResNet50とSwin-T検出器のクロスジェネレータ性能が11パーセント以上向上し、最先端の結果が得られた。
我々は匿名のウェブサイトで、この論文のデータセットとソースコードを提供しています。
The widespread adoption of generative image models has highlighted the urgent need to detect artificial content, which is a crucial step in combating widespread manipulation and misinformation. Consequently, numerous detectors and associated datasets have emerged. However, many of these datasets inadvertently introduce undesirable biases, thereby impacting the effectiveness and evaluation of detectors. In this paper, we emphasize that many datasets for AI-generated image detection contain biases related to JPEG compression and image size. Using the GenImage dataset, we demonstrate that detectors indeed learn from these undesired factors. Furthermore, we show that removing the named biases substantially increases robustness to JPEG compression and significantly alters the cross-generator performance of evaluated detectors. Specifically, it leads to more than 11 percentage points increase in cross-generator performance for ResNet50 and Swin-T detectors on the GenImage dataset, achieving state-of-the-art results. We provide the dataset and source codes of this paper on the anonymous website: https://www.unbiased-genimage.org | 翻訳日:2024-03-27 15:47:16 公開日:2024-03-26 |
# MMVP:ビジョンと圧力センサーを備えたマルチモーダルMOCapデータセット
MMVP: A Multimodal MoCap Dataset with Vision and Pressure Sensors ( http://arxiv.org/abs/2403.17610v1 ) ライセンス: Link先を確認 | He Zhang, Shenghao Ren, Haolei Yuan, Jianhui Zhao, Fan Li, Shuangpeng Sun, Zhenghao Liang, Tao Yu, Qiu Shen, Xun Cao, | (参考訳) 足の接触は、人間のモーションキャプチャーだけでなく、運動理解や身体的にもっともらしいモーション生成にも重要な手がかりである。
しかし、既存のデータセットにおける足の接触アノテーションのほとんどは、純粋に視覚的マッチングと距離閾値によって推定されるため、精度は低く、粒度は粗い。
既存のマルチモーダルデータセットは、足圧(足の接触)と視覚信号を相乗的にキャプチャするが、特にタイジクァンやヨガのような小さな範囲のスローモーションのために設計されている。
したがって、広角かつ高速な人間の動きと、正確で密度の高い足の接触アノテーションを備えた視覚圧マルチモーダルデータセットがまだ存在しない。
このギャップを埋めるために、MMVPと呼ばれるビジョンと圧力センサーを備えたMultimodal MoCapデータセットを提案する。
MMVPは、RGBD観測と同期した正確で高密度な足底圧力信号を提供し、特に可塑性形状の推定、足のドリフトのない堅牢なポーズフィッティング、そして正確な大域的翻訳追跡に有用である。
このデータセットを検証するために、RGBD-P SMPLフィッティング法と、人間のモーションキャプチャのためのモノクロビデオベースラインフレームワークVP-MoCapを提案する。
実験により、RGBD-P SMPLフィッティングは、純粋な視覚的モーションキャプチャーを著しく上回ることがわかった。
さらに、VP-MoCapは、足の接触や大域的な翻訳推定精度でSOTA法より優れている。
データセットとベースラインフレームワークの設定は、この方向の研究を刺激し、さまざまなドメインにおけるMoCapアプリケーションに良いリファレンスを提供すると信じています。
プロジェクトページ: https://haolyuan.github.io/MMVP-Dataset/。
Foot contact is an important cue not only for human motion capture but also for motion understanding and physically plausible motion generation. However, most of the foot-contact annotations in existing datasets are estimated by purely visual matching and distance thresholding, which results in low accuracy and coarse granularity. Even though existing multimodal datasets synergistically capture plantar pressure (foot contact) and visual signals, they are specifically designed for small-range and slow motion such as Taiji Quan and Yoga. Therefore, there is still a lack of a vision-pressure multimodal dataset with large-range and fast human motion, as well as accurate and dense foot-contact annotation. To fill this gap, we propose a Multimodal MoCap Dataset with Vision and Pressure sensors, named MMVP. MMVP provides accurate and dense plantar pressure signals synchronized with RGBD observations, which is especially useful for both plausible shape estimation, robust pose fitting without foot drifting, and accurate global translation tracking. To validate the dataset, we propose an RGBD-P SMPL fitting method and also a monocular-video-based baseline framework, VP-MoCap, for human motion capture. Experiments demonstrate that our RGBD-P SMPL Fitting results significantly outperform pure visual motion capture. Moreover, VP-MoCap outperforms SOTA methods in foot-contact and global translation estimation accuracy. We believe the configuration of the dataset and the baseline frameworks will stimulate the research in this direction and also provide a good reference for MoCap applications in various domains. Project page: https://haolyuan.github.io/MMVP-Dataset/. | 翻訳日:2024-03-27 15:37:32 公開日:2024-03-26 |
# オープンドメイン質問応答のためのテーブルテキスト検索
Denoising Table-Text Retrieval for Open-Domain Question Answering ( http://arxiv.org/abs/2403.17611v1 ) ライセンス: Link先を確認 | Deokhyung Kang, Baikjin Jung, Yunsu Kim, Gary Geunbae Lee, | (参考訳) テーブルテキストのオープンドメイン質問応答において、検索システムは、テーブルとテキストから関連する証拠を検索し、質問に答える。
テーブルテキストのオープンドメイン質問応答に関するこれまでの研究には、トレーニングデータセットにおける偽陽性ラベルの影響を受けやすいこと、テーブル全体の推論を必要とする質問に対する適切な証拠の提供に苦慮していること、の2つの共通する課題がある。
これらの問題に対処するため,Denoized Table-Text Retriever (DoTTeR)を提案する。
提案手法では, 偽陽性検出モデルを用いて測定した質問関連スコアの低いインスタンスを破棄することにより, 偽陽性ラベルを少ない偽陽性ラベルで識別した訓練データセットを活用する。
その後、テーブルレベルのランキング情報をレトリバーに統合し、テーブル全体に推論を要求する質問の証拠を見つけるのを支援する。
このランク付け情報を符号化するために、列内の最小値と最大値を特定するランク対応列エンコーダを微調整する。
実験の結果,DoTTeRは検索リコールおよび下流QAタスクにおいて,強いベースラインを著しく上回ることがわかった。
私たちのコードはhttps://github.com/deokhk/DoTTeR.comで公開されています。
In table-text open-domain question answering, a retriever system retrieves relevant evidence from tables and text to answer questions. Previous studies in table-text open-domain question answering have two common challenges: firstly, their retrievers can be affected by false-positive labels in training datasets; secondly, they may struggle to provide appropriate evidence for questions that require reasoning across the table. To address these issues, we propose Denoised Table-Text Retriever (DoTTeR). Our approach involves utilizing a denoised training dataset with fewer false positive labels by discarding instances with lower question-relevance scores measured through a false positive detection model. Subsequently, we integrate table-level ranking information into the retriever to assist in finding evidence for questions that demand reasoning across the table. To encode this ranking information, we fine-tune a rank-aware column encoder to identify minimum and maximum values within a column. Experimental results demonstrate that DoTTeR significantly outperforms strong baselines on both retrieval recall and downstream QA tasks. Our code is available at https://github.com/deokhk/DoTTeR. | 翻訳日:2024-03-27 15:37:32 公開日:2024-03-26 |
# 専門家アノテータ」:感情インテンシティ・モデリングのためのベスト・ワースト・スケーリング・アノテーション自動作成
"You are an expert annotator": Automatic Best-Worst-Scaling Annotations for Emotion Intensity Modeling ( http://arxiv.org/abs/2403.17612v1 ) ライセンス: Link先を確認 | Christopher Bagdon, Prathamesh Karmalker, Harsha Gurulingappa, Roman Klinger, | (参考訳) ラベル付けコーパスは、新しいタスクやドメインのモデルを作成するためにボトルネックとなる。
大規模な言語モデルは、特に分類的アノテーションにおいて、自動コーパスラベリング手法で問題を緩和する。
しかし、感情強度予測のようなNLPタスクはテキストの回帰を必要とするが、連続ラベル代入のためのアノテーションを自動化する作業は行われていない。
評価尺度から値を選択するように指示されたとき、人間がより悪いパフォーマンスをするという事実は、ベスト・ワースト・スケーリングを含む比較アノテーション手法につながる。
これは、大規模言語モデルに基づくアノテーション手法が類似したパターンを示すかどうかという問題を引き起こす。
そこで本研究では,感情の強度予測を自動化し,直接評価尺度の予測,ペアワイズ比較,ベストワーストスケーリングを比較した。
後者が最も信頼性が高いことが分かりました。
これらのデータに基づいて微調整されたトランスフォーマー回帰器は、オリジナルの手動アノテーションでトレーニングされたモデルとほぼ同等に動作する。
Labeling corpora constitutes a bottleneck to create models for new tasks or domains. Large language models mitigate the issue with automatic corpus labeling methods, particularly for categorical annotations. Some NLP tasks such as emotion intensity prediction, however, require text regression, but there is no work on automating annotations for continuous label assignments. Regression is considered more challenging than classification: The fact that humans perform worse when tasked to choose values from a rating scale lead to comparative annotation methods, including best-worst scaling. This raises the question if large language model-based annotation methods show similar patterns, namely that they perform worse on rating scale annotation tasks than on comparative annotation tasks. To study this, we automate emotion intensity predictions and compare direct rating scale predictions, pairwise comparisons and best-worst scaling. We find that the latter shows the highest reliability. A transformer regressor fine-tuned on these data performs nearly on par with a model trained on the original manual annotations. | 翻訳日:2024-03-27 15:37:32 公開日:2024-03-26 |
# Grad-CAMO:3次元細胞絵画画像から解釈可能な単細胞形態を学習する
Grad-CAMO: Learning Interpretable Single-Cell Morphological Profiles from 3D Cell Painting Images ( http://arxiv.org/abs/2403.17615v1 ) ライセンス: Link先を確認 | Vivek Gopalakrishnan, Jingzhe Ma, Zhiyong Xie, | (参考訳) ブラックボックスの性質にもかかわらず、深層学習モデルは、顕微鏡画像中の単一細胞から特徴ベクトルを抽出するために画像ベースの薬物発見に広く用いられている。
これらのネットワークがどのように表現学習を行うかをよりよく理解するために、視覚的説明可能性技術(Grad-CAMなど)を用いる。
そこで本研究では,背景雑音などの画像から形態的特徴を抽出する際に,生物学的に無関係な画素を生かし,教師付きモデルを騙す機構を明らかにした。
このことは、学習された単細胞表現の忠実さと下流の生物学的問題の調査におけるそれらの関連性に関する疑念を提起する。
研究者の期待と機械行動の相違に対処するために,教師付き特徴抽出器のための新しい単一セル解釈可能性スコアであるGrad-CAMOを導入する。
Grad-CAMOは、関心の細胞と背景の細胞に集中しているモデルの注意率を測定する。
このメトリクスは、セルごとの評価や検証セットの平均化が可能で、個々の特徴ベクトルを監査したり、ディープラーニングアーキテクチャの改善設計をガイドするツールを提供する。
重要な点として、Grad-CAMOは既存のワークフローにシームレスに統合され、データセットやモデルの変更は不要で、2Dと3DのCell Paintingデータの両方と互換性がある。
追加結果はhttps://github.com/eigenvivek/Grad-CAMO.comで公開されている。
Despite their black-box nature, deep learning models are extensively used in image-based drug discovery to extract feature vectors from single cells in microscopy images. To better understand how these networks perform representation learning, we employ visual explainability techniques (e.g., Grad-CAM). Our analyses reveal several mechanisms by which supervised models cheat, exploiting biologically irrelevant pixels when extracting morphological features from images, such as noise in the background. This raises doubts regarding the fidelity of learned single-cell representations and their relevance when investigating downstream biological questions. To address this misalignment between researcher expectations and machine behavior, we introduce Grad-CAMO, a novel single-cell interpretability score for supervised feature extractors. Grad-CAMO measures the proportion of a model's attention that is concentrated on the cell of interest versus the background. This metric can be assessed per-cell or averaged across a validation set, offering a tool to audit individual features vectors or guide the improved design of deep learning architectures. Importantly, Grad-CAMO seamlessly integrates into existing workflows, requiring no dataset or model modifications, and is compatible with both 2D and 3D Cell Painting data. Additional results are available at https://github.com/eigenvivek/Grad-CAMO. | 翻訳日:2024-03-27 15:37:32 公開日:2024-03-26 |
# 量子および半古典ラビモデルにおける回転波近似のスペクトルおよび動的妥当性
Spectral and dynamical validity of the rotating-wave approximation in the quantum and semiclassical Rabi models ( http://arxiv.org/abs/2403.17628v1 ) ライセンス: Link先を確認 | H. F. A. Coleman, E. K. Twyeffort, | (参考訳) 回転波近似(RWA)の分解を特徴とする量子ラビモデルにおける超強結合(USC)は、かなりの関心と研究のトピックとなっている。
この RWA の妥当性の批判的再評価は、フィールド周波数とのカップリングの固定比の点で、USC の定義が不十分であると結論付けている。
改良されたスペクトル妥当性基準と半古典的極限の導出を結びつけることで、量子RWAの動的妥当性は対応する半古典的モデルのそれとリンクすべきであると予測される。
しかし、これはコヒーレント状態の力学の数値計算では支持されず、スペクトルの妥当性が動的妥当性を示唆せず、結合と場の振幅に驚くほど複雑な依存があることを明白に示している。
Ultrastrong coupling (USC) in the quantum Rabi model, characterized by the breakdown of the rotating-wave approximation (RWA) has become a topic of considerable interest and study. This critical reevaluation of the validity of the RWA concludes that the accepted definition of USC in terms of a fixed ratio of coupling to field frequency is inadequate. Connecting an improved spectral validity criterion with the derivation of the semiclassical limit predicts that the dynamical validity of the quantum RWA should be linked to that of the corresponding semiclassical model. This, however, is not supported by numerical calculations of coherent-state dynamics, which unambiguously demonstrate that spectral validity does not imply dynamical validity and reveal surprisingly complicated dependence on coupling and field amplitude. | 翻訳日:2024-03-27 15:37:32 公開日:2024-03-26 |
# AniArtAvatar:1枚の画像から3Dアートアバターを作る
AniArtAvatar: Animatable 3D Art Avatar from a Single Image ( http://arxiv.org/abs/2403.17631v1 ) ライセンス: Link先を確認 | Shaoxu Li, | (参考訳) 本稿では, 顔表情, 頭部ポーズ, 肩の動きを制御可能な, 単一の画像からアニマタブルな3次元アートアバターを生成するための新しいアプローチを提案する。
従来の再現法とは違って,本手法ではビュー条件付き2次元拡散モデルを用いて,一枚の肖像画から中性表現で多視点画像を合成する。
生成した色と正常値を用いて、SDFベースのニューラルサーフェスを用いて静的アバターを合成する。
アバターアニメーションでは、制御点を抽出し、これらの点で動きを転送し、暗黙の正準空間を変形する。
まず、アバターの前面画像を描画し、2Dランドマークを抽出し、訓練されたSDFネットワークを用いて3D空間に投影する。
3DMMを用いて3次元走行ランドマークを抽出し,アバターランドマークに移動させる。
アバターのポーズをアニメーションするために、手動で身長を設定し、アバターの頭と胴体を2つのケージで縛った。
頭部と胴体は2つのケージを変換してアニメーションすることができる。
私たちのアプローチは、さまざまなスタイルに適用可能なワンショットパイプラインです。
実験により, 異なる動作に対して所望の制御を施した高品質な3Dアートアバターを製作できることが実証された。
We present a novel approach for generating animatable 3D-aware art avatars from a single image, with controllable facial expressions, head poses, and shoulder movements. Unlike previous reenactment methods, our approach utilizes a view-conditioned 2D diffusion model to synthesize multi-view images from a single art portrait with a neutral expression. With the generated colors and normals, we synthesize a static avatar using an SDF-based neural surface. For avatar animation, we extract control points, transfer the motion with these points, and deform the implicit canonical space. Firstly, we render the front image of the avatar, extract the 2D landmarks, and project them to the 3D space using a trained SDF network. We extract 3D driving landmarks using 3DMM and transfer the motion to the avatar landmarks. To animate the avatar pose, we manually set the body height and bound the head and torso of an avatar with two cages. The head and torso can be animated by transforming the two cages. Our approach is a one-shot pipeline that can be applied to various styles. Experiments demonstrate that our method can generate high-quality 3D art avatars with desired control over different motions. | 翻訳日:2024-03-27 15:37:32 公開日:2024-03-26 |
# オープンデータセットを用いたマイクロモビリティのためのデータ駆動エネルギー消費モデル
Data-driven Energy Consumption Modelling for Electric Micromobility using an Open Dataset ( http://arxiv.org/abs/2403.17632v1 ) ライセンス: Link先を確認 | Yue Ding, Sen Yan, Maqsood Hussain Shah, Hongyuan Fang, Ji Li, Mingming Liu, | (参考訳) 交通渋滞と環境劣化のエスカレート課題は、都市空間におけるE-Mobilityソリューションの導入の重要性を浮き彫りにしている。
特に、E-scootersやE-bikesのようなマイクロE-Mobilityツールは、この移行において重要な役割を担い、都市通勤者にとって持続可能な代替手段を提供する。
しかし,これらのツールのエネルギー消費パターンは,実際のシナリオにおける有効性に影響を与える重要な側面であり,旅行計画や利用者の信頼性向上に不可欠である。
この効果のために、近年の研究では、特定の移動手段や条件のためにカスタマイズされた物理モデルを利用しているが、これらのモデルは、詳細なモデル評価と検証のためのオープンデータセットが欠如していることから、現実のシナリオにおける一般化と有効性に苦慮している。
このギャップを埋めるために、我々の研究はアイルランドのダブリンで収集されたオープンデータセットを示し、特にE-ScootersとE-Bikesに関するエネルギーモデリング研究のために設計されている。
さらに,一組の機械学習アルゴリズムを用いて,データセットに基づくエネルギー消費モデリングの包括的解析を行い,その性能を現代数学モデルと比較する。
本研究は,データ駆動モデルに対して,エネルギー消費量を推定する数学的モデルと比較して,顕著な優位性を示すものである。
具体的には、データ駆動モデルは、特定の仮定の下でデータセットの詳細な分析に基づいて、Eバイクで83.83%、Eスクーターで82.16%の精度で物理モデルを上回っている。
The escalating challenges of traffic congestion and environmental degradation underscore the critical importance of embracing E-Mobility solutions in urban spaces. In particular, micro E-Mobility tools such as E-scooters and E-bikes, play a pivotal role in this transition, offering sustainable alternatives for urban commuters. However, the energy consumption patterns for these tools are a critical aspect that impacts their effectiveness in real-world scenarios and is essential for trip planning and boosting user confidence in using these. To this effect, recent studies have utilised physical models customised for specific mobility tools and conditions, but these models struggle with generalization and effectiveness in real-world scenarios due to a notable absence of open datasets for thorough model evaluation and verification. To fill this gap, our work presents an open dataset, collected in Dublin, Ireland, specifically designed for energy modelling research related to E-Scooters and E-Bikes. Furthermore, we provide a comprehensive analysis of energy consumption modelling based on the dataset using a set of representative machine learning algorithms and compare their performance against the contemporary mathematical models as a baseline. Our results demonstrate a notable advantage for data-driven models in comparison to the corresponding mathematical models for estimating energy consumption. Specifically, data-driven models outperform physical models in accuracy by up to 83.83% for E-Bikes and 82.16% for E-Scooters based on an in-depth analysis of the dataset under certain assumptions. | 翻訳日:2024-03-27 15:37:32 公開日:2024-03-26 |
# UADA3D:Sparse LiDARとLarge Domain Gapsを用いた3次元物体検出のための教師なし逆数領域適応
UADA3D: Unsupervised Adversarial Domain Adaptation for 3D Object Detection with Sparse LiDAR and Large Domain Gaps ( http://arxiv.org/abs/2403.17633v1 ) ライセンス: Link先を確認 | Maciej K Wozniak, Mattias Hansson, Marko Thiel, Patric Jensfelt, | (参考訳) 本研究では,LiDARをベースとした3次元物体検出において,既存の教師なし領域適応手法のギャップに対処する。
道路上の車両だけでなく、歩道上の移動ロボットからも、環境条件やセンサーの設定がかなり異なります。
本稿では,3次元物体検出(UADA3D)のための非教師付き反転領域適応法を提案する。
UADA3Dは、事前訓練されたソースモデルや教師-学生アーキテクチャに依存しない。
代わりに、ドメイン不変の機能を直接学習するために、敵対的なアプローチを使う。
様々な適応シナリオにおいて有効性を示し、自動運転車と移動ロボットの両方の領域で顕著に改善されていることを示す。
私たちのコードはオープンソースで、まもなく利用可能になります。
In this study, we address a gap in existing unsupervised domain adaptation approaches on LiDAR-based 3D object detection, which have predominantly concentrated on adapting between established, high-density autonomous driving datasets. We focus on sparser point clouds, capturing scenarios from different perspectives: not just from vehicles on the road but also from mobile robots on sidewalks, which encounter significantly different environmental conditions and sensor configurations. We introduce Unsupervised Adversarial Domain Adaptation for 3D Object Detection (UADA3D). UADA3D does not depend on pre-trained source models or teacher-student architectures. Instead, it uses an adversarial approach to directly learn domain-invariant features. We demonstrate its efficacy in various adaptation scenarios, showing significant improvements in both self-driving car and mobile robot domains. Our code is open-source and will be available soon. | 翻訳日:2024-03-27 15:37:32 公開日:2024-03-26 |
# 強化学習に基づくレコメンデーションシステムのための適応型マスキングを用いた相対的決定変換器
Retentive Decision Transformer with Adaptive Masking for Reinforcement Learning based Recommendation Systems ( http://arxiv.org/abs/2403.17634v1 ) ライセンス: Link先を確認 | Siyu Wang, Xiaocong Chen, Lina Yao, | (参考訳) Reinforcement Learning-based Recommender Systems (RLRS)は、eコマースプラットフォームからストリーミングサービスまで、幅広いアプリケーションで約束されている。
しかし彼らは、特に報酬関数の作成や、RLフレームワーク内で既存の大規模なデータセットを活用する上で、課題に悩まされている。
オフラインRLRSの最近の進歩は、これらの2つの課題に対処するためのソリューションを提供する。
しかし、既存の手法は主にトランスフォーマーアーキテクチャに依存しており、シーケンスの長さが増加するにつれて、計算資源やトレーニングコストに関連する課題がもたらされる。
さらに、一般的な手法では、固定長の入力トラジェクトリを使用し、進化するユーザの好みを捉える能力を制限する。
本研究では,上記の問題に対処する新しいオフラインRLRS法を提案する。
逐次決定を推論タスクとしてモデル化し、適応的なマスキング構成を活用することにより、RLRSの課題を再解釈する。
この適応的アプローチは入力トークンを選択的にマスクし、様々なトークンサブセットに基づいて推奨タスクを推論チャレンジに変換することにより、エージェントの様々な軌道長をまたいで推論する能力を向上する。
さらに、長いシーケンスの効率的なモデリングを容易にし、計算効率を大幅に向上するマルチスケールセグメンテーション保持機構を組み込んだ。
オンラインシミュレーターとオフラインデータセットの両方を用いて実験を行った結果,提案手法の利点が明らかとなった。
Reinforcement Learning-based Recommender Systems (RLRS) have shown promise across a spectrum of applications, from e-commerce platforms to streaming services. Yet, they grapple with challenges, notably in crafting reward functions and harnessing large pre-existing datasets within the RL framework. Recent advancements in offline RLRS provide a solution for how to address these two challenges. However, existing methods mainly rely on the transformer architecture, which, as sequence lengths increase, can introduce challenges associated with computational resources and training costs. Additionally, the prevalent methods employ fixed-length input trajectories, restricting their capacity to capture evolving user preferences. In this study, we introduce a new offline RLRS method to deal with the above problems. We reinterpret the RLRS challenge by modeling sequential decision-making as an inference task, leveraging adaptive masking configurations. This adaptive approach selectively masks input tokens, transforming the recommendation task into an inference challenge based on varying token subsets, thereby enhancing the agent's ability to infer across diverse trajectory lengths. Furthermore, we incorporate a multi-scale segmented retention mechanism that facilitates efficient modeling of long sequences, significantly enhancing computational efficiency. Our experimental analysis, conducted on both online simulator and offline datasets, clearly demonstrates the advantages of our proposed method. | 翻訳日:2024-03-27 15:37:32 公開日:2024-03-26 |
# 動的プレフィックスチューニングによる混合開始応答生成
Mix-Initiative Response Generation with Dynamic Prefix Tuning ( http://arxiv.org/abs/2403.17636v1 ) ライセンス: Link先を確認 | Yuxiang Nie, Heyan Huang, Xian-Ling Mao, Lizi Liao, | (参考訳) 混合イニシアチブは、会話の方向を制御する上で重要な要素の1つである。
話者にとって、受動的に反応するか、積極的に反応するということは、かなり異なる反応をもたらす。
しかし、ほとんどの対話システムは、異なるイニシアチブ間で区別されることなく、全体的な応答生成モデルを訓練することに焦点を当てている。
モデルが異なるイニシアチブを混同し、不適切な応答を生成するという、クロス汚染問題につながります。
さらに、イニシアティブラベルのための多くの人的アノテーションを取得することは、コストがかかる。
この問題に対処するため,我々は生成モデルから異なるイニシアチブを分離し,教師なし設定と教師なし設定の両方でイニシアチブ対応のプレフィックスを学習する,一般の混合開始動的プリフィックスチューニングフレームワーク(IDPT)を提案する。
具体的には、IDPTは、イニシアティブ因子を異なるプレフィックスパラメータに分解し、アテンションメカニズムを使用して、ジェネレーションを動的に誘導するイニシアティブの選択を調整する。
プレフィックスパラメータは、正確なイニシアティブ予測とミックス開始応答生成に調整することができる。
2つの公開対話データセットの大規模な実験により、提案したIDPTは、自動測定と人的評価の両方において、以前のベースラインを上回っていることが示された。
また、操作されたイニシアティブで適切なレスポンスを生成することもできる。
Mixed initiative serves as one of the key factors in controlling conversation directions. For a speaker, responding passively or leading proactively would result in rather different responses. However, most dialogue systems focus on training a holistic response generation model without any distinction among different initiatives. It leads to the cross-contamination problem, where the model confuses different initiatives and generates inappropriate responses. Moreover, obtaining plenty of human annotations for initiative labels can be expensive. To address this issue, we propose a general mix-Initiative Dynamic Prefix Tuning framework (IDPT) to decouple different initiatives from the generation model, which learns initiative-aware prefixes in both supervised and unsupervised settings. Specifically, IDPT decouples initiative factors into different prefix parameters and uses the attention mechanism to adjust the selection of initiatives in guiding generation dynamically. The prefix parameters can be tuned towards accurate initiative prediction as well as mix-initiative response generation. Extensive experiments on two public dialogue datasets show that the proposed IDPT outperforms previous baselines on both automatic metrics and human evaluations. It also manages to generate appropriate responses with manipulated initiatives. | 翻訳日:2024-03-27 15:37:32 公開日:2024-03-26 |
# PeersimGym:強化学習によるタスクオフロード問題の解決環境
PeersimGym: An Environment for Solving the Task Offloading Problem with Reinforcement Learning ( http://arxiv.org/abs/2403.17637v1 ) ライセンス: Link先を確認 | Frederico Metelo, Stevo Racković, Pedro Ákos, Cláudia Soares, | (参考訳) タスクオフロードは、IoT(Internet of Things)などのネットワーク内のデバイス間での計算負荷の分散に不可欠である。
従来の最適化はスケーラビリティに欠けており、ヒューリスティックなアプローチでは最適な結果が得られていないが、Reinforcement Learning (RL)は反復的な相互作用を通じて最適なオフロード戦略の学習を可能にすることで、有望な方法を提供する。
しかし、RLのヒンジは、リッチデータセットやカスタマイズされたリアルなトレーニング環境へのアクセスに有効である。
そこで本稿では,タスクオフロード戦略の開発と最適化に適した,オープンソースのカスタマイズ可能なシミュレーション環境であるPeersimGymを紹介する。
PeersimGymは、幅広いネットワークトポロジと計算制約をサポートし、単体とマルチエージェントの両方のセットアップでRLエージェントのデプロイのための \textit{PettingZoo} ベースのインターフェイスを統合する。
さらに, 深層強化学習エージェントを用いた実験により, 分散コンピューティング環境におけるオフロード戦略を大幅に強化するRLベースのアプローチの可能性を示す。
したがって、PeersimGymは理論的RLモデルとその実践的応用のギャップを埋め、効率的なタスクオフロード手法の進歩の道を開く。
Task offloading, crucial for balancing computational loads across devices in networks such as the Internet of Things, poses significant optimization challenges, including minimizing latency and energy usage under strict communication and storage constraints. While traditional optimization falls short in scalability; and heuristic approaches lack in achieving optimal outcomes, Reinforcement Learning (RL) offers a promising avenue by enabling the learning of optimal offloading strategies through iterative interactions. However, the efficacy of RL hinges on access to rich datasets and custom-tailored, realistic training environments. To address this, we introduce PeersimGym, an open-source, customizable simulation environment tailored for developing and optimizing task offloading strategies within computational networks. PeersimGym supports a wide range of network topologies and computational constraints and integrates a \textit{PettingZoo}-based interface for RL agent deployment in both solo and multi-agent setups. Furthermore, we demonstrate the utility of the environment through experiments with Deep Reinforcement Learning agents, showcasing the potential of RL-based approaches to significantly enhance offloading strategies in distributed computing settings. PeersimGym thus bridges the gap between theoretical RL models and their practical applications, paving the way for advancements in efficient task offloading methodologies. | 翻訳日:2024-03-27 15:37:32 公開日:2024-03-26 |
# 信頼できない学習:相対的幾何学的整合性を持つ高速フルショットボクセル放射場
Learning with Unreliability: Fast Few-shot Voxel Radiance Fields with Relative Geometric Consistency ( http://arxiv.org/abs/2403.17638v1 ) ライセンス: Link先を確認 | Yingjie Xu, Bangzhen Liu, Hao Tang, Bailin Deng, Shengfeng He, | (参考訳) 疑似新規ビュー合成における不安定性に戦略的に対処する数発のラジアンスフィールドに対して,ボクセルに基づく最適化フレームワークReVoRFを提案する。
本手法は, 隣接する地域での相対深度関係が, 隠蔽領域の絶対色値よりも信頼性が高いという知見に基づく。
その結果,不確定領域の深度整合性の文脈において,色忠実度と幾何精度とのトレードオフを慎重にナビゲートする2次元幾何整合損失を考案した。
さらに,信頼度と信頼できないデータパッチ間の遷移を円滑化する信頼性を考慮したボクセル平滑化アルゴリズムにより,合成されたビュー間の変動品質を識別し,活用するための信頼性誘導学習戦略を提案する。
我々のアプローチは、すべての利用可能なデータをよりきめ細やかな利用を可能にし、以前は高品質な再構築には適さないと考えられていた地域からの学習を促進する。
多様なデータセットにわたる大規模な実験により、我々のアプローチは効率と精度が大幅に向上し、レンダリング速度は3FPS、7分で360^\circ$のシーンをトレーニングでき、PSNRは既存の数ショット法よりも5倍改善されていることが判明した。
コードはhttps://github.com/HKCLynn/ReVoRFで入手できる。
We propose a voxel-based optimization framework, ReVoRF, for few-shot radiance fields that strategically address the unreliability in pseudo novel view synthesis. Our method pivots on the insight that relative depth relationships within neighboring regions are more reliable than the absolute color values in disoccluded areas. Consequently, we devise a bilateral geometric consistency loss that carefully navigates the trade-off between color fidelity and geometric accuracy in the context of depth consistency for uncertain regions. Moreover, we present a reliability-guided learning strategy to discern and utilize the variable quality across synthesized views, complemented by a reliability-aware voxel smoothing algorithm that smoothens the transition between reliable and unreliable data patches. Our approach allows for a more nuanced use of all available data, promoting enhanced learning from regions previously considered unsuitable for high-quality reconstruction. Extensive experiments across diverse datasets reveal that our approach attains significant gains in efficiency and accuracy, delivering rendering speeds of 3 FPS, 7 mins to train a $360^\circ$ scene, and a 5\% improvement in PSNR over existing few-shot methods. Code is available at https://github.com/HKCLynn/ReVoRF. | 翻訳日:2024-03-27 15:37:32 公開日:2024-03-26 |
# グレースケール再定義に基づく高分解能画像翻訳モデル
High-Resolution Image Translation Model Based on Grayscale Redefinition ( http://arxiv.org/abs/2403.17639v1 ) ライセンス: Link先を確認 | Xixian Wu, Dian Chao, Yang Yang, | (参考訳) 画像から画像への変換は、重要なコンテンツ表現を維持しながら、あるドメインから別のドメインへ画像を転送することに焦点を当てる技法である。
近年,コンピュータビジョンや画像処理タスクにおける多種多様な応用により,画像から画像への翻訳が注目され,目覚しい進歩を遂げている。
本研究では,異なる領域間の画像変換のための革新的な手法を提案する。
高解像度画像翻訳タスクでは、グレースケール調整法を用いてピクセルレベルの変換を行う。
他のタスクでは、Pix2PixHDモデルを使い、粗大な生成装置、マルチスケールの判別器、画像翻訳性能を向上させるために損失の改善を行う。
一方、スパーストレーニングデータの問題に対処するために、我々は現在のタスクの性能を最適化するために、他のタスクからモデルウェイト初期化を採用する。
Image-to-image translation is a technique that focuses on transferring images from one domain to another while maintaining the essential content representations. In recent years, image-to-image translation has gained significant attention and achieved remarkable advancements due to its diverse applications in computer vision and image processing tasks. In this work, we propose an innovative method for image translation between different domains. For high-resolution image translation tasks, we use a grayscale adjustment method to achieve pixel-level translation. For other tasks, we utilize the Pix2PixHD model with a coarse-to-fine generator, multi-scale discriminator, and improved loss to enhance the image translation performance. On the other hand, to tackle the issue of sparse training data, we adopt model weight initialization from other task to optimize the performance of the current task. | 翻訳日:2024-03-27 15:37:32 公開日:2024-03-26 |
# REFeREE: テキスト単純化のための参照フリーモデルベースメトリクス
REFeREE: A REference-FREE Model-Based Metric for Text Simplification ( http://arxiv.org/abs/2403.17640v1 ) ライセンス: Link先を確認 | Yichen Huang, Ekaterina Kochmar, | (参考訳) テキストの単純化は品質の普遍的な標準に欠けており、注釈付き参照の単純化は少なく費用もかかる。
本稿では,3段階のカリキュラムを備えた参照フリーモデルベースメトリクスREFeREEを導入することで,そのような制約を軽減することを提案する。
REFeREEは任意にスケーラブルな事前トレーニングステージを活用し、少数の人間が利用できる限り、あらゆる品質基準に適用できる。
実験の結果,評価基準の精度は既存の基準基準指標よりも優れており,評価基準の精度は高いが,評価基準の簡易化は不要であることがわかった。
Text simplification lacks a universal standard of quality, and annotated reference simplifications are scarce and costly. We propose to alleviate such limitations by introducing REFeREE, a reference-free model-based metric with a 3-stage curriculum. REFeREE leverages an arbitrarily scalable pretraining stage and can be applied to any quality standard as long as a small number of human annotations are available. Our experiments show that our metric outperforms existing reference-based metrics in predicting overall ratings and reaches competitive and consistent performance in predicting specific ratings while requiring no reference simplifications at inference time. | 翻訳日:2024-03-27 15:37:32 公開日:2024-03-26 |
# S+t-SNE - データストリームに次元還元をもたらす
S+t-SNE - Bringing dimensionality reduction to data streams ( http://arxiv.org/abs/2403.17643v1 ) ライセンス: Link先を確認 | Pedro C. Vieira, João P. Montrezol, João T. Vieira, João Gama, | (参考訳) 本稿では,無限のデータストリームを扱うように設計された t-SNE アルゴリズムを適応した S+t-SNE を提案する。
S+t-SNEの背後にある中核的な考え方は、新しいデータが到着するにつれて、t-SNE埋め込みを漸進的に更新し、ストリーミングシナリオを処理するためのスケーラビリティと適応性を確保することである。
各ステップで最も重要なポイントを選択することで、アルゴリズムは情報的な視覚化を維持しながらスケーラビリティを確保する。
ドリフト管理にブラインドメソッドを使用することで、埋め込みスペースを調整し、進化するデータダイナミクスの継続的な可視化を容易にする。
実験により, S+t-SNEの有効性と有効性を示した。
その結果は、ストリーミングシナリオでパターンをキャプチャする機能を強調している。
われわれのアプローチは、研究者や実践者が高次元データの理解と解釈にリアルタイムのツールを提供してくれることを願っている。
We present S+t-SNE, an adaptation of the t-SNE algorithm designed to handle infinite data streams. The core idea behind S+t-SNE is to update the t-SNE embedding incrementally as new data arrives, ensuring scalability and adaptability to handle streaming scenarios. By selecting the most important points at each step, the algorithm ensures scalability while keeping informative visualisations. Employing a blind method for drift management adjusts the embedding space, facilitating continuous visualisation of evolving data dynamics. Our experimental evaluations demonstrate the effectiveness and efficiency of S+t-SNE. The results highlight its ability to capture patterns in a streaming scenario. We hope our approach offers researchers and practitioners a real-time tool for understanding and interpreting high-dimensional data. | 翻訳日:2024-03-27 15:37:32 公開日:2024-03-26 |
# DANCER: 自動音声認識のためのエンティティ記述拡張エンティティコレクタ
DANCER: Entity Description Augmented Named Entity Corrector for Automatic Speech Recognition ( http://arxiv.org/abs/2403.17645v1 ) ライセンス: Link先を確認 | Yi-Cheng Wang, Hsin-Wei Wang, Bi-Cheng Yan, Chi-Han Lin, Berlin Chen, | (参考訳) エンドツーエンドの自動音声認識(E2E ASR)システムは、名前付きエンティティのようなドメイン固有のフレーズの誤転写に悩まされることが多く、ダウンストリームタスクにおいて破滅的な失敗を引き起こすことがある。
ASRのための高速で軽量なエンティティ修正(NEC)モデルが最近提案されている。
しかし、名前付きエンティティ(NE)リストが大きくなるにつれて、NEリストにおける音声的混乱の問題は悪化し、例えば、ホモフォンの曖昧さは大幅に増大する。
そこで我々は、エンティティ記述を活用して、ASR転写におけるNECの音声的混乱を緩和するための追加情報を提供する、Description Augmented Named entity CorrEctoR(dubed DANCER)を提案する。
この目的のために、高密度検索モデルからなる効率的なエンティティ記述拡張マスク言語モデル(EDA-MLM)を導入し、NECタスクのドメイン固有のエンティティに迅速に適応できるようにする。
AISHELL-1とHomophoneデータセットを用いて一連の実験を行い、モデリング手法の有効性を確認した。
DANCERは、名前付きエンティティのAISHELL-1に対して、文字誤り率(CER)の約7%の削減により、強いベースラインである音声編集距離ベースNECモデル(PED-NEC)より優れている。
DANCERは、名前付きエンティティを含むHomophoneでテストすると、名前付きエンティティに対してPED-NECよりもCERが46%減少する。
End-to-end automatic speech recognition (E2E ASR) systems often suffer from mistranscription of domain-specific phrases, such as named entities, sometimes leading to catastrophic failures in downstream tasks. A family of fast and lightweight named entity correction (NEC) models for ASR have recently been proposed, which normally build on phonetic-level edit distance algorithms and have shown impressive NEC performance. However, as the named entity (NE) list grows, the problems of phonetic confusion in the NE list are exacerbated; for example, homophone ambiguities increase substantially. In view of this, we proposed a novel Description Augmented Named entity CorrEctoR (dubbed DANCER), which leverages entity descriptions to provide additional information to facilitate mitigation of phonetic confusion for NEC on ASR transcription. To this end, an efficient entity description augmented masked language model (EDA-MLM) comprised of a dense retrieval model is introduced, enabling MLM to adapt swiftly to domain-specific entities for the NEC task. A series of experiments conducted on the AISHELL-1 and Homophone datasets confirm the effectiveness of our modeling approach. DANCER outperforms a strong baseline, the phonetic edit-distance-based NEC model (PED-NEC), by a character error rate (CER) reduction of about 7% relatively on AISHELL-1 for named entities. More notably, when tested on Homophone that contain named entities of high phonetic confusion, DANCER offers a more pronounced CER reduction of 46% relatively over PED-NEC for named entities. | 翻訳日:2024-03-27 15:27:36 公開日:2024-03-26 |
# 不確実性を考慮したオフライン強化学習
Uncertainty-aware Distributional Offline Reinforcement Learning ( http://arxiv.org/abs/2403.17646v1 ) ライセンス: Link先を確認 | Xiaocong Chen, Siyu Wang, Tong Yu, Lina Yao, | (参考訳) オフライン強化学習(RL)は、観測データのみに依存するため、異なる課題を提示する。
この文脈における中心的な関心事は、様々な行動や環境確率性に関連する不確実性を定量化し、学習政策の安全性を確保することである。
伝統的なアプローチは、しばしば環境確率性を見越して、リスクと逆の政策を学ぶことによって、疫学の不確実性を緩和することを強調する。
本研究では,不確実性と環境確率性の両方に同時に対処する,不確実性を考慮したオフラインRL法を提案する。
本稿では,リスク回避ポリシーを学習し,累積累積報酬の分布全体を特徴付けることができるモデルフリーオフラインRLアルゴリズムを提案する。
本手法は,リスク感受性ベンチマークとリスクニュートラルベンチマークの両方で総合評価を行い,その優れた性能を実証した。
Offline reinforcement learning (RL) presents distinct challenges as it relies solely on observational data. A central concern in this context is ensuring the safety of the learned policy by quantifying uncertainties associated with various actions and environmental stochasticity. Traditional approaches primarily emphasize mitigating epistemic uncertainty by learning risk-averse policies, often overlooking environmental stochasticity. In this study, we propose an uncertainty-aware distributional offline RL method to simultaneously address both epistemic uncertainty and environmental stochasticity. We propose a model-free offline RL algorithm capable of learning risk-averse policies and characterizing the entire distribution of discounted cumulative rewards, as opposed to merely maximizing the expected value of accumulated discounted returns. Our method is rigorously evaluated through comprehensive experiments in both risk-sensitive and risk-neutral benchmarks, demonstrating its superior performance. | 翻訳日:2024-03-27 15:27:36 公開日:2024-03-26 |
# 解釈可能なグラフに基づく視覚質問応答のための固有部分グラフ生成
Intrinsic Subgraph Generation for Interpretable Graph based Visual Question Answering ( http://arxiv.org/abs/2403.17647v1 ) ライセンス: Link先を確認 | Pascal Tilli, Ngoc Thang Vu, | (参考訳) VQA(Visual Question Answering)におけるディープラーニングに基づく手法の成功は、説明可能な手法の需要を同時に増加させてきた。
説明可能な人工知能(XAI)のほとんどの手法は、本質的なアプローチではなく、ポストホックな説明を生成することに重点を置いており、後者は解釈可能なモデルを特徴づけている。
本稿では,グラフベースのVQAに対する解釈可能なアプローチを導入し,GQAデータセット上での競合性能を示す。
このアプローチは、解釈可能性とパフォーマンスのギャップを埋める。
本モデルは,質問応答過程のサブグラフをその説明として内在的に生成し,意思決定に関する洞察を与えるように設計されている。
生成したサブグラフの質を評価するため、グラフニューラルネットワークの実証されたポストホックな説明可能性法と比較し、人間による評価を行う。
また,人間の評価指標と相関する定量的指標を提示し,生成した説明文の自動評価指標として機能する。
実装はhttps://github.com/DigitalPhonetics/Intrinsic-Subgraph-Generation-for-VQAで公開しています。
The large success of deep learning based methods in Visual Question Answering (VQA) has concurrently increased the demand for explainable methods. Most methods in Explainable Artificial Intelligence (XAI) focus on generating post-hoc explanations rather than taking an intrinsic approach, the latter characterizing an interpretable model. In this work, we introduce an interpretable approach for graph-based VQA and demonstrate competitive performance on the GQA dataset. This approach bridges the gap between interpretability and performance. Our model is designed to intrinsically produce a subgraph during the question-answering process as its explanation, providing insight into the decision making. To evaluate the quality of these generated subgraphs, we compare them against established post-hoc explainability methods for graph neural networks, and perform a human evaluation. Moreover, we present quantitative metrics that correlate with the evaluations of human assessors, acting as automatic metrics for the generated explanatory subgraphs. Our implementation is available at https://github.com/DigitalPhonetics/Intrinsic-Subgraph-Generation-for-VQA. | 翻訳日:2024-03-27 15:27:36 公開日:2024-03-26 |
# 医療データガバナンス、プライバシ、セキュリティ - 概念的フレームワーク
Healthcare Data Governance, Privacy, and Security - A Conceptual Framework ( http://arxiv.org/abs/2403.17648v1 ) ライセンス: Link先を確認 | Amen Faridoon, M. Tahar Kechadi, | (参考訳) データの豊富さは、あらゆる面で世界を変えました。
ビジネス、科学、医療、教育など、ほぼすべての分野において、意思決定、問題解決、イノベーションの核となる要素となっている。
これらの進歩にもかかわらず、プライバシとセキュリティは医療業界にとって重要な関心事である。
医療データが正しく管理されていない場合、医療データも負債となる可能性がある点に注意が必要だ。
このデータ管理ミスは、患者の安全、法的責任、評判へのダメージ、財務損失、運用上の非効率など、患者や医療組織にとって深刻な結果をもたらす可能性がある。
医療機関は患者のデータを保護するために、さまざまな規制を遵守しなければならない。
我々は、プライバシとセキュリティの観点から、医療データチェーンを徹底的に評価する方法で、データガバナンス要素またはコンポーネントの分類を行う。
既存の文献を深く分析した後、我々は概念的なプライバシとセキュリティ駆動型医療データガバナンスフレームワークを提案する。
The abundance of data has transformed the world in every aspect. It has become the core element in decision making, problem solving, and innovation in almost all areas of life, including business, science, healthcare, education, and many others. Despite all these advances, privacy and security remain critical concerns of the healthcare industry. It is important to note that healthcare data can also be a liability if it is not managed correctly. This data mismanagement can have severe consequences for patients and healthcare organisations, including patient safety, legal liability, damage to reputation, financial loss, and operational inefficiency. Healthcare organisations must comply with a range of regulations to protect patient data. We perform a classification of data governance elements or components in a manner that thoroughly assesses the healthcare data chain from a privacy and security standpoint. After deeply analysing the existing literature, we propose a conceptual privacy and security driven healthcare data governance framework. | 翻訳日:2024-03-27 15:27:36 公開日:2024-03-26 |
# オランダのハイブリッド量子/HPCインフラを目指して
Towards a Dutch hybrid quantum/HPC infrastructure ( http://arxiv.org/abs/2403.17649v1 ) ライセンス: Link先を確認 | Olaf Schüsler, Ariana Torres-Knoop, Jaap Dijkshoorn, Christiaan Hollemans, Bas van der Vlies, Richard Versluis, | (参考訳) 量子インスピレーション(Quantum Inspire)は、ハイブリッドアルゴリズムの実行を可能にする設定を開発することで、量子アプリケーションを実現するための重要なステップを採っている。
現在、この設定では、ハイブリッドアルゴリズムで必要とされる高周波カップリングのために、古典的なサーバ(HPCノード)を量子コンピュータと共同で配置している。
サーバと量子コンピュータ間のインタラクションをオーケストレーションする高速タスクマネージャ(Dispatcher)が開発されている。
この設定は成功したが、特定のハイブリッドなジョブ構造を課している。
これが常にそうである可能性が高いので、私たちは現在、設定の取り込みを妨げないようにする方法を議論しています。
さらに、SURFが主催するオランダ国立ハイパフォーマンスコンピューティングセンター(HPC)との統合に向けての第一歩が踏み出された。
第1のアプローチとして、HPC(C1)とQuantum Inspire APIを併用した第2の(C2)の2つのSLURMクラスタで構成された設定を設定しました。
ジョブはC1からC2に送信される。
量子インスパイアはC2でジョブを量子コンピュータにスケジュールすることができる。
この設定により、実行中のジョブに対して、SURFとQuantum Inspireの両方の制御を可能にする。
ジョブの提出にC1を使用することで、Quantum Inspireの会計負担を取り除きます。
Quantum Inspire APIとC2を併用することで、ネットワーク障害に対してよりレジリエントな設定を可能にします。
この設定は、他のHPCセンターがQuantum Inspireバックエンドにジョブを送信するために拡張することができる。
Quantum Inspire has taken important steps to enable quantum applications by developing a setting that allows the execution of hybrid algorithms. Currently, the setting uses a classical server (HPC node) co-located with the quantum computer for the high frequency coupling needed by hybrid algorithms. A fast task manager (dispatcher) has been developed to orchestrate the interaction between the server and the quantum computer. Although successful, the setting imposes a specific hybrid job-structure. This is most likely always going to be the case and we are currently discussing how to make sure this does not hamper the uptake of the setting. Furthermore, first steps have been taken towards the integration with the Dutch National High-Performance Computing (HPC) Center, hosted by SURF. As a first approach we have setup a setting consisting of two SLURM clusters, one in the HPC (C1) and the second (C2) co-located with Quantum Inspire API. Jobs are submitted from C1 to C2. Quantum Inspire can then schedule with C2 the jobs to the quantum computer. With this setting, we enable control from both SURF and Quantum Inspire on the jobs being executed. By using C1 for the jobs submission we remove the accounting burden from Quantum Inspire. By having C2 co-located with Quantum Inspire API, we make the setting more resilient towards network failures. This setting can be extended for other HPC centers to submit jobs to Quantum Inspire backends. | 翻訳日:2024-03-27 15:27:36 公開日:2024-03-26 |
# 効率的な物体追跡のための動的変圧器の探索
Exploring Dynamic Transformer for Efficient Object Tracking ( http://arxiv.org/abs/2403.17651v1 ) ライセンス: Link先を確認 | Jiawen Zhu, Xin Chen, Haiwen Diao, Shuai Li, Jun-Yan He, Chenyang Li, Bin Luo, Dong Wang, Huchuan Lu, | (参考訳) 速度-精度のトレードオフは、通常は低レイテンシと制約されたリソースへのデプロイを必要とする視覚オブジェクト追跡にとって重要な問題である。
効率的な追跡のための既存のソリューションは主に軽量のバックボーンやモジュールの採用に焦点を当てている。
本稿では,動的ネットワークルーティングにインスパイアされた動的トランスフォーマフレームワークDyTrackを提案する。
現実世界の追跡シナリオは、様々なレベルの複雑さを示す。
単純なネットワークはビデオシーケンスの簡単なフレームに十分であり、計算は難しいフレームに割り当てられる可能性がある、と我々は主張する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
これにより、同じ走行速度で高い性能を達成することができる。
インスタンス固有のトラッキングを逐次決定問題として定式化し、終端分岐をモデル全体の中間層にアタッチする。
特に,計算を完全活用するために,前者の出力を再利用するための特徴リサイクル機構を導入する。
さらに、深層モデルの表現パターンを効果的に模倣することにより、早期予測の識別能力を高めるために、目標認識型自己蒸留戦略を設計する。
複数のベンチマークでの大規模な実験により、DyTrackは単一のモデルで有望な速度精度のトレードオフを達成することが示された。
例えば、DyTrackは、256fpsの速度でLaSOT上で64.9%のAUCを得る。
The speed-precision trade-off is a critical problem for visual object tracking which usually requires low latency and deployment on constrained resources. Existing solutions for efficient tracking mainly focus on adopting light-weight backbones or modules, which nevertheless come at the cost of a sacrifice in precision. In this paper, inspired by dynamic network routing, we propose DyTrack, a dynamic transformer framework for efficient tracking. Real-world tracking scenarios exhibit diverse levels of complexity. We argue that a simple network is sufficient for easy frames in video sequences, while more computation could be assigned to difficult ones. DyTrack automatically learns to configure proper reasoning routes for various inputs, gaining better utilization of the available computational budget. Thus, it can achieve higher performance with the same running speed. We formulate instance-specific tracking as a sequential decision problem and attach terminating branches to intermediate layers of the entire model. Especially, to fully utilize the computations, we introduce the feature recycling mechanism to reuse the outputs of predecessors. Furthermore, a target-aware self-distillation strategy is designed to enhance the discriminating capabilities of early predictions by effectively mimicking the representation pattern of the deep model. Extensive experiments on multiple benchmarks demonstrate that DyTrack achieves promising speed-precision trade-offs with only a single model. For instance, DyTrack obtains 64.9% AUC on LaSOT with a speed of 256 fps. | 翻訳日:2024-03-27 15:27:36 公開日:2024-03-26 |
# 抽象論における拡張的手法による計算と妥当性検証
An Extension-based Approach for Computing and Verifying Preferences in Abstract Argumentation ( http://arxiv.org/abs/2403.17653v1 ) ライセンス: Link先を確認 | Quratul-ain Mahesar, Nir Oren, Wamberto W. Vasconcelos, | (参考訳) 本稿では,抽象的論証システムにおいて,計算と選好の検証のための拡張型アプローチを提案する。
議論フレームワークから許容される議論の集合を特定するために、これまで多くの議論セマンティクスが開発されてきたが、暗黙の議論の選好に基づく受容性の背後にある正当化の欠如がある。
優先順位に基づく議論フレームワークは、優先順位のセットからどの議論が正当化されているかを決定することができる。
我々の研究は、抽象的な議論の枠組みと正当化された議論の集合が与えられた場合、議論に対する選好が何であるかを計算し、標準的な推論問題の逆を考察する。
さらに、計算された選好が許容できる議論の集合につながることを検証(すなわち評価)する必要がある。
本稿では、抽象的議論フレームワークにおいて、競合のない議論の集合に対して、全ての可能な選好セット(3つの特定事例に制限)を網羅的に計算し、列挙するための新しいアプローチとアルゴリズムを提案する。
我々は,アルゴリズムの健全性,完全性,終了性を証明した。
本研究は,事前に述べたよりも,評価フェーズ(議論の受け入れ可能性)の後に,拡張ベースのアプローチを用いて選好が決定されることを示す。
本研究では, 基礎的, 好ましく, 安定的な意味論に焦点をあてる。
そこで我々は,選好集合の計算の複雑さが引数数において指数関数的であることを示し,それに基づいて,選好集合の近似的アプローチとアルゴリズムを記述する。
さらに、計算された選好の検証(すなわち、評価)のための新しいアルゴリズムを提案する。
提案手法は,アルゴリズムの実装(ソースコードが利用可能),アルゴリズムの評価,結果の解析を行うための様々な実験である。
We present an extension-based approach for computing and verifying preferences in an abstract argumentation system. Although numerous argumentation semantics have been developed previously for identifying acceptable sets of arguments from an argumentation framework, there is a lack of justification behind their acceptability based on implicit argument preferences. Preference-based argumentation frameworks allow one to determine what arguments are justified given a set of preferences. Our research considers the inverse of the standard reasoning problem, i.e., given an abstract argumentation framework and a set of justified arguments, we compute what the possible preferences over arguments are. Furthermore, there is a need to verify (i.e., assess) that the computed preferences would lead to the acceptable sets of arguments. This paper presents a novel approach and algorithm for exhaustively computing and enumerating all possible sets of preferences (restricted to three identified cases) for a conflict-free set of arguments in an abstract argumentation framework. We prove the soundness, completeness and termination of the algorithm. The research establishes that preferences are determined using an extension-based approach after the evaluation phase (acceptability of arguments) rather than stated beforehand. In this work, we focus our research study on grounded, preferred and stable semantics. We show that the complexity of computing sets of preferences is exponential in the number of arguments, and thus, describe an approximate approach and algorithm to compute the preferences. Furthermore, we present novel algorithms for verifying (i.e., assessing) the computed preferences. We provide details of the implementation of the algorithms (source code has been made available), various experiments performed to evaluate the algorithms and the analysis of the results. | 翻訳日:2024-03-27 15:27:36 公開日:2024-03-26 |
# SGHormer:スパイクス駆動の省エネグラフトランス
SGHormer: An Energy-Saving Graph Transformer Driven by Spikes ( http://arxiv.org/abs/2403.17656v1 ) ライセンス: Link先を確認 | Huizhe Zhang, Jintang Li, Liang Chen, Zibin Zheng, | (参考訳) 強力な表現学習能力を持つグラフトランスフォーマー(GT)は、幅広いグラフタスクで大きな成功を収めている。
しかしながら、GTの卓越した性能の背後にあるコストは、エネルギー消費と計算オーバーヘッドの増大である。
バニラ変圧器の注意計算における複雑な構造と二次的複雑さは、大規模なグラフデータにそのスケーラビリティを著しく妨げている。
従来の手法では,GTの効率を向上させるため,ブロック間の組み合わせや注目学習パラダイムを簡素化する努力が続けられているが,GTフレームワークを構築する際には,生物学的に妥当な構造から生じる一連の省エネルギーソリューションが考慮されることは稀である。
そこで本研究では,新しいスパイキング型グラフトランス (SGHormer) を提案する。
完全精度の埋め込みをスパースでバイナライズされたスパイクに変えて、メモリと計算コストを削減する。
SGHormerのスパイキンググラフ自己アテンションおよびスパイキング整流ブロックは、グローバルな構造情報を明示的に捕捉し、スパイキング埋め込みの表現力をそれぞれ回復する。
実験では、SGHormerは計算エネルギーの消費が極端に少ない他の完全精度のGTに匹敵する性能を達成する。
その結果,SGHomerは低エネルギーGTの分野で著しく進歩していることがわかった。
Graph Transformers (GTs) with powerful representation learning ability make a huge success in wide range of graph tasks. However, the costs behind outstanding performances of GTs are higher energy consumption and computational overhead. The complex structure and quadratic complexity during attention calculation in vanilla transformer seriously hinder its scalability on the large-scale graph data. Though existing methods have made strides in simplifying combinations among blocks or attention-learning paradigm to improve GTs' efficiency, a series of energy-saving solutions originated from biologically plausible structures are rarely taken into consideration when constructing GT framework. To this end, we propose a new spiking-based graph transformer (SGHormer). It turns full-precision embeddings into sparse and binarized spikes to reduce memory and computational costs. The spiking graph self-attention and spiking rectify blocks in SGHormer explicitly capture global structure information and recover the expressive power of spiking embeddings, respectively. In experiments, SGHormer achieves comparable performances to other full-precision GTs with extremely low computational energy consumption. The results show that SGHomer makes a remarkable progress in the field of low-energy GTs. | 翻訳日:2024-03-27 15:27:36 公開日:2024-03-26 |
# CANOS:N-1摂動に対する高速でスケーラブルなAC-OPF解決法
CANOS: A Fast and Scalable Neural AC-OPF Solver Robust To N-1 Perturbations ( http://arxiv.org/abs/2403.17660v1 ) ライセンス: Link先を確認 | Luis Piloto, Sofia Liguori, Sephora Madjiheurem, Miha Zgubic, Sean Lovett, Hamish Tomlinson, Sophie Elster, Chris Apps, Sims Witherspoon, | (参考訳) OPF(Optimal Power Flow)は、オペレーティングシステムを効率よく安全に運用することを目的とした、幅広い最適化問題を指す。
最も単純な設定では、OPFは、電力の需要を満たし、物理的および運用上の制約を満たす間、コストを最小限に抑えるために、どれだけの電力を生成するかを決定する。
最も単純な場合でさえ、電力グリッド演算子はAC-OPF問題の近似を用いる。
これらの近似は、精度と運用可能性を犠牲にし、速度を優先する。
このトレードオフは、特に大規模な電力網において、コストのかかる「昇給」と二酸化炭素排出量の増加につながる。
本研究では,高速(33-65ms以下)で動作させることなく,最適に近い解(真のAC-OPFコストの1%)を予測するために,ディープラーニングシステム(CANOS)を訓練する。
重要なことは、CANOSは1万台ものバスを含むグリッド上で実証的な結果をもたらす、現実的なグリッドサイズにスケールすることです。
最後に、CANOSはグラフニューラルネットワークであるため、トポロジの変更に対して堅牢である。
CANOSは,一般にセキュリティ制約解析に使用されるベースグリッドのN-1トポロジ的摂動に対して正確であることを示す。
これにより、ユニットコミットメントやトポロジ最適化、セキュリティ制約のあるOPFといったグリッド接続を変更する複雑なOPF問題のより効率的な最適化が可能になる。
Optimal Power Flow (OPF) refers to a wide range of related optimization problems with the goal of operating power systems efficiently and securely. In the simplest setting, OPF determines how much power to generate in order to minimize costs while meeting demand for power and satisfying physical and operational constraints. In even the simplest case, power grid operators use approximations of the AC-OPF problem because solving the exact problem is prohibitively slow with state-of-the-art solvers. These approximations sacrifice accuracy and operational feasibility in favor of speed. This trade-off leads to costly "uplift payments" and increased carbon emissions, especially for large power grids. In the present work, we train a deep learning system (CANOS) to predict near-optimal solutions (within 1% of the true AC-OPF cost) without compromising speed (running in as little as 33--65 ms). Importantly, CANOS scales to realistic grid sizes with promising empirical results on grids containing as many as 10,000 buses. Finally, because CANOS is a Graph Neural Network, it is robust to changes in topology. We show that CANOS is accurate across N-1 topological perturbations of a base grid typically used in security-constrained analysis. This paves the way for more efficient optimization of more complex OPF problems which alter grid connectivity such as unit commitment, topology optimization and security-constrained OPF. | 翻訳日:2024-03-27 15:27:36 公開日:2024-03-26 |
# テキスト分類のための言語モデル:インテクスト学習は十分か?
Language Models for Text Classification: Is In-Context Learning Enough? ( http://arxiv.org/abs/2403.17661v1 ) ライセンス: Link先を確認 | Aleksandra Edwards, Jose Camacho-Collados, | (参考訳) 最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
微調整に基づくより標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompt)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
しかし、既存の研究は規模が限られており、テキスト生成モデルとプロンプト技術を組み合わせる方法の理解に欠けており、微調整されたマスキング言語モデルのようなより確立されたテキスト分類方法と比較されている。
本稿では,バイナリ,マルチクラス,マルチラベルを対象とする16のテキスト分類データセットについて,大規模な評価研究を行うことにより,この研究ギャップに対処する。
特に、大きな言語モデルのゼロショットと少数ショットのアプローチと、より小さな言語モデルの微調整を比較した。
また,プロンプト,分類タイプ,ドメイン数,ラベル数などを用いて分析を行った。
概して、より小型で効率的な言語モデルが、テキスト分類に関して改善の余地のある、より大きな言語モデルの数ショットのアプローチよりも優れていることを示す。
Recent foundational language models have shown state-of-the-art performance in many NLP tasks in zero- and few-shot settings. An advantage of these models over more standard approaches based on fine-tuning is the ability to understand instructions written in natural language (prompts), which helps them generalise better to different tasks and domains without the need for specific training data. This makes them suitable for addressing text classification problems for domains with limited amounts of annotated instances. However, existing research is limited in scale and lacks understanding of how text generation models combined with prompting techniques compare to more established methods for text classification such as fine-tuning masked language models. In this paper, we address this research gap by performing a large-scale evaluation study for 16 text classification datasets covering binary, multiclass, and multilabel problems. In particular, we compare zero- and few-shot approaches of large language models to fine-tuning smaller language models. We also analyse the results by prompt, classification type, domain, and number of labels. In general, the results show how fine-tuning smaller and more efficient language models can still outperform few-shot approaches of larger language models, which have room for improvement when it comes to text classification. | 翻訳日:2024-03-27 15:27:36 公開日:2024-03-26 |
# DiffFAE: 空間感性カスタマイズとセマンティック保存による高忠実なワンショット顔顔画像編集の改善
DiffFAE: Advancing High-fidelity One-shot Facial Appearance Editing with Space-sensitive Customization and Semantic Preservation ( http://arxiv.org/abs/2403.17664v1 ) ライセンス: Link先を確認 | Qilin Wang, Jiangning Zhang, Chengming Xu, Weijian Cao, Ying Tai, Yue Han, Yanhao Ge, Hong Gu, Chengjie Wang, Yanwei Fu, | (参考訳) Facial Outearance Editing (FAE) は、人間の顔画像のポーズ、表情、照明などの物理的属性を修正しつつ、アイデンティティや背景などの属性を保存することを目的としており、写真において非常に重要である。
この分野での大きな進歩にもかかわらず、現在の研究は一般的に、低世代忠実性、属性保存の貧弱、非効率な推論という3つの課題に直面する。
以上の課題を克服するために,高忠実度FAEに適した1段階かつ高効率拡散ベースフレームワークであるDiffFAEを提案する。
高忠実度クエリ属性の転送には、空間感性物理カスタマイズ(SPC)を採用し、3次元Morphable Model(3DMM)由来のレンダリングテクスチャを活用することにより、忠実度と一般化性を確保する。
ソース属性を保存するため,地域対応セマンティック・コンポジション(RSC)を導入する。
このモジュールは、切り離されたソースを無視する特徴を学習するためにガイドされ、髪、服、背景などの非顔的属性からアーティファクトを保存し緩和する。
さらに、拡散モデルの注意行列における事前知識を活用することにより、編集制御性を高めるためのパイプラインの整合正則化も導入する。
DiffFAEは既存の方法よりも優れており、顔の外観編集における最先端性能を実現している。
Facial Appearance Editing (FAE) aims to modify physical attributes, such as pose, expression and lighting, of human facial images while preserving attributes like identity and background, showing great importance in photograph. In spite of the great progress in this area, current researches generally meet three challenges: low generation fidelity, poor attribute preservation, and inefficient inference. To overcome above challenges, this paper presents DiffFAE, a one-stage and highly-efficient diffusion-based framework tailored for high-fidelity FAE. For high-fidelity query attributes transfer, we adopt Space-sensitive Physical Customization (SPC), which ensures the fidelity and generalization ability by utilizing rendering texture derived from 3D Morphable Model (3DMM). In order to preserve source attributes, we introduce the Region-responsive Semantic Composition (RSC). This module is guided to learn decoupled source-regarding features, thereby better preserving the identity and alleviating artifacts from non-facial attributes such as hair, clothes, and background. We further introduce a consistency regularization for our pipeline to enhance editing controllability by leveraging prior knowledge in the attention matrices of diffusion model. Extensive experiments demonstrate the superiority of DiffFAE over existing methods, achieving state-of-the-art performance in facial appearance editing. | 翻訳日:2024-03-27 15:27:36 公開日:2024-03-26 |
# 認識されたグロースを予測する: ラベルは十分か?
Predicting Perceived Gloss: Do Weak Labels Suffice? ( http://arxiv.org/abs/2403.17672v1 ) ライセンス: Link先を確認 | Julia Guerrero-Viu, J. Daniel Subias, Ana Serrano, Katherine R. Storrs, Roland W. Fleming, Belen Masia, Diego Gutierrez, | (参考訳) 画像から直接素材の知覚特性を推定することは、幾何学や照明といった外部要因と完全に理解されていない相互作用が複雑なため、難しい課題である。
監視されたディープラーニングモデルは、最近、従来のアプローチより優れていることが示されているが、正確な知覚予測のために、人間の注釈付き画像の大規模なデータセットに依存している。
信頼性のあるアノテーションを取得することはコストのかかる取り組みであり、外観の異なる側面に一般化するこれらのモデルの限られた能力によって悪化する。
本研究では,低次元の画像計算可能な光沢メトリクスの学習において,人間のアノテーション(強いラベル)の集合が,自動的に抽出された「弱ラベル」で効果的に拡張可能であることを示す。
我々は、限られた注釈付きデータから人間の光沢知覚を予測するために、3つの代替弱ラベルを評価する。
弱いラベルを組み込むことで、現在の最先端以上の光沢予測が強化される。
さらに、レンダリング画像や実際の写真を扱う場合でも、精度を犠牲にすることなく、人間のアノテーションコストを大幅に削減することができる。
Estimating perceptual attributes of materials directly from images is a challenging task due to their complex, not fully-understood interactions with external factors, such as geometry and lighting. Supervised deep learning models have recently been shown to outperform traditional approaches, but rely on large datasets of human-annotated images for accurate perception predictions. Obtaining reliable annotations is a costly endeavor, aggravated by the limited ability of these models to generalise to different aspects of appearance. In this work, we show how a much smaller set of human annotations ("strong labels") can be effectively augmented with automatically derived "weak labels" in the context of learning a low-dimensional image-computable gloss metric. We evaluate three alternative weak labels for predicting human gloss perception from limited annotated data. Incorporating weak labels enhances our gloss prediction beyond the current state of the art. Moreover, it enables a substantial reduction in human annotation costs without sacrificing accuracy, whether working with rendered images or real photographs. | 翻訳日:2024-03-27 15:27:36 公開日:2024-03-26 |
# DP-SGDはどの程度プライベートか?
How Private is DP-SGD? ( http://arxiv.org/abs/2403.17673v1 ) ライセンス: Link先を確認 | Lynn Chua, Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Amer Sinha, Chiyuan Zhang, | (参考訳) バッチサンプリングの種類によって,Adaptive Batch Linear Queries (ABLQ) メカニズムのプライバシ保証との間には,大きなギャップがある。
(i)シャッフル,シャッフル
(II)Poisson subsampling;典型的にはDP-SGDはABLQの後処理として解釈される。
シャッフルベースのDP-SGDは、実用的な実装では一般的に使用されるが、解析的にも数値的にもプライバシー分析に適さない。
一方、PoissonのサブサンプリングベースのDP-SGDは、徹底的に実装することは難しいが、複数のオープンソースの数値的に厳密なプライバシー会計士が利用できるように、よく理解されているプライバシー分析がある。
これにより、シャッフルベースのDP-SGDを実際に使用するのが一般的であるが、対応するPoissonサブサンプリングバージョンのプライバシ分析を使用する。
以上の結果から,2種類のバッチサンプリングを用いた場合のプライバシー分析には大きなギャップがあり,DP-SGDのプライバシパラメータの報告に注意が必要であることが示唆された。
We demonstrate a substantial gap between the privacy guarantees of the Adaptive Batch Linear Queries (ABLQ) mechanism under different types of batch sampling: (i) Shuffling, and (ii) Poisson subsampling; the typical analysis of Differentially Private Stochastic Gradient Descent (DP-SGD) follows by interpreting it as a post-processing of ABLQ. While shuffling based DP-SGD is more commonly used in practical implementations, it is neither analytically nor numerically amenable to easy privacy analysis. On the other hand, Poisson subsampling based DP-SGD is challenging to scalably implement, but has a well-understood privacy analysis, with multiple open-source numerically tight privacy accountants available. This has led to a common practice of using shuffling based DP-SGD in practice, but using the privacy analysis for the corresponding Poisson subsampling version. Our result shows that there can be a substantial gap between the privacy analysis when using the two types of batch sampling, and thus advises caution in reporting privacy parameters for DP-SGD. | 翻訳日:2024-03-27 15:27:36 公開日:2024-03-26 |
# 自分次第:RLエージェントでLLMをメンタリングして、サイバーセキュリティゲームのマスターになる
Depending on yourself when you should: Mentoring LLM with RL agents to become the master in cybersecurity games ( http://arxiv.org/abs/2403.17674v1 ) ライセンス: Link先を確認 | Yikuan Yan, Yaolun Zhang, Keman Huang, | (参考訳) LLMと強化学習(RL)エージェントを効果的に統合して相補的なパフォーマンスを達成することは、サイバーセキュリティ操作のような高利害なタスクにおいて重要である。
本研究では,事前訓練されたRLエージェントが指導するLLMエージェントであるSecurityBotを紹介し,サイバーセキュリティ運用を支援する。
特に、LLMエージェントは、生成された行動ガイドラインのためのプロファイルモジュール、ローカルエクスペリエンスを蓄積するメモリモジュール、選択を再評価するリフレクションモジュール、アクションスペースを低減するアクションモジュールでサポートされている。
さらに、動的提案のカーソル、複数のメンターの提案のランク付けのためのアグリゲータ、プロアクティブな提案の問い合わせのための呼び出しなど、事前訓練されたRLエージェントから提案を受けるためのコラボレーションメカニズムも採用されている。
CybORG 実験フレームワーク上に構築した経験から,SecurityBot は LLM や RL に比べて大幅なパフォーマンス向上を示し,サイバーセキュリティゲームにおいて補完的なパフォーマンスを実現している。
Integrating LLM and reinforcement learning (RL) agent effectively to achieve complementary performance is critical in high stake tasks like cybersecurity operations. In this study, we introduce SecurityBot, a LLM agent mentored by pre-trained RL agents, to support cybersecurity operations. In particularly, the LLM agent is supported with a profile module to generated behavior guidelines, a memory module to accumulate local experiences, a reflection module to re-evaluate choices, and an action module to reduce action space. Additionally, it adopts the collaboration mechanism to take suggestions from pre-trained RL agents, including a cursor for dynamic suggestion taken, an aggregator for multiple mentors' suggestions ranking and a caller for proactive suggestion asking. Building on the CybORG experiment framework, our experiences show that SecurityBot demonstrates significant performance improvement compared with LLM or RL standalone, achieving the complementary performance in the cybersecurity games. | 翻訳日:2024-03-27 15:27:36 公開日:2024-03-26 |
# 線量に基づくハイパースペクトル画像の深い損失とほぼロスレス予測符号化
Onboard deep lossless and near-lossless predictive coding of hyperspectral images with line-based attention ( http://arxiv.org/abs/2403.17677v1 ) ライセンス: Link先を確認 | Diego Valsesia, Tiziano Bianchi, Enrico Magli, | (参考訳) 深層学習法は、適切な表現力を達成するのに必要な計算量が大きいことや、訓練やテストに適したデータセットが不足していることから、従来、宇宙船に搭載されたハイパースペクトル画像の圧縮に適用することは困難であった。
本稿では,従来のオートエンコーダのアプローチから脱却し,メモリ消費を制限するために再帰的に線形に動作するLineRWKVという予測ニューラルネットワークを設計する。
これを実現するために,トランスフォーマーの表現上の利点と線形複雑化と再帰的ニューラルネットワークの実装を組み合わせた,新しいハイブリッド注意再帰演算を採用した。
圧縮アルゴリズムはLineRWKVを用いて各画素の予測を行い、次に残像のエントロピー符号化を行う。
HySpecNet-11kデータセットとPRISMA画像による実験により、LineRWKVはCSDS-123.0-B-2を無損失でほぼロスレスな圧縮で上回る最初のディープラーニング手法であることが示された。
また、7W組込みシステムでスループットを推定する。
Deep learning methods have traditionally been difficult to apply to compression of hyperspectral images onboard of spacecrafts, due to the large computational complexity needed to achieve adequate representational power, as well as the lack of suitable datasets for training and testing. In this paper, we depart from the traditional autoencoder approach and we design a predictive neural network, called LineRWKV, that works recursively line-by-line to limit memory consumption. In order to achieve that, we adopt a novel hybrid attentive-recursive operation that combines the representational advantages of Transformers with the linear complexity and recursive implementation of recurrent neural networks. The compression algorithm performs prediction of each pixel using LineRWKV, followed by entropy coding of the residual. Experiments on the HySpecNet-11k dataset and PRISMA images show that LineRWKV is the first deep-learning method to outperform CCSDS-123.0-B-2 at lossless and near-lossless compression. Promising throughput results are also evaluated on a 7W embedded system. | 翻訳日:2024-03-27 15:27:36 公開日:2024-03-26 |
# マルチモーダル軌道予測のための階層型光変圧器アンサンブル
Hierarchical Light Transformer Ensembles for Multimodal Trajectory Forecasting ( http://arxiv.org/abs/2403.17678v1 ) ライセンス: Link先を確認 | Adrien Lafage, Mathieu Barbier, Gianni Franchi, David Filliat, | (参考訳) 正確な軌道予測は、先進運転支援システムや自動運転車など、様々なシステムの性能に不可欠である。
これらの予測により、衝突につながる事象を予測でき、従ってそれらを緩和することができる。
ディープニューラルネットワークはモーション予測に優れていますが、過信や不確実性定量化といった問題は継続しています。
ディープ・アンサンブルはこれらの懸念に対処するが、マルチモーダル分布に適用することは依然として困難である。
本稿では,階層型光トランスフォーマー・アンサンブル(HLT-Ens)という新しい手法を提案する。
HLT-Ensは、グループ化された畳み込み技術にインスパイアされた、グループ化された完全に接続された層を利用して、効果的にマルチモーダル分布をキャプチャする。
広汎な実験により,HLT-Ensは最先端の性能レベルを達成し,軌道予測技術を改善するための有望な道を提供することを示した。
Accurate trajectory forecasting is crucial for the performance of various systems, such as advanced driver-assistance systems and self-driving vehicles. These forecasts allow to anticipate events leading to collisions and, therefore, to mitigate them. Deep Neural Networks have excelled in motion forecasting, but issues like overconfidence and uncertainty quantification persist. Deep Ensembles address these concerns, yet applying them to multimodal distributions remains challenging. In this paper, we propose a novel approach named Hierarchical Light Transformer Ensembles (HLT-Ens), aimed at efficiently training an ensemble of Transformer architectures using a novel hierarchical loss function. HLT-Ens leverages grouped fully connected layers, inspired by grouped convolution techniques, to capture multimodal distributions, effectively. Through extensive experimentation, we demonstrate that HLT-Ens achieves state-of-the-art performance levels, offering a promising avenue for improving trajectory forecasting techniques. | 翻訳日:2024-03-27 15:17:51 公開日:2024-03-26 |
# 感情・文化知能AIワークショップの感情予測競争への解法
Solution for Emotion Prediction Competition of Workshop on Emotionally and Culturally Intelligent AI ( http://arxiv.org/abs/2403.17683v1 ) ライセンス: Link先を確認 | Shengdong Xu, Zhouyang Chi, Yang Yang, | (参考訳) 本報告では, WECIA感情予測コンペティション(EPC)において, 芸術作品を通して人の感情を予測する手法について解説し, 提案した方法について述べる。
このコンペティションのデータセットはArtELingoで、言語や文化の多様性に関する作業を促進するために設計されている。
このデータセットには、モーダル不均衡問題と言語と文化の違い問題という2つの大きな課題がある。
この問題に対処するために,マルチモーダルモデルの性能向上を目的とした単一モーダルメッセージと,文化的相違を解消するための優れたプロンプトに着目した,シングルマルチモーダル(ECSP)と呼ばれるシンプルなアプローチを提案する。
提案手法は,(1)XLM-R\cite{conneau2019unsupervised} と X$^2$-VLM\cite{zeng2022x} のマルチモーダルモデル(2)感情文化固有のプロンプトを含む。
最終テストでは0.627で1位にランクインした。
This report provide a detailed description of the method that we explored and proposed in the WECIA Emotion Prediction Competition (EPC), which predicts a person's emotion through an artistic work with a comment. The dataset of this competition is ArtELingo, designed to encourage work on diversity across languages and cultures. The dataset has two main challenges, namely modal imbalance problem and language-cultural differences problem. In order to address this issue, we propose a simple yet effective approach called single-multi modal with Emotion-Cultural specific prompt(ECSP), which focuses on using the single modal message to enhance the performance of multimodal models and a well-designed prompt to reduce cultural differences problem. To clarify, our approach contains two main blocks: (1)XLM-R\cite{conneau2019unsupervised} based unimodal model and X$^2$-VLM\cite{zeng2022x} based multimodal model (2) Emotion-Cultural specific prompt. Our approach ranked first in the final test with a score of 0.627. | 翻訳日:2024-03-27 15:17:51 公開日:2024-03-26 |
# データ駆動バイアスを活用してGenAI著作権訴訟をインフォームする、すべての類似性が平等であるとは限らない
Not All Similarities Are Created Equal: Leveraging Data-Driven Biases to Inform GenAI Copyright Disputes ( http://arxiv.org/abs/2403.17691v1 ) ライセンス: Link先を確認 | Uri Hacohen, Adi Haviv, Shahar Sarfaty, Bruria Friedman, Niva Elkin-Koren, Roi Livni, Amit H Bermano, | (参考訳) GitHub Copilot、OpenAI GPT、Stable Diffusionを含むGenerative Artificial Intelligence(GenAI)モデルの出現は、コンテンツ生成に革命をもたらした。
この変革的技術は、合成コンテンツの急増を招き、著作権侵害に関する法的論争を引き起こした。
これらの課題に対処するために,GPT2および安定拡散モデルを用いて実証された,GenAIモデルの学習能力を活用した著作権法解析手法を提案する。
著作権法は、オリジナル表現とジェネリック表現(Sc\`enes \`a faire)を区別し、前者を保護し、後者の複製を許可する。
しかし、この区別は歴史的に一貫して行うことが困難であり、著作権作品の過剰な保護につながった。
GenAIは、既存の作品の共有パターンを明らかにすることによって、この法律分析を強化する前例のない機会を提供する。
我々は、表現的合成の汎用性を評価するために「データ駆動バイアス」を用いて、GenAIが作成した作品の汎用性を特定するためのデータ駆動アプローチを提案する。
このアプローチは、GenAIの能力を利用して、表現力のある要素を特定して優先順位付けし、モデルのデータセットの頻度に応じてそれらをランク付けすることで、著作権範囲の決定を支援する。
著作権法における表現的汎用性を測定することの潜在的意味は深い。
このようなスコアリングは、訴訟の間、裁判所が著作権の範囲を決定するのを補助し、著作権庁の登録の慣行を通知し、高度にオリジナルな合成作品のみの登録を可能にし、著作権所有者が作品の価値を通知し、より公正なライセンス契約を促進するのに役立つ。
より一般的には、この手法は、GenAI時代の課題に著作権法を適用する政策立案者に貴重な洞察を与える。
The advent of Generative Artificial Intelligence (GenAI) models, including GitHub Copilot, OpenAI GPT, and Stable Diffusion, has revolutionized content creation, enabling non-professionals to produce high-quality content across various domains. This transformative technology has led to a surge of synthetic content and sparked legal disputes over copyright infringement. To address these challenges, this paper introduces a novel approach that leverages the learning capacity of GenAI models for copyright legal analysis, demonstrated with GPT2 and Stable Diffusion models. Copyright law distinguishes between original expressions and generic ones (Sc\`enes \`a faire), protecting the former and permitting reproduction of the latter. However, this distinction has historically been challenging to make consistently, leading to over-protection of copyrighted works. GenAI offers an unprecedented opportunity to enhance this legal analysis by revealing shared patterns in preexisting works. We propose a data-driven approach to identify the genericity of works created by GenAI, employing "data-driven bias" to assess the genericity of expressive compositions. This approach aids in copyright scope determination by utilizing the capabilities of GenAI to identify and prioritize expressive elements and rank them according to their frequency in the model's dataset. The potential implications of measuring expressive genericity for copyright law are profound. Such scoring could assist courts in determining copyright scope during litigation, inform the registration practices of Copyright Offices, allowing registration of only highly original synthetic works, and help copyright owners signal the value of their works and facilitate fairer licensing deals. More generally, this approach offers valuable insights to policymakers grappling with adapting copyright law to the challenges posed by the era of GenAI. | 翻訳日:2024-03-27 15:17:51 公開日:2024-03-26 |
# 拡散モデルを用いたマニフォールド誘導リアプノフ制御
Manifold-Guided Lyapunov Control with Diffusion Models ( http://arxiv.org/abs/2403.17692v1 ) ライセンス: Link先を確認 | Amartya Mukherjee, Thanin Quartz, Jun Liu, | (参考訳) 本稿では,拡散モデルを用いた多種多様な力学系に対する安定化制御系を生成するための新しい手法を提案する。
中心となる目的は、所定の多様体に対して最も近い漸近的に安定なベクトル場を特定し、この発見に基づいて制御関数を調整することにより安定化制御関数を開発することである。
これを達成するために、漸近的に安定なベクトル場とその対応するリャプノフ関数からなるペアで訓練された拡散モデルを用いる。
計算結果から, この事前学習モデルにより, 従来未確認のシステムを高速かつ高速に安定化し, 高速ゼロショット制御と一般化可能性を示すことができた。
This paper presents a novel approach to generating stabilizing controllers for a large class of dynamical systems using diffusion models. The core objective is to develop stabilizing control functions by identifying the closest asymptotically stable vector field relative to a predetermined manifold and adjusting the control function based on this finding. To achieve this, we employ a diffusion model trained on pairs consisting of asymptotically stable vector fields and their corresponding Lyapunov functions. Our numerical results demonstrate that this pre-trained model can achieve stabilization over previously unseen systems efficiently and rapidly, showcasing the potential of our approach in fast zero-shot control and generalizability. | 翻訳日:2024-03-27 15:17:51 公開日:2024-03-26 |
# ExpressEdit: 自然言語とスケッチによるビデオ編集
ExpressEdit: Video Editing with Natural Language and Sketching ( http://arxiv.org/abs/2403.17693v1 ) ライセンス: Link先を確認 | Bekzat Tilekbay, Saelyne Yang, Michal Lewkowicz, Alex Suryapranata, Juho Kim, | (参考訳) 情報ビデオは、概念的および手続き的知識を初心者や専門家にも説明するための重要な情報源となっている。
インフォメーションビデオを作成する際、編集者はテキスト/イメージをオーバーレイしたり、映像をトリミングすることでビデオの質を高め、エンゲージメントを高める。
しかし、特に編集アイデアの表現や実装に苦しむ初心者のビデオ編集者にとって、ビデオ編集は困難かつ時間を要する可能性がある。
この課題に対処するために、我々はまず、ビデオ編集のアイデアを表現する際にビデオエディターをサポートするために、人間が表現のために使う自然なモダリティであるマルチモダリティ$-$natural Language (NL) とスケッチについて検討した。
10人のビデオ編集者から176のマルチモーダルなコマンド表現を収集し,編集意図記述におけるNLとスケッチの使用パターンを明らかにした。
そこで本研究では,NLテキストによる動画編集と映像フレームのスケッチを可能にするExpressEditを提案する。
LLMと視覚モデルによって駆動されるシステムは、(1)時間的、(2)空間的、(3)NLコマンドの操作参照とスケッチからの空間参照を解釈する。
システムはインタプリタ編集を実装し、ユーザーはそれを繰り返すことができる。
観察研究 (N=10) では,ExpressEditは初心者のビデオ編集者が編集アイデアを表現し,実装する能力を高めた。
このシステムにより、参加者はより効率的に編集を行い、ユーザのマルチモーダル編集コマンドに基づいて編集を生成し、編集コマンドのイテレーションをサポートすることで、より多くのアイデアを生成することができる。
この研究は、将来のマルチモーダルインターフェースの設計とビデオ編集のためのAIベースのパイプラインに関する洞察を提供する。
Informational videos serve as a crucial source for explaining conceptual and procedural knowledge to novices and experts alike. When producing informational videos, editors edit videos by overlaying text/images or trimming footage to enhance the video quality and make it more engaging. However, video editing can be difficult and time-consuming, especially for novice video editors who often struggle with expressing and implementing their editing ideas. To address this challenge, we first explored how multimodality$-$natural language (NL) and sketching, which are natural modalities humans use for expression$-$can be utilized to support video editors in expressing video editing ideas. We gathered 176 multimodal expressions of editing commands from 10 video editors, which revealed the patterns of use of NL and sketching in describing edit intents. Based on the findings, we present ExpressEdit, a system that enables editing videos via NL text and sketching on the video frame. Powered by LLM and vision models, the system interprets (1) temporal, (2) spatial, and (3) operational references in an NL command and spatial references from sketching. The system implements the interpreted edits, which then the user can iterate on. An observational study (N=10) showed that ExpressEdit enhanced the ability of novice video editors to express and implement their edit ideas. The system allowed participants to perform edits more efficiently and generate more ideas by generating edits based on user's multimodal edit commands and supporting iterations on the editing commands. This work offers insights into the design of future multimodal interfaces and AI-based pipelines for video editing. | 翻訳日:2024-03-27 15:17:51 公開日:2024-03-26 |
# AniPortrait:フォトリアリスティック・ポートレートアニメーションのオーディオ駆動合成
AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation ( http://arxiv.org/abs/2403.17694v1 ) ライセンス: Link先を確認 | Huawei Wei, Zejun Yang, Zhisheng Wang, | (参考訳) 本研究では,オーディオによって駆動される高品質なアニメーションを生成するための新しいフレームワークであるAniPortraitと参照ポートレート画像を提案する。
私たちの方法論は2つの段階に分けられる。
まず、音声から3D中間表現を抽出し、2D顔のランドマークのシーケンスに投影する。
次に,移動モジュールと結合した頑健な拡散モデルを用いて,ランドマーク列をフォトリアリスティックかつ時間的に一貫したポートレートアニメーションに変換する。
実験の結果,AniPortraitの顔の自然性,ポーズの多様性,視覚的品質が優れており,知覚体験が向上した。
さらに,顔の動きの編集や顔の再現といった領域に効果的に適用できる柔軟性や制御性の観点からも,本手法は有意な可能性を秘めている。
コードとモデルの重み付けはhttps://github.com/scutzzj/AniPortraitで公開しています。
In this study, we propose AniPortrait, a novel framework for generating high-quality animation driven by audio and a reference portrait image. Our methodology is divided into two stages. Initially, we extract 3D intermediate representations from audio and project them into a sequence of 2D facial landmarks. Subsequently, we employ a robust diffusion model, coupled with a motion module, to convert the landmark sequence into photorealistic and temporally consistent portrait animation. Experimental results demonstrate the superiority of AniPortrait in terms of facial naturalness, pose diversity, and visual quality, thereby offering an enhanced perceptual experience. Moreover, our methodology exhibits considerable potential in terms of flexibility and controllability, which can be effectively applied in areas such as facial motion editing or face reenactment. We release code and model weights at https://github.com/scutzzj/AniPortrait | 翻訳日:2024-03-27 15:17:51 公開日:2024-03-26 |
# プレーンマンバ:視覚認識における非階層型マンバの改善
PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition ( http://arxiv.org/abs/2403.17695v1 ) ライセンス: Link先を確認 | Chenhongyi Yang, Zehui Chen, Miguel Espinosa, Linus Ericsson, Zhenyu Wang, Jiaming Liu, Elliot J. Crowley, | (参考訳) 一般的な視覚認識のために設計された単純な非階層状態空間モデル(SSM)であるPlainMambaを提案する。
最近のMambaモデルでは、SSMがシーケンシャルデータ上で他のアーキテクチャと非常に競合する可能性を示しており、画像に適用するための最初の試みがなされている。
本稿では,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を向上する。
一 スキャンシーケンスにおけるトークンの隣接性を確保することにより空間連続性を向上させる連続した2次元走査プロセス
二 方向対応更新により、方向情報を符号化してトークンの空間的関係を識別することができる。
私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使用が容易でスケールしやすいように設計されています。
特別なトークンの必要性を取り除くことで、アーキテクチャはさらに単純化される。
画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションなど,さまざまな視覚的タスクにおけるPlainMambaの評価を行った。
提案手法は,従来の階層的でないモデルよりも性能向上を実現し,階層的代替と競合する。
高精細な入力を必要とするタスク、特にPlainMambaはハイパフォーマンスを維持しながら、はるかに少ない計算を必要とする。
コードとモデルはhttps://github.com/ChenhongyiYang/PlainMambaで入手できる。
We present PlainMamba: a simple non-hierarchical state space model (SSM) designed for general visual recognition. The recent Mamba model has shown how SSMs can be highly competitive with other architectures on sequential data and initial attempts have been made to apply it to images. In this paper, we further adapt the selective scanning process of Mamba to the visual domain, enhancing its ability to learn features from two-dimensional images by (i) a continuous 2D scanning process that improves spatial continuity by ensuring adjacency of tokens in the scanning sequence, and (ii) direction-aware updating which enables the model to discern the spatial relations of tokens by encoding directional information. Our architecture is designed to be easy to use and easy to scale, formed by stacking identical PlainMamba blocks, resulting in a model with constant width throughout all layers. The architecture is further simplified by removing the need for special tokens. We evaluate PlainMamba on a variety of visual recognition tasks including image classification, semantic segmentation, object detection, and instance segmentation. Our method achieves performance gains over previous non-hierarchical models and is competitive with hierarchical alternatives. For tasks requiring high-resolution inputs, in particular, PlainMamba requires much less computing while maintaining high performance. Code and models are available at https://github.com/ChenhongyiYang/PlainMamba | 翻訳日:2024-03-27 15:17:51 公開日:2024-03-26 |
# MEP:複数カーネル学習による相対的位置エンコーディング長推定
MEP: Multiple Kernel Learning Enhancing Relative Positional Encoding Length Extrapolation ( http://arxiv.org/abs/2403.17698v1 ) ライセンス: Link先を確認 | Weiguo Gao, | (参考訳) 予測シーケンス長がトレーニング中に見られる長さを超えると、変圧器の推測精度は低下する。
ALiBi技術に基づくような、既存の相対的な位置符号化手法は、単一のカーネル関数を実装することで、長さ外挿問題に対処する。
これらの手法は外挿問題に対処するために複数のカーネル関数を調査または利用しない。
そこで本研究では,ALiBi を用いた新しい相対的位置符号化手法 MEP を提案する。これは,重み付き平均を用いて,異なるカーネル関数(指数カーネルやガウスカーネルなど)を組み合わせて,ソフトマックス後のアテンションスコアに適用されるバイアスを生成する。
当初、このフレームワークは複数のカーネル関数を構築するために様々なカーネル関数を利用する。
それぞれのカーネル関数は一貫した平均重み係数に固執し、異なるカーネルの相乗的優位性を利用して革新的なバイアス関数を定式化する。
その後、特定の勾配は各カーネル機能に合わせて調整され、異なる速度でペナルティを適用し、モデルの外挿能力を高める。
最後に、このバイアスは、ポストソフトマックススコアに対するペナルティとしてシームレスに組み込まれます。
本稿では,新しい学習可能なパラメータを必要としないパラメータフリー変種と,トレーニング効率を損なうことなく長さ外挿能力を向上するパラメータフリー変種と,最先端技術の統合が可能なパラメータ化変種について述べる。
多様なデータセットにまたがる経験的評価により,提案手法の変種はいずれも最先端の性能を達成し,従来のパラメータフリー・パラメータ化手法よりも優れていることが示された。
When the predicted sequence length exceeds the length seen during training, the transformer's inference accuracy diminishes. Existing relative position encoding methods, such as those based on the ALiBi technique, address the length extrapolation challenge exclusively through the implementation of a single kernel function, which introduces a constant bias to every post-softmax attention scores according to their distance. These approaches do not investigate or employ multiple kernel functions to address the extrapolation challenge. Drawing on the ALiBi approach, this study proposes a novel relative positional encoding method, called MEP, which employs a weighted average to combine distinct kernel functions(such as the exponential kernel and the Gaussian kernel) to generate a bias that is applied to post-softmax attention scores. Initially, the framework utilizes various kernel functions to construct multiple kernel functions. Each kernel function adheres to a consistent mean weight coefficient, harnessing the synergistic advantages of different kernels to formulate an innovative bias function. Subsequently, specific slopes are tailored for each kernel function, applying penalties at varying rates, to enhance the model's extrapolation capabilities. Finally, this bias is seamlessly incorporated as a penalty to the post-softmax scores. We present two distinct versions of our method: a parameter-free variant that requires no new learnable parameters, which enhances length extrapolation capabilities without compromising training efficiency, and a parameterized variant capable of integrating state-of-the-art techniques. Empirical evaluations across diverse datasets have demonstrated that both variants of our method achieve state-of-the-art performance, outperforming traditional parameter-free and parameterized approaches. | 翻訳日:2024-03-27 15:17:51 公開日:2024-03-26 |
# Rotate to Scan: 医用画像セグメンテーションのためのトリプルSSMモジュール付きUNetライクなマンバ
Rotate to Scan: UNet-like Mamba with Triplet SSM Module for Medical Image Segmentation ( http://arxiv.org/abs/2403.17701v1 ) ライセンス: Link先を確認 | Hao Tang, Lianglun Cheng, Guoheng Huang, Zhengguang Tan, Junhao Lu, Kaihong Wu, | (参考訳) 画像セグメンテーションは、医療領域内の診断と治療の領域において重要な位置を占める。
従来の畳み込みニューラルネットワーク(CNN)とトランスフォーマーモデルは、この領域で大きな進歩を遂げてきたが、受容野の制限や高いコンピューティングの複雑さのために、依然として課題に直面している。
近年、状態空間モデル(SSM)、特にマンバとその変種は、視覚の分野で顕著な性能を示している。
しかし,それらの特徴抽出法は十分な有効性を持たず,冗長な構造を保ち,パラメータ削減の余地を残している。
従来の空間的・チャネル的アテンション手法により,Triplet Mamba-UNetを提案する。
この手法は残留VSSブロックを利用して集中的な文脈特徴を抽出し、Triplet SSMは空間次元とチャネル次元をまたいだ特徴を融合する。
我々はISIC17, ISIC18, CVC-300, CVC-ClinicDB, Kvasir-SEG, CVC-ColonDB, Kvasir-Instrumentのデータセットについて実験を行い, 提案したTM-UNetのセグメンテーション性能について検証した。
さらに,従来のVM-UNetと比較して,パラメータの3分の1削減を実現している。
Image segmentation holds a vital position in the realms of diagnosis and treatment within the medical domain. Traditional convolutional neural networks (CNNs) and Transformer models have made significant advancements in this realm, but they still encounter challenges because of limited receptive field or high computing complexity. Recently, State Space Models (SSMs), particularly Mamba and its variants, have demonstrated notable performance in the field of vision. However, their feature extraction methods may not be sufficiently effective and retain some redundant structures, leaving room for parameter reduction. Motivated by previous spatial and channel attention methods, we propose Triplet Mamba-UNet. The method leverages residual VSS Blocks to extract intensive contextual features, while Triplet SSM is employed to fuse features across spatial and channel dimensions. We conducted experiments on ISIC17, ISIC18, CVC-300, CVC-ClinicDB, Kvasir-SEG, CVC-ColonDB, and Kvasir-Instrument datasets, demonstrating the superior segmentation performance of our proposed TM-UNet. Additionally, compared to the previous VM-UNet, our model achieves a one-third reduction in parameters. | 翻訳日:2024-03-27 15:17:51 公開日:2024-03-26 |
# CVPR 2023 1st foundation model Challenge-Track2の解決
The Solution for the CVPR 2023 1st foundation model challenge-Track2 ( http://arxiv.org/abs/2403.17702v1 ) ライセンス: Link先を確認 | Haonan Xu, Yurui Huang, Sishun Pan, Zhihao Guan, Yi Xu, Yang Yang, | (参考訳) 本稿では,クロスモーダル交通検索のためのソリューションを提案する。
交通画像のクロスドメイン問題により、簡単な戦略により、歩行者検索と車両検索の2つのサブタスクに分割する。
歩行者検索タスクでは、IRRAをベースモデルとし、属性ラベルによる知識のマイニングのために属性分類を特に設計する。
さらに重要なことは、包含関係マッチングの戦略を用いて、包含関係を持つ画像テキスト対が特徴空間に類似した表現を持つようにすることである。
車両検索タスクでは、BLIPをベースモデルとして使用する。
車両の色属性の整合は困難であるため,色データ拡張のための画像に色パッチブロックを追加する属性ベースの物体検出技術を導入する。
これは強力な事前情報として機能し、モデルが画像とテキストのアライメントを実行するのに役立つ。
同時に、ラベル付き属性を画像テキストアライメント損失に組み込んで、微粒なアライメントを学習し、類似した画像やテキストが誤って分離されるのを防ぐ。
最終B板試験では70.9点, 最終B板試験では1位であった。
In this paper, we propose a solution for cross-modal transportation retrieval. Due to the cross-domain problem of traffic images, we divide the problem into two sub-tasks of pedestrian retrieval and vehicle retrieval through a simple strategy. In pedestrian retrieval tasks, we use IRRA as the base model and specifically design an Attribute Classification to mine the knowledge implied by attribute labels. More importantly, We use the strategy of Inclusion Relation Matching to make the image-text pairs with inclusion relation have similar representation in the feature space. For the vehicle retrieval task, we use BLIP as the base model. Since aligning the color attributes of vehicles is challenging, we introduce attribute-based object detection techniques to add color patch blocks to vehicle images for color data augmentation. This serves as strong prior information, helping the model perform the image-text alignment. At the same time, we incorporate labeled attributes into the image-text alignment loss to learn fine-grained alignment and prevent similar images and texts from being incorrectly separated. Our approach ranked first in the final B-board test with a score of 70.9. | 翻訳日:2024-03-27 15:17:51 公開日:2024-03-26 |
# 拡張ショートテキストモデリング: トピックリファインメントのための大規模言語モデルを活用する
Enhanced Short Text Modeling: Leveraging Large Language Models for Topic Refinement ( http://arxiv.org/abs/2403.17706v1 ) ライセンス: Link先を確認 | Shuyu Chang, Rui Wang, Peng Ren, Haiping Huang, | (参考訳) ツイートやニュースの見出しなど、短いテキストのための効果的なトピックモデルを作ることは、ソーシャルダイナミクスの急激な変化を捉えるのに不可欠だ。
しかし、伝統的なトピックモデルは、その簡潔さと文脈データの欠如により、短いテキストの意味的な複雑さを正確に表現するのに不足することが多い。
本研究では,Large Language Models (LLMs) の高度な機能を活用し,"Topic Refinement" と呼ばれる新しいアプローチを導入する。
このアプローチは、トピックの初期のモデリングに直接関係せず、採掘後にトピックを改善することに重点を置いています。
素早いエンジニアリングを駆使して、所与のトピック内での話題外単語を排除し、文脈的に関係のある単語だけが、よりセマンティックに適合した単語で保存または置換されることを保証する。
本手法は,人文的な精査とトピックの改良をエミュレートし,様々なモデルによって生成されたトピックの意味的品質を高める。
3つのユニークなデータセットに対する包括的評価の結果,トピック改良アプローチはトピックの意味的一貫性を著しく向上させることがわかった。
Crafting effective topic models for brief texts, like tweets and news headlines, is essential for capturing the swift shifts in social dynamics. Traditional topic models, however, often fall short in accurately representing the semantic intricacies of short texts due to their brevity and lack of contextual data. In our study, we harness the advanced capabilities of Large Language Models (LLMs) to introduce a novel approach termed "Topic Refinement". This approach does not directly involve itself in the initial modeling of topics but focuses on improving topics after they have been mined. By employing prompt engineering, we direct LLMs to eliminate off-topic words within a given topic, ensuring that only contextually relevant words are preserved or substituted with ones that fit better semantically. This method emulates human-like scrutiny and improvement of topics, thereby elevating the semantic quality of the topics generated by various models. Our comprehensive evaluation across three unique datasets has shown that our topic refinement approach significantly enhances the semantic coherence of topics. | 翻訳日:2024-03-27 15:17:51 公開日:2024-03-26 |
# Panonut360:パノラマ動画のための頭部・眼球追跡データセット
Panonut360: A Head and Eye Tracking Dataset for Panoramic Video ( http://arxiv.org/abs/2403.17708v1 ) ライセンス: Link先を確認 | Yutong Xu, Junhao Du, Jiahe Wang, Yuwei Ning, Sihan Zhou Yang Cao, | (参考訳) VR/AR技術の急速な開発と普及により、ユーザーの好みや習慣に合った没入型パノラマビデオサービスの質を最大化することが長年にわたる課題となっている。
HMDで収集されたデータに基づいて、ユーザが集中する衛生領域を理解することは、マルチメディアエンコーディング、トランスミッション、品質アセスメントを促進することができる。
同時に、研究者や開発者にとって大規模なデータセットは、短期的・長期的なユーザー行動パターンを探索し、パノラマビデオに関連するAIモデルをトレーニングする上で不可欠である。
しかしながら、既存のパノラマビデオデータセットには、短期のビデオのみを通じて低周波のユーザヘッドやアイモーションのデータが含まれており、ユーザの視野(FoV)を分析したり、ビデオサリエンシ領域を生成するのに十分なデータが不足している。
本稿では,この実践的要因によって,50人のユーザ(25人の男性と25人の女性)が15のパノラマ動画を視聴する頭部・眼球追跡データセットを提示する。
データセットは、ビューポートの詳細を提供し、ユーザーの注意を向ける。
また,データセットから抽出した統計サンプルも提示する。
例えば、頭部運動と眼球運動の偏差は、ガウス分布の後、視線がFoVの中心から減少するという広く信じられている仮定に挑戦する。
分析の結果、複数のユーザーやビデオを含む実験環境では、FoVと比較して視線修正が一貫した下向きのオフセットが明らかとなった。
そこで私たちは、ドーナツの形をした塩分濃度の重み付けであるデータセットPanonutを命名しました。
また,収集した視線追跡データから,視線座標や視線座標に基づいて視線分布を生成するスクリプトや,各映像の視線分布マップを事前に生成するスクリプトも提供する。
データセットはWebサイト(https://dianvrlab.github.io/Panonut360/)で公開されている。
With the rapid development and widespread application of VR/AR technology, maximizing the quality of immersive panoramic video services that match users' personal preferences and habits has become a long-standing challenge. Understanding the saliency region where users focus, based on data collected with HMDs, can promote multimedia encoding, transmission, and quality assessment. At the same time, large-scale datasets are essential for researchers and developers to explore short/long-term user behavior patterns and train AI models related to panoramic videos. However, existing panoramic video datasets often include low-frequency user head or eye movement data through short-term videos only, lacking sufficient data for analyzing users' Field of View (FoV) and generating video saliency regions. Driven by these practical factors, in this paper, we present a head and eye tracking dataset involving 50 users (25 males and 25 females) watching 15 panoramic videos. The dataset provides details on the viewport and gaze attention locations of users. Besides, we present some statistics samples extracted from the dataset. For example, the deviation between head and eye movements challenges the widely held assumption that gaze attention decreases from the center of the FoV following a Gaussian distribution. Our analysis reveals a consistent downward offset in gaze fixations relative to the FoV in experimental settings involving multiple users and videos. That's why we name the dataset Panonut, a saliency weighting shaped like a donut. Finally, we also provide a script that generates saliency distributions based on given head or eye coordinates and pre-generated saliency distribution map sets of each video from the collected eye tracking data. The dataset is available on website: https://dianvrlab.github.io/Panonut360/. | 翻訳日:2024-03-27 15:17:51 公開日:2024-03-26 |
# 変圧器を用いた視覚的関係検出のためのグループワイドクエリの特殊化と品質を考慮したマルチアサイン
Groupwise Query Specialization and Quality-Aware Multi-Assignment for Transformer-based Visual Relationship Detection ( http://arxiv.org/abs/2403.17709v1 ) ライセンス: Link先を確認 | Jongha Kim, Jihwan Park, Jinyoung Park, Jinyoung Kim, Sehyung Kim, Hyunwoo J. Kim, | (参考訳) 最近、Transformerベースのアーキテクチャで視覚的関係検出(VRD)が大幅に進歩している。
しかし,トランスフォーマーをベースとしたVRDモデルは,GT(グラウンド・トゥルース)を予測にマッピングするプロセスである。
従来の課題では、クエリがすべての関係を検出することが期待され、クエリが特定の関係を専門化することが難しくなるため、特定されていないクエリがトレーニングされる。
さらに、単一の予測のみにGTを割り当てるため、クエリのトレーニングも不十分であるため、GTとして関係を割り当てることなく、ほぼ正しい、あるいは正しい予測を抑えることができる。
これらの課題に対処するため,グループワイドクエリの専門化と品質対応型マルチアサインメント(SpeaQ)を提案する。
グループワイドクエリ特化(Groupwise Query Specialization)は、クエリとリレーションを分離したグループに分割し、特定のクエリグループ内のクエリを対応するリレーショングループのリレーションのみに指示することで、特別なクエリを訓練する。
品質に配慮したマルチアサインメントは、対象、対象、およびその間の関係の観点から、GTにかなり近い複数の予測にGTを割り当てることにより、トレーニングを促進する。
実験結果と分析結果から、SpeaQは、モデルのキャパシティをよりよく活用する特殊なクエリを効果的に訓練し、その結果、複数のVRDモデルとベンチマークで追加の推論コストをゼロに、一貫したパフォーマンス向上を実現していることがわかった。
コードはhttps://github.com/mlvlab/SpeaQ.comで入手できる。
Visual Relationship Detection (VRD) has seen significant advancements with Transformer-based architectures recently. However, we identify two key limitations in a conventional label assignment for training Transformer-based VRD models, which is a process of mapping a ground-truth (GT) to a prediction. Under the conventional assignment, an unspecialized query is trained since a query is expected to detect every relation, which makes it difficult for a query to specialize in specific relations. Furthermore, a query is also insufficiently trained since a GT is assigned only to a single prediction, therefore near-correct or even correct predictions are suppressed by being assigned no relation as a GT. To address these issues, we propose Groupwise Query Specialization and Quality-Aware Multi-Assignment (SpeaQ). Groupwise Query Specialization trains a specialized query by dividing queries and relations into disjoint groups and directing a query in a specific query group solely toward relations in the corresponding relation group. Quality-Aware Multi-Assignment further facilitates the training by assigning a GT to multiple predictions that are significantly close to a GT in terms of a subject, an object, and the relation in between. Experimental results and analyses show that SpeaQ effectively trains specialized queries, which better utilize the capacity of a model, resulting in consistent performance gains with zero additional inference cost across multiple VRD models and benchmarks. Code is available at https://github.com/mlvlab/SpeaQ. | 翻訳日:2024-03-27 15:17:51 公開日:2024-03-26 |
# LLM-as-a-Judgeに対する最適化型プロンプトインジェクション攻撃
Optimization-based Prompt Injection Attack to LLM-as-a-Judge ( http://arxiv.org/abs/2403.17710v1 ) ライセンス: Link先を確認 | Jiawen Shi, Zenghui Yuan, Yinuo Liu, Yue Huang, Pan Zhou, Lichao Sun, Neil Zhenqiang Gong, | (参考訳) LLM-as-a-Judgeは、大きな言語モデル(LLM)でテキスト情報を評価できる新しいソリューションである。
従来の研究では、従来の人間の評価に取って代わる優れた代替手段を提供する上で、LLMは優れた性能を発揮している。
しかしながら、これらのシステムによるインジェクション攻撃に対する堅牢性は、未解決の問題である。
本稿では,LLM-as-a-Judgeに合わせた新しい最適化ベースのプロンプトインジェクション攻撃であるJiceDeceiverを紹介する。
提案手法は,LLM-as-a-Judgeの意思決定プロセスを攻撃するための正確な最適化目標を定式化し,その最適化アルゴリズムを用いて,モデル評価のターゲットかつ効果的な操作を実現する。
本手法は,手技によるインジェクション攻撃と比較して優れた有効性を示し,LLMに基づく判定システムのセキュリティパラダイムにおいて重要な課題となっている。
広範にわたる実験を通じて,様々な事例における意思決定結果の変更におけるJiceDeceiverの能力を示し,LLM-as-a-Judgeシステムの脆弱性を最適化ベースのプロンプトインジェクションアタックに強調した。
LLM-as-a-Judge is a novel solution that can assess textual information with large language models (LLMs). Based on existing research studies, LLMs demonstrate remarkable performance in providing a compelling alternative to traditional human assessment. However, the robustness of these systems against prompt injection attacks remains an open question. In this work, we introduce JudgeDeceiver, a novel optimization-based prompt injection attack tailored to LLM-as-a-Judge. Our method formulates a precise optimization objective for attacking the decision-making process of LLM-as-a-Judge and utilizes an optimization algorithm to efficiently automate the generation of adversarial sequences, achieving targeted and effective manipulation of model evaluations. Compared to handcraft prompt injection attacks, our method demonstrates superior efficacy, posing a significant challenge to the current security paradigms of LLM-based judgment systems. Through extensive experiments, we showcase the capability of JudgeDeceiver in altering decision outcomes across various cases, highlighting the vulnerability of LLM-as-a-Judge systems to the optimization-based prompt injection attack. | 翻訳日:2024-03-27 15:17:51 公開日:2024-03-26 |
# 制御における量子コンピュータの利用:間隔行列特性
Using quantum computers in control: interval matrix properties ( http://arxiv.org/abs/2403.17711v1 ) ライセンス: Link先を確認 | Jan Schneider, Julian Berberich, | (参考訳) 量子コンピューティングは、古典的に難解な計算問題に取り組むための強力なフレームワークを提供する。
本研究の目的は,システムや制御理論の問題を解くための量子コンピュータの利用を検討することである。
近年の研究では、様々な制御理論問題において重要な役割を果たすバイナリ最適化に取り組むために、異なる量子アルゴリズムが開発されている。
原型的な例として、量子コンピュータ上での非特異性や安定性などの間隔行列特性の検証について考察する。
我々はこれらの問題を解く量子アルゴリズムを提案し、その性能をシミュレーションで研究する。
以上の結果から,量子コンピュータは,さらなる計算複雑化問題への適用性を探求する上で,有望な制御ツールであることを示す。
Quantum computing provides a powerful framework for tackling computational problems that are classically intractable. The goal of this paper is to explore the use of quantum computers for solving relevant problems in systems and control theory. In the recent literature, different quantum algorithms have been developed to tackle binary optimization, which plays an important role in various control-theoretic problems. As a prototypical example, we consider the verification of interval matrix properties such as non-singularity and stability on a quantum computer. We present a quantum algorithm solving these problems and we study its performance in simulation. Our results demonstrate that quantum computers provide a promising tool for control whose applicability to further computationally complex problems remains to be explored. | 翻訳日:2024-03-27 15:17:51 公開日:2024-03-26 |
# Invisible Gas Detection: RGB-Thermal Cross Attention Networkと新しいベンチマーク
Invisible Gas Detection: An RGB-Thermal Cross Attention Network and A New Benchmark ( http://arxiv.org/abs/2403.17712v1 ) ライセンス: Link先を確認 | Jue Wang, Yuxiang Lin, Qi Zhao, Dong Luo, Shuaibao Chen, Wei Chen, Xiaojiang Peng, | (参考訳) 工業プロセスにおける様々な化学ガスの広範な使用は、その毒性が高いため、輸送および貯蔵中の漏れを防止する効果的な手段を必要としている。
熱赤外ベースのコンピュータビジョン検出技術は、ガス漏れ領域を識別するための簡単なアプローチを提供する。
しかし、熱画像のテクスチャが低く、オープンソースデータセットがないため、高品質なアルゴリズムの開発は困難である。
本稿では,RGB を利用した2ストリームネットワークアーキテクチャを用いて,RGB 画像からのテクスチャ情報と熱画像からのガス領域情報を統合する RGB-Thermal Cross Attention Network (RT-CAN) を提案する。
さらに, 目に見えないガスの検出を容易にするため, 約1.3Kの良好なRGB熱画像と8種類のコレクションシーンを含む, 大規模なオープンソースガス検出データベースであるGas-DBを紹介した。
実験の結果, 両手法の利点を生かし, RGB-熱水法における最先端SOTA(State-of-the-art)性能を達成し, 精度で単一ストリームSOTAモデル, IoU(Intersection of Union), F2指標をそれぞれ4.86%, 5.65%, 4.88%の精度で上回った。
コードとデータは近く公開される予定だ。
The widespread use of various chemical gases in industrial processes necessitates effective measures to prevent their leakage during transportation and storage, given their high toxicity. Thermal infrared-based computer vision detection techniques provide a straightforward approach to identify gas leakage areas. However, the development of high-quality algorithms has been challenging due to the low texture in thermal images and the lack of open-source datasets. In this paper, we present the RGB-Thermal Cross Attention Network (RT-CAN), which employs an RGB-assisted two-stream network architecture to integrate texture information from RGB images and gas area information from thermal images. Additionally, to facilitate the research of invisible gas detection, we introduce Gas-DB, an extensive open-source gas detection database including about 1.3K well-annotated RGB-thermal images with eight variant collection scenes. Experimental results demonstrate that our method successfully leverages the advantages of both modalities, achieving state-of-the-art (SOTA) performance among RGB-thermal methods, surpassing single-stream SOTA models in terms of accuracy, Intersection of Union (IoU), and F2 metrics by 4.86%, 5.65%, and 4.88%, respectively. The code and data will be made available soon. | 翻訳日:2024-03-27 15:08:05 公開日:2024-03-26 |
# 一次電子温度測定による量子制御ワイヤの低温ベンチマーク
Low-temperature benchmarking of qubit control wires by primary electron thermometry ( http://arxiv.org/abs/2403.17720v1 ) ライセンス: Link先を確認 | Elias Roos Hansen, Ferdinand Kuemmeth, Joost van der Heijden, | (参考訳) 低周波量子ビット制御ワイヤは非自明な熱アンカーと低通過フィルタを必要とする。
結果として生じる電子温度は、これらの信号線の品質ベンチマークとなる。
本稿では,ミリケルビン系における電子温度を確立するために,クーロン遮断温度計を用いた一次電子温度測定手法を用いる。
実験4プローブ測定装置,データ解析,測定限界について詳述した。
また, 超伝導体-絶縁体-正規金属接合を用いた別の電子温度測定法を用いて, 実験結果の検証を行った。
QDevilのQFilterとフィルタなしの信号線を比較してみると、フィルタはrmsノイズと電子温度の両方を著しく低減し、22$\pm$1 mKと測定される。
Low-frequency qubit control wires require non-trivial thermal anchoring and low-pass filtering. The resulting electron temperature serves as a quality benchmark for these signal lines. In this technical note, we make use of a primary electron thermometry technique, using a Coulomb blockade thermometer, to establish the electron temperature in the millikelvin regime. The experimental four-probe measurement setup, the data analysis, and the measurement limitations are discussed in detail. We verify the results by also using another electron thermometry technique, based on a superconductor-insulator-normal metal junction. Our comparison of signal lines with QDevil's QFilter to unfiltered signal lines demonstrates that the filter significantly reduces both the rms noise and electron temperature, which is measured to be 22 $\pm$ 1 mK. | 翻訳日:2024-03-27 15:08:05 公開日:2024-03-26 |
# 鋼橋の高分解能画像におけるき裂のセグメンテーションの深部学習
Deep Learning for Segmentation of Cracks in High-Resolution Images of Steel Bridges ( http://arxiv.org/abs/2403.17725v1 ) ライセンス: Link先を確認 | Andrii Kompanets, Gautam Pai, Remco Duits, Davide Leonetti, Bert Snijder, | (参考訳) ドローンと画像処理技術を使って現在の橋の視覚検査を自動化することは、これらの検査をより効果的に、堅牢で、安価にするための重要な方法である。
本稿では,鋼橋の高分解能画像における疲労き裂検出のための新しい深層学習手法の開発について検討する。
まず, 鋼橋の亀裂画像からなる新しい, 挑戦的なデータセットを提案する。
第2に、クラックセグメンテーションのための最先端エンコーダデコーダネットワークとConvNextニューラルネットワークを統合する。
鋼橋のき裂の高分解能画像に適用した場合, 背景パッチの使用がネットワーク性能に及ぼす影響について検討, 報告を行った。
最後に、トレーニングプロセスにより多くのバックグラウンドパッチを使用できる損失関数を導入し、偽陽性率を大幅に削減する。
Automating the current bridge visual inspection practices using drones and image processing techniques is a prominent way to make these inspections more effective, robust, and less expensive. In this paper, we investigate the development of a novel deep-learning method for the detection of fatigue cracks in high-resolution images of steel bridges. First, we present a novel and challenging dataset comprising of images of cracks in steel bridges. Secondly, we integrate the ConvNext neural network with a previous state- of-the-art encoder-decoder network for crack segmentation. We study and report, the effects of the use of background patches on the network performance when applied to high-resolution images of cracks in steel bridges. Finally, we introduce a loss function that allows the use of more background patches for the training process, which yields a significant reduction in false positive rates. | 翻訳日:2024-03-27 15:08:05 公開日:2024-03-26 |
# Tiny Modelsは大規模モデルの計算救世主である
Tiny Models are the Computational Saver for Large Models ( http://arxiv.org/abs/2403.17726v1 ) ライセンス: Link先を確認 | Qingyuan Wang, Barry Cardiff, Antoine Frappé, Benoit Larras, Deepu John, | (参考訳) 本稿では,TinySaverについて紹介する。TinySaverは,大規模モデルを適応的に置き換えるために小さなモデルを用いる,早期に出現する動的モデル圧縮手法である。
従来の圧縮手法とは違い、TinySaverのような動的手法は困難さの差を利用して、特定の入力が推論プロセスを早期に完了させ、計算資源を保存することができる。
既存のアーリーエグジット設計のほとんどは、モデルのバックボーンに追加のネットワークブランチをアタッチすることで実装されている。
しかし、我々の研究では、完全に独立した小さなモデルによって、より大きなモデルの仕事のかなりの部分を、パフォーマンスに最小限の影響で置き換えることができることが判明した。
それらを第1出口として使用すると、計算効率が著しく向上する。
与えられた大モデルに対する計算保存器として最も適切な小型モデルを探索し,活用することにより,提案手法は,圧縮をモデル化するための新規で汎用的な手法として機能する。
この発見は、急速に進化するAIモデルによって引き起こされる計算要求のエスカレートに対処する新しい圧縮方法を模索する研究コミュニティに役立つだろう。
この手法をImageNet-1k分類で評価したところ、現代の視覚モデルにおいて、計算処理の回数を最大90%削減できる可能性が示唆された。
この作業のコードは公開されます。
This paper introduces TinySaver, an early-exit-like dynamic model compression approach which employs tiny models to substitute large models adaptively. Distinct from traditional compression techniques, dynamic methods like TinySaver can leverage the difficulty differences to allow certain inputs to complete their inference processes early, thereby conserving computational resources. Most existing early exit designs are implemented by attaching additional network branches to the model's backbone. Our study, however, reveals that completely independent tiny models can replace a substantial portion of the larger models' job with minimal impact on performance. Employing them as the first exit can remarkably enhance computational efficiency. By searching and employing the most appropriate tiny model as the computational saver for a given large model, the proposed approaches work as a novel and generic method to model compression. This finding will help the research community in exploring new compression methods to address the escalating computational demands posed by rapidly evolving AI models. Our evaluation of this approach in ImageNet-1k classification demonstrates its potential to reduce the number of compute operations by up to 90%, with only negligible losses in performance, across various modern vision models. The code of this work will be available. | 翻訳日:2024-03-27 15:08:05 公開日:2024-03-26 |
# FastPerson: 言語と視覚のコンテキストを保存する効果的なビデオ要約によるビデオ学習の促進
FastPerson: Enhancing Video Learning through Effective Video Summarization that Preserves Linguistic and Visual Contexts ( http://arxiv.org/abs/2403.17727v1 ) ライセンス: Link先を確認 | Kazuki Kawamura, Jun Rekimoto, | (参考訳) 学習効率を向上させるために,学習者の時間と関心を制限した長い講義ビデオの理解が不可欠である。
この目的のために、ビデオの要約が活発に研究され、ユーザーはビデオから重要なシーンのみを見ることができるようになった。
しかし,これらの研究は映像の視覚情報や音声情報に焦点を合わせ,映像の重要なセグメントを抽出する。
そのため、講義ビデオのように教師のスピーチと黒板やスライドの視覚情報の両方が重要である場合、重要な情報が欠落するリスクがある。
そこで本研究では,講義ビデオにおける視覚情報と聴覚情報の両方を考慮した映像要約手法であるFastPersonを提案する。
FastPersonは、音声の書き起こしと画面上の画像とテキストを利用して要約ビデオを作成し、学習者にとって重要な情報を見落としてしまうリスクを最小限にする。
さらに、学習者はビデオの各章の要約とオリジナルビデオを切り替えることができ、興味や理解度に基づいて学習のペースを調整することができる。
提案手法の有効性を評価するため,40名の被験者を対象に評価を行い,従来のビデオ再生法と同様の理解度で視聴時間を53倍に短縮したことを確認した。
Quickly understanding lengthy lecture videos is essential for learners with limited time and interest in various topics to improve their learning efficiency. To this end, video summarization has been actively researched to enable users to view only important scenes from a video. However, these studies focus on either the visual or audio information of a video and extract important segments in the video. Therefore, there is a risk of missing important information when both the teacher's speech and visual information on the blackboard or slides are important, such as in a lecture video. To tackle this issue, we propose FastPerson, a video summarization approach that considers both the visual and auditory information in lecture videos. FastPerson creates summary videos by utilizing audio transcriptions along with on-screen images and text, minimizing the risk of overlooking crucial information for learners. Further, it provides a feature that allows learners to switch between the summary and original videos for each chapter of the video, enabling them to adjust the pace of learning based on their interests and level of understanding. We conducted an evaluation with 40 participants to assess the effectiveness of our method and confirmed that it reduced viewing time by 53\% at the same level of comprehension as that when using traditional video playback methods. | 翻訳日:2024-03-27 15:08:05 公開日:2024-03-26 |
# マスクオートエンコーダはPDE学習者である
Masked Autoencoders are PDE Learners ( http://arxiv.org/abs/2403.17728v1 ) ライセンス: Link先を確認 | Anthony Zhou, Amir Barati Farimani, | (参考訳) 偏微分方程式(PDE)に対するニューラルソルバは大きなポテンシャルを持つが、その実用性は一般化性によって制限されている。
PDEは幅広いスケールで進化し、多様な振る舞いを示す。これらの現象を予測するには、異なる係数、測地、方程式を含む様々な入力の学習表現が必要となる。
一般化可能なPDEモデリングへのステップとして、PDEのためのマスク付き事前学習を適用する。
PDEを横断する自己教師型学習により、マスク付きオートエンコーダは下流タスクに有用な潜在表現を学習することができる。
特に、マスク付き事前学習は、未知の方程式上のニューラルソルバの係数回帰とタイムステッピング性能を向上させることができる。
マスク付きプレトレーニングは、大規模でラベルなし、異質なデータセットにまたがる統一的な方法として現れて、大規模に潜在物理学を学ぶことを願っている。
Neural solvers for partial differential equations (PDEs) have great potential, yet their practicality is currently limited by their generalizability. PDEs evolve over broad scales and exhibit diverse behaviors; predicting these phenomena will require learning representations across a wide variety of inputs, which may encompass different coefficients, geometries, or equations. As a step towards generalizable PDE modeling, we adapt masked pretraining for PDEs. Through self-supervised learning across PDEs, masked autoencoders can learn useful latent representations for downstream tasks. In particular, masked pretraining can improve coefficient regression and timestepping performance of neural solvers on unseen equations. We hope that masked pretraining can emerge as a unifying method across large, unlabeled, and heterogeneous datasets to learn latent physics at scale. | 翻訳日:2024-03-27 15:08:05 公開日:2024-03-26 |
# EulerFormer: 複雑なベクトル注意による逐次ユーザ行動モデリング
EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention ( http://arxiv.org/abs/2403.17729v1 ) ライセンス: Link先を確認 | Zhen Tian, Wayne Xin Zhao, Changwang Zhang, Xin Zhao, Zhongrui Ma, Ji-Rong Wen, | (参考訳) ユーザの嗜好を捉えるために、シーケンシャルなユーザの行動データをモデル化するために、トランスフォーマーモデルが広く適用されてきた。
トランスアーキテクチャのコアは自己アテンション機構にあり、シーケンス内のペアのアテンションスコアを計算する。
置換同変性のため、トークン表現間の注意を高めるために位置符号化が用いられる。
この設定では、ペアワイズアテンションスコアは意味差と位置差の両方によって導出することができる。
しかしながら、先行研究はしばしば異なる方法で2種類の差分測定をモデル化し、シーケンスモデリングの表現能力を制限する可能性がある。
この問題に対処するために,EulerFormerという名前の複雑なベクトル注意を持つ新しい変圧器変圧器を提案し,意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。
EulerFormerには2つの重要な技術的改善が含まれている。
まず、ユーラーの公式を用いてシーケンストークンを極形複素ベクトルに効率よく変換し、複雑な回転形式における意味情報と位置情報の双方の統一的なモデリングを可能にし、また、意味的回転角を適応関数で制御できる微分回転機構を開発し、意味的文脈に応じて意味的および位置情報の適応的な統合を可能にする。
我々の理論の枠組みは、高い完全性と一般性を持っている。
意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。
4つの公開データセットで行った大規模な実験は、我々のアプローチの有効性と効率を実証している。
To capture user preference, transformer models have been widely applied to model sequential user behavior data. The core of transformer architecture lies in the self-attention mechanism, which computes the pairwise attention scores in a sequence. Due to the permutation-equivariant nature, positional encoding is used to enhance the attention between token representations. In this setting, the pairwise attention scores can be derived by both semantic difference and positional difference. However, prior studies often model the two kinds of difference measurements in different ways, which potentially limits the expressive capacity of sequence modeling. To address this issue, this paper proposes a novel transformer variant with complex vector attention, named EulerFormer, which provides a unified theoretical framework to formulate both semantic difference and positional difference. The EulerFormer involves two key technical improvements. First, it employs a new transformation function for efficiently transforming the sequence tokens into polar-form complex vectors using Euler's formula, enabling the unified modeling of both semantic and positional information in a complex rotation form.Secondly, it develops a differential rotation mechanism, where the semantic rotation angles can be controlled by an adaptation function, enabling the adaptive integration of the semantic and positional information according to the semantic contexts.Furthermore, a phase contrastive learning task is proposed to improve the anisotropy of contextual representations in EulerFormer. Our theoretical framework possesses a high degree of completeness and generality. It is more robust to semantic variations and possesses moresuperior theoretical properties in principle. Extensive experiments conducted on four public datasets demonstrate the effectiveness and efficiency of our approach. | 翻訳日:2024-03-27 15:08:05 公開日:2024-03-26 |
# 階層的拡張ネットワークによる連続的なイベント検出
Continual Few-shot Event Detection via Hierarchical Augmentation Networks ( http://arxiv.org/abs/2403.17733v1 ) ライセンス: Link先を確認 | Chenlong Zhang, Pengfei Cao, Yubo Chen, Kang Liu, Zhiqiang Zhang, Mengshu Sun, Jun Zhao, | (参考訳) 従来の連続イベント検出は、トレーニングのために豊富なラベル付きデータに依存しており、現実のアプリケーションでは入手できないことが多い。
本稿では,大量のラベル付きサンプルがアクセスできない場合の,より一般的なシナリオである連続的数ショットイベント検出(CFED)を紹介する。
CFEDタスクは、過去のイベントタイプを記憶し、数ショットのサンプルで新しいイベントタイプを学ぶため、難しい。
これらの課題を軽減するため,階層型拡張ネットワーク(HANet)というメモリベースのフレームワークを提案する。
メモリに制限のあるイベントタイプを記憶するために,メモリセットにプロトタイプ拡張を組み込む。
数ショットシナリオで新しいイベントタイプを学習する際の問題として、トークン表現のための対照的な拡張モジュールを提案する。
従来の最先端手法と比較しても,ChatGPTとの比較を行う。
実験結果から,本手法は複数の連発イベント検出タスクにおいて,これらの手法を著しく上回っていることが明らかとなった。
Traditional continual event detection relies on abundant labeled data for training, which is often impractical to obtain in real-world applications. In this paper, we introduce continual few-shot event detection (CFED), a more commonly encountered scenario when a substantial number of labeled samples are not accessible. The CFED task is challenging as it involves memorizing previous event types and learning new event types with few-shot samples. To mitigate these challenges, we propose a memory-based framework: Hierarchical Augmentation Networks (HANet). To memorize previous event types with limited memory, we incorporate prototypical augmentation into the memory set. For the issue of learning new event types in few-shot scenarios, we propose a contrastive augmentation module for token representations. Despite comparing with previous state-of-the-art methods, we also conduct comparisons with ChatGPT. Experiment results demonstrate that our method significantly outperforms all of these methods in multiple continual few-shot event detection tasks. | 翻訳日:2024-03-27 15:08:05 公開日:2024-03-26 |
# Paired Diffusion:Linked Denoising Diffusion Probabilistic Modelを用いたPET-CT-Segmentationスキャンの生成
Paired Diffusion: Generation of related, synthetic PET-CT-Segmentation scans using Linked Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2403.17734v1 ) ライセンス: Link先を確認 | Rowan Bradbury, Katherine A. Vallis, Bartlomiej W. Papiez, | (参考訳) バイオメディカルイメージングと放射線治療における人工知能(AI)の急速な進歩は、大規模な画像データリポジトリの不足によって妨げられている。
拡散確率モデル(DDPM)の最近の研究と改良により、高品質な合成医療スキャンが可能になった。
それにもかかわらず、現在、モデルのトレーニングに使用できる接地真理など、複数の関連画像を生成する方法がないため、合成スキャンは使用前に手動でアノテートされることが多い。
本研究では,複数のPET-CT-腫瘍マスクペアをペアネットワークと条件エンコーダを用いて生成できる新しいアーキテクチャを提案する。
我々のアプローチには、DDPMサンプリング一貫性を改善するための革新的で時間的なステップ制御機構と「ノイズ探索」戦略が含まれる。
本モデルでは, 特徴アライメントの正確性を確保するために, 知覚損失関数の修正が必要であるが, 明瞭に整列された合成画像の生成と, 生成画像とのセグメンテーション精度の向上が示されている。
The rapid advancement of Artificial Intelligence (AI) in biomedical imaging and radiotherapy is hindered by the limited availability of large imaging data repositories. With recent research and improvements in denoising diffusion probabilistic models (DDPM), high quality synthetic medical scans are now possible. Despite this, there is currently no way of generating multiple related images, such as a corresponding ground truth which can be used to train models, so synthetic scans are often manually annotated before use. This research introduces a novel architecture that is able to generate multiple, related PET-CT-tumour mask pairs using paired networks and conditional encoders. Our approach includes innovative, time step-controlled mechanisms and a `noise-seeding' strategy to improve DDPM sampling consistency. While our model requires a modified perceptual loss function to ensure accurate feature alignment we show generation of clearly aligned synthetic images and improvement in segmentation accuracy with generated images. | 翻訳日:2024-03-27 15:08:05 公開日:2024-03-26 |
# テスト時間適応による分布外騒音検出
Out-of-distribution Rumor Detection via Test-Time Adaptation ( http://arxiv.org/abs/2403.17735v1 ) ライセンス: Link先を確認 | Xiang Tao, Mingqing Zhang, Qiang Liu, Shu Wu, Liang Wang, | (参考訳) ソーシャルメディア上の噂が急速に広まる中、噂検出は極めて重要な課題となっている。
既存のうわさ検出手法は,同じデータ分布から十分なコーパスを収集し,モデル学習に有効である。
しかし、ニューストピック、ソーシャルメディアプラットフォーム、言語、ニュース人気による伝播スケールのばらつきなどにより、トレーニングデータと実世界のテストデータの間に大きな分布変化が生じている。
これにより、既存のOf-Distribution(OOD)状況におけるこれらのメソッドのパフォーマンスが大幅に低下する。
そこで本研究では,分散シフト(TARD)下での騒音検出のための簡易かつ効率的なテスト時間適応法を提案する。
本手法は,伝搬グラフの形式でニュースの伝搬をモデル化し,伝搬グラフのテスト時間適応フレームワークを構築し,OOD問題に直面する際のモデルの適応性と堅牢性を高める。
実世界のソーシャルプラットフォームから収集した2つのグループデータセットに対して行われた大規模な実験により、我々のフレームワークはパフォーマンスにおいて最先端の手法よりも優れていることが示された。
Due to the rapid spread of rumors on social media, rumor detection has become an extremely important challenge. Existing methods for rumor detection have achieved good performance, as they have collected enough corpus from the same data distribution for model training. However, significant distribution shifts between the training data and real-world test data occur due to differences in news topics, social media platforms, languages and the variance in propagation scale caused by news popularity. This leads to a substantial decline in the performance of these existing methods in Out-Of-Distribution (OOD) situations. To address this problem, we propose a simple and efficient method named Test-time Adaptation for Rumor Detection under distribution shifts (TARD). This method models the propagation of news in the form of a propagation graph, and builds propagation graph test-time adaptation framework, enhancing the model's adaptability and robustness when facing OOD problems. Extensive experiments conducted on two group datasets collected from real-world social platforms demonstrate that our framework outperforms the state-of-the-art methods in performance. | 翻訳日:2024-03-27 15:08:05 公開日:2024-03-26 |
# オールインワン:コールドスタートレーティング予測のための不均一相互作用モデリング
All-in-One: Heterogeneous Interaction Modeling for Cold-Start Rating Prediction ( http://arxiv.org/abs/2403.17740v1 ) ライセンス: Link先を確認 | Shuheng Fang, Kangfei Zhao, Yu Rong, Zhixun Li, Jeffrey Xu Yu, | (参考訳) コールドスタート評価の予測は、広く研究されているレコメンデーションシステムにおける根本的な問題である。
協調フィルタリングやソーシャルレコメンデーション,異種情報ネットワークなど,既存のデータ間の明示的な関係を利用して,コールドスタートユーザやアイテムのデータ不足を緩和する手法が数多く提案されている。
しかし、異なる役割間のデータに基づいて構築された明示的な関係は信頼性が低く、関係がない可能性があるため、特定のレコメンデーションタスクのパフォーマンス上限が制限される。
そこで本研究では、異種相互作用評価ネットワーク(HIRE)と呼ばれるフレキシブルなフレームワークを提案する。
HIRE線量は、事前に定義された相互作用パターンや、手動で構築された異種情報ネットワークにのみ依存しない。
代わりに、異種相互作用を共同でモデル化し、観測データを介して重要な相互作用を直接推測するために、異種相互作用モジュール(HIM)を考案する。
実験では,実世界の3つのデータセットに対して,3つのコールドスタート設定でモデルを評価する。
実験の結果,HIREは他のベースラインよりも大きなマージンで優れていた。
さらに、HIREの推論された相互作用を可視化し、モデルの有効性を確認する。
Cold-start rating prediction is a fundamental problem in recommender systems that has been extensively studied. Many methods have been proposed that exploit explicit relations among existing data, such as collaborative filtering, social recommendations and heterogeneous information network, to alleviate the data insufficiency issue for cold-start users and items. However, the explicit relations constructed based on data between different roles may be unreliable and irrelevant, which limits the performance ceiling of the specific recommendation task. Motivated by this, in this paper, we propose a flexible framework dubbed heterogeneous interaction rating network (HIRE). HIRE dose not solely rely on the pre-defined interaction pattern or the manually constructed heterogeneous information network. Instead, we devise a Heterogeneous Interaction Module (HIM) to jointly model the heterogeneous interactions and directly infer the important interactions via the observed data. In the experiments, we evaluate our model under three cold-start settings on three real-world datasets. The experimental results show that HIRE outperforms other baselines by a large margin. Furthermore, we visualize the inferred interactions of HIRE to confirm the contribution of our model. | 翻訳日:2024-03-27 15:08:05 公開日:2024-03-26 |
# 階層化サンプリングによるLIME画像説明の改善
Using Stratified Sampling to Improve LIME Image Explanations ( http://arxiv.org/abs/2403.17742v1 ) ライセンス: Link先を確認 | Muhammad Rashid, Elvio G. Amparore, Enrico Ferrari, Damiano Verda, | (参考訳) コンピュータビジョンタスクのモデルに依存しない説明可能なAI手法であるLIME Imageの階層化サンプリング手法を用いて,典型的なモンテカルロサンプリングによるアーティファクトの削減について検討する。
このようなアーティファクトは、画像の周囲の合成近傍における依存変数のアンダーサンプリングによるもので、サンプルデータに線形回帰器を装着できないため、説明が不十分になる可能性がある。
次に、アンダーサンプリングとサンプル関連性に関する同様の議論が過去に提案されたシェープリー理論との関係を強調した。
我々は,不偏成層化サンプリング推定器に必要な式と調整因子をすべて導出する。
提案手法の有効性を示す実験を行った。
We investigate the use of a stratified sampling approach for LIME Image, a popular model-agnostic explainable AI method for computer vision tasks, in order to reduce the artifacts generated by typical Monte Carlo sampling. Such artifacts are due to the undersampling of the dependent variable in the synthetic neighborhood around the image being explained, which may result in inadequate explanations due to the impossibility of fitting a linear regressor on the sampled data. We then highlight a connection with the Shapley theory, where similar arguments about undersampling and sample relevance were suggested in the past. We derive all the formulas and adjustment factors required for an unbiased stratified sampling estimator. Experiments show the efficacy of the proposed approach. | 翻訳日:2024-03-27 15:08:05 公開日:2024-03-26 |
# 後遺症を伴わない : 重症心疾患患者に対する薬剤的勧告の強化
Leave No Patient Behind: Enhancing Medication Recommendation for Rare Disease Patients ( http://arxiv.org/abs/2403.17745v1 ) ライセンス: Link先を確認 | Zihao Zhao, Yi Jing, Fuli Feng, Jiancan Wu, Chongming Gao, Xiangnan He, | (参考訳) 医薬推奨システムは、患者の臨床情報に基づいて、調整された効果的な薬物の組み合わせを提供する手段として、医療において大きな注目を集めている。
しかし, 既往のアプローチは, 稀な疾患の患者に比べて, より正確である傾向があるため, 公平性の問題に悩まされることが多い。
本稿では,レアな疾患の精度を高めるために,事前学習パラダイムを活用したRobust and Accurate Recommendations for Medication (RAREMed) と呼ばれる新しいモデルを提案する。
RAREMedは、入力シーケンスを統一したトランスフォーマーエンコーダを使用して、疾患と手続きコードの間の複雑な関係をキャプチャする。
さらに、SMP(Sequence Matching Prediction)とSR(Self Restruction)という2つの自己指導型事前訓練タスクを導入し、臨床コード間の専門的な薬物ニーズと相互関係を学習する。
2つの実世界のデータセットによる実験結果から、RAREMedは、稀な疾患と一般的な疾患の両方に対して正確な薬物セットを提供しており、医薬品推奨システムにおける不公平さを軽減していることが示された。
Medication recommendation systems have gained significant attention in healthcare as a means of providing tailored and effective drug combinations based on patients' clinical information. However, existing approaches often suffer from fairness issues, as recommendations tend to be more accurate for patients with common diseases compared to those with rare conditions. In this paper, we propose a novel model called Robust and Accurate REcommendations for Medication (RAREMed), which leverages the pretrain-finetune learning paradigm to enhance accuracy for rare diseases. RAREMed employs a transformer encoder with a unified input sequence approach to capture complex relationships among disease and procedure codes. Additionally, it introduces two self-supervised pre-training tasks, namely Sequence Matching Prediction (SMP) and Self Reconstruction (SR), to learn specialized medication needs and interrelations among clinical codes. Experimental results on two real-world datasets demonstrate that RAREMed provides accurate drug sets for both rare and common disease patients, thereby mitigating unfairness in medication recommendation systems. | 翻訳日:2024-03-27 15:08:05 公開日:2024-03-26 |
# UCxn: 普遍的な依存関係を前提とした構文の分類的インフォームドアノテーション
UCxn: Typologically Informed Annotation of Constructions Atop Universal Dependencies ( http://arxiv.org/abs/2403.17748v1 ) ライセンス: Link先を確認 | Leonie Weissweiler, Nina Böbel, Kirian Guiller, Santiago Herrera, Wesley Scivetti, Arthur Lorenzi, Nurit Melnik, Archna Bhatia, Hinrich Schütze, Lori Levin, Amir Zeldes, Joakim Nivre, William Croft, Nathan Schneider, | (参考訳) Universal Dependencies (UD) プロジェクトは,140以上の言語にコントリビューションを持った,貴重なツリーバンクのコレクションを作成した。
しかし、UDアノテーションは完全なストーリーを語らない。
いくつかの形態素的要素(例えば、特別なマーカーと/または単語順を含む疑問文)の特定の組み合わせを通して意味を伝える文法的構成は、一意にラベル付けされない。
我々は主張する
一 意味を有する文法的構成のための「UCxn」アノテーションでUDアノテーションを増補し、
(二) 形態素合成戦略を言語間で比較できるように、類型的に情報を得た方法でアプローチすること。
ケーススタディでは, 形態素パターンを用いて, UDツリーバンクにおける構築の事例を識別し, 10言語で5つの建設ファミリを考察する。
本研究は, これらの構造に関する知見に加えて, 言語一般および言語特化的な構成を記述・特定するための方法論に関する重要な知見を導き, UD木バンクの今後の構築の基盤を築き上げている。
The Universal Dependencies (UD) project has created an invaluable collection of treebanks with contributions in over 140 languages. However, the UD annotations do not tell the full story. Grammatical constructions that convey meaning through a particular combination of several morphosyntactic elements -- for example, interrogative sentences with special markers and/or word orders -- are not labeled holistically. We argue for (i) augmenting UD annotations with a 'UCxn' annotation layer for such meaning-bearing grammatical constructions, and (ii) approaching this in a typologically informed way so that morphosyntactic strategies can be compared across languages. As a case study, we consider five construction families in ten languages, identifying instances of each construction in UD treebanks through the use of morphosyntactic patterns. In addition to findings regarding these particular constructions, our study yields important insights on methodology for describing and identifying constructions in language-general and language-particular ways, and lays the foundation for future constructional enrichment of UD treebanks. | 翻訳日:2024-03-27 15:08:05 公開日:2024-03-26 |
# 低ランクエキスパートの混在によるマルチタスクディエンス予測
Multi-Task Dense Prediction via Mixture of Low-Rank Experts ( http://arxiv.org/abs/2403.17749v1 ) ライセンス: Link先を確認 | Yuqi Yang, Peng-Tao Jiang, Qibin Hou, Hao Zhang, Jinwei Chen, Bo Li, | (参考訳) 従来,Mixture of Experts (MoE) に基づくマルチタスク密集予測手法は,すべてのタスクのグローバルな関係を明示的にモデル化することの重要性を無視している。
本稿では,Mixture-of-Low-Rank-Experts (MLoRE) と呼ばれるマルチタスク密度予測のためのデコーダに着目した新しい手法を提案する。
グローバルなタスク関係をモデル化するために、MLoREは元のMoE構造に汎用的な畳み込みパスを追加し、各タスク機能は、明示的なパラメータ共有のためにこのパスを通ることができる。
さらに,専門家数の増加に伴うパラメータと計算コストを制御するため,LoRAからインスピレーションを得て,エキスパートネットワークにおけるバニラ畳み込みの低ランク形式を活用することを提案する。
低ランクの専門家はパラメータが少なく、ジェネリック畳み込みに動的にパラメータ化できるため、パラメータと計算コストは専門家の増加とともに大きく変化しない。
この設計により、専門家の数と受信フィールドを増やして表現能力を大きくし、複数の密集タスクを統一ネットワークで学習できるようにする。
PASCAL-ContextとNYUD-v2ベンチマークの大規模な実験により、我々のMLoREは、すべてのメトリクスにおける従来の最先端の手法と比較して、優れたパフォーマンスを実現していることが示された。
私たちのコードはhttps://github.com/YuqiYang213/MLoREで利用可能です。
Previous multi-task dense prediction methods based on the Mixture of Experts (MoE) have received great performance but they neglect the importance of explicitly modeling the global relations among all tasks. In this paper, we present a novel decoder-focused method for multi-task dense prediction, called Mixture-of-Low-Rank-Experts (MLoRE). To model the global task relationships, MLoRE adds a generic convolution path to the original MoE structure, where each task feature can go through this path for explicit parameter sharing. Furthermore, to control the parameters and computational cost brought by the increase in the number of experts, we take inspiration from LoRA and propose to leverage the low-rank format of a vanilla convolution in the expert network. Since the low-rank experts have fewer parameters and can be dynamically parameterized into the generic convolution, the parameters and computational cost do not change much with the increase of experts. Benefiting from this design, we increase the number of experts and its reception field to enlarge the representation capacity, facilitating multiple dense tasks learning in a unified network. Extensive experiments on the PASCAL-Context and NYUD-v2 benchmarks show that our MLoRE achieves superior performance compared to previous state-of-the-art methods on all metrics. Our code is available at https://github.com/YuqiYang213/MLoRE. | 翻訳日:2024-03-27 14:58:20 公開日:2024-03-26 |
# 複数選択質問はLLMの能力を検出するのに本当に役立つのか?
Can multiple-choice questions really be useful in detecting the abilities of LLMs? ( http://arxiv.org/abs/2403.17752v1 ) ライセンス: Link先を確認 | Wangyue Li, Liangzhi Li, Tong Xiang, Xiao Liu, Wei Deng, Noa Garcia, | (参考訳) 複数選択質問(MCQ)は、その単純さと効率性から、大規模言語モデル(LLM)の評価に広く用いられている。
しかし、特に長文生成(LFG)の回答を必要とする知識集約的なシナリオにおいて、MCQがLLMの能力を真に測定できるかどうかには懸念がある。
課題と評価方法のミスアライメントはMCQの有効性の思慮深い分析を必要とするが,本論文では,中国語と英語の4言語からなる質問応答(QA)データセットに対して,9つのLLMを評価した。
LLMはバイリンガルMCQの順序感受性を示し、特定の位置にある答え、すなわち第1位を優先する。
さらに, 直接出力, トークンロジット, 埋め込みを比較することで, MCQとLFGQのギャップを定量化する。
その結果,同一質問に対するMCQとLFGQの回答の相関は比較的低いことがわかった。
さらに、他のQA評価ベンチマークに一般化可能なLCMの出力の一貫性と信頼性を定量化する2つの方法を提案する。
特に、我々の分析は、一貫性が高ければ高いほど精度が上がるという考えに挑戦する。
また,キャリブレーション誤差の予測値から,MCQはLFGQよりも信頼性が低いことも確認した。
最後に、MCQとLFGQの相違は評価性能だけでなく、埋め込み空間にも反映される。
私たちのコードとモデルはhttps://github.com/Meetyou-AI-Lab/Can-MC-Evaluate-LLMsでアクセスできます。
Multiple-choice questions (MCQs) are widely used in the evaluation of large language models (LLMs) due to their simplicity and efficiency. However, there are concerns about whether MCQs can truly measure LLM's capabilities, particularly in knowledge-intensive scenarios where long-form generation (LFG) answers are required. The misalignment between the task and the evaluation method demands a thoughtful analysis of MCQ's efficacy, which we undertake in this paper by evaluating nine LLMs on four question-answering (QA) datasets in two languages: Chinese and English. We identify a significant issue: LLMs exhibit an order sensitivity in bilingual MCQs, favoring answers located at specific positions, i.e., the first position. We further quantify the gap between MCQs and long-form generation questions (LFGQs) by comparing their direct outputs, token logits, and embeddings. Our results reveal a relatively low correlation between answers from MCQs and LFGQs for identical questions. Additionally, we propose two methods to quantify the consistency and confidence of LLMs' output, which can be generalized to other QA evaluation benchmarks. Notably, our analysis challenges the idea that the higher the consistency, the greater the accuracy. We also find MCQs to be less reliable than LFGQs in terms of expected calibration error. Finally, the misalignment between MCQs and LFGQs is not only reflected in the evaluation performance but also in the embedding space. Our code and models can be accessed at https://github.com/Meetyou-AI-Lab/Can-MC-Evaluate-LLMs. | 翻訳日:2024-03-27 14:58:20 公開日:2024-03-26 |
# CCDSReformer:Criss-Crossed Dual-Stream Enhanced Rectified Transformer Modelによる交通流予測
CCDSReFormer: Traffic Flow Prediction with a Criss-Crossed Dual-Stream Enhanced Rectified Transformer Model ( http://arxiv.org/abs/2403.17753v1 ) ライセンス: Link先を確認 | Zhiqi Shao, Michael G. H. Bell, Ze Wang, D. Glenn Geers, Xusheng Yao, Junbin Gao, | (参考訳) 正確な交通予測はスマート交通システムにとって不可欠であり、都市交通計画と管理に不可欠である。
現在の時空間変圧器モデルは、予測能力にもかかわらず、計算効率と精度のバランスに苦慮し、局所的情報よりもグローバルに好意し、空間的データと時間的データを別々に扱い、複雑な相互作用についての洞察を制限している。
本稿では,Criss-Crossed Dual-Stream Enhanced Rectified Transformer Model (CCDSReFormer)を紹介し,ReSSA(Enhanced Rectified Spatial Self-attention),ReDASA(Enhanced Rectified Delay Aware Self-attention),ReTSA(Enhanced Rectified Temporal Self-attention)の3つの革新的なモジュールについて述べる。
これらのモジュールは、疎注意による計算ニーズの低減、トラフィックダイナミクスの理解向上のためのローカル情報への注力、ユニークな学習手法による空間的および時間的洞察の融合を目的としている。
6つの実世界のデータセットに対する大規模なテストは、CCDSReFormerの優れたパフォーマンスを強調している。
アブレーション調査では、各コンポーネントがモデルの予測精度に与える影響も確認し、モデルがトラフィックフローを効果的に予測する能力を示している。
Accurate, and effective traffic forecasting is vital for smart traffic systems, crucial in urban traffic planning and management. Current Spatio-Temporal Transformer models, despite their prediction capabilities, struggle with balancing computational efficiency and accuracy, favoring global over local information, and handling spatial and temporal data separately, limiting insight into complex interactions. We introduce the Criss-Crossed Dual-Stream Enhanced Rectified Transformer model (CCDSReFormer), which includes three innovative modules: Enhanced Rectified Spatial Self-attention (ReSSA), Enhanced Rectified Delay Aware Self-attention (ReDASA), and Enhanced Rectified Temporal Self-attention (ReTSA). These modules aim to lower computational needs via sparse attention, focus on local information for better traffic dynamics understanding, and merge spatial and temporal insights through a unique learning method. Extensive tests on six real-world datasets highlight CCDSReFormer's superior performance. An ablation study also confirms the significant impact of each component on the model's predictive accuracy, showcasing our model's ability to forecast traffic flow effectively. | 翻訳日:2024-03-27 14:58:20 公開日:2024-03-26 |
# DataCook: 医療データ保護のための反逆的な例を作る
DataCook: Crafting Anti-Adversarial Examples for Healthcare Data Copyright Protection ( http://arxiv.org/abs/2403.17755v1 ) ライセンス: Link先を確認 | Sihan Shang, Jiancheng Yang, Zhenglong Sun, Pascal Fua, | (参考訳) 医療の世界では、著作権保護と認可されていないサードパーティの誤用という課題がますます重要になっている。
データ著作権保護の伝統的な方法は、データ配信の前に適用され、これらのデータに基づいてトレーニングされたモデルが制御不能になることを意味する。
本稿では、デプロイメントフェーズにおける医療データの著作権保護を目的とした、DataCookという新しいアプローチを紹介する。
DataCookは、配布前に生データを"クッキング"することで、この処理されたデータに対して正常に実行されるモデルの開発を可能にする。
しかしながら、デプロイメントフェーズでは、オリジナルのテストデータをDataCookを通じて“クッキング”して、通常のモデルのパフォーマンスを保証する必要があります。
このプロセスは、デプロイメントフェーズ中に著作権所有者が認可を制御できるようにする。
DataCookの背後にあるメカニズムは、モデルを混乱させようとする標準的な逆例(Adv)とは対照的に、モデルの信頼性を高めるために設計された反逆例(AntiAdv)を作成することである。
Advと同様に、AntiAdvは知覚不能な摂動を導入し、DataCookによって処理されたデータが容易に理解できることを保証する。
我々は2D/3Dデータと高分解能データの両方を含むMedMNISTデータセットの広範な実験を行った。
その結果、DataCookはその目的を効果的に満たし、AntiAdvでトレーニングされたモデルが、合法的なシナリオにおけるデータの妥当性と精度を損なうことなく、不正なデータを効果的に分析するのを防ぐことが示される。
コードとデータはhttps://github.com/MedMNIST/DataCook.comで公開されている。
In the realm of healthcare, the challenges of copyright protection and unauthorized third-party misuse are increasingly significant. Traditional methods for data copyright protection are applied prior to data distribution, implying that models trained on these data become uncontrollable. This paper introduces a novel approach, named DataCook, designed to safeguard the copyright of healthcare data during the deployment phase. DataCook operates by "cooking" the raw data before distribution, enabling the development of models that perform normally on this processed data. However, during the deployment phase, the original test data must be also "cooked" through DataCook to ensure normal model performance. This process grants copyright holders control over authorization during the deployment phase. The mechanism behind DataCook is by crafting anti-adversarial examples (AntiAdv), which are designed to enhance model confidence, as opposed to standard adversarial examples (Adv) that aim to confuse models. Similar to Adv, AntiAdv introduces imperceptible perturbations, ensuring that the data processed by DataCook remains easily understandable. We conducted extensive experiments on MedMNIST datasets, encompassing both 2D/3D data and the high-resolution variants. The outcomes indicate that DataCook effectively meets its objectives, preventing models trained on AntiAdv from analyzing unauthorized data effectively, without compromising the validity and accuracy of the data in legitimate scenarios. Code and data are available at https://github.com/MedMNIST/DataCook. | 翻訳日:2024-03-27 14:58:20 公開日:2024-03-26 |
# CRISMハイパースペクトルデータのノイズ2ノイズ
Noise2Noise Denoising of CRISM Hyperspectral Data ( http://arxiv.org/abs/2403.17757v1 ) ライセンス: Link先を確認 | Robert Platt, Rossella Arcucci, Cédric John, | (参考訳) CRISM (Compact Reconnaissance Imaging Spectrometer for Mars) が取得したハイパースペクトルデータにより、火星の表面鉱物学の非並列マッピングが可能となった。
センサの劣化により、最近取得したデータのかなりの部分は利用できないと考えられる。
ここでは、CRISM画像からノイズを取り除くために、新しいデータ駆動型モデルアーキテクチャであるNoss2Noise4Mars (N2N4M)を導入する。
我々のモデルは自己教師型であり、ゼロノイズ対象データを必要としないため、高品質なラベル付きデータが不足している惑星科学アプリケーションでの使用に適している。
合成ノイズデータとCRISM画像に強い性能を示し、下流分類性能に影響を及ぼし、ほとんどの指標においてベンチマーク手法よりも優れた性能を示す。
これにより、提案された着陸地点を含む火星表面における重要な場所の詳細な分析が可能になる。
Hyperspectral data acquired by the Compact Reconnaissance Imaging Spectrometer for Mars (CRISM) have allowed for unparalleled mapping of the surface mineralogy of Mars. Due to sensor degradation over time, a significant portion of the recently acquired data is considered unusable. Here a new data-driven model architecture, Noise2Noise4Mars (N2N4M), is introduced to remove noise from CRISM images. Our model is self-supervised and does not require zero-noise target data, making it well suited for use in Planetary Science applications where high quality labelled data is scarce. We demonstrate its strong performance on synthetic-noise data and CRISM images, and its impact on downstream classification performance, outperforming benchmark methods on most metrics. This allows for detailed analysis for critical sites of interest on the Martian surface, including proposed lander sites. | 翻訳日:2024-03-27 14:58:20 公開日:2024-03-26 |
# 巨大な言語モデルでさえ、間違った理由を正すのが難しい
Constructions Are So Difficult That Even Large Language Models Get Them Right for the Wrong Reasons ( http://arxiv.org/abs/2403.17760v1 ) ライセンス: Link先を確認 | Shijia Zhou, Leonie Weissweiler, Taiqi He, Hinrich Schütze, David R. Mortensen, Lori Levin, | (参考訳) 本稿では,NLPの観点から,トークンの区別のみに基づいて包括性を識別するモデルを最小化し,GPT-4とLlama 2が強いバイアスで失敗する可能性を示す,大きな語彙重なりを持つNLIのための小さな挑戦データセットを提案する。
そして、この失敗を説明するために、さらに挑戦的なサブタスクを作成します。
計算言語学の観点から、曲面特徴によって区別できない3種類の形容詞を持つ構成群を同定する。
これにより, LLM のこれらの構造に対する理解を様々な方法で探究することが可能となり, 両者の区別に様々な方法で失敗し, それらの意味を適切に表現したり, 語彙的特徴を捉えたりすることができないことが示唆された。
In this paper, we make a contribution that can be understood from two perspectives: from an NLP perspective, we introduce a small challenge dataset for NLI with large lexical overlap, which minimises the possibility of models discerning entailment solely based on token distinctions, and show that GPT-4 and Llama 2 fail it with strong bias. We then create further challenging sub-tasks in an effort to explain this failure. From a Computational Linguistics perspective, we identify a group of constructions with three classes of adjectives which cannot be distinguished by surface features. This enables us to probe for LLM's understanding of these constructions in various ways, and we find that they fail in a variety of ways to distinguish between them, suggesting that they don't adequately represent their meaning or capture the lexical properties of phrasal heads. | 翻訳日:2024-03-27 14:58:20 公開日:2024-03-26 |
# 3次元顔のメイクアップ推定のためのメイクアップ事前モデルとその応用
Makeup Prior Models for 3D Facial Makeup Estimation and Applications ( http://arxiv.org/abs/2403.17761v1 ) ライセンス: Link先を確認 | Xingchao Yang, Takafumi Taketomi, Yuki Endo, Yoshihiro Kanamori, | (参考訳) そこで本研究では,PCAベースとStyleGAN2ベースという,既存の3次元顔前モデルを拡張する2種類の化粧前モデルを提案する。
PCAベースの先行モデルは、構成が容易で計算効率が良い線形モデルである。
しかし、低周波情報のみを保持する。
逆に、StyleGAN2ベースのモデルは、PCAベースのモデルよりも比較的高い計算コストで高周波情報を表現することができる。
2つのモデルの間にはトレードオフがあるが、どちらも3D顔認証や関連する応用に適用できる。
メークアップ先行モデルを活用し,メイクアップ整合モジュールを設計することにより,メイクアップを頑健に推定する従来の手法が直面する課題を効果的に解決する。
実験では,計算コストを数桁削減し,最大180倍の高速化を実現した。
また, 推定メイクの精度を向上させることにより, 3次元メイク顔再構成, ユーザフレンドリーメイクアップ, メイクアップ, 補間など, 様々な3次元顔化粧の応用に極めて有利であることが確認された。
In this work, we introduce two types of makeup prior models to extend existing 3D face prior models: PCA-based and StyleGAN2-based priors. The PCA-based prior model is a linear model that is easy to construct and is computationally efficient. However, it retains only low-frequency information. Conversely, the StyleGAN2-based model can represent high-frequency information with relatively higher computational cost than the PCA-based model. Although there is a trade-off between the two models, both are applicable to 3D facial makeup estimation and related applications. By leveraging makeup prior models and designing a makeup consistency module, we effectively address the challenges that previous methods faced in robustly estimating makeup, particularly in the context of handling self-occluded faces. In experiments, we demonstrate that our approach reduces computational costs by several orders of magnitude, achieving speeds up to 180 times faster. In addition, by improving the accuracy of the estimated makeup, we confirm that our methods are highly advantageous for various 3D facial makeup applications such as 3D makeup face reconstruction, user-friendly makeup editing, makeup transfer, and interpolation. | 翻訳日:2024-03-27 14:58:20 公開日:2024-03-26 |
# MUTE-SLAM:複数平面ハッシュ表現を用いたリアルタイムニューラルネットワークSLAM
MUTE-SLAM: Real-Time Neural SLAM with Multiple Tri-Plane Hash Representations ( http://arxiv.org/abs/2403.17765v1 ) ライセンス: Link先を確認 | Yifan Yan, Ruomin He, Zhenghua Liu, | (参考訳) 本稿では,複数平面のハッシュエンコーディングを用いたリアルタイムニューラルネットワークRGB-D SLAMシステムMUTE-SLAMについて紹介する。
MUTE-SLAMは、カメラの位置を効果的に追跡し、小型および大型の屋内環境のためのスケーラブルなマルチマップ表現を漸進的に構築する。
新たに観測された局所領域のサブマップを動的に割り当て、事前のシーン情報なしで制約のないマッピングを可能にする。
従来の格子法とは異なり、3つの直交軸整列平面をハッシュ符号化シーン特性に用いて、ハッシュ衝突とトレーニング可能なパラメータの数を大幅に削減する。
このハイブリッドアプローチは収束を加速するだけでなく、表面再構成の忠実性を高める。
さらに、我々の最適化戦略は、現在のカメラフラストラムと交わる全てのサブマップを同時に最適化し、グローバルな一貫性を確保する。
実世界のデータセットと合成データセットの大規模なテストにより、MUTE-SLAMは様々な屋内環境において、最先端の表面再構成品質と競合追跡性能を提供することが示された。
コードは、論文の受理時に公表される。
We introduce MUTE-SLAM, a real-time neural RGB-D SLAM system employing multiple tri-plane hash-encodings for efficient scene representation. MUTE-SLAM effectively tracks camera positions and incrementally builds a scalable multi-map representation for both small and large indoor environments. It dynamically allocates sub-maps for newly observed local regions, enabling constraint-free mapping without prior scene information. Unlike traditional grid-based methods, we use three orthogonal axis-aligned planes for hash-encoding scene properties, significantly reducing hash collisions and the number of trainable parameters. This hybrid approach not only speeds up convergence but also enhances the fidelity of surface reconstruction. Furthermore, our optimization strategy concurrently optimizes all sub-maps intersecting with the current camera frustum, ensuring global consistency. Extensive testing on both real-world and synthetic datasets has shown that MUTE-SLAM delivers state-of-the-art surface reconstruction quality and competitive tracking performance across diverse indoor settings. The code will be made public upon acceptance of the paper. | 翻訳日:2024-03-27 14:58:20 公開日:2024-03-26 |
# 不確実なラベリングを伴う半教師付き学習の漸近ベイズリスク
Asymptotic Bayes risk of semi-supervised learning with uncertain labeling ( http://arxiv.org/abs/2403.17767v1 ) ライセンス: Link先を確認 | Victor Leger, Romain Couillet, | (参考訳) 本稿では,ガウス混合モデルに基づく半教師付き分類について考察する。
我々の主な目的はベイズリスクを計算することである。
我々はベイズリスクの挙動と、このモデルにおける最もよく知られたアルゴリズムを比較した。
この比較は最終的にアルゴリズムに新たな洞察を与える。
This article considers a semi-supervised classification setting on a Gaussian mixture model, where the data is not labeled strictly as usual, but instead with uncertain labels. Our main aim is to compute the Bayes risk for this model. We compare the behavior of the Bayes risk and the best known algorithm for this model. This comparison eventually gives new insights over the algorithm. | 翻訳日:2024-03-27 14:58:20 公開日:2024-03-26 |
# SciNews:Scholarly ComplexitiesからPublic Narrativesへ - 科学ニュース生成のためのデータセット
SciNews: From Scholarly Complexities to Public Narratives -- A Dataset for Scientific News Report Generation ( http://arxiv.org/abs/2403.17768v1 ) ライセンス: Link先を確認 | Dongqi Pu, Yifan Wang, Jia Loy, Vera Demberg, | (参考訳) 科学的な報道は橋として機能し、複雑な研究論文を一般大衆に反響するレポートに順応的に翻訳する。
このような物語の自動生成は、学術的洞察のアクセシビリティを高める。
本稿では,このパラダイム開発を促進するための新しいコーパスを提案する。
我々のコーパスは、9つの分野にわたる学術出版物とそれに対応する科学ニュースを並行してまとめて構成する。
本データセットの有用性と信頼性を実証するため,学術論文と学術論文の読みやすさと簡潔さの相違に着目し,広範囲な分析を行った。
我々は、最先端のテキスト生成モデルを用いてデータセットをベンチマークする。
評価プロセスには、自動的な評価と人的評価の両方が含まれる。
この作業に関連するデータセットとコードはhttps://dongqi.me/projects/SciNews.comで公開されている。
Scientific news reports serve as a bridge, adeptly translating complex research articles into reports that resonate with the broader public. The automated generation of such narratives enhances the accessibility of scholarly insights. In this paper, we present a new corpus to facilitate this paradigm development. Our corpus comprises a parallel compilation of academic publications and their corresponding scientific news reports across nine disciplines. To demonstrate the utility and reliability of our dataset, we conduct an extensive analysis, highlighting the divergences in readability and brevity between scientific news narratives and academic manuscripts. We benchmark our dataset employing state-of-the-art text generation models. The evaluation process involves both automatic and human evaluation, which lays the groundwork for future explorations into the automated generation of scientific news reports. The dataset and code related to this work are available at https://dongqi.me/projects/SciNews. | 翻訳日:2024-03-27 14:58:20 公開日:2024-03-26 |
# 腹部リンパ節郭清のための条件拡散モデルを用いたCT合成
CT Synthesis with Conditional Diffusion Models for Abdominal Lymph Node Segmentation ( http://arxiv.org/abs/2403.17770v1 ) ライセンス: Link先を確認 | Yongrui Yu, Hanyu Chen, Zitian Zhang, Qiong Xiao, Wenhui Lei, Linrui Dai, Yu Fu, Hui Tan, Guan Wang, Peng Gao, Xiaofan Zhang, | (参考訳) 医用画像分割における深層学習法による大きな成功にもかかわらず、研究者は複雑な腹部環境、小さく、識別不能な病変、限られた注釈付きデータによる腹部リンパ節のコンピュータ診断に苦慮している。
これらの問題に対処するために, リンパ節生成のための条件拡散モデルとリンパ節セグメント化のためのnnU-Netモデルを統合し, リアルな腹部リンパ節データの多様性を合成することにより, 腹部リンパ節のセグメンテーション性能を向上させるパイプラインを提案する。
リンパ節(LN)生成のための条件分解拡散確率モデル(DDPM)であるLN-DDPMを提案する。
LN-DDPMはリンパ節マスクと解剖学的構造マスクをモデル条件として利用する。
これらの条件は、大域的な構造条件付けと局所的な詳細条件付けという2つの条件付けのメカニズムで機能し、リンパ節とその周辺を区別し、より優れたリンパ節特性を捕捉する。
下流セグメンテーションタスクには、得られたペアの腹部リンパ節画像とマスクが使用される。
腹部リンパ節データセットを用いた実験の結果,LN-DDPMは腹部リンパ節画像合成において他の生成法よりも優れており,下腹部リンパ節セグメント化作業の助けとなることが明らかとなった。
Despite the significant success achieved by deep learning methods in medical image segmentation, researchers still struggle in the computer-aided diagnosis of abdominal lymph nodes due to the complex abdominal environment, small and indistinguishable lesions, and limited annotated data. To address these problems, we present a pipeline that integrates the conditional diffusion model for lymph node generation and the nnU-Net model for lymph node segmentation to improve the segmentation performance of abdominal lymph nodes through synthesizing a diversity of realistic abdominal lymph node data. We propose LN-DDPM, a conditional denoising diffusion probabilistic model (DDPM) for lymph node (LN) generation. LN-DDPM utilizes lymph node masks and anatomical structure masks as model conditions. These conditions work in two conditioning mechanisms: global structure conditioning and local detail conditioning, to distinguish between lymph nodes and their surroundings and better capture lymph node characteristics. The obtained paired abdominal lymph node images and masks are used for the downstream segmentation task. Experimental results on the abdominal lymph node datasets demonstrate that LN-DDPM outperforms other generative methods in the abdominal lymph node image synthesis and better assists the downstream abdominal lymph node segmentation task. | 翻訳日:2024-03-27 14:58:20 公開日:2024-03-26 |
# セキュアなアグリゲーションは、メンバーシップ推論攻撃に対してプライベートではない
Secure Aggregation is Not Private Against Membership Inference Attacks ( http://arxiv.org/abs/2403.17775v1 ) ライセンス: Link先を確認 | Khac-Hoang Ngo, Johan Östman, Giuseppe Durisi, Alexandre Graell i Amat, | (参考訳) セキュアアグリゲーション(SecAgg)は、フェデレーション学習において一般的に使用されるプライバシ強化メカニズムであり、個々の更新の機密性を保護しながら、モデルの更新の集約にのみアクセスすることができる。
SecAggのプライバシ保護機能に関する広範な主張にもかかわらず、そのプライバシに関する公式な分析は欠如しており、そのような推測は正当化されていない。
本稿では、SecAggのプライバシーへの影響を各ローカル更新のローカル差分プライバシ(LDP)メカニズムとして扱うことにより調べる。
本研究では,SecAggのもとでの1回の学習ラウンドにおいて,クライアントが提出したベクタを2つの可能なベクタから識別する単純な攻撃を設計する。
プライバシ監査を行うことで、この攻撃の成功確率を評価し、SecAggが提供するLCP保証を定量化する。
我々の数値結果は、一般的な主張とは対照的に、SecAggは1回のトレーニングラウンドでもメンバーシップ推論攻撃に対して弱いプライバシーを提供します。
実際、更新が高次元である場合、他の独立したローカルアップデートを追加することで、ローカルアップデートを隠すのは難しい。
本研究は,フェデレート学習において,ノイズ注入などの付加的なプライバシ向上機構の必要性を浮き彫りにした。
Secure aggregation (SecAgg) is a commonly-used privacy-enhancing mechanism in federated learning, affording the server access only to the aggregate of model updates while safeguarding the confidentiality of individual updates. Despite widespread claims regarding SecAgg's privacy-preserving capabilities, a formal analysis of its privacy is lacking, making such presumptions unjustified. In this paper, we delve into the privacy implications of SecAgg by treating it as a local differential privacy (LDP) mechanism for each local update. We design a simple attack wherein an adversarial server seeks to discern which update vector a client submitted, out of two possible ones, in a single training round of federated learning under SecAgg. By conducting privacy auditing, we assess the success probability of this attack and quantify the LDP guarantees provided by SecAgg. Our numerical results unveil that, contrary to prevailing claims, SecAgg offers weak privacy against membership inference attacks even in a single training round. Indeed, it is difficult to hide a local update by adding other independent local updates when the updates are of high dimension. Our findings underscore the imperative for additional privacy-enhancing mechanisms, such as noise injection, in federated learning. | 翻訳日:2024-03-27 14:58:20 公開日:2024-03-26 |
# 応用数学におけるワークフローとモデルのFAIRドキュメンテーションに向けて
Towards a FAIR Documentation of Workflows and Models in Applied Mathematics ( http://arxiv.org/abs/2403.17778v1 ) ライセンス: Link先を確認 | Marco Reidelbach, Björn Schembera, Marcus Weber, | (参考訳) モデリング・シミュレーション・最適化のワークフローは応用数学において基本的な役割を果たす。
Mathematical Research Data Initiative、MaRDIは、このようなワークフローの包括的なドキュメントのためのFAIRおよびマシン解釈可能なテンプレートを開発することで、これに答えた。
Research Data Management OrganiserのプラグインであるMaRDMOは、様々な分野の科学者が、MaRDIテンプレートを使用してシームレスにMaRDIポータル上でワークフローを文書化し、公開することができる。
これらのワークフローの中心は数学的モデルである。
MaRDIはそれらをMathModDBオントロジーで扱い、構造化された形式的なモデル記述を提供する。
本稿では、MathModDB Knowledge GraphとMathRDMOの相互作用について、Digital Humanitiesの代数的モデリングワークフローを通して紹介する。
このデモンストレーションは、元の数値領域を超えて、両方のサービスの汎用性を強調します。
Modeling-Simulation-Optimization workflows play a fundamental role in applied mathematics. The Mathematical Research Data Initiative, MaRDI, responded to this by developing a FAIR and machine-interpretable template for a comprehensive documentation of such workflows. MaRDMO, a Plugin for the Research Data Management Organiser, enables scientists from diverse fields to document and publish their workflows on the MaRDI Portal seamlessly using the MaRDI template. Central to these workflows are mathematical models. MaRDI addresses them with the MathModDB ontology, offering a structured formal model description. Here, we showcase the interaction between MaRDMO and the MathModDB Knowledge Graph through an algebraic modeling workflow from the Digital Humanities. This demonstration underscores the versatility of both services beyond their original numerical domain. | 翻訳日:2024-03-27 14:58:20 公開日:2024-03-26 |
# GenesisTex: 拡散をテクスチャ空間に適応させる
GenesisTex: Adapting Image Denoising Diffusion to Texture Space ( http://arxiv.org/abs/2403.17782v1 ) ライセンス: Link先を確認 | Chenjian Gao, Boyan Jiang, Xinghui Li, Yingpeng Zhang, Qian Yu, | (参考訳) テキスト記述から3次元幾何学のテクスチャを合成する新しい手法であるGenesisTexを提案する。
GenesisTexは、事前学習した画像拡散モデルをテクスチャ空間サンプリングによりテクスチャ空間に適応する。
具体的には、各視点に対して潜在テクスチャマップを保持し、対応する視点の描画に予測ノイズを伴って更新する。
サンプル化された潜在テクスチャマップは、最終テクスチャマップにデコードされる。
サンプリングの過程では,複数の視点にまたがる大域的・局所的整合性に着目し,ノイズ予測ネットワーク内のスタイル整合性機構の統合により大域的整合性を実現し,潜在テクスチャを動的に整合させることにより低レベル整合性を実現する。
最後に, テクスチャリファインメントの高密度化に基準ベースの塗布とimg2imgを適用した。
本手法は, 蒸留法における遅い最適化の限界を克服し, 塗布法における不安定性を克服する。
様々な情報源から得られたメッシュ実験により,本手法がベースライン法を定量的かつ定性的に超えることを示した。
We present GenesisTex, a novel method for synthesizing textures for 3D geometries from text descriptions. GenesisTex adapts the pretrained image diffusion model to texture space by texture space sampling. Specifically, we maintain a latent texture map for each viewpoint, which is updated with predicted noise on the rendering of the corresponding viewpoint. The sampled latent texture maps are then decoded into a final texture map. During the sampling process, we focus on both global and local consistency across multiple viewpoints: global consistency is achieved through the integration of style consistency mechanisms within the noise prediction network, and low-level consistency is achieved by dynamically aligning latent textures. Finally, we apply reference-based inpainting and img2img on denser views for texture refinement. Our approach overcomes the limitations of slow optimization in distillation-based methods and instability in inpainting-based methods. Experiments on meshes from various sources demonstrate that our method surpasses the baseline methods quantitatively and qualitatively. | 翻訳日:2024-03-27 14:58:20 公開日:2024-03-26 |
# SciCapenter: 機械生成キャプションとレーティングによる科学フィギュアのキャプション構成のサポート
SciCapenter: Supporting Caption Composition for Scientific Figures with Machine-Generated Captions and Ratings ( http://arxiv.org/abs/2403.17784v1 ) ライセンス: Link先を確認 | Ting-Yao Hsu, Chieh-Yang Huang, Shih-Hong Huang, Ryan Rossi, Sungchul Kim, Tong Yu, C. Lee Giles, Ting-Hao K. Huang, | (参考訳) フィギュアの効果的なキャプションを作るのが重要だ。
読者はこれらのキャプションに大きく依存し、人物のメッセージを把握する。
しかし、フィギュアやキャプションのためのAI技術が十分に開発されているにもかかわらず、これらはキャプション作成を支援するためにテストされることはめったにない。
本稿では,科学的な図形キャプションのための最先端AI技術を組み合わせた対話型システムであるSciCapenterを紹介する。
SciCapenterは学術論文で各人物に対する様々なキャプションを生成し、有用な点、OCR言及、キーテイクアウト、ビジュアルプロパティ参照など、複数の重要な側面にわたるキャプション品質を評価するためのスコアと包括的なチェックリストを提供する。
ユーザーは、SciCapenterのキャプションを直接編集し、修正された評価のために再送信し、繰り返し修正することができる。
Ph.D.の学生によるユーザスタディによると、SciCapenterは字幕作成の認知負荷を著しく低下させる。
参加者のフィードバックは、キャプションの書き方を強化することを目的とした将来のシステムに価値ある設計上の洞察を提供する。
Crafting effective captions for figures is important. Readers heavily depend on these captions to grasp the figure's message. However, despite a well-developed set of AI technologies for figures and captions, these have rarely been tested for usefulness in aiding caption writing. This paper introduces SciCapenter, an interactive system that puts together cutting-edge AI technologies for scientific figure captions to aid caption composition. SciCapenter generates a variety of captions for each figure in a scholarly article, providing scores and a comprehensive checklist to assess caption quality across multiple critical aspects, such as helpfulness, OCR mention, key takeaways, and visual properties reference. Users can directly edit captions in SciCapenter, resubmit for revised evaluations, and iteratively refine them. A user study with Ph.D. students indicates that SciCapenter significantly lowers the cognitive load of caption writing. Participants' feedback further offers valuable design insights for future systems aiming to enhance caption writing. | 翻訳日:2024-03-27 14:58:20 公開日:2024-03-26 |
# 画像ベースセキュリティアプリケーションにおけるマルチモーダル大規模マルチモーダルモデルVersus Fine-Tuned Vision Transformerの有効性評価
Evaluating the Efficacy of Prompt-Engineered Large Multimodal Models Versus Fine-Tuned Vision Transformers in Image-Based Security Applications ( http://arxiv.org/abs/2403.17787v1 ) ライセンス: Link先を確認 | Fouad Trad, Ali Chehab, | (参考訳) LLM(Large Language Models)の成功は、様々なアプリケーションを変換し始めているGemini-proのようなLMM(Large Multimodal Models)の開発に平行して発展した。
これらの洗練されたマルチモーダルモデルは、複雑なデータを解釈し、分析するために設計されており、テキスト情報と視覚情報の両方を従来達成不可能なスケールに統合し、様々なアプリケーションに新しい道を開く。
本稿では,重要なセキュリティ問題に対処するために,Gemini-pro LMMと微調整型視覚変換器(ViT)モデルの適用性と有効性について検討する。
画像中の小さな正方形、潜在的なバックドアの表示、視覚的表現によるマルウェア分類の非視覚的に明らかなタスクなど、視覚的に明らかな単純なトリガーを検出する2つのタスクに焦点をあてる。
Gemini-proは細調整されたViTモデルと比較して精度と信頼性が低い。
一方、ViTモデルは例外的な精度を示し、両方のタスクでほぼ完璧な性能を実現している。
この研究は、サイバーセキュリティアプリケーションにおける即発的なLMMの強みと限界を示すだけでなく、精密で信頼性の高いタスクのための微調整されたViTモデルの未整合性も強調する。
The success of Large Language Models (LLMs) has led to a parallel rise in the development of Large Multimodal Models (LMMs), such as Gemini-pro, which have begun to transform a variety of applications. These sophisticated multimodal models are designed to interpret and analyze complex data, integrating both textual and visual information on a scale previously unattainable, opening new avenues for a range of applications. This paper investigates the applicability and effectiveness of prompt-engineered Gemini-pro LMMs versus fine-tuned Vision Transformer (ViT) models in addressing critical security challenges. We focus on two distinct tasks: a visually evident task of detecting simple triggers, such as small squares in images, indicative of potential backdoors, and a non-visually evident task of malware classification through visual representations. Our results highlight a significant divergence in performance, with Gemini-pro falling short in accuracy and reliability when compared to fine-tuned ViT models. The ViT models, on the other hand, demonstrate exceptional accuracy, achieving near-perfect performance on both tasks. This study not only showcases the strengths and limitations of prompt-engineered LMMs in cybersecurity applications but also emphasizes the unmatched efficacy of fine-tuned ViT models for precise and dependable tasks. | 翻訳日:2024-03-27 14:47:26 公開日:2024-03-26 |
# 超伝導量子ビット上の短パルスによる分子基底状態決定
Molecular groundstate determination via short pulses on superconducting qubits ( http://arxiv.org/abs/2403.17789v1 ) ライセンス: Link先を確認 | Noga Entin, Mor M. Roses, Reuven Cohen, Nadav Katz, Adi Makmal, | (参考訳) 量子コンピューティングは現在、ハードウェアノイズによって妨げられている。
本稿では,2ビットチャネルを組み込んだフリースタイルの超伝導パルス最適化手法を提案する。
最小 0.22 ns のパルスは、H2基底状態を実際のハードウエア上での化学的精度で決定し、量子速度限界に近づく。
同様に、LiH分子では、回路ベースのパルスよりもかなり短いパルスが見られ、最先端の精度が得られる。
この手法は汎用的であり、様々な量子コンピューティングコンポーネントやハードウェアで性能を向上する可能性がある。
Quantum computing is currently hindered by hardware noise. We present a freestyle superconducting pulse optimization method, incorporating two-qubit channels, which enhances flexibility, execution speed, and noise resilience. A minimal 0.22 ns pulse is shown to determine the H2 groundstate to within chemical accuracy upon real-hardware, approaching the quantum speed limit. Similarly, a pulse significantly shorter than circuit-based counterparts is found for the LiH molecule, attaining state-of-the-art accuracy. The method is general and can potentially accelerate performance across various quantum computing components and hardware. | 翻訳日:2024-03-27 14:47:26 公開日:2024-03-26 |
# Fermihedral:Fermion-to-Qubitエンコーディングの最適コンパイルについて
Fermihedral: On the Optimal Compilation for Fermion-to-Qubit Encoding ( http://arxiv.org/abs/2403.17794v1 ) ライセンス: Link先を確認 | Yuhao Liu, Shize Che, Junyu Zhou, Yunong Shi, Gushu Li, | (参考訳) 本稿では,Fermionic Hamiltonianに対する最適なFermion-to-qubitエンコーディングの発見に焦点を当てたコンパイラフレームワークであるFermihedralを紹介する。
フェルミオンから量子ビットへの符号化は、フェルミオン量子系の効率的なシミュレーションに量子コンピューティングを利用するための重要なステップである。
パウリ代数を用いることで、フェルミヘドラルはフェルミオン・ト・キュービット符号化の複雑な制約と目的をブール満足度問題に再定義し、高性能な解法で解ける。
大規模シナリオに対応するため,指数関数的に多くの節からオーバーヘッドを緩和する近似最適解を求める2つの新しい手法を提案する。
多様なフェルミオニオン系における評価は、Fermihedralの優位性を強調し、コンパイルされた回路における実装コスト、ゲート数、回路深さの大幅な削減を示す。
IonQのデバイスにおける実システム実験は、その有効性を確認し、特にシミュレーションの精度を向上した。
This paper introduces Fermihedral, a compiler framework focusing on discovering the optimal Fermion-to-qubit encoding for targeted Fermionic Hamiltonians. Fermion-to-qubit encoding is a crucial step in harnessing quantum computing for efficient simulation of Fermionic quantum systems. Utilizing Pauli algebra, Fermihedral redefines complex constraints and objectives of Fermion-to-qubit encoding into a Boolean Satisfiability problem which can then be solved with high-performance solvers. To accommodate larger-scale scenarios, this paper proposed two new strategies that yield approximate optimal solutions mitigating the overhead from the exponentially large number of clauses. Evaluation across diverse Fermionic systems highlights the superiority of Fermihedral, showcasing substantial reductions in implementation costs, gate counts, and circuit depth in the compiled circuits. Real-system experiments on IonQ's device affirm its effectiveness, notably enhancing simulation accuracy. | 翻訳日:2024-03-27 14:47:26 公開日:2024-03-26 |
# 光ばねの新しいダブルパス型
A new double-pass type of the optical spring ( http://arxiv.org/abs/2403.17795v1 ) ライセンス: Link先を確認 | F. Ya. Khalili, | (参考訳) 変形した光学キャビティでは、ミラーに作用する放射圧は、その変位に依存する。
これは鏡の間に挿入される剛性(光学ばね)と等価である。
この効果は、高精度力センサにおけるプローブミラーの機械的感受性の最適化に利用できる。
しかし、デチュードキャビティの使用や、技術的制約のため、高精細キャビティの使用が問題となる場合もある。
我々は、空洞を必要としない新しいタイプの光バネを考える(ただし、共振調整バネを使って光の結合を増大させることができる)。
代わりに、探査光と機械的物体の二重相互作用を利用する。
本稿では,原子スピンアンサンブルとレーザー重力波検出器の2つの実装法を提案する。
In detuned optical cavities, the radiation pressure force acting on the mirrors depends on their displacements. This is equivalent to the rigidity (the optical spring), inserted between the mirrors. This effect can be used for optimization of the mechanical susceptibility of probe mirrors in high-precision force sensors. However, in some cases, the use of detuned cavities or even just any high-finesse cavities could be problematic due to technological constraints. We consider a new type of the optical spring that does not require the cavity (but can use a resonance tuned one to increase the optomechanical coupling). Instead, it uses the double interaction of the probing light with the mechanical object. We propose two possible implementation of this concept, suitable, respectively, for the atomic spin ensembles and for the laser gravitational-wave detectors. | 翻訳日:2024-03-27 14:47:26 公開日:2024-03-26 |
# 低コスト単光子カメラによる3次元視覚の実現に向けて
Towards 3D Vision with Low-Cost Single-Photon Cameras ( http://arxiv.org/abs/2403.17801v1 ) ライセンス: Link先を確認 | Fangzhou Mu, Carter Sifferman, Sacha Jungerman, Yiquan Li, Mark Han, Michael Gleicher, Mohit Gupta, Yin Li, | (参考訳) 小型で省エネで低コストな単光子カメラによる計測に基づいて,任意のランベルト物体の3次元形状を再構成する手法を提案する。
時間分解画像センサーとして機能するこれらのカメラは、非常に速い拡散光のパルスでシーンを照らし、高い時間分解能でシーンから戻ると、そのパルスの形状を記録する。
本稿では、この画像形成過程をモデル化し、その非理想性を考慮し、ニューラルレンダリングを適用して、空間分布センサの集合を既知のポーズで再構成することを提案する。
シミュレーションデータから複雑な3次元形状を復元できることを示す。
さらに,コモディティ近接センサを用いて,実世界の撮影から3次元オブジェクトを復元する手法を実証した。
我々の研究は、画像ベースモデリングとアクティブレンジスキャンの関連性を引き合いに出し、単光子カメラによる3Dビジョンに向けた一歩である。
We present a method for reconstructing 3D shape of arbitrary Lambertian objects based on measurements by miniature, energy-efficient, low-cost single-photon cameras. These cameras, operating as time resolved image sensors, illuminate the scene with a very fast pulse of diffuse light and record the shape of that pulse as it returns back from the scene at a high temporal resolution. We propose to model this image formation process, account for its non-idealities, and adapt neural rendering to reconstruct 3D geometry from a set of spatially distributed sensors with known poses. We show that our approach can successfully recover complex 3D shapes from simulated data. We further demonstrate 3D object reconstruction from real-world captures, utilizing measurements from a commodity proximity sensor. Our work draws a connection between image-based modeling and active range scanning and is a step towards 3D vision with single-photon cameras. | 翻訳日:2024-03-27 14:47:26 公開日:2024-03-26 |
# 自動プロンプト最適化によるテキスト対画像整合性の改善
Improving Text-to-Image Consistency via Automatic Prompt Optimization ( http://arxiv.org/abs/2403.17804v1 ) ライセンス: Link先を確認 | Oscar Mañas, Pietro Astolfi, Melissa Hall, Candace Ross, Jack Urbanek, Adina Williams, Aishwarya Agrawal, Adriana Romero-Soriano, Michal Drozdzal, | (参考訳) テキスト・ツー・イメージ(T2I)生成モデルにおける印象的な進歩は、美的に魅力的なフォトリアリスティックな画像を生成することができるハイパフォーマンスなモデルの多面体を生み出している。
進歩にもかかわらず、これらのモデルは入力プロンプトと整合した画像を生成するのに苦慮し、しばしばオブジェクトの量、関係、属性を適切に捉えない。
即時画像整合性を改善するための既存のソリューションは,(1)モデル微調整が必要な場合が多い,(2)近傍のプロンプトサンプルにのみ焦点をあてる場合,(3)画像品質,表現多様性,即時画像整合性といった不都合なトレードオフの影響を受けやすい,といった課題に悩まされる。
本稿では,これらの課題に対処し,大規模言語モデル(LLM)を活用してT2Iモデルの迅速な画像整合性を改善する,T2I最適化・プロンプトフレームワークであるOPT2Iを導入する。
当社のフレームワークは,ユーザのプロンプトから始まり,一貫性スコアの最大化を目標として,更新プロンプトを反復的に生成する。
MSCOCOとPartiPromptsの2つのデータセットに対する広範な検証は、OPT2IがFIDを保存し、生成データと実データの間のリコールを増加させながら、DSGスコアを最大24.9%向上させることができることを示している。
我々の研究は、LLMの力を利用して、より信頼性が高く堅牢なT2Iシステムを構築するための道を開いた。
Impressive advances in text-to-image (T2I) generative models have yielded a plethora of high performing models which are able to generate aesthetically appealing, photorealistic images. Despite the progress, these models still struggle to produce images that are consistent with the input prompt, oftentimes failing to capture object quantities, relations and attributes properly. Existing solutions to improve prompt-image consistency suffer from the following challenges: (1) they oftentimes require model fine-tuning, (2) they only focus on nearby prompt samples, and (3) they are affected by unfavorable trade-offs among image quality, representation diversity, and prompt-image consistency. In this paper, we address these challenges and introduce a T2I optimization-by-prompting framework, OPT2I, which leverages a large language model (LLM) to improve prompt-image consistency in T2I models. Our framework starts from a user prompt and iteratively generates revised prompts with the goal of maximizing a consistency score. Our extensive validation on two datasets, MSCOCO and PartiPrompts, shows that OPT2I can boost the initial consistency score by up to 24.9% in terms of DSG score while preserving the FID and increasing the recall between generated and real data. Our work paves the way toward building more reliable and robust T2I systems by harnessing the power of LLMs. | 翻訳日:2024-03-27 14:47:26 公開日:2024-03-26 |
# 多エージェント自律運転のためのシナリオベースカリキュラム生成
Scenario-Based Curriculum Generation for Multi-Agent Autonomous Driving ( http://arxiv.org/abs/2403.17805v1 ) ライセンス: Link先を確認 | Axel Brunnbauer, Luigi Berducci, Peter Priller, Dejan Nickovic, Radu Grosu, | (参考訳) 多様な複雑な学習シナリオの自動生成は、多くの複雑な学習タスクにおいて重要な要素となっている。
特に、自律運転のような現実世界のアプリケーション領域では、自動カリキュラム生成は堅牢で一般的なポリシーを得るのに不可欠であると考えられている。
しかし、特に複雑なシミュレーション環境では、多種多種多様なエージェントによるトラフィックシナリオの作成は退屈で時間を要する作業とみなされる。
本研究では,マルチエージェント交通シナリオフレームワークであるMATS-Gymを導入し,高忠実度運転シミュレータであるCARLAのエージェントを訓練する。
MATS-Gymは自律運転のためのマルチエージェントトレーニングフレームワークで、部分シナリオ仕様を使用してエージェントの可変数のトラフィックシナリオを生成する。
本稿では,交通シナリオ記述への既存のアプローチを1つのトレーニングフレームワークに統合し,教師なし環境設計の技術と一体化して適応型オートクラキュラの自動生成を実現する方法について述べる。
コードはhttps://github.com/AutonomousDrivingExaminer/mats-gym.comで公開されている。
The automated generation of diverse and complex training scenarios has been an important ingredient in many complex learning tasks. Especially in real-world application domains, such as autonomous driving, auto-curriculum generation is considered vital for obtaining robust and general policies. However, crafting traffic scenarios with multiple, heterogeneous agents is typically considered as a tedious and time-consuming task, especially in more complex simulation environments. In our work, we introduce MATS-Gym, a Multi-Agent Traffic Scenario framework to train agents in CARLA, a high-fidelity driving simulator. MATS-Gym is a multi-agent training framework for autonomous driving that uses partial scenario specifications to generate traffic scenarios with variable numbers of agents. This paper unifies various existing approaches to traffic scenario description into a single training framework and demonstrates how it can be integrated with techniques from unsupervised environment design to automate the generation of adaptive auto-curricula. The code is available at https://github.com/AutonomousDrivingExaminer/mats-gym. | 翻訳日:2024-03-27 14:47:26 公開日:2024-03-26 |
# 信仰の信条:モデルメカニズムを見つけるときの回路オーバーラップを超えて行く
Have Faith in Faithfulness: Going Beyond Circuit Overlap When Finding Model Mechanisms ( http://arxiv.org/abs/2403.17806v1 ) ライセンス: Link先を確認 | Michael Hanna, Sandro Pezzelle, Yonatan Belinkov, | (参考訳) 近年の言語モデル (LM) の解釈可能性に関する多くの研究は、与えられたタスク上でのLMの振る舞いを説明する最小限の計算部分グラフ(英語版)または回路を見つけることを目的とした回路フレームワークを採用している。
ほとんどの研究は、それぞれのエッジに対して因果干渉を独立に行うことによって、どのエッジがLM回路に属するかを決定するが、これはモデルサイズに悪影響を及ぼす。
エッジ属性パッチ(EAP: Edge Attribution patching)は、介入に対する勾配に基づく近似であり、この問題に対するスケーラブルだが不完全な解決策として現れている。
本稿では,回路のコア特性をよりよく維持することを目的とした,統合勾配付きEAP(EAP-IG)手法を提案する。
回路は、回路の外側のすべてのモデルエッジがタスクのモデルの性能を変えることなく緩和できるならば忠実である;忠実さは、完全なモデルではなく、学習回路を正当化するものである。
EAPを用いた回路はEAP-IGを用いた回路に比べて信頼性が低いことを示した。
より一般に、モデルがタスクを解くために使用するメカニズムを比較するために回路を使用する場合、重なりではなく忠実さが測定すべきものであると結論付けている。
Many recent language model (LM) interpretability studies have adopted the circuits framework, which aims to find the minimal computational subgraph, or circuit, that explains LM behavior on a given task. Most studies determine which edges belong in a LM's circuit by performing causal interventions on each edge independently, but this scales poorly with model size. Edge attribution patching (EAP), gradient-based approximation to interventions, has emerged as a scalable but imperfect solution to this problem. In this paper, we introduce a new method - EAP with integrated gradients (EAP-IG) - that aims to better maintain a core property of circuits: faithfulness. A circuit is faithful if all model edges outside the circuit can be ablated without changing the model's performance on the task; faithfulness is what justifies studying circuits, rather than the full model. Our experiments demonstrate that circuits found using EAP are less faithful than those found using EAP-IG, even though both have high node overlap with circuits found previously using causal interventions. We conclude more generally that when using circuits to compare the mechanisms models use to solve tasks, faithfulness, not overlap, is what should be measured. | 翻訳日:2024-03-27 14:47:26 公開日:2024-03-26 |
# Denoising Diffusion Probabilistic Models and Flow Fields を用いたアノテートバイオメディカルビデオ生成
Annotated Biomedical Video Generation using Denoising Diffusion Probabilistic Models and Flow Fields ( http://arxiv.org/abs/2403.17808v1 ) ライセンス: Link先を確認 | Rüveyda Yilmaz, Dennis Eschweiler, Johannes Stegmaier, | (参考訳) 生体細胞のセグメンテーションと追跡は、特にがん研究、薬物開発、発達生物学において、生体医学領域において重要な役割を担っている。
これらは通常、退屈で時間を要する作業であり、伝統的にバイオメディカルの専門家によってなされる。
近年,これらのプロセスを自動化するために,深層学習に基づくセグメンテーションと追跡手法が提案されている。
これらの手法は大規模なデータセットを必要とし、その完全なポテンシャルは、生体医用画像領域における注釈付きデータの不足によって制約される。
この制限に対処するために,現実的な合成顕微鏡ビデオを生成するバイオメディカルビデオ拡散モデル(BVDM)を提案する。
BVDMは、単一の実ビデオでのみトレーニングされ、任意の長さのビデオをピクセルレベルのアノテーションで生成し、データハングリーモデルのトレーニングに使用することができる。
高忠実な合成細胞顕微鏡画像を生成する拡散確率モデル(DDPM)と、連続するビデオフレーム間の非剛性変換を予測するフロー予測モデル(FPM)から構成される。
推測の間、DDPMは実際のデータ統計に基づいて生成される合成セルマスクに現実的な細胞テクスチャを課す。
フロー予測モデルは、連続するマスク間の流れ場を予測し、前回の時間フレームからのDDPM出力に適用し、時間的一貫性を維持しながら次のマスクを生成する。
BVDMは最先端の合成細胞顕微鏡ビデオ生成モデルより優れている。
さらに, 十分な量の合成データセットにより, 利用可能な実データ量が少ない場合と比較して, セルセグメンテーションと追跡モデルの性能が向上することが実証された。
The segmentation and tracking of living cells play a vital role within the biomedical domain, particularly in cancer research, drug development, and developmental biology. These are usually tedious and time-consuming tasks that are traditionally done by biomedical experts. Recently, to automatize these processes, deep learning based segmentation and tracking methods have been proposed. These methods require large-scale datasets and their full potential is constrained by the scarcity of annotated data in the biomedical imaging domain. To address this limitation, we propose Biomedical Video Diffusion Model (BVDM), capable of generating realistic-looking synthetic microscopy videos. Trained only on a single real video, BVDM can generate videos of arbitrary length with pixel-level annotations that can be used for training data-hungry models. It is composed of a denoising diffusion probabilistic model (DDPM) generating high-fidelity synthetic cell microscopy images and a flow prediction model (FPM) predicting the non-rigid transformation between consecutive video frames. During inference, initially, the DDPM imposes realistic cell textures on synthetic cell masks which are generated based on real data statistics. The flow prediction model predicts the flow field between consecutive masks and applies that to the DDPM output from the previous time frame to create the next one while keeping temporal consistency. BVDM outperforms state-of-the-art synthetic live cell microscopy video generation models. Furthermore, we demonstrate that a sufficiently large synthetic dataset enhances the performance of cell segmentation and tracking models compared to using a limited amount of available real data. | 翻訳日:2024-03-27 14:47:26 公開日:2024-03-26 |
# 圧縮言語モデルはサブグループロバストよりも少ないか?
Are Compressed Language Models Less Subgroup Robust? ( http://arxiv.org/abs/2403.17811v1 ) ライセンス: Link先を確認 | Leonidas Gee, Andrea Zugarini, Novi Quadrianto, | (参考訳) 大規模言語モデルの推論コストを低減するため、より小さなスケーラブルなモデルを作成するためにモデル圧縮がますます使われている。
しかし、データセットのラベルや属性によって定義される少数サブグループに対する堅牢性については、ほとんど分かっていない。
本稿では, BERT言語モデルのサブグループロバスト性に及ぼす18種類の圧縮手法と設定の影響について検討する。
最悪のグループ性能は,モデルサイズだけでなく,使用する圧縮法にも依存することを示す。
さらに、モデル圧縮が少数部分群の性能を常に悪化させるとは限らない。
この分析は、モデル圧縮のサブグループロバスト性に関するさらなる研究に役立つ。
To reduce the inference cost of large language models, model compression is increasingly used to create smaller scalable models. However, little is known about their robustness to minority subgroups defined by the labels and attributes of a dataset. In this paper, we investigate the effects of 18 different compression methods and settings on the subgroup robustness of BERT language models. We show that worst-group performance does not depend on model size alone, but also on the compression method used. Additionally, we find that model compression does not always worsen the performance on minority subgroups. Altogether, our analysis serves to further research into the subgroup robustness of model compression. | 翻訳日:2024-03-27 14:47:26 公開日:2024-03-26 |
# D-PAD:時系列予測のための深帯域多重周波数パターン
D-PAD: Deep-Shallow Multi-Frequency Patterns Disentangling for Time Series Forecasting ( http://arxiv.org/abs/2403.17814v1 ) ライセンス: Link先を確認 | Xiaobing Yuan, Ling Chen, | (参考訳) 時系列予測では、複雑な時間パターンを効果的に切り離すことが重要である。
近年の研究では、分解技術と深層学習を組み合わせる努力が続けられているが、分解された成分(例えば、トレンド、季節)には、複数の周波数が混在している可能性がある。
さらに、周波数領域解析法、例えばフーリエ変換やウェーブレット変換は、時間領域の分解能と適応性に制限がある。
本稿では,D-PADを提案する。D-PAD,D-PAD,D-PAD,D-PAD,D-PAD,D-PAD,D-PAD,D-PAD,D-PAD,D-PAD,D-PAD,D-PAD,D-PADなどである。
具体的には、マルチコンポーネント分解(MCD)ブロックを導入して、シリーズを周波数範囲の異なるコンポーネントに分解する。
分解分解分解分解(D-R-D)モジュールを提案し, 「深度」の側面に対応する成分に混在する周波数の情報を段階的に抽出する。
その後、インタラクション・アンド・フュージョン(IF)モジュールを使用してコンポーネントを解析する。
7つの実世界のデータセットに対する大規模な実験は、D-PADが最先端のパフォーマンスを達成し、それぞれMSEとMAEで平均9.48%と7.15%で最高のベースラインを上回っていることを示している。
In time series forecasting, effectively disentangling intricate temporal patterns is crucial. While recent works endeavor to combine decomposition techniques with deep learning, multiple frequencies may still be mixed in the decomposed components, e.g., trend and seasonal. Furthermore, frequency domain analysis methods, e.g., Fourier and wavelet transforms, have limitations in resolution in the time domain and adaptability. In this paper, we propose D-PAD, a deep-shallow multi-frequency patterns disentangling neural network for time series forecasting. Specifically, a multi-component decomposing (MCD) block is introduced to decompose the series into components with different frequency ranges, corresponding to the "shallow" aspect. A decomposition-reconstruction-decomposition (D-R-D) module is proposed to progressively extract the information of frequencies mixed in the components, corresponding to the "deep" aspect. After that, an interaction and fusion (IF) module is used to further analyze the components. Extensive experiments on seven real-world datasets demonstrate that D-PAD achieves the state-of-the-art performance, outperforming the best baseline by an average of 9.48% and 7.15% in MSE and MAE, respectively. | 翻訳日:2024-03-27 14:47:26 公開日:2024-03-26 |
# グラフ言語モデル(GLM):社会的不安定性を検出する新しいグラフベースのアプローチ
Graph Language Model (GLM): A new graph-based approach to detect social instabilities ( http://arxiv.org/abs/2403.17816v1 ) ライセンス: Link先を確認 | Wallyson Lemes de Oliveira, Vahid Shamsaddini, Ali Ghofrani, Rahul Singh Inda, Jithendra Sai Veeramaneni, Étienne Voutaz, | (参考訳) 本稿では,ニュースデータセットを用いた重要な政治事象の早期予測手法を提案する。
この手法は自然言語処理、グラフ理論、斜め解析、意味的関係を利用して、データ内の隠れた予測信号を明らかにする。
当初、私たちはメソッドの予備バージョンを設計し、いくつかのイベントでテストしました。
この分析は、初期の研究段階における限界を明らかにした。
次に、モデルを2つの重要な方法で強化しました。まず、さらに処理する前に、政治的に関係のあるニュースのみを考慮するためのフィルタリングステップを追加し、次に、入力機能を調整して、アラートシステムがデータ内の重要なスパイクに対してより敏感になるようにしました。
改善された方法論を確定した後、米国の抗議活動、ウクライナ戦争、フランスの抗議活動を含む11のイベントでテストしました。
その結果,ベースライン法と比較して,本手法の優位性を示した。
対象とする改善によって、我々のモデルはニュースデータの微妙なパターンに基づいて、主要な政治事象のより早く、より正確な予測を行うことができる。
This scientific report presents a novel methodology for the early prediction of important political events using News datasets. The methodology leverages natural language processing, graph theory, clique analysis, and semantic relationships to uncover hidden predictive signals within the data. Initially, we designed a preliminary version of the method and tested it on a few events. This analysis revealed limitations in the initial research phase. We then enhanced the model in two key ways: first, we added a filtration step to only consider politically relevant news before further processing; second, we adjusted the input features to make the alert system more sensitive to significant spikes in the data. After finalizing the improved methodology, we tested it on eleven events including US protests, the Ukraine war, and French protests. Results demonstrate the superiority of our approach compared to baseline methods. Through targeted refinements, our model can now provide earlier and more accurate predictions of major political events based on subtle patterns in news data. | 翻訳日:2024-03-27 14:47:26 公開日:2024-03-26 |
# 大規模言語モデル(LLM)を用いた無線スペクトル制御ワークフローの高速化
Accelerating Radio Spectrum Regulation Workflows with Large Language Models (LLMs) ( http://arxiv.org/abs/2403.17819v1 ) ライセンス: Link先を確認 | Amir Ghasemi, Paul Guinand, | (参考訳) 無線スペクトル規制は、技術進歩の急激なペース、スペクトルの需要の増加、および潜在的に対立する利害関係を持つ多くの利害関係者による、複雑で要求の多いプロセスである。
これをナビゲートするには、規制当局がすべての当事者と効果的に連携し、グローバルな技術動向に追随し、技術的評価を行い、タイムリーにライセンスを発行し、様々な法律および政策の枠組みに従う必要がある。
本稿では,これらの課題を踏まえて,スペクトル制御プロセスの高速化を目的としたLarge Language Models(LLM)の例を示す。
この文脈でLLMが果たせる様々な役割について検討し、対処すべき課題をいくつか挙げる。
本稿は,LLMのスペクトル管理における変換ポテンシャルを明らかにするための,実例研究や知見も提供する。
Wireless spectrum regulation is a complex and demanding process due to the rapid pace of technological progress, increasing demand for spectrum, and a multitude of stakeholders with potentially conflicting interests, alongside significant economic implications. To navigate this, regulators must engage effectively with all parties, keep pace with global technology trends, conduct technical evaluations, issue licenses in a timely manner, and comply with various legal and policy frameworks. In light of these challenges, this paper demonstrates example applications of Large Language Models (LLMs) to expedite spectrum regulatory processes. We explore various roles that LLMs can play in this context while identifying some of the challenges to address. The paper also offers practical case studies and insights, with appropriate experiments, highlighting the transformative potential of LLMs in spectrum management. | 翻訳日:2024-03-27 14:47:26 公開日:2024-03-26 |
# スタッフォードシャー橋における列車通過イベントのマルチレベルモデリングに向けて
Towards Multilevel Modelling of Train Passing Events on the Staffordshire Bridge ( http://arxiv.org/abs/2403.17820v1 ) ライセンス: Link先を確認 | Lawrence A. Bull, Chiho Jeon, Mark Girolami, Andrew Duncan, Jennifer Schooling, Miguel Bravo Haro, | (参考訳) 我々は,スタッフォードシャー橋のモニタリングシステムから列車通過イベントを総合的に表現する多層モデルを提案する。
本稿では,2種類の通勤列車について,単純な単位から(各列車通過時の)ひずみエンベロープを表す組み合わせモデルを定式化した。
これらの測定は、縦断的データセットとして扱われ、(低階近似)階層的なガウス過程で表される。
結合モデルの各ユニットについて、境界条件制約としてドメインの専門知識を符号化し、ひずみ応答の一般的な表現に向けて作業する。
今後は、これまでトレーニングデータに保存されていなかった列車のシミュレーションが可能になるだろう。
例えば、より多くの乗客や貨物を積んだ列車が重荷を積んでいる。
ストレインイベントシミュレーションは、仮説化されたシナリオでブリッジをテストするためのさらなる実験(FEM校正、疲労解析、設計など)を通知できるので、価値がある。
We suggest a multilevel model, to represent aggregate train-passing events from the Staffordshire bridge monitoring system. We formulate a combined model from simple units, representing strain envelopes (of each train passing) for two types of commuter train. The measurements are treated as a longitudinal dataset and represented with a (low-rank approximation) hierarchical Gaussian process. For each unit in the combined model, we encode domain expertise as boundary condition constraints and work towards a general representation of the strain response. Looking forward, this should allow for the simulation of train types that were previously unobserved in the training data. For example, trains with more passengers or freights with a heavier payload. The strain event simulations are valuable since they can inform further experiments (including FEM calibration, fatigue analysis, or design) to test the bridge in hypothesised scenarios. | 翻訳日:2024-03-27 14:47:26 公開日:2024-03-26 |
# DN-Splatter:ガウススメッティングとメッシュの深さと正規化
DN-Splatter: Depth and Normal Priors for Gaussian Splatting and Meshing ( http://arxiv.org/abs/2403.17822v1 ) ライセンス: Link先を確認 | Matias Turkulainen, Xuqian Ren, Iaroslav Melekhov, Otto Seiskari, Esa Rahtu, Juho Kannala, | (参考訳) 3D Gaussian splatting, a novel differentiable rendering technique, has achieved the state-of-the-art novel view synthesis results with high rendering speeds and relatively low training time。
しかし,室内データセットでよく見られる場面では,最適化時の幾何的制約が欠如しているため,性能が劣っている。
我々は、3Dガウススプラッティングを奥行きと通常の手法で拡張し、挑戦的な屋内データセットに取り組み、効率的なメッシュ抽出技術を示す。
具体的には、最適化手順を深度情報で規則化し、近傍のガウスの局所的な滑らかさを強制し、正規の手がかりによって監督される3次元ガウスの幾何学を用いて、真のシーン幾何学との整合性を向上する。
本研究では,本手法を用いて,室内シーンのより物理的に正確な再構成を行うガウス表現からメッシュを直接抽出する方法について検討し,ベースライン上での深度推定と新しいビュー合成結果の改善について述べる。
私たちのコードはhttps://github.com/maturk/dn-splatter.comでリリースされます。
3D Gaussian splatting, a novel differentiable rendering technique, has achieved state-of-the-art novel view synthesis results with high rendering speeds and relatively low training times. However, its performance on scenes commonly seen in indoor datasets is poor due to the lack of geometric constraints during optimization. We extend 3D Gaussian splatting with depth and normal cues to tackle challenging indoor datasets and showcase techniques for efficient mesh extraction, an important downstream application. Specifically, we regularize the optimization procedure with depth information, enforce local smoothness of nearby Gaussians, and use the geometry of the 3D Gaussians supervised by normal cues to achieve better alignment with the true scene geometry. We improve depth estimation and novel view synthesis results over baselines and show how this simple yet effective regularization technique can be used to directly extract meshes from the Gaussian representation yielding more physically accurate reconstructions on indoor scenes. Our code will be released in https://github.com/maturk/dn-splatter. | 翻訳日:2024-03-27 14:47:26 公開日:2024-03-26 |
# Siamese Cropped Masked Autoencoders を用いた効率的な画像事前学習
Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders ( http://arxiv.org/abs/2403.17823v1 ) ライセンス: Link先を確認 | Alexandre Eymaël, Renaud Vandeghen, Anthony Cioppa, Silvio Giancola, Bernard Ghanem, Marc Van Droogenbroeck, | (参考訳) 画像エンコーダの自己教師付き事前訓練は、特にMasked Autoencoder (MAE) の導入後、文学において一様である。
現在の試みは、動画のモーションからオブジェクト中心の表現を学習しようとする試みである。
特に最近、SiamMAEはSiameseネットワークを導入し、高い非対称マスキング比(95%)の動画の2フレームから共有重み付きエンコーダをトレーニングした。
そこで本研究では,SiamMAE が導入した Siamese プレトレーニングの代替手法である CropMAE を提案する。
本手法は, ビデオから抽出した従来のフレームの対から切り離して, 同一画像から抽出した画像の対を別々に抽出することにより, 特別に異なる。
CropMAEは、競争力のあるパフォーマンスを維持しつつ、トレーニング前の時間を劇的に短縮しながら、ビデオデータセットの必要性を軽減します。
さらに、CropMAEは、明示的な動きを伴わずに類似したオブジェクト中心表現を学習し、現在の自己教師型学習手法は、動きからオブジェクトを学習せず、むしろシームズアーキテクチャによって学習していることを示す。
最終的に、CropMAEは、これまでで最も高いマスキング比(98.5%)を達成した。
私たちのコードはhttps://github.com/alexandre-eymael/CropMAE.comで公開されています。
Self-supervised pre-training of image encoders is omnipresent in the literature, particularly following the introduction of Masked autoencoders (MAE). Current efforts attempt to learn object-centric representations from motion in videos. In particular, SiamMAE recently introduced a Siamese network, training a shared-weight encoder from two frames of a video with a high asymmetric masking ratio (95%). In this work, we propose CropMAE, an alternative approach to the Siamese pre-training introduced by SiamMAE. Our method specifically differs by exclusively considering pairs of cropped images sourced from the same image but cropped differently, deviating from the conventional pairs of frames extracted from a video. CropMAE therefore alleviates the need for video datasets, while maintaining competitive performances and drastically reducing pre-training time. Furthermore, we demonstrate that CropMAE learns similar object-centric representations without explicit motion, showing that current self-supervised learning methods do not learn objects from motion, but rather thanks to the Siamese architecture. Finally, CropMAE achieves the highest masking ratio to date (98.5%), enabling the reconstruction of images using only two visible patches. Our code is available at https://github.com/alexandre-eymael/CropMAE. | 翻訳日:2024-03-27 14:37:40 公開日:2024-03-26 |
# Stackelberg計画とメタオペレータ検証の計算複雑性について:技術報告
On the Computational Complexity of Stackelberg Planning and Meta-Operator Verification: Technical Report ( http://arxiv.org/abs/2403.17826v1 ) ライセンス: Link先を確認 | Gregor Behnke, Marcel Steinmetz, | (参考訳) Stackelbergプランニング(スタックルバーグプランニング)は、最近導入されたシングルターンの2人対戦型プランニングモデルであり、2人のプレイヤーが2人目のプレイヤーがゴールを達成するのを妨げている1人目のプレイヤーの目的である、ジョイント・クラシック・プランニング・タスクで行動している。
これにより、スタックルバーグ計画は古典的な計画と一般的なコンビネータゲームの間のどこかで問題となる。
しかし、正確にはどこに?
Stackelbergの計画に関するすべての調査は、実際的な側面に焦点を当てている。
Stackelberg計画の最初の理論的複雑性解析を行うことで、このギャップを埋める。
一般に、Stackelberg計画は古典的な計画ほど難しいものではない。
しかし、多項式計画長制限の下では、スタックルバーグ計画は多項式複雑性階層の上位レベルであり、古典計画へのコンパイルは最悪のケースで指数的な計画長の増加をもたらすことを示唆している。
トラクタブルフラグメントを同定するために、様々な計画課題の制約の下でその複雑さをさらに研究し、古典的計画がそうでない場所でもスタックルバーグ計画が難解であることを示す。
メタオペレータ検証の複雑さは,Stackelberg計画に最近関係した問題である。
Stackelberg planning is a recently introduced single-turn two-player adversarial planning model, where two players are acting in a joint classical planning task, the objective of the first player being hampering the second player from achieving its goal. This places the Stackelberg planning problem somewhere between classical planning and general combinatorial two-player games. But, where exactly? All investigations of Stackelberg planning so far focused on practical aspects. We close this gap by conducting the first theoretical complexity analysis of Stackelberg planning. We show that in general Stackelberg planning is actually no harder than classical planning. Under a polynomial plan-length restriction, however, Stackelberg planning is a level higher up in the polynomial complexity hierarchy, suggesting that compilations into classical planning come with a worst-case exponential plan-length increase. In attempts to identify tractable fragments, we further study its complexity under various planning task restrictions, showing that Stackelberg planning remains intractable where classical planning is not. We finally inspect the complexity of meta-operator verification, a problem that has been recently connected to Stackelberg planning. | 翻訳日:2024-03-27 14:37:40 公開日:2024-03-26 |
# DiffH2O: テキスト記述による手動物体間相互作用の拡散に基づく合成
DiffH2O: Diffusion-Based Synthesis of Hand-Object Interactions from Textual Descriptions ( http://arxiv.org/abs/2403.17827v1 ) ライセンス: Link先を確認 | Sammy Christen, Shreyas Hampali, Fadime Sener, Edoardo Remelli, Tomas Hodan, Eric Sauser, Shugao Ma, Bugra Tekin, | (参考訳) 3次元における自然な手-物体相互作用の生成は、結果として得られる手と物体の動きが物理的に妥当で意味のあるものになると期待されているため、困難である。
さらに、見えないオブジェクトへの一般化は、利用可能な手動オブジェクトの相互作用データセットの限られたスケールによって妨げられる。
提案するDiffH2Oは,提案するテキストプロンプトとオブジェクトの幾何から,現実的,片手,片手,片手,片手のオブジェクトインタラクションを合成する新しい手法である。
本手法では,限られたデータから効果的な学習を可能にする3つの手法を導入する。
まず、タスクを把握段階とテキストベースのインタラクション段階に分解し、それぞれに別々の拡散モデルを使用する。
把握段階では、モデルが手の動きのみを生成するのに対し、手と物の両方のポーズが合成される。
第2に,手とオブジェクトを強く結合したコンパクトな表現を提案する。
第3に、生成した動きをより制御するための2つの異なるガイダンススキームを提案し、ガイダンスの把握と詳細なテキストガイダンスを提案する。
グラスプ誘導は、単一の目標把握ポーズを採り、拡散モデルを誘導し、把握ステージの最後にこのグリップに到達する。
この段階からの把握運動が与えられると、相互作用相において複数の異なる作用が引き起こされる。
テキストガイダンスでは、GRABデータセットに包括的なテキスト記述をコントリビュートし、手動オブジェクト間のインタラクションをよりきめ細かい制御ができることを示す。
定量的および定性的な評価は,提案手法がベースライン法より優れ,自然な手対象運動につながることを示す。
さらに,本フレームワークの実用性を示すために,市販のポーズ推定器から手動ポーズ推定を行い,対話段階において複数の異なるアクションをサンプリングする手法を提案する。
Generating natural hand-object interactions in 3D is challenging as the resulting hand and object motions are expected to be physically plausible and semantically meaningful. Furthermore, generalization to unseen objects is hindered by the limited scale of available hand-object interaction datasets. We propose DiffH2O, a novel method to synthesize realistic, one or two-handed object interactions from provided text prompts and geometry of the object. The method introduces three techniques that enable effective learning from limited data. First, we decompose the task into a grasping stage and a text-based interaction stage and use separate diffusion models for each. In the grasping stage, the model only generates hand motions, whereas in the interaction phase both hand and object poses are synthesized. Second, we propose a compact representation that tightly couples hand and object poses. Third, we propose two different guidance schemes to allow more control of the generated motions: grasp guidance and detailed textual guidance. Grasp guidance takes a single target grasping pose and guides the diffusion model to reach this grasp at the end of the grasping stage, which provides control over the grasping pose. Given a grasping motion from this stage, multiple different actions can be prompted in the interaction phase. For textual guidance, we contribute comprehensive text descriptions to the GRAB dataset and show that they enable our method to have more fine-grained control over hand-object interactions. Our quantitative and qualitative evaluation demonstrates that the proposed method outperforms baseline methods and leads to natural hand-object motions. Moreover, we demonstrate the practicality of our framework by utilizing a hand pose estimate from an off-the-shelf pose estimator for guidance, and then sampling multiple different actions in the interaction stage. | 翻訳日:2024-03-27 14:37:40 公開日:2024-03-26 |
# 人的価値を考慮した多モーダル大規模言語モデルの評価
Assessment of Multimodal Large Language Models in Alignment with Human Values ( http://arxiv.org/abs/2403.17830v1 ) ライセンス: Link先を確認 | Zhelun Shi, Zhipin Wang, Hongxing Fan, Zaibin Zhang, Lijun Li, Yongting Zhang, Zhenfei Yin, Lu Sheng, Yu Qiao, Jing Shao, | (参考訳) 大きな言語モデル(LLM)は、助け、誠実、無害(hhhh)という原則によって定義されるように、人間の価値に合わせた多目的アシスタントとして機能することを目指している。
しかし、マルチモーダル大言語モデル(MLLM)の観点では、知覚や推論のタスクにおいて、人間の価値との整合性は未解明のままであり、視界におけるhhh次元の定義の複雑さと、実世界の状況を正確に反映した関連データの収集が困難である。
このギャップに対処するために、我々はCh3Ef、Ch3Ef、Ch3Ef、Ch3Ef、Compreh3ensive Evaluationデータセット、および、人間の期待と整合性を評価するための戦略を紹介する。
Ch3Efデータセットには、hhh原則に基づいた12のドメインと46のタスクを含む、1002人の注釈付きデータサンプルが含まれている。
また,様々なシナリオと異なる視点で評価を支援する統一評価戦略を提案する。
評価結果に基づいて,MLLMの能力,限界,評価レベル間の動的関係の理解を深め,今後の発展を導く10以上の重要な知見を要約した。
Large Language Models (LLMs) aim to serve as versatile assistants aligned with human values, as defined by the principles of being helpful, honest, and harmless (hhh). However, in terms of Multimodal Large Language Models (MLLMs), despite their commendable performance in perception and reasoning tasks, their alignment with human values remains largely unexplored, given the complexity of defining hhh dimensions in the visual world and the difficulty in collecting relevant data that accurately mirrors real-world situations. To address this gap, we introduce Ch3Ef, a Compreh3ensive Evaluation dataset and strategy for assessing alignment with human expectations. Ch3Ef dataset contains 1002 human-annotated data samples, covering 12 domains and 46 tasks based on the hhh principle. We also present a unified evaluation strategy supporting assessment across various scenarios and different perspectives. Based on the evaluation results, we summarize over 10 key findings that deepen the understanding of MLLM capabilities, limitations, and the dynamic relationships between evaluation levels, guiding future advancements in the field. | 翻訳日:2024-03-27 14:37:40 公開日:2024-03-26 |
# 最適潮流の学習 : 環境設計の課題
Learning the Optimal Power Flow: Environment Design Matters ( http://arxiv.org/abs/2403.17831v1 ) ライセンス: Link先を確認 | Thomas Wolgast, Astrid Nieße, | (参考訳) 最適電力フロー (OPF) 問題を解決するために, 強化学習 (RL) が期待できる新しいアプローチとして出現する。
しかし、RL-OPFの文献は、OPF問題の正確な定式化に関して、RL環境として強く分かれている。
本研究では,トレーニングデータ,観察空間,エピソード定義,報酬関数の選択に関する文献から,多様な環境設計決定を収集し,実装する。
実験により,これらの環境設計オプションがRL-OPFトレーニング性能に与える影響について検討した。
さらに、これらの設計決定の選択に関する最初の推奨事項を導出します。
生成された環境フレームワークは完全にオープンソースであり、RL-OPF分野における将来の研究のベンチマークとして機能する。
To solve the optimal power flow (OPF) problem, reinforcement learning (RL) emerges as a promising new approach. However, the RL-OPF literature is strongly divided regarding the exact formulation of the OPF problem as an RL environment. In this work, we collect and implement diverse environment design decisions from the literature regarding training data, observation space, episode definition, and reward function choice. In an experimental analysis, we show the significant impact of these environment design options on RL-OPF training performance. Further, we derive some first recommendations regarding the choice of these design decisions. The created environment framework is fully open-source and can serve as a benchmark for future research in the RL-OPF field. | 翻訳日:2024-03-27 14:37:40 公開日:2024-03-26 |
# GPFL: 効果的なフェデレーション学習のための段階的プロジェクションベースクライアント選択フレームワーク
GPFL: A Gradient Projection-Based Client Selection Framework for Efficient Federated Learning ( http://arxiv.org/abs/2403.17833v1 ) ライセンス: Link先を確認 | Shijie Na, Yuzhi Liang, Siu-Ming Yiu, | (参考訳) モデルの精度と通信効率のバランスを保ちながら、参加するクライアントを決定するためには、フェデレーションラーニングクライアントの選択が不可欠である。
既存の手法では、データの不均一性、計算負荷、クライアントの独立処理に制限がある。
これらの課題に対処するため,GPFLを提案する。
また,性能向上のためのエクスプロイト・エクスプローラー機構も採用している。
FEMINSTとCIFAR-10データセットの実験結果から、GPFLは非IIDシナリオにおいてベースラインよりも優れ、FEMINSTテスト精度が96%以上向上していることが示された。
さらにGPFLは,フェデレート学習における事前選択とパラメータ再利用により,計算時間を短縮する。
Federated learning client selection is crucial for determining participant clients while balancing model accuracy and communication efficiency. Existing methods have limitations in handling data heterogeneity, computational burdens, and independent client treatment. To address these challenges, we propose GPFL, which measures client value by comparing local and global descent directions. We also employ an Exploit-Explore mechanism to enhance performance. Experimental results on FEMINST and CIFAR-10 datasets demonstrate that GPFL outperforms baselines in Non-IID scenarios, achieving over 9\% improvement in FEMINST test accuracy. Moreover, GPFL exhibits shorter computation times through pre-selection and parameter reuse in federated learning. | 翻訳日:2024-03-27 14:37:40 公開日:2024-03-26 |
# 胸部CTボリュームと放射線検査による異常診断の基礎的検討
A foundation model utilizing chest CT volumes and radiology reports for supervised-level zero-shot detection of abnormalities ( http://arxiv.org/abs/2403.17834v1 ) ライセンス: Link先を確認 | Ibrahim Ethem Hamamci, Sezgin Er, Furkan Almas, Ayse Gulnihan Simsek, Sevval Nil Esirgun, Irem Dogan, Muhammed Furkan Dasdelen, Bastian Wittmann, Enis Simsar, Mehmet Simsar, Emine Bensu Erdemir, Abdullah Alanbay, Anjany Sekuboyina, Berkan Lafci, Mehmet K. Ozdemir, Bjoern Menze, | (参考訳) 3D医療画像における計算研究における大きな課題は、包括的なデータセットの欠如である。
この問題に対処するため,CT-RATEは,画像とテキストレポートを組み合わせた最初の3次元医用画像データセットである。
CT-RATEは25,692個の非造影胸部CT巻からなり、21,304名のユニークな患者から50,188名に拡張された。
我々はCT-RATEを活用し,CTに焦点をあてたコントラスト言語画像事前学習フレームワークであるCT-CLIPを開発した。
汎用的な自己教師型モデルとして、CT-CLIPは幅広い応用のために設計されており、タスク固有の訓練を必要としない。
注目すべきなのは、CT-CLIPは、すべての主要なメトリクスの多異常検出において、最先端で完全に教師されたメソッドよりも優れており、手動のアノテーションは不要であることだ。
また,画像やテキストクエリを用いても,ケース検索においてその有用性を実証し,知識の普及を促進させる。
CT-RATEとCT-CLIPのオープンソースリリースは、医療AIの大幅な進歩と、3Dイメージング分析の強化、医療におけるイノベーションの促進を象徴している。
A major challenge in computational research in 3D medical imaging is the lack of comprehensive datasets. Addressing this issue, our study introduces CT-RATE, the first 3D medical imaging dataset that pairs images with textual reports. CT-RATE consists of 25,692 non-contrast chest CT volumes, expanded to 50,188 through various reconstructions, from 21,304 unique patients, along with corresponding radiology text reports. Leveraging CT-RATE, we developed CT-CLIP, a CT-focused contrastive language-image pre-training framework. As a versatile, self-supervised model, CT-CLIP is designed for broad application and does not require task-specific training. Remarkably, CT-CLIP outperforms state-of-the-art, fully supervised methods in multi-abnormality detection across all key metrics, thus eliminating the need for manual annotation. We also demonstrate its utility in case retrieval, whether using imagery or textual queries, thereby advancing knowledge dissemination. The open-source release of CT-RATE and CT-CLIP marks a significant advancement in medical AI, enhancing 3D imaging analysis and fostering innovation in healthcare. | 翻訳日:2024-03-27 14:37:40 公開日:2024-03-26 |
# GTA-HDR:HDR画像再構成のための大規模合成データセット
GTA-HDR: A Large-Scale Synthetic Dataset for HDR Image Reconstruction ( http://arxiv.org/abs/2403.17837v1 ) ライセンス: Link先を確認 | Hrishav Bakul Barua, Kalin Stefanov, KokSheik Wong, Abhinav Dhall, Ganesh Krishnasamy, | (参考訳) 高ダイナミックレンジ(HDR)コンテンツ(画像とビデオ)は幅広い用途がある。
しかし、現実世界のシーンからHDRコンテンツをキャプチャするのは高価で時間を要する。
そのため、視力研究コミュニティでは、低ダイナミックレンジ(Low Dynamic Range, LDR)から視覚的に正確なHDR画像を再構成する難題が注目されている。
この研究における大きな課題は、さまざまなシーン条件(例えば、照明、影、天気、場所、風景、物、人間、建物)とさまざまな画像特徴(例えば、色、コントラスト、彩度、色、輝度、輝度、放射率)をキャプチャするデータセットの欠如である。
本稿では,GTA-Vビデオゲームからサンプリングした写真リアルなHDR画像の大規模合成データセットであるGTA-HDRを紹介する。
提案したデータセットの徹底的な評価を行い,最新のHDR画像再構成手法の質的,定量的な改善を示す。
さらに,提案したデータセットの有効性と3次元人間のポーズ推定,人体部分のセグメンテーション,全体像のセグメンテーションなどのコンピュータビジョンタスクに対する効果を示す。
データセット、データ収集パイプライン、評価コードは、https://github.com/HrishavBakulBarua/GTA-HDRで入手できる。
High Dynamic Range (HDR) content (i.e., images and videos) has a broad range of applications. However, capturing HDR content from real-world scenes is expensive and time- consuming. Therefore, the challenging task of reconstructing visually accurate HDR images from their Low Dynamic Range (LDR) counterparts is gaining attention in the vision research community. A major challenge in this research problem is the lack of datasets, which capture diverse scene conditions (e.g., lighting, shadows, weather, locations, landscapes, objects, humans, buildings) and various image features (e.g., color, contrast, saturation, hue, luminance, brightness, radiance). To address this gap, in this paper, we introduce GTA-HDR, a large-scale synthetic dataset of photo-realistic HDR images sampled from the GTA-V video game. We perform thorough evaluation of the proposed dataset, which demonstrates significant qualitative and quantitative improvements of the state-of-the-art HDR image reconstruction methods. Furthermore, we demonstrate the effectiveness of the proposed dataset and its impact on additional computer vision tasks including 3D human pose estimation, human body part segmentation, and holistic scene segmentation. The dataset, data collection pipeline, and evaluation code are available at: https://github.com/HrishavBakulBarua/GTA-HDR. | 翻訳日:2024-03-27 14:37:40 公開日:2024-03-26 |
# ReMamber:Mamba Twisterでイメージセグメンテーションを参照
ReMamber: Referring Image Segmentation with Mamba Twister ( http://arxiv.org/abs/2403.17839v1 ) ライセンス: Link先を確認 | Yuhuan Yang, Chaofan Ma, Jiangchao Yao, Zhun Zhong, Ya Zhang, Yanfeng Wang, | (参考訳) 変換器を利用した画像分割(RIS)の参照は、複雑な視覚言語タスクの解釈において大きな成功を収めた。
しかし、二次計算コストは、長期の視覚言語依存を捉えるのにリソースを消費する。
幸いなことに、Mambaは処理の効率的な線形複雑性によってこの問題に対処している。
しかし、マンバを直接マルチモーダル相互作用に適用することは、主にマルチモーダルデータの効果的な融合のためのチャンネル間相互作用が不十分なため、課題を提起する。
本稿では,マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャであるReMamberを提案する。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
3つの挑戦的なベンチマークで最先端のベンチマークを実現しています。
さらに、ReMamberの徹底的な解析を行い、Mambaを用いた他の融合設計について議論する。
これらは将来の研究に価値ある視点を与えてくれる。
Referring Image Segmentation (RIS) leveraging transformers has achieved great success on the interpretation of complex visual-language tasks. However, the quadratic computation cost makes it resource-consuming in capturing long-range visual-language dependencies. Fortunately, Mamba addresses this with efficient linear complexity in processing. However, directly applying Mamba to multi-modal interactions presents challenges, primarily due to inadequate channel interactions for the effective fusion of multi-modal data. In this paper, we propose ReMamber, a novel RIS architecture that integrates the power of Mamba with a multi-modal Mamba Twister block. The Mamba Twister explicitly models image-text interaction, and fuses textual and visual features through its unique channel and spatial twisting mechanism. We achieve the state-of-the-art on three challenging benchmarks. Moreover, we conduct thorough analyses of ReMamber and discuss other fusion designs using Mamba. These provide valuable perspectives for future research. | 翻訳日:2024-03-27 14:37:40 公開日:2024-03-26 |
# 離散時間準結晶の実験的実現
Experimental Realization of Discrete Time Quasi-Crystals ( http://arxiv.org/abs/2403.17842v1 ) ライセンス: Link先を確認 | Guanghui He, Bingtian Ye, Ruotian Gong, Changyu Yao, Zhongyuan Liu, Kater W. Murch, Norman Y. Yao, Chong Zu, | (参考訳) 浮動小数点(周期的に駆動される)系は、平衡アナログなしで物質のユニークな非平衡相を生じさせる。
最も顕著な例は離散時間結晶の実現である。
興味深い疑問が浮かび上がってくる: 周期性の制約が緩和されると、他の新しいフェーズが現れるのか?
本研究では,準周期駆動を受ける量子系を探索する。
ダイヤモンド中の強く相互作用するスピンアンサンブルを利用して、長寿命の離散時間準結晶の出現を同定する。
従来の時間結晶とは異なり、準結晶は複数の非共振周波数で頑健なサブハーモニック応答を示す。
さらに、準周期ドライブの多周波特性は、異なる離散時間準結晶相に関連付けられた多様なパターンの形成を可能にすることを示す。
本研究は, 準フロケット設定における非平衡相の存在を示し, 駆動多体量子系における新しい現象のカタログを著しく拡張した。
Floquet (periodically driven) systems can give rise to unique non-equilibrium phases of matter without equilibrium analogs. The most prominent example is the realization of discrete time crystals. An intriguing question emerges: what other novel phases can manifest when the constraint of time periodicity is relaxed? In this study, we explore quantum systems subjected to a quasi-periodic drive. Leveraging a strongly interacting spin ensemble in diamond, we identify the emergence of long-lived discrete time quasi-crystals. Unlike conventional time crystals, time quasi-crystals exhibit robust sub-harmonic responses at multiple incommensurate frequencies. Furthermore, we show that the multi-frequency nature of the quasi-periodic drive allows for the formation of diverse patterns associated with different discrete time quasi-crystalline phases. Our findings demonstrate the existence of non-equilibrium phases in quasi-Floquet settings, significantly broadening the catalog of novel phenomena in driven many-body quantum systems. | 翻訳日:2024-03-27 14:37:40 公開日:2024-03-26 |
# ハイブリッドアーキテクチャの力学設計とスケーリング
Mechanistic Design and Scaling of Hybrid Architectures ( http://arxiv.org/abs/2403.17844v1 ) ライセンス: Link先を確認 | Michael Poli, Armin W Thomas, Eric Nguyen, Pragaash Ponnusamy, Björn Deiseroth, Kristian Kersting, Taiji Suzuki, Brian Hie, Stefano Ermon, Christopher Ré, Ce Zhang, Stefano Massaroli, | (参考訳) ディープラーニングアーキテクチャの開発は、膨大な設計スペース、長いプロトタイピング時間、大規模モデルのトレーニングと評価に関連する高い計算コストのため、リソース要求のプロセスである。
我々は、これをエンドツーエンドのメカニスティックアーキテクチャ設計(MAD)パイプラインで基盤化し、スケール法則を予測できる小規模機能ユニットテストを含むことにより、このプロセスを単純化することにした。
様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し,テストする。
我々は,70Mから7Bパラメータの500以上の言語モデルをトレーニングし,計算最適化と新しい状態最適スケーリング法則解析によって得られたアーキテクチャを実験的に検証した。
驚くべきことに、MAD合成は計算最適パープレキシティと相関し、分離されたプロキシタスクによる新しいアーキテクチャの正確な評価を可能にする。
MADによって発見された新しいアーキテクチャは、ハイブリダイゼーションやスパーシリティといった単純なアイデアに基づいて、計算最適化予算と過度にトレーニングされたレシエーションの両方において、スケーリングにおいて、最先端のTransformer、畳み込み、反復アーキテクチャ(Transformer++、Hyena、Mamba)より優れています。
全体として、これらの結果は、計算済みの合成タスクの性能がスケーリング法則の予測可能であり、最適なアーキテクチャはハイブリッドトポロジーを介して特殊な層を利用するべきであることを示す。
The development of deep learning architectures is a resource-demanding process, due to a vast design space, long prototyping times, and high compute costs associated with at-scale model training and evaluation. We set out to simplify this process by grounding it in an end-to-end mechanistic architecture design (MAD) pipeline, encompassing small-scale capability unit tests predictive of scaling laws. Through a suite of synthetic token manipulation tasks such as compression and recall, designed to probe capabilities, we identify and test new hybrid architectures constructed from a variety of computational primitives. We experimentally validate the resulting architectures via an extensive compute-optimal and a new state-optimal scaling law analysis, training over 500 language models between 70M to 7B parameters. Surprisingly, we find MAD synthetics to correlate with compute-optimal perplexity, enabling accurate evaluation of new architectures via isolated proxy tasks. The new architectures found via MAD, based on simple ideas such as hybridization and sparsity, outperform state-of-the-art Transformer, convolutional, and recurrent architectures (Transformer++, Hyena, Mamba) in scaling, both at compute-optimal budgets and in overtrained regimes. Overall, these results provide evidence that performance on curated synthetic tasks can be predictive of scaling laws, and that an optimal architecture should leverage specialized layers via a hybrid topology. | 翻訳日:2024-03-27 14:37:40 公開日:2024-03-26 |
# TractOracle : RL-based tractographyにおける解剖学的インフォームド報酬関数に向けて
TractOracle: towards an anatomically-informed reward function for RL-based tractography ( http://arxiv.org/abs/2403.17845v1 ) ライセンス: Link先を確認 | Antoine Théberge, Maxime Descoteaux, Pierre-Marc Jodoin, | (参考訳) 強化学習(Reinforcement Learning, RL)に基づくトラクトグラフィーは、注釈付きデータを必要としない解剖学的精度が高いため、機械学習や古典的なトラクトグラフィーアルゴリズムの代替となる。
しかし、これまでRLエージェントの訓練に用いられてきた報酬関数は、エージェントが刺激的な偽陽性を発生させる原因となる解剖学的知識をカプセル化していない。
本稿では,ストリームライン分類のために訓練された報酬ネットワークに依存した新しいRLトラクトグラフィーシステムであるTractOracleを提案する。
このネットワークは、トレーニング中の報酬関数だけでなく、追跡プロセスを早期に停止し、偽陽性のストリームライン数を減少させる手段としても使用される。
これにより,WMの合理性の評価と再構築を同時に行う一意の手法となる。
一方のデータセットでは,正の正の比率が約20\%向上し,偽の正の比率が3倍減少し,他方のデータセットでは正の正の正の正の比率が2倍から7倍向上した。
Reinforcement learning (RL)-based tractography is a competitive alternative to machine learning and classical tractography algorithms due to its high anatomical accuracy obtained without the need for any annotated data. However, the reward functions so far used to train RL agents do not encapsulate anatomical knowledge which causes agents to generate spurious false positives tracts. In this paper, we propose a new RL tractography system, TractOracle, which relies on a reward network trained for streamline classification. This network is used both as a reward function during training as well as a mean for stopping the tracking process early and thus reduce the number of false positive streamlines. This makes our system a unique method that evaluates and reconstructs WM streamlines at the same time. We report an improvement of true positive ratios by almost 20\% and a reduction of 3x of false positive ratios on one dataset and an increase between 2x and 7x in the number true positive streamlines on another dataset. | 翻訳日:2024-03-27 14:37:40 公開日:2024-03-26 |
# 言語学習型ロボットナビゲーションのための階層型オープンボキャブラリ3次元シーングラフ
Hierarchical Open-Vocabulary 3D Scene Graphs for Language-Grounded Robot Navigation ( http://arxiv.org/abs/2403.17846v1 ) ライセンス: Link先を確認 | Abdelrhman Werby, Chenguang Huang, Martin Büchner, Abhinav Valada, Wolfram Burgard, | (参考訳) 近年のオープンボキャブラリロボットマッピング法は、事前学習された視覚言語特徴を持つ密集した幾何学的地図を具体化している。
これらのマップは、ある言語概念を問うときのポイント・ワイズ・サリエンシ・マップの予測を可能にするが、大規模環境やオブジェクトレベルを超えた抽象的なクエリは依然としてかなりのハードルとなり、最終的には言語を基盤としたロボットナビゲーションを制限する。
本研究では,言語を基盤としたロボットナビゲーションのための3次元シーングラフマッピング手法HOV-SGを提案する。
オープン・ボキャブラリ・ビジョン・ファンデーション・モデルを用いて,まず最先端のオープン・ボキャブラリ・セグメント・レベル・マップを3Dで取得し,その後,フロア,ルーム,オブジェクトの概念からなる3次元シーングラフ階層を構築し,それぞれにオープン・ボキャブラリ・フィーチャを付加する。
提案手法は多層建物を表現でき, クロスフロアのボロノイグラフを用いてロボットの移動を可能にする。
HOV-SGは3つの異なるデータセットで評価され、オブジェクト、部屋、フロアレベルでのオープン語彙のセマンティックな精度で以前のベースラインを超えながら、密接なオープン語彙マップと比較して75%の表現サイズを縮小する。
HOV-SGの有効性と一般化性を証明するため,実世界のマルチストレージ環境において,長期の言語条件付きロボットナビゲーションが成功していることを示す。
コードとトライアルのビデオデータはhttp://hovsg.github.io/で公開しています。
Recent open-vocabulary robot mapping methods enrich dense geometric maps with pre-trained visual-language features. While these maps allow for the prediction of point-wise saliency maps when queried for a certain language concept, large-scale environments and abstract queries beyond the object level still pose a considerable hurdle, ultimately limiting language-grounded robotic navigation. In this work, we present HOV-SG, a hierarchical open-vocabulary 3D scene graph mapping approach for language-grounded robot navigation. Leveraging open-vocabulary vision foundation models, we first obtain state-of-the-art open-vocabulary segment-level maps in 3D and subsequently construct a 3D scene graph hierarchy consisting of floor, room, and object concepts, each enriched with open-vocabulary features. Our approach is able to represent multi-story buildings and allows robotic traversal of those using a cross-floor Voronoi graph. HOV-SG is evaluated on three distinct datasets and surpasses previous baselines in open-vocabulary semantic accuracy on the object, room, and floor level while producing a 75% reduction in representation size compared to dense open-vocabulary maps. In order to prove the efficacy and generalization capabilities of HOV-SG, we showcase successful long-horizon language-conditioned robot navigation within real-world multi-storage environments. We provide code and trial video data at http://hovsg.github.io/. | 翻訳日:2024-03-27 14:37:40 公開日:2024-03-26 |
# 気候ダウンスケーリング: 注意ブロックとスキップ接続による降水データの深層学習に基づく超解像モデル
Climate Downscaling: A Deep-Learning Based Super-resolution Model of Precipitation Data with Attention Block and Skip Connections ( http://arxiv.org/abs/2403.17847v1 ) ライセンス: Link先を確認 | Chia-Hao Chiang, Zheng-Han Huang, Liwen Liu, Hsin-Chien Liang, Yi-Chi Wang, Wan-Ling Tseng, Chao Wang, Che-Ta Chen, Ko-Chih Wang, | (参考訳) 人間の活動は化石燃料の消費を加速させ、温室効果ガスを生産する。
これらが間接的に深刻な自然災害を引き起こし、多くの命が苦しめられ、農業財産が失われた。
我々の土地への影響を軽減するために、科学者たちは再生可能で再利用可能でクリーンなエネルギーと気候学者が極端を予測しようとしている。
一方、政府はよりエコフレンドリーな社会のための資源節約政策を公表し、環境意識を喚起している。
最も影響の大きい要因の1つは降水であり、凝縮した水蒸気が土地に放出される。
水資源は社会においてもっとも重要だが基本的なニーズであり、生活だけでなく経済学も支えている。
台湾では年間平均降水量は2,500ミリ (mm) に達するが、地理的な標高の変化と年間を通じて不均一な分布のために、各人の水割り当ては世界平均よりも低い。
したがって、降雨を最大限に活用し、洪水を防ぐためには、雨の追跡と予測が不可欠である。
しかし、気候モデルは解像度が限られており、局所的な使用には計算能力が必要とされる。
そこで我々は,低分解能降水データを高分解能にダウンスケールするために,スキップ接続,アテンションブロック,補助データ結合を備えた深部畳み込みニューラルネットワークを提案する。
最終的に、他の気候下降手法と比較し、平均絶対誤差(MAE)、ルート平均平方誤差(RMSE)、ピアソン相関、構造類似度指数(SSIM)、予測指標の指標でより良い性能を示す。
Human activities accelerate consumption of fossil fuels and produce greenhouse gases, resulting in urgent issues today: global warming and the climate change. These indirectly cause severe natural disasters, plenty of lives suffering and huge losses of agricultural properties. To mitigate impacts on our lands, scientists are developing renewable, reusable, and clean energies and climatologists are trying to predict the extremes. Meanwhile, governments are publicizing resource-saving policies for a more eco-friendly society and arousing environment awareness. One of the most influencing factors is the precipitation, bringing condensed water vapor onto lands. Water resources are the most significant but basic needs in society, not only supporting our livings, but also economics. In Taiwan, although the average annual precipitation is up to 2,500 millimeter (mm), the water allocation for each person is lower than the global average due to drastically geographical elevation changes and uneven distribution through the year. Thus, it is crucial to track and predict the rainfall to make the most use of it and to prevent the floods. However, climate models have limited resolution and require intensive computational power for local-scale use. Therefore, we proposed a deep convolutional neural network with skip connections, attention blocks, and auxiliary data concatenation, in order to downscale the low-resolution precipitation data into high-resolution one. Eventually, we compare with other climate downscaling methods and show better performance in metrics of Mean Absolute Error (MAE), Root Mean Square Error (RMSE), Pearson Correlation, structural similarity index (SSIM), and forecast indicators. | 翻訳日:2024-03-27 14:37:40 公開日:2024-03-26 |
# ArabicaQA: アラビア語質問回答のための総合データセット
ArabicaQA: A Comprehensive Dataset for Arabic Question Answering ( http://arxiv.org/abs/2403.17848v1 ) ライセンス: Link先を確認 | Abdelrahman Abdallah, Mahmoud Kasem, Mahmoud Abdalla, Mohamed Mahmoud, Mohamed Elkasaby, Yasser Elbendary, Adam Jatowt, | (参考訳) 本稿では,アラビア語で機械読解とオープンドメイン質問応答を行う最初の大規模データセットである ArabicaQA を導入することで,アラビア語の自然言語処理(NLP)資源の大幅なギャップを解消する。
この包括的なデータセットは、89,095の回答可能な質問と、3,701の回答できない質問からなる。
また、アラビア語ウィキペディアコーパスで訓練された最初の高密度通過検索モデルであるAraDPRについても紹介する。
さらに,本研究では,アラビア語質問応答のための大規模言語モデル (LLM) の広範なベンチマークを行い,その性能をアラビア語文脈で批判的に評価する。
結論として、アラビカQA、AraDPR、およびアラビア語質問応答におけるLLMのベンチマークは、アラビア語のNLP分野において大きな進歩をもたらした。
データセットとコードは、さらなる研究 https://github.com/DataScienceUIBK/ArabicaQA.comで公開されている。
In this paper, we address the significant gap in Arabic natural language processing (NLP) resources by introducing ArabicaQA, the first large-scale dataset for machine reading comprehension and open-domain question answering in Arabic. This comprehensive dataset, consisting of 89,095 answerable and 3,701 unanswerable questions created by crowdworkers to look similar to answerable ones, along with additional labels of open-domain questions marks a crucial advancement in Arabic NLP resources. We also present AraDPR, the first dense passage retrieval model trained on the Arabic Wikipedia corpus, specifically designed to tackle the unique challenges of Arabic text retrieval. Furthermore, our study includes extensive benchmarking of large language models (LLMs) for Arabic question answering, critically evaluating their performance in the Arabic language context. In conclusion, ArabicaQA, AraDPR, and the benchmarking of LLMs in Arabic question answering offer significant advancements in the field of Arabic NLP. The dataset and code are publicly accessible for further research https://github.com/DataScienceUIBK/ArabicaQA. | 翻訳日:2024-03-27 14:37:40 公開日:2024-03-26 |
# データ直交からバイアスへの変換による対物フェアネス
Counterfactual Fairness through Transforming Data Orthogonal to Bias ( http://arxiv.org/abs/2403.17852v1 ) ライセンス: Link先を確認 | Shuyi Chen, Shixiang Zhu, | (参考訳) 機械学習モデルは、さまざまな領域にまたがる複雑な問題を解決するのに、非常に優れた技術を示している。
それにもかかわらず、これらのモデルは時に偏りのある意思決定を示し、異なるグループで治療の相違をもたらすことがある。
公平性に関する広範な研究にもかかわらず、多変量変数と連続敏感変数の意思決定結果に対するニュアンスド効果は未だ十分に研究されていない。
そこで本研究では,連続性のある変数群の影響を排除し,機械学習アプリケーションにおける対実的公正性を促進するために,新しいデータ前処理アルゴリズムOrthogonal to Bias(OB)を導入する。
本手法は, 構造因果モデル (SCM) 内での連立正規分布の仮定に基づいて, データを感度変数と無相関にすることで, 対実的公正性を実現することができることを示す。
OBアルゴリズムはモデルに依存しず、幅広い機械学習モデルやタスクに対応し、正規化による数値安定性を高めるためのスパース変種を含む。
シミュレーションおよび実世界のデータセット(成人所得とCompAS再分配データセットを含む)に関する実証的な評価を通じて、我々の方法論は、精度を損なうことなく、より公平な結果を可能にする能力を示す。
Machine learning models have shown exceptional prowess in solving complex issues across various domains. Nonetheless, these models can sometimes exhibit biased decision-making, leading to disparities in treatment across different groups. Despite the extensive research on fairness, the nuanced effects of multivariate and continuous sensitive variables on decision-making outcomes remain insufficiently studied. We introduce a novel data pre-processing algorithm, Orthogonal to Bias (OB), designed to remove the influence of a group of continuous sensitive variables, thereby facilitating counterfactual fairness in machine learning applications. Our approach is grounded in the assumption of a jointly normal distribution within a structural causal model (SCM), proving that counterfactual fairness can be achieved by ensuring the data is uncorrelated with sensitive variables. The OB algorithm is model-agnostic, catering to a wide array of machine learning models and tasks, and includes a sparse variant to enhance numerical stability through regularization. Through empirical evaluation on simulated and real-world datasets - including the adult income and the COMPAS recidivism datasets - our methodology demonstrates its capacity to enable fairer outcomes without compromising accuracy. | 翻訳日:2024-03-27 14:27:54 公開日:2024-03-26 |
# ドメイン知識を用いたニューラル確率的ソフト論理による対話構造誘導
Using Domain Knowledge to Guide Dialog Structure Induction via Neural Probabilistic Soft Logic ( http://arxiv.org/abs/2403.17853v1 ) ライセンス: Link先を確認 | Connor Pryor, Quan Yuan, Jeremiah Liu, Mehran Kazemi, Deepak Ramachandran, Tania Bedrax-Weiss, Lise Getoor, | (参考訳) ダイアログ構造誘導(DSI)は、与えられた目標指向のダイアログの潜在ダイアログ構造(すなわち、ダイアログ状態とその時間遷移)を推定するタスクである。
現代のダイアログシステム設計と談話分析において重要な要素である。
既存のDSIアプローチは、多くの場合、純粋なデータ駆動であり、ドメイン知識にアクセスせずに遅延状態を推論するデプロイモデル、トレーニングコーパスが制限/ノイズの多い場合や、テストダイアログがトレーニングドメインから分散シフトを示す場合の難しさなどである。
この研究は、これらの問題に対する潜在的な解決策として、ニューラルシンボリックアプローチを探求する。
本稿では,ニューラル確率的ソフト論理対話構造誘導法(NEUPSL DSI)を提案する。
NEUPSL DSI学習が隠れ表現品質, 少数ショット学習, ドメイン外一般化性能に与える影響について, 徹底的な実験的検討を行った。
3つ以上のダイアログ構造誘導データセットと、標準およびクロスドメインの一般化のための教師なしおよび半教師なしのセッティングを通じて、NEUPSL DSIを用いたシンボリック知識の注入は、標準ベースラインよりも一貫したパフォーマンス向上を提供する。
Dialog Structure Induction (DSI) is the task of inferring the latent dialog structure (i.e., a set of dialog states and their temporal transitions) of a given goal-oriented dialog. It is a critical component for modern dialog system design and discourse analysis. Existing DSI approaches are often purely data-driven, deploy models that infer latent states without access to domain knowledge, underperform when the training corpus is limited/noisy, or have difficulty when test dialogs exhibit distributional shifts from the training domain. This work explores a neural-symbolic approach as a potential solution to these problems. We introduce Neural Probabilistic Soft Logic Dialogue Structure Induction (NEUPSL DSI), a principled approach that injects symbolic knowledge into the latent space of a generative neural model. We conduct a thorough empirical investigation on the effect of NEUPSL DSI learning on hidden representation quality, few-shot learning, and out-of-domain generalization performance. Over three dialog structure induction datasets and across unsupervised and semi-supervised settings for standard and cross-domain generalization, the injection of symbolic knowledge using NEUPSL DSI provides a consistent boost in performance over the canonical baselines. | 翻訳日:2024-03-27 14:27:54 公開日:2024-03-26 |
# 動詞ワイド言語(モデル):5つのLLMにおける英語ゼロ微分の評価
Verbing Weirds Language (Models): Evaluation of English Zero-Derivation in Five LLMs ( http://arxiv.org/abs/2403.17856v1 ) ライセンス: Link先を確認 | David R. Mortensen, Valentina Izrailevitch, Yunze Xiao, Hinrich Schütze, Leonie Weissweiler, | (参考訳) レキシカル・シンタクティック・フレキシビリティ(英: Lexical-syntactic flexible)は、変換(あるいはゼロ微分)の形で、イングランドの形態学の目印である。
変換において、音声の1つの部分を持つ単語は非原型的な文脈に置かれ、そこでは、その単語の別の部分を持つかのように振る舞うことが強制される。
しかし、この過程はイングランドの語彙の大部分に影響を及ぼすが、言語モデルがこのタイプの一般化を捉える度合いを確立するための作業はほとんど行われていない。
本稿では,変換に関する大規模言語モデルの振る舞いに関する最初の研究を報告する。
我々は,語彙・シトティック・フレキシビリティをテストするタスクを設計する。これは,非原型的部分の音声で構築された単語をモデルが一般化できる程度である。
このタスクは自然言語推論パラダイム内に位置する。
5つの言語モデル - 2つのプロプライエタリモデル(GPT-3.5とGPT-4)、3つのオープンソースモデル(Mistral 7B、Falcon 40B、Llama 2 70B)の能力をテストする。
GPT-4 は GPT-3.5 に続き,GPT-3.5 が続くが,オープンソースの言語モデルでも実行可能であること,そして 7B パラメータ Mistral は,自然言語推論タスクにおけるベースライン性能と非プロトタイプ構文カテゴリータスクとの差が小さいことを確認した。
Lexical-syntactic flexibility, in the form of conversion (or zero-derivation) is a hallmark of English morphology. In conversion, a word with one part of speech is placed in a non-prototypical context, where it is coerced to behave as if it had a different part of speech. However, while this process affects a large part of the English lexicon, little work has been done to establish the degree to which language models capture this type of generalization. This paper reports the first study on the behavior of large language models with reference to conversion. We design a task for testing lexical-syntactic flexibility -- the degree to which models can generalize over words in a construction with a non-prototypical part of speech. This task is situated within a natural language inference paradigm. We test the abilities of five language models -- two proprietary models (GPT-3.5 and GPT-4), three open-source models (Mistral 7B, Falcon 40B, and Llama 2 70B). We find that GPT-4 performs best on the task, followed by GPT-3.5, but that the open source language models are also able to perform it and that the 7B parameter Mistral displays as little difference between its baseline performance on the natural language inference task and the non-prototypical syntactic category task, as the massive GPT-4. | 翻訳日:2024-03-27 14:27:54 公開日:2024-03-26 |
# chroniclingAmericaQA: 歴史的アメリカ新聞ページに基づく大規模質問回答データセット
ChroniclingAmericaQA: A Large-scale Question Answering Dataset based on Historical American Newspaper Pages ( http://arxiv.org/abs/2403.17859v1 ) ライセンス: Link先を確認 | Bhawna Piryani, Jamshid Mozafari, Adam Jatowt, | (参考訳) 質問応答(QA)と機械読解(MRC)タスクは,近年,ディープラーニング技術の急速な発展と,より最近の大規模言語モデルによって著しく進歩している。
同時に、多くのベンチマークデータセットがQAとMRCタスクで利用できるようになった。
しかし、既存の大規模なベンチマークデータセットの大部分は、WikipediaやWebのような同期ドキュメントコレクションを使用して作成されている。
歴史新聞などの古文書コレクションには、大きな言語モデルを訓練するのにまだ広く使われていない過去の貴重な情報が含まれている。
QA と MRC タスクの進展にさらに貢献し,過去のデータセットの制限を克服するために,歴史新聞コレクションである chronicling America をベースとした 485K の質問応答対を持つ大規模データセットである chroniclingAmericaQA を紹介した。
筆者らのデータセットは,120年にわたる日刊アメリカの新聞コレクションのサブセットから作成されている。
デジタル化された歴史新聞コレクションを利用する上で重要な課題の1つは、OCRテキストの品質の低下である。
したがって、QAモデルの現実的なテストを可能にするために、我々のデータセットは、生と騒々しいコンテンツからの質問への回答、よりクリーンで修正されたコンテンツの質問への回答、新聞ページのスキャンされた画像からの質問への回答の3つの異なる方法で使用することができる。
これと、CentrallingAmericaQAが利用可能なQAデータセットの中で最長の期間にわたっているという事実は、非常にユニークで有用なリソースである。
Question answering (QA) and Machine Reading Comprehension (MRC) tasks have significantly advanced in recent years due to the rapid development of deep learning techniques and, more recently, large language models. At the same time, many benchmark datasets have become available for QA and MRC tasks. However, most existing large-scale benchmark datasets have been created predominantly using synchronous document collections like Wikipedia or the Web. Archival document collections, such as historical newspapers, contain valuable information from the past that is still not widely used to train large language models. To further contribute to advancing QA and MRC tasks and to overcome the limitation of previous datasets, we introduce ChroniclingAmericaQA, a large-scale dataset with 485K question-answer pairs created based on the historical newspaper collection Chronicling America. Our dataset is constructed from a subset of the Chronicling America newspaper collection spanning 120 years. One of the significant challenges for utilizing digitized historical newspaper collections is the low quality of OCR text. Therefore, to enable realistic testing of QA models, our dataset can be used in three different ways: answering questions from raw and noisy content, answering questions from cleaner, corrected version of the content, as well as answering questions from scanned images of newspaper pages. This and the fact that ChroniclingAmericaQA spans the longest time period among available QA datasets make it quite a unique and useful resource. | 翻訳日:2024-03-27 14:27:54 公開日:2024-03-26 |
# 高信頼ミス分類の最小化を目的とした合成テキストデータ源としてのLCMの探索
Exploring LLMs as a Source of Targeted Synthetic Textual Data to Minimize High Confidence Misclassifications ( http://arxiv.org/abs/2403.17860v1 ) ライセンス: Link先を確認 | Philip Lippmann, Matthijs Spaan, Jie Yang, | (参考訳) 予測性能に最適化された自然言語処理(NLP)モデルは、しばしば高い信頼性のエラーを発生し、敵対的およびアウト・オブ・ディストリビューションデータに対する脆弱性に悩まされる。
既存の作業は主に、人間または自動化アプローチを使用したこのようなエラーの軽減に重点を置いている。
本研究では,データ拡張のための大規模言語モデル (LLM) の利用を,分類タスク中に高い信頼度で誤った予測を行うNLPモデルの問題に対する潜在的な解決策として検討する。
我々は,LLMが生成した合成データと同一の手順で得られた人的データの有効性を比較した。
緩和のために、人間またはLLMは、高い信頼性の誤分類の自然言語特性を提供し、合成データを生成し、トレーニングセットを拡張するのに使用される。
我々は,3つの分類課題に対するアプローチを広範囲に評価し,その精度を維持しつつ,モデルに存在する高い信頼性の誤分類数を減らし,その効果を実証する。
さらに,人間とLLMのコストギャップは,LLMがよりスケーラブルでありながら人間のような性能を達成するため,桁違いに大きいことが判明した。
Natural Language Processing (NLP) models optimized for predictive performance often make high confidence errors and suffer from vulnerability to adversarial and out-of-distribution data. Existing work has mainly focused on mitigation of such errors using either humans or an automated approach. In this study, we explore the usage of large language models (LLMs) for data augmentation as a potential solution to the issue of NLP models making wrong predictions with high confidence during classification tasks. We compare the effectiveness of synthetic data generated by LLMs with that of human data obtained via the same procedure. For mitigation, humans or LLMs provide natural language characterizations of high confidence misclassifications to generate synthetic data, which are then used to extend the training set. We conduct an extensive evaluation of our approach on three classification tasks and demonstrate its effectiveness in reducing the number of high confidence misclassifications present in the model, all while maintaining the same level of accuracy. Moreover, we find that the cost gap between humans and LLMs surpasses an order of magnitude, as LLMs attain human-like performance while being more scalable. | 翻訳日:2024-03-27 14:27:54 公開日:2024-03-26 |
# 6th Workshop on Models for Formal Analysis of Real Systems に参加して
Proceedings Sixth Workshop on Models for Formal Analysis of Real Systems ( http://arxiv.org/abs/2403.17862v1 ) ライセンス: Link先を確認 | Frédéric Lang, Matthias Volk, | (参考訳) この巻には、理論と実践に関する欧州合同会議であるETAPS 2024の一部として開催される、リアルシステムの形式分析モデルに関する第6回ワークショップであるMARS 2024の手続きが含まれている。
MARSワークショップは、ネットワーク、サイバー物理システム、ハードウェア/ソフトウェアの共同設計、生物学など、複雑なモデルが発生する分野において、実際のシステムの形式モデルを開発している異なるコミュニティの研究者を集めている。
1 大規模ケーススタディは、仕様形式とモデリング技術が実際のシステムに適用可能であることを示すのに不可欠であるが、多くの研究論文はおもちゃの例や小さなケーススタディのみを考察している。
2) 実システムの正確なモデルを開発するには,数ヶ月や数年を要することが多い。
しかし、ほとんどの科学論文では、空間不足のためにモデルの詳細な詳細を省略し、正式な検証手法と結果の余地を残す必要がある。
MARSワークショップはこれらの問題を解決することを目的としており、検証よりもモデリングを重視し、通常他の場所では議論されていない形式的なモデリングから学んだ教訓を維持することを目的としている。
This volume contains the proceedings of MARS 2024, the sixth workshop on Models for Formal Analysis of Real Systems, held as part of ETAPS 2024, the European Joint Conferences on Theory and Practice of Software. The MARS workshops bring together researchers from different communities who are developing formal models of real systems in areas where complex models occur, such as networks, cyber-physical systems, hardware/software co-design, biology, etc. The motivation and aim for MARS stem from the following two observations: (1) Large case studies are essential to show that specification formalisms and modelling techniques are applicable to real systems, whereas many research papers only consider toy examples or tiny case studies. (2) Developing an accurate model of a real system takes a large amount of time, often months or years. In most scientific papers, however, salient details of the model need to be skipped due to lack of space, and to leave room for formal verification methodologies and results. The MARS workshops aim at remedying these issues, emphasising modelling over verification, so as to retain lessons learnt from formal modelling, which are not usually discussed elsewhere. | 翻訳日:2024-03-27 14:27:54 公開日:2024-03-26 |
# 駆動光-物質相互作用モデルにおけるフロケット解析の視点
A Floquet analysis perspective of driven light-matter interaction models ( http://arxiv.org/abs/2403.17866v1 ) ライセンス: Link先を確認 | Jonas Larson, | (参考訳) 本稿では、時間依存ハミルトニアンの数値積分とフロケ理論の両方を用いて、調和駆動のJaynes-CummingsとLipkin-Meshkov-Glickモデルを解析する。
前者のモデルにおける駆動と内在的ラビ振動の時間スケールの分離のために、駆動は有効周期反転する。
対応するフロケ・ハミルトニアン (Floquet Hamilto-nian) はワニエ・スタークモデルであり、解析的に解ける。
駆動リプキン-メシュコフ-グリック模型のカオス的な性質にもかかわらず、適度なシステムサイズは様々なシステムパラメータの下で質的に異なる振る舞いを示すことができる。
エルゴード性は、複数レベルのランダウ・ツェナー転移が繰り返されているため、断熱的でもダイアバティックでもない系に現れる。
遅い運転で観察されるカオス的挙動は磁化のランダムジャンプとして現れ、乱数生成器としての可能性を示している。
さらに、Floquet Fock状態格子と呼ぶものに関して、両方のモデルについて議論する。
In this paper, we analyze the harmonically driven Jaynes-Cummings and Lipkin-Meshkov-Glick models using both numerical integration of time-dependent Hamiltonians and Floquet theory. For a separation of time-scales between the drive and intrinsic Rabi oscillations in the former model, the driving results in an effective periodic reversal of time. The corresponding Floquet Hamilto- nian is a Wannier-Stark model, which can be analytically solved. Despite the chaotic nature of the driven Lipkin-Meshkov-Glick model, moderate system sizes can display qualitatively different behaviors under varying system parameters. Ergodicity arises in systems that are neither adiabatic nor diabatic, owing to repeated multi-level Landau-Zener transitions. Chaotic behavior, observed in slow driving, manifests as random jumps in the magnetization, suggesting potential utility as a random number generator. Furthermore, we discuss both models in terms of what we call Floquet Fock state lattices. | 翻訳日:2024-03-27 14:27:54 公開日:2024-03-26 |
# 量子仮説テストのサンプル複雑さ
Sample complexity of quantum hypothesis testing ( http://arxiv.org/abs/2403.17868v1 ) ライセンス: Link先を確認 | Hao-Chung Cheng, Nilanjana Datta, Nana Liu, Theshani Nuradha, Robert Salzmann, Mark M. Wilde, | (参考訳) 量子仮説テストは情報理論の観点から伝統的に研究されており、未知の状態のサンプル数の関数としての誤差確率の最適減衰率に関心がある。
本稿では、量子仮説テストのサンプル複雑性について検討し、目的は、所望の誤差確率に到達するために必要なサンプルの最小数を決定することである。
量子仮説テストに関する文献にすでに存在する豊富な知識を利用することにより、対称的および非対称的な設定における二項量子仮説テストのサンプル複雑性を特徴付けるとともに、複数の量子仮説テストのサンプル複雑性に関するバウンダリを提供する。
より詳しくは、対称二項量子仮説テストのサンプル複雑性が逆誤差確率と正の対数に依存することを証明している。
量子シュタインの補題とは対照的に、非対称二項量子仮説テストのサンプルの複雑さは逆タイプ~IIの誤差確率と逆相対エントロピーに対数的に依存する。
最後に、複数の量子仮説テストのサンプルの複雑さに関する下限と上限を提供し、これらの境界を改善するために興味深い疑問が残る。
Quantum hypothesis testing has been traditionally studied from the information-theoretic perspective, wherein one is interested in the optimal decay rate of error probabilities as a function of the number of samples of an unknown state. In this paper, we study the sample complexity of quantum hypothesis testing, wherein the goal is to determine the minimum number of samples needed to reach a desired error probability. By making use of the wealth of knowledge that already exists in the literature on quantum hypothesis testing, we characterize the sample complexity of binary quantum hypothesis testing in the symmetric and asymmetric settings, and we provide bounds on the sample complexity of multiple quantum hypothesis testing. In more detail, we prove that the sample complexity of symmetric binary quantum hypothesis testing depends logarithmically on the inverse error probability and inversely on the negative logarithm of the fidelity. As a counterpart of the quantum Stein's lemma, we also find that the sample complexity of asymmetric binary quantum hypothesis testing depends logarithmically on the inverse type~II error probability and inversely on the quantum relative entropy. Finally, we provide lower and upper bounds on the sample complexity of multiple quantum hypothesis testing, with it remaining an intriguing open question to improve these bounds. | 翻訳日:2024-03-27 14:27:54 公開日:2024-03-26 |
# 3Dトランスファー学習の鍵となる課題の理解と対処
To Supervise or Not to Supervise: Understanding and Addressing the Key Challenges of 3D Transfer Learning ( http://arxiv.org/abs/2403.17869v1 ) ライセンス: Link先を確認 | Souhail Hadgi, Lei Li, Maks Ovsjanikov, | (参考訳) トランスファーラーニングは、2次元画像解析を含む多くの分野の発展において、長い間重要な要素であった。
残念ながら、3Dデータ処理の適用性は比較的限られている。
近年, コントラスト学習が顕著に普及する中で, 3次元移動学習へのいくつかのアプローチが提案されているが, 既存の手法の多くは, 限られたシナリオでのみ研究され, 評価されている。
最も重要なことは、現在、いつ、なぜ3D転送学習法が適用されるのかという原則的な理解が欠如していることである。
注目すべきは、標準教師付き事前訓練の適用性さえ理解されていないことである。
本研究では,下流3D作業における教師付きコントラスト付き事前学習戦略とその有用性について,詳細な定量的・定性的な調査を行った。
学習した特徴を階層的に分析することで、トレーニングされたネットワークの下流ユーティリティに関する重要な洞察が得られることを実証する。
そこで本研究では,教師付き事前学習の伝達性を向上させる簡易な幾何正規化戦略を提案する。
そのため、我々の仕事は、3Dトランスファー学習の具体的な課題と、それを克服するための戦略の両方に光を当てています。
Transfer learning has long been a key factor in the advancement of many fields including 2D image analysis. Unfortunately, its applicability in 3D data processing has been relatively limited. While several approaches for 3D transfer learning have been proposed in recent literature, with contrastive learning gaining particular prominence, most existing methods in this domain have only been studied and evaluated in limited scenarios. Most importantly, there is currently a lack of principled understanding of both when and why 3D transfer learning methods are applicable. Remarkably, even the applicability of standard supervised pre-training is poorly understood. In this work, we conduct the first in-depth quantitative and qualitative investigation of supervised and contrastive pre-training strategies and their utility in downstream 3D tasks. We demonstrate that layer-wise analysis of learned features provides significant insight into the downstream utility of trained networks. Informed by this analysis, we propose a simple geometric regularization strategy, which improves the transferability of supervised pre-training. Our work thus sheds light onto both the specific challenges of 3D transfer learning, as well as strategies to overcome them. | 翻訳日:2024-03-27 14:27:54 公開日:2024-03-26 |
# 周波数領域における移動平均サンプリングによる拡散モデル
Boosting Diffusion Models with Moving Average Sampling in Frequency Domain ( http://arxiv.org/abs/2403.17870v1 ) ライセンス: Link先を確認 | Yurui Qian, Qi Cai, Yingwei Pan, Yehao Li, Ting Yao, Qibin Sun, Tao Mei, | (参考訳) 拡散モデルは最近、画像生成に強力な革命をもたらした。
印象的な生成能力を示したにもかかわらず、これらのモデルのほとんどは現在のサンプルに依存して次のモデルにノイズを発生させ、おそらくは不安定な状態に陥る。
本稿では,反復的復調過程をモデル最適化として再解釈し,移動平均機構を利用して全ての先行サンプルをアンサンブルする。
分割されたサンプルを異なる時間ステップで移動平均を適用する代わりに、まず、分割されたサンプルをデータ空間にマッピングし、その後、時間ステップ間の分布シフトを避けるために移動平均を実行する。
拡散モデルは低周波成分から高周波細部への回復を進化させるため、サンプルを異なる周波数成分に分解し、各成分に対して移動平均を別々に実行する。
周波数領域(MASF)における平均サンプリング(Moving Average Smpling in Frequency domain)の完全なアプローチを命名する。
MASFは、メインストリームの訓練済み拡散モデルとサンプリングスケジュールにシームレスに統合できる。
非条件拡散モデルと条件拡散モデルの両方に対する大規模な実験により、MASFはベースラインよりも優れた性能を示し、ほとんど無視できる追加の複雑さコストが生じる。
Diffusion models have recently brought a powerful revolution in image generation. Despite showing impressive generative capabilities, most of these models rely on the current sample to denoise the next one, possibly resulting in denoising instability. In this paper, we reinterpret the iterative denoising process as model optimization and leverage a moving average mechanism to ensemble all the prior samples. Instead of simply applying moving average to the denoised samples at different timesteps, we first map the denoised samples to data space and then perform moving average to avoid distribution shift across timesteps. In view that diffusion models evolve the recovery from low-frequency components to high-frequency details, we further decompose the samples into different frequency components and execute moving average separately on each component. We name the complete approach "Moving Average Sampling in Frequency domain (MASF)". MASF could be seamlessly integrated into mainstream pre-trained diffusion models and sampling schedules. Extensive experiments on both unconditional and conditional diffusion models demonstrate that our MASF leads to superior performances compared to the baselines, with almost negligible additional complexity cost. | 翻訳日:2024-03-27 14:27:54 公開日:2024-03-26 |
# 大規模言語モデルの社会的ミストリビューションに対処する:HCXAIに基づくアプローチ
Addressing Social Misattributions of Large Language Models: An HCXAI-based Approach ( http://arxiv.org/abs/2403.17873v1 ) ライセンス: Link先を確認 | Andrea Ferrario, Alberto Termine, Alessandro Facchini, | (参考訳) 人間中心の説明可能なAI(HCXAI)は、社会的な側面をAIの説明に統合することを提唱している。
HCXAIの談話の中心は、ソーシャルトランスペアレンシー(ST)フレームワークである。
本研究では,大規模言語モデル (LLMs) における社会貢献のリスク,特にメンタルヘルスのような敏感な領域に対処するためにSTフレームワークの拡張を提案する。
実際、LLMは、役割とペルソナを著しくシミュレートできるが、デザイナーの意図と利用者の社会的属性に対する認識のミスマッチを招き、感情的な操作や危険な行動を促進するリスクを負う可能性がある。
これらの課題に対処するため,設計者やユーザによる LLM に割り当てられた特定の社会的属性を明らかにするため,第5の "W-question" によるSTフレームワークの強化を提案する。
この追加は、LLM機能とユーザ知覚のギャップを埋めることを目的としており、LLMベースの技術の倫理的に責任ある開発と利用を促進する。
Human-centered explainable AI (HCXAI) advocates for the integration of social aspects into AI explanations. Central to the HCXAI discourse is the Social Transparency (ST) framework, which aims to make the socio-organizational context of AI systems accessible to their users. In this work, we suggest extending the ST framework to address the risks of social misattributions in Large Language Models (LLMs), particularly in sensitive areas like mental health. In fact LLMs, which are remarkably capable of simulating roles and personas, may lead to mismatches between designers' intentions and users' perceptions of social attributes, risking to promote emotional manipulation and dangerous behaviors, cases of epistemic injustice, and unwarranted trust. To address these issues, we propose enhancing the ST framework with a fifth 'W-question' to clarify the specific social attributions assigned to LLMs by its designers and users. This addition aims to bridge the gap between LLM capabilities and user perceptions, promoting the ethically responsible development and use of LLM-based technology. | 翻訳日:2024-03-27 14:27:54 公開日:2024-03-26 |
# フェデレーションラーニングによるデータメッシュの強化
Empowering Data Mesh with Federated Learning ( http://arxiv.org/abs/2403.17878v1 ) ライセンス: Link先を確認 | Haoyuan Li, Salman Toor, | (参考訳) データアーキテクチャの進化は、データ管理のボトルネックを解消し、インテリジェントな意思決定を促進することを目的として、データレイクの台頭を目の当たりにしてきた。
しかし、この集中型アーキテクチャは、データソースの急増と、タイムリーな分析と処理に対する需要の増加によって制限されている。
これらの課題を克服するために、新しいデータパラダイムであるData Meshが提案されている。
Data Meshは、中央チームから各データドメインにデータオーナシップを分散することで、ドメインを第一級の関心事として扱うと同時に、ドメインとそのデータ製品を監視するためのフェデレートされたガバナンスを維持する。
Paypal、Netflix、Zalandoといった数十万ドルの企業はすでに、この新しいアーキテクチャに基づいてデータ分析パイプラインを変革している。
データが各ドメインチームによってローカルに保存される分散アーキテクチャでは、従来の集中型機械学習は複数のドメイン、特にセキュリティに敏感な組織に対して効果的な分析を行うことができない。
この目的のために、フェデレートラーニングをData Meshに組み込んだ先駆的なアプローチを導入しました。
私たちの知る限りでは、これは、フェデレートされた学習メソッドをData Meshパラダイムに統合する上で重要な進歩を示す最初のオープンソース応用作品です。
The evolution of data architecture has seen the rise of data lakes, aiming to solve the bottlenecks of data management and promote intelligent decision-making. However, this centralized architecture is limited by the proliferation of data sources and the growing demand for timely analysis and processing. A new data paradigm, Data Mesh, is proposed to overcome these challenges. Data Mesh treats domains as a first-class concern by distributing the data ownership from the central team to each data domain, while keeping the federated governance to monitor domains and their data products. Many multi-million dollar organizations like Paypal, Netflix, and Zalando have already transformed their data analysis pipelines based on this new architecture. In this decentralized architecture where data is locally preserved by each domain team, traditional centralized machine learning is incapable of conducting effective analysis across multiple domains, especially for security-sensitive organizations. To this end, we introduce a pioneering approach that incorporates Federated Learning into Data Mesh. To the best of our knowledge, this is the first open-source applied work that represents a critical advancement toward the integration of federated learning methods into the Data Mesh paradigm, underscoring the promising prospects for privacy-preserving and decentralized data analysis strategies within Data Mesh architecture. | 翻訳日:2024-03-27 14:27:54 公開日:2024-03-26 |
# 低レイテンシニューラルステレオストリーミング
Low-Latency Neural Stereo Streaming ( http://arxiv.org/abs/2403.17879v1 ) ライセンス: Link先を確認 | Qiqi Hou, Farzad Farhadzadeh, Amir Said, Guillaume Sautiere, Hoang Le, | (参考訳) 仮想現実や自律運転のような新しいビデオモダリティの台頭は、レート歪み(R-D)パフォーマンスと遅延と実行の両面で、効率的なマルチビュービデオ圧縮手法の需要を増大させている。
最近のステレオビデオ圧縮アプローチは有望なパフォーマンスを示しているが、左右のビューを順次圧縮し、並列化と実行時のパフォーマンスが低下する。
本研究は,高速かつ効率的な低遅延ステレオビデオストリーミング用に設計された新しいステレオビデオ符号化法である,ステレオビデオストリーミングのための低レイテンシニューラルコーデック(LLSS)を提案する。
LLSSは、既存の方法のように連続的なクロスビュー動作補償を使用する代わりに、ビュー間の相互情報を直接利用し、エントロピー符号化のための共同のクロスビュー先行モデルで効果的にエンコードする双方向機能シフトモジュールを導入している。
この設計のおかげで、LLSSは左と右のビューを並列に処理し、レイテンシを最小化し、既存のニューラルコーデックと従来のコーデックと比較してR-Dパフォーマンスを大幅に改善した。
The rise of new video modalities like virtual reality or autonomous driving has increased the demand for efficient multi-view video compression methods, both in terms of rate-distortion (R-D) performance and in terms of delay and runtime. While most recent stereo video compression approaches have shown promising performance, they compress left and right views sequentially, leading to poor parallelization and runtime performance. This work presents Low-Latency neural codec for Stereo video Streaming (LLSS), a novel parallel stereo video coding method designed for fast and efficient low-latency stereo video streaming. Instead of using a sequential cross-view motion compensation like existing methods, LLSS introduces a bidirectional feature shifting module to directly exploit mutual information among views and encode them effectively with a joint cross-view prior model for entropy coding. Thanks to this design, LLSS processes left and right views in parallel, minimizing latency; all while substantially improving R-D performance compared to both existing neural and conventional codecs. | 翻訳日:2024-03-27 14:27:54 公開日:2024-03-26 |
# ディープフェイクの生成と検出:ベンチマークと調査
Deepfake Generation and Detection: A Benchmark and Survey ( http://arxiv.org/abs/2403.17881v1 ) ライセンス: Link先を確認 | Gan Pei, Jiangning Zhang, Menghan Hu, Guangtao Zhai, Chengjie Wang, Zhenyu Zhang, Jian Yang, Chunhua Shen, Dacheng Tao, | (参考訳) ディープフェイク生成の進歩に加えて、対応する検出技術は、プライバシー侵害やフィッシング攻撃などのディープフェイクの潜在的な誤用を規制するために、継続的に進化する必要がある。
本調査は, この急速に発展する分野における, ディープフェイクの発生と検出, 現状の要約と解析の最新の展開を包括的にレビューする。
まず、タスク定義を統一し、データセットとメトリクスを包括的に導入し、生成および検出技術フレームワークの開発について議論する。
そこで我々は,いくつかの関連分野の開発について論じ,一般的な顔スワップ,顔の再現,話し顔の生成,顔属性の編集,外的検出という4つの主要なディープフェイク分野の研究に焦点をあてる。
その後、各分野の一般的なデータセットに代表的手法を総合的にベンチマークし、トップカンファレンス/ジャーナルで公開された最新かつ影響力のある作品を十分に評価する。
最後に,議論分野の課題と今後の研究方向性について分析する。
我々は、https://github.com/flyingby/Awesome-Deepfake-Generation-and-Detectionの最新の開発をよくフォローする。
In addition to the advancements in deepfake generation, corresponding detection technologies need to continuously evolve to regulate the potential misuse of deepfakes, such as for privacy invasion and phishing attacks. This survey comprehensively reviews the latest developments in deepfake generation and detection, summarizing and analyzing the current state of the art in this rapidly evolving field. We first unify task definitions, comprehensively introduce datasets and metrics, and discuss the development of generation and detection technology frameworks. Then, we discuss the development of several related sub-fields and focus on researching four mainstream deepfake fields: popular face swap, face reenactment, talking face generation, and facial attribute editing, as well as foreign detection. Subsequently, we comprehensively benchmark representative methods on popular datasets for each field, fully evaluating the latest and influential works published in top conferences/journals. Finally, we analyze the challenges and future research directions of the discussed fields. We closely follow the latest developments in https://github.com/flyingby/Awesome-Deepfake-Generation-and-Detection. | 翻訳日:2024-03-27 14:27:54 公開日:2024-03-26 |
# 教師学習型フレームワークによる表層的・現実的な発話顔生成
Superior and Pragmatic Talking Face Generation with Teacher-Student Framework ( http://arxiv.org/abs/2403.17883v1 ) ライセンス: Link先を確認 | Chao Liang, Jianwen Jiang, Tianyun Zhong, Gaojie Lin, Zhengkun Rong, Jiaqi Yang, Yongming Zhu, | (参考訳) トーキングフェース生成技術は、任意の外観と動きの信号から会話ビデオを生成し、"arbitrary"は使いやすさを提供すると同時に、実用上の課題も導入する。
既存の手法は標準的な入力ではうまく機能するが、複雑な実世界の入力では深刻な性能劣化に悩まされる。
さらに、効率性もデプロイメントにおいて重要な関心事です。
これらの問題に包括的に対処するために,品質,堅牢性,コスト,編集性のバランスをとる教師学生向けフレームワークであるSuperFaceを紹介した。
まず, 様々な品質の入力を処理し, 質の高い結果を生成する, シンプルだが効果的な教師モデルを提案する。
これに基づいて,計算負荷を大幅に削減して品質を維持するアイデンティティ特化学生モデルを取得するための,効率的な蒸留戦略を考案する。
実験の結果,SuperFaceは4つの目的に対して既存の方法よりも包括的ソリューションを提供しており,特に学生モデルでFLOPを99\%削減できることがわかった。
SuperFaceはビデオとオーディオの両方で駆動でき、ローカライズされた顔属性の編集を可能にする。
Talking face generation technology creates talking videos from arbitrary appearance and motion signal, with the "arbitrary" offering ease of use but also introducing challenges in practical applications. Existing methods work well with standard inputs but suffer serious performance degradation with intricate real-world ones. Moreover, efficiency is also an important concern in deployment. To comprehensively address these issues, we introduce SuperFace, a teacher-student framework that balances quality, robustness, cost and editability. We first propose a simple but effective teacher model capable of handling inputs of varying qualities to generate high-quality results. Building on this, we devise an efficient distillation strategy to acquire an identity-specific student model that maintains quality with significantly reduced computational load. Our experiments validate that SuperFace offers a more comprehensive solution than existing methods for the four mentioned objectives, especially in reducing FLOPs by 99\% with the student model. SuperFace can be driven by both video and audio and allows for localized facial attributes editing. | 翻訳日:2024-03-27 14:27:54 公開日:2024-03-26 |
# データ効率のよい下流トレーニングと地球観測における推論のための圧縮マルチタスク埋め込み
Compressed Multi-task embeddings for Data-Efficient Downstream training and inference in Earth Observation ( http://arxiv.org/abs/2403.17886v1 ) ライセンス: Link先を確認 | Carlos Gomes, Thomas Brunschwiler, | (参考訳) 地球観測(EO)における大規模データのリポジトリが成長するにつれて、モデルトレーニングと推論のための転送と保存コストが増大し、重要なリソースが消費される。
本稿では,生データではなく,データコンシューマへの圧縮埋め込みの転送に基づくNeural Embedding Compression(NEC)を提案する。
我々は、ニューラルネットワークによる基礎モデル(FM)を適用し、圧縮率と埋め込みユーティリティのトレードオフをナビゲートしながらマルチタスクの埋め込みを生成する。
FMパラメータのごく一部(10%)を短いトレーニング期間(事前トレーニングのイテレーションの1%)に更新します。
シーン分類とセマンティックセグメンテーションという2つのEOタスクにおけるNECの評価を行った。
従来の圧縮を生データに適用した場合と比較すると、NECも同様の精度で75%から90%のデータを削減できる。
99.7%の圧縮でも、シーン分類タスクでパフォーマンスは5%低下した。
全体として、NECはマルチタスクEOモデリングのためのデータ効率は高いがパフォーマンスのアプローチである。
As repositories of large scale data in earth observation (EO) have grown, so have transfer and storage costs for model training and inference, expending significant resources. We introduce Neural Embedding Compression (NEC), based on the transfer of compressed embeddings to data consumers instead of raw data. We adapt foundation models (FM) through learned neural compression to generate multi-task embeddings while navigating the tradeoff between compression rate and embedding utility. We update only a small fraction of the FM parameters (10%) for a short training period (1% of the iterations of pre-training). We evaluate NEC on two EO tasks: scene classification and semantic segmentation. Compared with applying traditional compression to the raw data, NEC achieves similar accuracy with a 75% to 90% reduction in data. Even at 99.7% compression, performance drops by only 5% on the scene classification task. Overall, NEC is a data-efficient yet performant approach for multi-task EO modelling. | 翻訳日:2024-03-27 14:18:09 公開日:2024-03-26 |
# 深層層の不合理性
The Unreasonable Ineffectiveness of the Deeper Layers ( http://arxiv.org/abs/2403.17887v1 ) ライセンス: Link先を確認 | Andrey Gromov, Kushal Tirumala, Hassan Shapourian, Paolo Glorioso, Daniel A. Roberts, | (参考訳) オープンウェイトプレトレーニング済みLLMの一般家庭を対象とした単純なレイヤ分割戦略を実証的に検討し,各階層の多数(最大半分)を除去するまで,異なる質問応答ベンチマークの性能低下を最小限に抑える方法を検討した。
これらのモデルをプルークするには、層間の類似性を考慮し、最適な層ブロックをプルークし、損傷を「癒す」ために少量の微調整を行う。
特に,パラメータ係数ファインタニング(PEFT)法,特に量子化と低ランク適応器(QLoRA)を用いて,各実験を1つのA100 GPU上で行うことができる。
実践的な観点からは,レイヤプルーニング手法は他のPEFT戦略を補完し,一方の微調整の計算資源をさらに削減し,他方の推論のメモリと遅延を改善することを示唆している。
科学的見地からすると、これらのLCMの堅牢性からレイヤの削除は、現在の事前学習手法がネットワークの深い層におけるパラメータを適切に活用していない、あるいは浅い層が知識を保存する上で重要な役割を担っていることを示唆している。
We empirically study a simple layer-pruning strategy for popular families of open-weight pretrained LLMs, finding minimal degradation of performance on different question-answering benchmarks until after a large fraction (up to half) of the layers are removed. To prune these models, we identify the optimal block of layers to prune by considering similarity across layers; then, to "heal" the damage, we perform a small amount of finetuning. In particular, we use parameter-efficient finetuning (PEFT) methods, specifically quantization and Low Rank Adapters (QLoRA), such that each of our experiments can be performed on a single A100 GPU. From a practical perspective, these results suggest that layer pruning methods can complement other PEFT strategies to further reduce computational resources of finetuning on the one hand, and can improve the memory and latency of inference on the other hand. From a scientific perspective, the robustness of these LLMs to the deletion of layers implies either that current pretraining methods are not properly leveraging the parameters in the deeper layers of the network or that the shallow layers play a critical role in storing knowledge. | 翻訳日:2024-03-27 14:18:09 公開日:2024-03-26 |
# 幾何学的精度の高い放射場のための2次元ガウス散乱
2D Gaussian Splatting for Geometrically Accurate Radiance Fields ( http://arxiv.org/abs/2403.17888v1 ) ライセンス: Link先を確認 | Binbin Huang, Zehao Yu, Anpei Chen, Andreas Geiger, Shenghua Gao, | (参考訳) 3D Gaussian Splatting (3DGS)は近年,高画質の新規ビュー合成と高速レンダリングを実現し,放射界再構成に革命をもたらした。
しかし、3DGSは3Dガウスの多面的不整合性のため、表面を正確に表現することができない。
多視点画像から幾何学的精度の高い放射場をモデル化・再構成するための新しいアプローチである2DGS(2D Gaussian Splatting)を提案する。
私たちのキーとなるアイデアは、3Dボリュームを2D指向の平面ガウスディスクの集合に分解することです。
3Dガウス群とは異なり、2Dガウス群は内在的に曲面をモデル化しながらビュー整合幾何学を提供する。
薄膜を高精度に回収し,安定した最適化を実現するために,レイスプラット交叉とラスタライゼーションを用いた視点精度の高い2次元スプラッティングプロセスを導入する。
さらに, 再現の質を高めるために, 深さ歪みと正規整合項を組み込んだ。
我々は,識別可能なレンダラが,競合する外観品質,高速トレーニング速度,リアルタイムレンダリングを維持しつつ,ノイズフリーかつ詳細な幾何学的再構成を可能にすることを実証した。
私たちのコードは公開されます。
3D Gaussian Splatting (3DGS) has recently revolutionized radiance field reconstruction, achieving high quality novel view synthesis and fast rendering speed without baking. However, 3DGS fails to accurately represent surfaces due to the multi-view inconsistent nature of 3D Gaussians. We present 2D Gaussian Splatting (2DGS), a novel approach to model and reconstruct geometrically accurate radiance fields from multi-view images. Our key idea is to collapse the 3D volume into a set of 2D oriented planar Gaussian disks. Unlike 3D Gaussians, 2D Gaussians provide view-consistent geometry while modeling surfaces intrinsically. To accurately recover thin surfaces and achieve stable optimization, we introduce a perspective-accurate 2D splatting process utilizing ray-splat intersection and rasterization. Additionally, we incorporate depth distortion and normal consistency terms to further enhance the quality of the reconstructions. We demonstrate that our differentiable renderer allows for noise-free and detailed geometry reconstruction while maintaining competitive appearance quality, fast training speed, and real-time rendering. Our code will be made publicly available. | 翻訳日:2024-03-27 14:18:09 公開日:2024-03-26 |
# 階層ラベルを用いた深層学習分類器による画像に基づく新しい断層検出
Image-based Novel Fault Detection with Deep Learning Classifiers using Hierarchical Labels ( http://arxiv.org/abs/2403.17891v1 ) ライセンス: Link先を確認 | Nurettin Sergin, Jiayu Huang, Tzyy-Shuh Chang, Hao Yan, | (参考訳) 現代の断層分類システムの重要な特徴の1つは、以前に見つからなかった断層タイプに直面した時にシステムにフラグを付ける能力である。
本研究では、ディープニューラルネットワークに基づく故障分類器の未知の故障検出機能について考察する。
具体的には,モデルの性能を犠牲にすることなく,断層分類に関するラベルを未知の断層検出性能を高める方法を提案する。
そこで本研究では,学習過程における最先端の深層断層検出技術の改善と,オンラインの新たな断層検出のための階層的一貫した新しい検出統計量を実現するために,ソフトラベル技術を活用することを提案する。
最後に, 熱間圧延工程の検査画像において, 新たな欠陥検出性能が向上し, 複数のシナリオやベースライン検出方法によく再現できることを示した。
One important characteristic of modern fault classification systems is the ability to flag the system when faced with previously unseen fault types. This work considers the unknown fault detection capabilities of deep neural network-based fault classifiers. Specifically, we propose a methodology on how, when available, labels regarding the fault taxonomy can be used to increase unknown fault detection performance without sacrificing model performance. To achieve this, we propose to utilize soft label techniques to improve the state-of-the-art deep novel fault detection techniques during the training process and novel hierarchically consistent detection statistics for online novel fault detection. Finally, we demonstrated increased detection performance on novel fault detection in inspection images from the hot steel rolling process, with results well replicated across multiple scenarios and baseline detection methods. | 翻訳日:2024-03-27 14:18:09 公開日:2024-03-26 |
# Serpent: マルチスケール構造化状態空間モデルによるスケーラブルで効率的な画像復元
Serpent: Scalable and Efficient Image Restoration via Multi-scale Structured State Space Models ( http://arxiv.org/abs/2403.17902v1 ) ライセンス: Link先を確認 | Mohammad Shahab Sepehri, Zalan Fabian, Mahdi Soltanolkotabi, | (参考訳) 効率的な画像復元アーキテクチャの計算構築ブロックのランドスケープは、畳み込み処理と様々な注意機構の組み合わせによって支配されている。
しかし、畳み込みフィルタは本質的に局所的であるため、画像内の長距離依存関係をモデル化するのに苦労する。
一方、注意力は任意の画像領域間のグローバルな相互作用を捉えるのに優れるが、画像次元の二次的なコストはかかる。
本研究では,Serpentのコア計算ブロックにおける状態空間モデル(SSM)の最近の進歩を活用するアーキテクチャを提案する。
もともとシーケンスモデリングのために導入されたSSMは、入力サイズが好適な線形スケーリングで、グローバルな受容場を維持することができる。
予備的な結果から、Serpentは最先端技術に匹敵する再現品質を達成でき、FLOPSの最大150ドル(約1万5000円)の計算量と最大5ドル(約5万5000円)のGPUメモリを必要としつつ、コンパクトなモデルサイズを維持することができる。
The landscape of computational building blocks of efficient image restoration architectures is dominated by a combination of convolutional processing and various attention mechanisms. However, convolutional filters are inherently local and therefore struggle at modeling long-range dependencies in images. On the other hand, attention excels at capturing global interactions between arbitrary image regions, however at a quadratic cost in image dimension. In this work, we propose Serpent, an architecture that leverages recent advances in state space models (SSMs) in its core computational block. SSMs, originally introduced for sequence modeling, can maintain a global receptive field with a favorable linear scaling in input size. Our preliminary results demonstrate that Serpent can achieve reconstruction quality on par with state-of-the-art techniques, while requiring orders of magnitude less compute (up to $150$ fold reduction in FLOPS) and a factor of up to $5\times$ less GPU memory while maintaining a compact model size. | 翻訳日:2024-03-27 14:18:09 公開日:2024-03-26 |
# R2D2を用いたスケーラブル非カルテシアン磁気共鳴イメージング
Scalable Non-Cartesian Magnetic Resonance Imaging with R2D2 ( http://arxiv.org/abs/2403.17905v1 ) ライセンス: Link先を確認 | Chen Yiwei, Tang Chao, Aghabiglou Amir, Chu Chung San, Wiaux Yves, | (参考訳) 非カルテシアン磁気共鳴画像再構成のための新しい手法を提案する。
アンロールアーキテクチャはデータ一貫性レイヤを介して堅牢性を提供するが、ディープニューラルネットワーク(DNN)に計測演算子を埋め込むことは、大規模に非現実的になる可能性がある。
代替的なPlug-and-Play(PnP)アプローチでは、DNNは測定環境に不自由であり、この制限の影響を受けず、有効性も証明されているが、その高い反復性はスケーラビリティにも影響を及ぼす。
このスケーラビリティ問題に対処するために、最近天文学的イメージングで導入された「Residual-to-Residual DNNシリーズ」を高ダイナミックレンジイメージング(R2D2)に活用する。
R2D2の再構成は一連の残像として形成され、前回の繰り返しの画像推定と関連するデータを入力として取り込んだDNNの出力として反復的に推定される。
この方法はMatching Pursuitアルゴリズムの学習版と解釈できる。
我々は、ラジアルk空間サンプリング取得シーケンスを考慮したシミュレーションでR2D2を実証する。
我々の予備的な結果は、R2D2が達成できることを示唆している。
(i) NUFFT ベースのデータ一貫性層を組み込む必要により,R2D2-Net は拡張不可能である。
(II)データ一貫性のためのFFTに基づく近似を組み込んだR2D2-Netのスケーラブル版に優れた再構成品質
(3)PnPの再現性は優れているが、イテレーションは少ない。
We propose a new approach for non-Cartesian magnetic resonance image reconstruction. While unrolled architectures provide robustness via data-consistency layers, embedding measurement operators in Deep Neural Network (DNN) can become impractical at large scale. Alternative Plug-and-Play (PnP) approaches, where the denoising DNNs are blind to the measurement setting, are not affected by this limitation and have also proven effective, but their highly iterative nature also affects scalability. To address this scalability challenge, we leverage the "Residual-to-Residual DNN series for high-Dynamic range imaging (R2D2)" approach recently introduced in astronomical imaging. R2D2's reconstruction is formed as a series of residual images, iteratively estimated as outputs of DNNs taking the previous iteration's image estimate and associated data residual as inputs. The method can be interpreted as a learned version of the Matching Pursuit algorithm. We demonstrate R2D2 in simulation, considering radial k-space sampling acquisition sequences. Our preliminary results suggest that R2D2 achieves: (i) suboptimal performance compared to its unrolled incarnation R2D2-Net, which is however non-scalable due to the necessary embedding of NUFFT-based data-consistency layers; (ii) superior reconstruction quality to a scalable version of R2D2-Net embedding an FFT-based approximation for data consistency; (iii) superior reconstruction quality to PnP, while only requiring few iterations. | 翻訳日:2024-03-27 14:18:09 公開日:2024-03-26 |
# ジャーナリズムにおけるAIのためのドメイン特化評価手法
Domain-Specific Evaluation Strategies for AI in Journalism ( http://arxiv.org/abs/2403.17911v1 ) ライセンス: Link先を確認 | Sachita Nishal, Charlotte Li, Nicholas Diakopoulos, | (参考訳) 今日のニュース組織は、ニュース制作と配信において、さまざまなタスクにおける効率性と生産性を向上させるために、AIツールに依存している。
これらのツールは、レポーター、編集者、読者といったステークホルダーに向けられている。
しかし、実践者は、AI技術の評価と投資への回帰に関わる技術的および倫理的課題のために、AIテクノロジをニュースルームに導入する際の予約も表明している。
これは、AIモデルとアプリケーションを評価するドメイン固有の戦略の欠如による、ある程度の結果である。
本稿では、ドメイン固有の調整の恩恵を受けることができるAI評価(モデル出力、相互作用、倫理)の異なる側面を考察し、ジャーナリスト的考察が専門的なメトリクスや戦略にどのように寄与するかの例を提案する。
そうすることで、他の分野(法律、医療など)で見られるような、ジャーナリズムにおけるAI評価をガイドする潜在的なフレームワークを構築できます。
また、今後の作業の方向性や、我々のアプローチが他のドメインにどのように一般化されるかについても検討する。
News organizations today rely on AI tools to increase efficiency and productivity across various tasks in news production and distribution. These tools are oriented towards stakeholders such as reporters, editors, and readers. However, practitioners also express reservations around adopting AI technologies into the newsroom, due to the technical and ethical challenges involved in evaluating AI technology and its return on investments. This is to some extent a result of the lack of domain-specific strategies to evaluate AI models and applications. In this paper, we consider different aspects of AI evaluation (model outputs, interaction, and ethics) that can benefit from domain-specific tailoring, and suggest examples of how journalistic considerations can lead to specialized metrics or strategies. In doing so, we lay out a potential framework to guide AI evaluation in journalism, such as seen in other disciplines (e.g. law, healthcare). We also consider directions for future work, as well as how our approach might generalize to other domains. | 翻訳日:2024-03-27 14:18:09 公開日:2024-03-26 |
# 航空事故報告からのファインレベルイベント抽出のための階層型多ラベル分類
Hierarchical Multi-label Classification for Fine-level Event Extraction from Aviation Accident Reports ( http://arxiv.org/abs/2403.17914v1 ) ライセンス: Link先を確認 | Xinyu Zhao, Hao Yan, Yongming Liu, | (参考訳) 多くの事故報告が航空分野に記録されており、航空安全の改善に大きな価値がある。
これらの報告をよりよく活用するには、事故報告によると、最も重要な出来事や影響要因を理解する必要がある。
しかし、事故報告の増加は、これらの報告をラベル付けするためにドメインの専門家による多大な努力を必要としている。
ラベル付けプロセスをより効率的にするために、多くの研究者が事故報告から基礎となる事象を自動的に識別するアルゴリズムを開発し始めている。
この記事では、イベント分類を活用すれば、イベントをより正確に識別できる、と論じる。
より具体的には、この問題を階層的な分類タスクとみなし、まずは粗いレベルの情報を識別し、次に細かなレベルの情報を予測する。
本稿では,新規な階層型アテンションモジュールをBERTに組み込むことにより,階層型分類を実現する。
イベント分類学からの情報をさらに活用するために,ラベル間の関係や分布に応じて提案したモデルを標準化する。
本フレームワークの有効性を,NTSB(National Safety Safety Board)が収集したデータを用いて評価した。
その結果, 高精度な予測精度が向上し, 正規化期間が希少事象識別問題に有効であることが確認された。
A large volume of accident reports is recorded in the aviation domain, which greatly values improving aviation safety. To better use those reports, we need to understand the most important events or impact factors according to the accident reports. However, the increasing number of accident reports requires large efforts from domain experts to label those reports. In order to make the labeling process more efficient, many researchers have started developing algorithms to identify the underlying events from accident reports automatically. This article argues that we can identify the events more accurately by leveraging the event taxonomy. More specifically, we consider the problem a hierarchical classification task where we first identify the coarse-level information and then predict the fine-level information. We achieve this hierarchical classification process by incorporating a novel hierarchical attention module into BERT. To further utilize the information from event taxonomy, we regularize the proposed model according to the relationship and distribution among labels. The effectiveness of our framework is evaluated with the data collected by National Transportation Safety Board (NTSB). It has been shown that fine-level prediction accuracy is highly improved, and the regularization term can be beneficial to the rare event identification problem. | 翻訳日:2024-03-27 14:18:09 公開日:2024-03-26 |
# CMP:マルチエージェント通信による協調動作予測
CMP: Cooperative Motion Prediction with Multi-Agent Communication ( http://arxiv.org/abs/2403.17916v1 ) ライセンス: Link先を確認 | Zhuoyuan Wu, Yuping Wang, Hengbo Ma, Zhaowei Li, Hang Qiu, Jiachen Li, | (参考訳) 自動運転車(AV)の進歩とV2X通信の成熟により、コラボレーティブ・コネクテッド・アンド・オートマチック・ビークル(CAV)の能力が向上した。
本稿では,協調的知覚を基盤として,協調動作予測の実現可能性と有効性について検討する。
提案手法であるCMPは、LiDAR信号を入力として、追跡と予測能力を向上する。
協調的知覚と運動予測を別々に扱う従来の研究とは異なり、我々の枠組みは、私たちの知識の最高のところにおいて、CAVが知覚と予測モジュールの両方で情報を共有する統一的な問題に最初に対処するものである。
我々の設計に組み込まれているのは、偏見表現を扱いながら、現実的なV2X帯域制限と伝送遅延を許容するユニークな能力である。
また,異なるCAVから得られた予測を統一し,最終的な予測を生成する予測集約モジュールを提案する。
広範囲な実験とアブレーション研究を通じて,協調的知覚,追跡,動作予測タスクにおける本手法の有効性を実証した。
特に、CMPは、非協調条件と比較して、検出の欠如が少ないため、平均予測誤差を17.2\%削減する。
我々の研究は、複雑なシナリオにおけるパフォーマンスの向上を示すCAVの協調的能力において、大きな前進を示す。
The confluence of the advancement of Autonomous Vehicles (AVs) and the maturity of Vehicle-to-Everything (V2X) communication has enabled the capability of cooperative connected and automated vehicles (CAVs). Building on top of cooperative perception, this paper explores the feasibility and effectiveness of cooperative motion prediction. Our method, CMP, takes LiDAR signals as input to enhance tracking and prediction capabilities. Unlike previous work that focuses separately on either cooperative perception or motion prediction, our framework, to the best of our knowledge, is the first to address the unified problem where CAVs share information in both perception and prediction modules. Incorporated into our design is the unique capability to tolerate realistic V2X bandwidth limitations and transmission delays, while dealing with bulky perception representations. We also propose a prediction aggregation module, which unifies the predictions obtained by different CAVs and generates the final prediction. Through extensive experiments and ablation studies, we demonstrate the effectiveness of our method in cooperative perception, tracking, and motion prediction tasks. In particular, CMP reduces the average prediction error by 17.2\% with fewer missing detections compared with the no cooperation setting. Our work marks a significant step forward in the cooperative capabilities of CAVs, showcasing enhanced performance in complex scenarios. | 翻訳日:2024-03-27 14:18:09 公開日:2024-03-26 |
# AgentStudio: 一般的な仮想エージェントを構築するためのツールキット
AgentStudio: A Toolkit for Building General Virtual Agents ( http://arxiv.org/abs/2403.17918v1 ) ライセンス: Link先を確認 | Longtao Zheng, Zhiyuan Huang, Zhenghai Xue, Xinrun Wang, Bo An, Shuicheng Yan, | (参考訳) 任意のソフトウェアを任意のデジタルデバイスで使用できる自律的な仮想エージェントを作ることは、人工知能にとって大きな課題である。
2つの主要な障害は、現実世界環境における仮想エージェント構築のインフラ不足と、基本的なエージェント能力の評価の必要性である。
これを解決するために、エージェント開発の全ライフサイクルをカバーするオンラインで現実的でマルチモーダルなツールキットであるAgentStudioを紹介します。
これには環境設定、データ収集、エージェント評価、可視化が含まれる。
観察空間と行動空間は、関数呼び出しとヒューマンコンピュータインタフェースの両方をサポートする非常に一般的なものである。
この汎用性は、AgentStudioのグラフィカルユーザインターフェースによってさらに強化され、実際の設定でデータセットとベンチマークを効率的に開発することができる。
説明するために、ビジュアルグラウンドデータセットと実世界のベンチマークスイートを導入し、どちらもグラフィカルインターフェースで作成しました。
さらに、AgentStudio、eg、一般的なビジュアルグラウンド、オープンなツール作成、ビデオからの学習など、いくつかの実用的な洞察を提示する。
環境、データセット、ベンチマーク、インターフェースをオープンソースとして公開し、将来の汎用仮想エージェントの開発に向けた研究を促進しています。
Creating autonomous virtual agents capable of using arbitrary software on any digital device remains a major challenge for artificial intelligence. Two key obstacles hinder progress: insufficient infrastructure for building virtual agents in real-world environments, and the need for in-the-wild evaluation of fundamental agent abilities. To address this, we introduce AgentStudio, an online, realistic, and multimodal toolkit that covers the entire lifecycle of agent development. This includes environment setups, data collection, agent evaluation, and visualization. The observation and action spaces are highly generic, supporting both function calling and human-computer interfaces. This versatility is further enhanced by AgentStudio's graphical user interfaces, which allow efficient development of datasets and benchmarks in real-world settings. To illustrate, we introduce a visual grounding dataset and a real-world benchmark suite, both created with our graphical interfaces. Furthermore, we present several actionable insights derived from AgentStudio, e.g., general visual grounding, open-ended tool creation, learning from videos, etc. We have open-sourced the environments, datasets, benchmarks, and interfaces to promote research towards developing general virtual agents for the future. | 翻訳日:2024-03-27 14:18:09 公開日:2024-03-26 |
# LISA: メモリ効率の良い大規模言語モデルファインチューニングのための階層的重要度サンプリング
LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning ( http://arxiv.org/abs/2403.17919v1 ) ライセンス: Link先を確認 | Rui Pan, Xiang Liu, Shizhe Diao, Renjie Pi, Jipeng Zhang, Chi Han, Tong Zhang, | (参考訳) 機械学習コミュニティは、大規模言語モデル(LLM)の最初の登場以来、目覚ましい進歩を遂げてきたが、その膨大なメモリ消費は、大規模なトレーニングの大きな障害となっている。
低ランク適応(LoRA)のようなパラメータ効率の良いファインチューニング技術がこの問題を軽減するために提案されているが、ほとんどの大規模ファインチューニング環境では、その性能は完全なパラメータトレーニングと一致しない。
この欠陥を補うために, 微調整作業におけるLoRAの層状特性を調査し, 異なる層にまたがる重みノルムの非一般的な歪さを観察する。
この重要な観察を利用して、驚くほど単純なトレーニング戦略が発見され、LoRAと完全なパラメータトレーニングの両方を、LoRAよりも低いメモリコストで幅広い設定で上回る。
我々は、LRAの有望な代替案であるLayerwise Importance Sampled AdamW (LISA) と命名し、LLMの異なるレイヤに重要サンプリングのアイデアを適用し、最適化中にほとんどのミドルレイヤをランダムに凍結する。
実験結果から、LISAは、GPUメモリ使用量に類似または少なすぎると、下流の微調整タスクにおいてLoRAや完全なパラメータチューニングよりも優れており、MT-Benchスコアの点では、LISAは一貫してLoRAよりも111\%$-37\%$以上のパフォーマンスを示している。
大型モデル、特にLLaMA-2-70Bでは、LISAはMT-Bench、GSM8K、PubMedQAのLoRAよりも高い性能を達成し、様々な領域でその効果を実証している。
The machine learning community has witnessed impressive advancements since the first appearance of large language models (LLMs), yet their huge memory consumption has become a major roadblock to large-scale training. Parameter Efficient Fine-Tuning techniques such as Low-Rank Adaptation (LoRA) have been proposed to alleviate this problem, but their performance still fails to match full parameter training in most large-scale fine-tuning settings. Attempting to complement this deficiency, we investigate layerwise properties of LoRA on fine-tuning tasks and observe an uncommon skewness of weight norms across different layers. Utilizing this key observation, a surprisingly simple training strategy is discovered, which outperforms both LoRA and full parameter training in a wide range of settings with memory costs as low as LoRA. We name it Layerwise Importance Sampled AdamW (LISA), a promising alternative for LoRA, which applies the idea of importance sampling to different layers in LLMs and randomly freeze most middle layers during optimization. Experimental results show that with similar or less GPU memory consumption, LISA surpasses LoRA or even full parameter tuning in downstream fine-tuning tasks, where LISA consistently outperforms LoRA by over $11\%$-$37\%$ in terms of MT-Bench scores. On large models, specifically LLaMA-2-70B, LISA achieves on-par or better performance than LoRA on MT-Bench, GSM8K, and PubMedQA, demonstrating its effectiveness across different domains. | 翻訳日:2024-03-27 14:18:09 公開日:2024-03-26 |
# スピードの必要性:1つのレシピでトランスフォーマーをプルーニングする
The Need for Speed: Pruning Transformers with One Recipe ( http://arxiv.org/abs/2403.17921v1 ) ライセンス: Link先を確認 | Samir Khaki, Konstantinos N. Plataniotis, | (参考訳) $\textbf{O}$ne-shot $\textbf{P}$runing $\textbf{T}$echnique for $\textbf{I}$nterchangeable $\textbf{N}$etworks$\textbf{OPTIN}$)フレームワークを、事前トレーニングされたトランスフォーマーアーキテクチャの効率を高めるツールとして導入する。
近年の研究では、トランスフォーマーの効率向上が検討されているが、計算コストのかかる再訓練手順や、アーキテクチャ固有の特性に依存している場合が多いため、実用的な大規模採用を妨げている。
これらの欠点に対処するため、OPTINフレームワークは中間機能蒸留を利用して、モデルパラメータの長距離依存関係(coined $\textit{trajectory}$)をキャプチャして、自然言語、画像分類、転送学習、セマンティックセグメンテーションタスクに関する最先端の結果を生成する。
FLOP制約が与えられた場合、OPTINフレームワークは、競争精度とスループットの向上を維持しながら、ネットワークを圧縮する。
特に,NLPベースラインから$\leq 2$%の精度劣化と,競合するFLOPにおける画像分類における最先端手法から$0.5$%の改善を示す。
セマンティックセグメンテーションとcnnスタイルのネットワークにMask2Formerを用いてタスクとアーキテクチャを比較性能で一般化する。
OPTINは、トランスフォーマーアーキテクチャを圧縮する最初のワンショット効率的なフレームワークの1つで、異なるクラスドメイン、特に、$\textit{re-training}$を使わずに、自然言語と画像関連タスクをうまく一般化する。
We introduce the $\textbf{O}$ne-shot $\textbf{P}$runing $\textbf{T}$echnique for $\textbf{I}$nterchangeable $\textbf{N}$etworks ($\textbf{OPTIN}$) framework as a tool to increase the efficiency of pre-trained transformer architectures $\textit{without requiring re-training}$. Recent works have explored improving transformer efficiency, however often incur computationally expensive re-training procedures or depend on architecture-specific characteristics, thus impeding practical wide-scale adoption. To address these shortcomings, the OPTIN framework leverages intermediate feature distillation, capturing the long-range dependencies of model parameters (coined $\textit{trajectory}$), to produce state-of-the-art results on natural language, image classification, transfer learning, and semantic segmentation tasks $\textit{without re-training}$. Given a FLOP constraint, the OPTIN framework will compress the network while maintaining competitive accuracy performance and improved throughput. Particularly, we show a $\leq 2$% accuracy degradation from NLP baselines and a $0.5$% improvement from state-of-the-art methods on image classification at competitive FLOPs reductions. We further demonstrate the generalization of tasks and architecture with comparative performance using Mask2Former for semantic segmentation and cnn-style networks. OPTIN presents one of the first one-shot efficient frameworks for compressing transformer architectures that generalizes well across different class domains, in particular: natural language and image-related tasks, without $\textit{re-training}$. | 翻訳日:2024-03-27 14:18:09 公開日:2024-03-26 |
# AID:テキスト・画像拡散の注意補間
AID: Attention Interpolation of Text-to-Image Diffusion ( http://arxiv.org/abs/2403.17924v1 ) ライセンス: Link先を確認 | Qiyuan He, Jinghao Wang, Ziwei Liu, Angela Yao, | (参考訳) 条件付き拡散モデルは、様々な設定で見えない画像を生成し、画像補間を支援する。
潜在空間における補間はよく研究されているが、テキストやポーズといった特定の条件との補間は理解されていない。
条件空間における線形補間のような単純なアプローチは、一貫性、滑らかさ、忠実さに欠けるイメージをもたらすことが多い。
そこで本研究では,Diffusion (AID) による注意補間(Attention Interpolation) という,新たなトレーニングフリー手法を提案する。
主な貢献は
1)インナー/インナー/インナー補間注意層の提案
2 補間された注意を自己注意と融合して忠実性を高めること。
3) 選別にベータ分布を適用して滑らかさを高めた。
また,Pmpt-Guided Attention Interpolation via Diffusion (PAID) を条件依存型生成プロセスとして検討した。
この方法では、一貫性、滑らか性、効率性が向上した新しい画像の作成が可能であり、補間の正確な経路を制御できる。
提案手法は,概念的および空間的補間の有効性を示す。
コードとデモはhttps://github.com/QY-H00/attention-interpolation-diffusionで公開されている。
Conditional diffusion models can create unseen images in various settings, aiding image interpolation. Interpolation in latent spaces is well-studied, but interpolation with specific conditions like text or poses is less understood. Simple approaches, such as linear interpolation in the space of conditions, often result in images that lack consistency, smoothness, and fidelity. To that end, we introduce a novel training-free technique named Attention Interpolation via Diffusion (AID). Our key contributions include 1) proposing an inner/outer interpolated attention layer; 2) fusing the interpolated attention with self-attention to boost fidelity; and 3) applying beta distribution to selection to increase smoothness. We also present a variant, Prompt-guided Attention Interpolation via Diffusion (PAID), that considers interpolation as a condition-dependent generative process. This method enables the creation of new images with greater consistency, smoothness, and efficiency, and offers control over the exact path of interpolation. Our approach demonstrates effectiveness for conceptual and spatial interpolation. Code and demo are available at https://github.com/QY-H00/attention-interpolation-diffusion. | 翻訳日:2024-03-27 14:18:09 公開日:2024-03-26 |
# MAGIS: GitHubイシュー解決のためのLLMベースのマルチエージェントフレームワーク
MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution ( http://arxiv.org/abs/2403.17927v1 ) ライセンス: Link先を確認 | Wei Tao, Yucheng Zhou, Wenqiang Zhang, Yu Cheng, | (参考訳) ソフトウェア進化において、GitHubリポジトリ内の緊急問題の解決は、新しいコードの導入だけでなく、既存の機能のメンテナンスも関与する複雑な課題である。
大規模言語モデル(LLM)は、コード生成と理解において有望であるが、特にリポジトリレベルでは、コード変更の難しさに直面している。
これらの課題を克服するために、LLMがGitHubの問題を解決するのにほとんど失敗している理由を実証的に研究し、いくつかの影響要因を分析します。
経験的発見に触発されて,ソフトウェア進化のためにカスタマイズされた4種類のエージェント,マネージャ,リポジトリ・カストディアン,開発者,品質保証エンジニアエージェントからなる,GitHub Issue Resolutionのための新しいLLMベースのマルチエージェントフレームワークであるMAGISを提案する。
このフレームワークは、計画とコーディングプロセスにおけるさまざまなエージェントの協力を利用して、LLMの可能性を解き放ち、GitHubの問題を解決する。
実験では, GPT-3.5, GPT-4, Claude-2 など, MAGIS を一般的な LLM と比較するために, SWE-bench ベンチマークを用いた。
MAGISは13.94%のGitHub問題を解決できる。
具体的には,本手法のLLMであるGPT-4の直接適用による分解率の8倍に向上する。
また、行位置やタスク割り当てなど、GitHubのイシュー解決率を改善する要因も分析します。
In software evolution, resolving the emergent issues within GitHub repositories is a complex challenge that involves not only the incorporation of new code but also the maintenance of existing functionalities. Large Language Models (LLMs) have shown promise in code generation and understanding but face difficulties in code change, particularly at the repository level. To overcome these challenges, we empirically study the reason why LLMs mostly fail to resolve GitHub issues and analyze some impact factors. Motivated by the empirical findings, we propose a novel LLM-based Multi-Agent framework for GitHub Issue reSolution, MAGIS, consisting of four kinds of agents customized for the software evolution: Manager, Repository Custodian, Developer, and Quality Assurance Engineer agents. This framework leverages the collaboration of various agents in the planning and coding process to unlock the potential of LLMs to resolve GitHub issues. In experiments, we employ the SWE-bench benchmark to compare MAGIS with popular LLMs, including GPT-3.5, GPT-4, and Claude-2. MAGIS can resolve 13.94% GitHub issues, which significantly outperforms the baselines. Specifically, MAGIS achieves an eight-fold increase in resolved ratio over the direct application of GPT-4, the based LLM of our method. We also analyze the factors for improving GitHub issue resolution rates, such as line location, task allocation, etc. | 翻訳日:2024-03-27 14:18:09 公開日:2024-03-26 |
# SLEDGE: 生成モデルを用いた運転エージェントのためのシミュレーション環境の合成
SLEDGE: Synthesizing Simulation Environments for Driving Agents with Generative Models ( http://arxiv.org/abs/2403.17933v1 ) ライセンス: Link先を確認 | Kashyap Chitta, Daniel Dauner, Andreas Geiger, | (参考訳) SLEDGEは、現実世界の走行ログに基づいて訓練された車両の運動訓練のための最初の生成シミュレータである。
そのコアコンポーネントは学習モデルであり、エージェント境界ボックスとレーングラフを生成することができる。
モデルの出力は、交通シミュレーションの初期状態として機能する。
接続性やシーンごとの変数数など、SLEDGEで生成されるエンティティのユニークな特性は、このタスクに最もモダンな生成モデルの素直な応用をもたらす。
そこで,既存のレーングラフ表現の体系的研究とともに,新しいラスタ・ツー・ベクターオートエンコーダ(RVAE)を導入する。
エージェントとレーングラフをラスタ化潜在写像で異なるチャネルに符号化する。
これにより、レーン条件のエージェント生成と、拡散変換器によるレーンとエージェントの生成の両方が容易になる。
SLEDGEで生成されたエンティティを使用することで、例えば、ターンアップサンプリングやトラフィック密度の増大といったシミュレーションをより制御できる。
さらに、SLEDGEは、nuPlanのような既存のデータ駆動シミュレータでは見られない500mの長いルートをサポートすることができる。
2023年の nuPlan チャレンジの勝者である PDM の失敗率 40% 以上で証明された,計画アルゴリズムの新たな課題を示す。
nuPlanと比較すると、SLEDGEはセットアップに500$\times$(4GB)のストレージを必要とする。
SLEDGE is the first generative simulator for vehicle motion planning trained on real-world driving logs. Its core component is a learned model that is able to generate agent bounding boxes and lane graphs. The model's outputs serve as an initial state for traffic simulation. The unique properties of the entities to be generated for SLEDGE, such as their connectivity and variable count per scene, render the naive application of most modern generative models to this task non-trivial. Therefore, together with a systematic study of existing lane graph representations, we introduce a novel raster-to-vector autoencoder (RVAE). It encodes agents and the lane graph into distinct channels in a rasterized latent map. This facilitates both lane-conditioned agent generation and combined generation of lanes and agents with a Diffusion Transformer. Using generated entities in SLEDGE enables greater control over the simulation, e.g. upsampling turns or increasing traffic density. Further, SLEDGE can support 500m long routes, a capability not found in existing data-driven simulators like nuPlan. It presents new challenges for planning algorithms, evidenced by failure rates of over 40% for PDM, the winner of the 2023 nuPlan challenge, when tested on hard routes and dense traffic generated by our model. Compared to nuPlan, SLEDGE requires 500$\times$ less storage to set up (<4GB), making it a more accessible option and helping with democratizing future research in this field. | 翻訳日:2024-03-27 14:18:09 公開日:2024-03-26 |
# Sen2Fire:Sentinelデータを用いたワイルドファイア検出のためのベンチマークデータセット
Sen2Fire: A Challenging Benchmark Dataset for Wildfire Detection using Sentinel Data ( http://arxiv.org/abs/2403.17884v1 ) ライセンス: Link先を確認 | Yonghao Xu, Amanda Berg, Leif Haglund, | (参考訳) 衛星画像を用いた山火事検出は、実用上大きな可能性を秘めている。
本研究は,この領域における機械学習アルゴリズムの開発を進めるために,山火事検出に適した衛星リモートセンシングデータセットであるtextit{Sen2Fire}データセットを紹介する。
このデータセットは、Sentinel-2マルチスペクトルデータとSentinel-5Pエアロゾル製品から収集され、合計2466枚の画像パッチで構成されている。
各パッチのサイズは512$\times$512で13のバンドがある。
本研究は, 各種波帯の消火応答に対する特異な感度を考慮し, 異なる波帯の評価による山火事検出の最適化と, 正規化燃焼率 (NBR) と正規化差分植生指数 (NDVI) といったスペクトル指標の組み合わせに着目した。
その結果、山火事検出に全バンドを使用するのに対し、特定のバンドの組み合わせを選択すると、優れた性能が得られることが示唆された。
さらに,本研究では, センチネル5エアロゾルデータの統合による山火事検出効果について, 肯定的な評価を行った。
コードとデータセットはオンラインで公開されている(https://zenodo.org/records/10881058)。
Utilizing satellite imagery for wildfire detection presents substantial potential for practical applications. To advance the development of machine learning algorithms in this domain, our study introduces the \textit{Sen2Fire} dataset--a challenging satellite remote sensing dataset tailored for wildfire detection. This dataset is curated from Sentinel-2 multi-spectral data and Sentinel-5P aerosol product, comprising a total of 2466 image patches. Each patch has a size of 512$\times$512 pixels with 13 bands. Given the distinctive sensitivities of various wavebands to wildfire responses, our research focuses on optimizing wildfire detection by evaluating different wavebands and employing a combination of spectral indices, such as normalized burn ratio (NBR) and normalized difference vegetation index (NDVI). The results suggest that, in contrast to using all bands for wildfire detection, selecting specific band combinations yields superior performance. Additionally, our study underscores the positive impact of integrating Sentinel-5 aerosol data for wildfire detection. The code and dataset are available online (https://zenodo.org/records/10881058). | 翻訳日:2024-03-27 14:08:24 公開日:2024-03-26 |
# 大規模対抗体言語モデル
Large scale paired antibody language models ( http://arxiv.org/abs/2403.17889v1 ) ライセンス: Link先を確認 | Henry Kenlay, Frédéric A. Dreyer, Aleksandr Kovaltsuk, Dom Miketa, Douglas Pires, Charlotte M. Deane, | (参考訳) 抗体は免疫系によって産生されるタンパク質で、多種多様な抗原を高い特異性と親和性で同定し中和し、最も成功した生物療法のクラスを構成する。
次世代シークエンシングの出現に伴い、何十億もの抗体配列が近年収集されているが、それらのより良い治療設計への応用はデータの量と複雑さによって制限されている。
この課題に対処するため、IgBert と IgT5 は、これまで開発された最も優れた抗体特異的言語モデルであり、ペアとアンペアの両方の可変領域配列を入力として一貫して扱うことができる。
これらのモデルは、20億以上の未ペア配列と、観測された抗体空間データセットに存在する200万組の光鎖と重鎖を用いて、包括的に訓練されている。
本モデルは, 抗体工学に関連する多種多様な設計および回帰タスクにおいて, 既存の抗体およびタンパク質言語モデルより優れていることを示す。
この進歩は、治療開発のための抗体設計を強化するために機械学習、大規模データセット、高性能コンピューティングを活用する上で大きな前進となる。
Antibodies are proteins produced by the immune system that can identify and neutralise a wide variety of antigens with high specificity and affinity, and constitute the most successful class of biotherapeutics. With the advent of next-generation sequencing, billions of antibody sequences have been collected in recent years, though their application in the design of better therapeutics has been constrained by the sheer volume and complexity of the data. To address this challenge, we present IgBert and IgT5, the best performing antibody-specific language models developed to date which can consistently handle both paired and unpaired variable region sequences as input. These models are trained comprehensively using the more than two billion unpaired sequences and two million paired sequences of light and heavy chains present in the Observed Antibody Space dataset. We show that our models outperform existing antibody and protein language models on a diverse range of design and regression tasks relevant to antibody engineering. This advancement marks a significant leap forward in leveraging machine learning, large scale data sets and high-performance computing for enhancing antibody design for therapeutic development. | 翻訳日:2024-03-27 14:08:24 公開日:2024-03-26 |
# Egocentric Human Poseの3次元評価に関する調査
A Survey on 3D Egocentric Human Pose Estimation ( http://arxiv.org/abs/2403.17893v1 ) ライセンス: Link先を確認 | Md Mushfiqur Azam, Kevin Desai, | (参考訳) エゴセントリックな人間のポーズ推定は、人間のポーズを推定し、ファースト・パーソン・カメラの観点から身体表現を開発することを目的としている。
近年、XR技術、人間とコンピュータのインタラクション、フィットネストラッキングといった分野に幅広く応用されているため、広く普及している。
しかし、我々の知る限りでは、エゴセントリックな3次元ポーズ推定に関する提案された解決策に基づく体系的な文献レビューは行われていない。
そこで本研究では,エゴセントリックポーズ推定研究の現状を概観する。
本稿では、一般的なデータセットと異なるポーズ推定モデルを分類し、比較分析により異なる手法の長所と短所を明らかにする。
この調査は、エゴセントリックなポーズ推定における重要な概念と最先端のソリューション、広範囲のアプリケーション、そして将来のスコープに関するオープンな問題に関する洞察を提供する、この分野の研究者と実践者の両方にとって貴重なリソースとなり得る。
Egocentric human pose estimation aims to estimate human body poses and develop body representations from a first-person camera perspective. It has gained vast popularity in recent years because of its wide range of applications in sectors like XR-technologies, human-computer interaction, and fitness tracking. However, to the best of our knowledge, there is no systematic literature review based on the proposed solutions regarding egocentric 3D human pose estimation. To that end, the aim of this survey paper is to provide an extensive overview of the current state of egocentric pose estimation research. In this paper, we categorize and discuss the popular datasets and the different pose estimation models, highlighting the strengths and weaknesses of different methods by comparative analysis. This survey can be a valuable resource for both researchers and practitioners in the field, offering insights into key concepts and cutting-edge solutions in egocentric pose estimation, its wide-ranging applications, as well as the open problems with future scope. | 翻訳日:2024-03-27 14:08:24 公開日:2024-03-26 |
# Octree-GS:LOD-Structured 3D Gaussian による一貫性のあるリアルタイムレンダリングを目指して
Octree-GS: Towards Consistent Real-time Rendering with LOD-Structured 3D Gaussians ( http://arxiv.org/abs/2403.17898v1 ) ライセンス: Link先を確認 | Kerui Ren, Lihan Jiang, Tao Lu, Mulin Yu, Linning Xu, Zhangkai Ni, Bo Dai, | (参考訳) 最近の3D Gaussian splatting (3D-GS)は、NeRFベースのニューラルシーン表現と比較して、顕著なレンダリング忠実さと効率を示している。
リアルタイムレンダリングの可能性を示す一方で、3D-GSは、視野内のガウス原始体が過剰に多いため、複雑な細部を持つ大きなシーンでレンダリングボトルネックに遭遇する。
この制限は特にズームアウトビューで顕著であり、様々な詳細を持つシーンにおいて、一貫性のないレンダリング速度につながる可能性がある。
さらに、そのヒューリスティック密度制御操作によって、対応する詳細レベルを異なるスケールで捉えるのに苦労することが多い。
そこで我々は,LOD(Level-of-Detail)技術に触発されて,最終レンダリング結果に寄与するシーン表現のレベル・オブ・ディーテール分解をサポートするLOD構造化3Dガウスアプローチを特徴とするOctree-GSを紹介した。
本モデルでは,多分解能アンカー点の集合から適切なレベルを動的に選択し,高忠実度レンダリング結果を維持しつつ,適応LOD調整による一貫したレンダリング性能を確保する。
The recent 3D Gaussian splatting (3D-GS) has shown remarkable rendering fidelity and efficiency compared to NeRF-based neural scene representations. While demonstrating the potential for real-time rendering, 3D-GS encounters rendering bottlenecks in large scenes with complex details due to an excessive number of Gaussian primitives located within the viewing frustum. This limitation is particularly noticeable in zoom-out views and can lead to inconsistent rendering speeds in scenes with varying details. Moreover, it often struggles to capture the corresponding level of details at different scales with its heuristic density control operation. Inspired by the Level-of-Detail (LOD) techniques, we introduce Octree-GS, featuring an LOD-structured 3D Gaussian approach supporting level-of-detail decomposition for scene representation that contributes to the final rendering results. Our model dynamically selects the appropriate level from the set of multi-resolution anchor points, ensuring consistent rendering performance with adaptive LOD adjustments while maintaining high-fidelity rendering results. | 翻訳日:2024-03-27 14:08:24 公開日:2024-03-26 |
# ELGC-Net: リモートセンシング変化検出のためのローカル・グローバル・コンテキスト・アグリゲーション
ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection ( http://arxiv.org/abs/2403.17909v1 ) ライセンス: Link先を確認 | Mubashir Noman, Mustansar Fiaz, Hisham Cholakkal, Salman Khan, Fahad Shahbaz Khan, | (参考訳) 深層学習は、異なる時刻スタンプで取得した衛星画像ペア間の意味変化領域を特定することを目的として、リモートセンシング変化検出(CD)において顕著な成功を収めている。
しかしながら、既存の畳み込みニューラルネットワークとトランスフォーマーベースのフレームワークは、セマンティックチェンジ領域を正確にセグメント化するのに苦労することが多い。
さらに、標準的な自己注意型トランスフォーマーベースの手法は、画像解像度に関して2次計算の複雑さに悩まされ、訓練データに制限のあるCDタスクでは実用的でない。
これらの問題に対処するため,モデルサイズを小さくしながら,変化領域を正確に推定するために,リッチなコンテキスト情報を活用する効率的な変更検出フレームワークELGC-Netを提案する。
我々のELGC-Netは、シームズエンコーダ、融合モジュール、デコーダからなる。
設計の焦点は、エンコーダ内に効率的なローカル・グローバル・コンテキスト・アグリゲータ・モジュールを導入し、新しいプール配置(PT)アテンションと深度ワイド・コンボリューションによって、拡張されたグローバル・コンテクストと局所空間情報をキャプチャすることである。
PTアテンションは、ロバストな特徴抽出のためにプール操作を採用し、アテンションを変換して計算コストを最小化する。
3つの挑戦的なCDデータセットに関する大規模な実験は、ELGC-Netが既存の手法より優れていることを示している。
最近の変換器ベースのCDアプローチ(ChangeFormer)と比較すると、ELGC-NetはLEVIR-CDデータセット上での結合距離よりも1.4%増加し、トレーニング可能なパラメータは大幅に減少する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
最後に,ELGC-Net-LWを導入し,計算量を大幅に削減し,リソース制約の設定に適した軽量化を実現した。
Project url https://github.com/techmn/elgcnet.com
Deep learning has shown remarkable success in remote sensing change detection (CD), aiming to identify semantic change regions between co-registered satellite image pairs acquired at distinct time stamps. However, existing convolutional neural network and transformer-based frameworks often struggle to accurately segment semantic change regions. Moreover, transformers-based methods with standard self-attention suffer from quadratic computational complexity with respect to the image resolution, making them less practical for CD tasks with limited training data. To address these issues, we propose an efficient change detection framework, ELGC-Net, which leverages rich contextual information to precisely estimate change regions while reducing the model size. Our ELGC-Net comprises a Siamese encoder, fusion modules, and a decoder. The focus of our design is the introduction of an Efficient Local-Global Context Aggregator module within the encoder, capturing enhanced global context and local spatial information through a novel pooled-transpose (PT) attention and depthwise convolution, respectively. The PT attention employs pooling operations for robust feature extraction and minimizes computational cost with transposed attention. Extensive experiments on three challenging CD datasets demonstrate that ELGC-Net outperforms existing methods. Compared to the recent transformer-based CD approach (ChangeFormer), ELGC-Net achieves a 1.4% gain in intersection over union metric on the LEVIR-CD dataset, while significantly reducing trainable parameters. Our proposed ELGC-Net sets a new state-of-the-art performance in remote sensing change detection benchmarks. Finally, we also introduce ELGC-Net-LW, a lighter variant with significantly reduced computational complexity, suitable for resource-constrained settings, while achieving comparable performance. Project url https://github.com/techmn/elgcnet. | 翻訳日:2024-03-27 14:08:24 公開日:2024-03-26 |
# 長距離XXZモデルにおける無限温度における創発的異常流体力学
Emergent Anomalous Hydrodynamics at Infinite Temperature in a Long-Range XXZ Model ( http://arxiv.org/abs/2403.17912v1 ) ライセンス: Link先を確認 | Ang Yang, Jinlou Ma, Lei Ying, | (参考訳) 従来の知恵は、非可積分量子多体系の高温での保存量の輸送は拡散可能であることを示唆している。
しかし、このパラダイムの反例は、スピン-1/2 XXZ鎖における異常な流体力学をパワー-ロー結合で発見することによって発見される。
このモデルは、確率行列理論におけるウィグナー・ダイソンのレベルスポーティング統計により非可積分と分類され、固定異方性に対するカップリングのパワー-ルー指数を変化させることで、驚くほど超拡散的・弾道的・超拡散的輸送遷移を示す。
本研究はスピンスピンオートコレレータ,平均二乗変位,スピン伝導率などの観測装置を用いて検証した。
興味深いことに、モデルの固有状態のエンタングルメントエントロピー分布とランダム状態とのKullback-Leibler分散を用いて量子カオスの度合いをさらに定量化する。
注目すべきことに、遷移境界付近で観測された局所的な最大値から、異常な流体力学と量子カオスの抑制とのリンクが示唆される。
この研究は、より広い範囲の非可積分量子多体系における創発的異常輸送現象のより深い理解を提供する。
The conventional wisdom suggests that transports of conserved quantities in non-integrable quantum many-body systems at high temperatures are diffusive. However, we discover a counterexample of this paradigm by uncovering anomalous hydrodynamics in a spin-1/2 XXZ chain with power-law couplings. This model, classified as non-integrable due to its Wigner-Dyson level-spacing statistics in the random matrix theory, exhibits a surprising superdiffusive-ballistic-superdiffusive transport transition by varying the power-law exponent of couplings for a fixed anisotropy. Our findings are verified by multiple observables, including the spin-spin autocorrelator, mean-square displacement, and spin conductivity. Interestingly, we further quantify the degree of quantum chaos using the Kullback-Leibler divergence between the entanglement entropy distributions of the model's eigenstates and a random state. Remarkably, an observed local maximum in the divergence near the transition boundary suggests a link between anomalous hydrodynamics and a suppression of quantum chaos. This work offers another deep understanding of emergent anomalous transport phenomena in a wider range of non-integrable quantum many-body systems | 翻訳日:2024-03-27 14:08:24 公開日:2024-03-26 |
# 内視鏡映像からの単眼深度推定のための近接場照明の活用
Leveraging Near-Field Lighting for Monocular Depth Estimation from Endoscopy Videos ( http://arxiv.org/abs/2403.17915v1 ) ライセンス: Link先を確認 | Akshay Paruchuri, Samuel Ehrenstein, Shuxian Wang, Inbar Fried, Stephen M. Pizer, Marc Niethammer, Roni Sengupta, | (参考訳) 内視鏡ビデオにおける単眼深度推定は、補助手術やロボット手術によって臓器のより良いカバレッジと様々な健康問題の検出を可能にする。
主流である自然画像深度推定の進歩は期待できるが、強力な幾何学的特徴の欠如と難解な照明効果のため、内視鏡画像では技術が不十分である。
本稿では, 内視鏡から放射される光を表面から反射する光学的手がかりを用いて, 単分子深度推定を改善する。
まず、画素ごとのシェーディング表現を利用した教師付きおよび自己監督型の2つの新しい損失関数を作成する。
次に、同じピクセルごとのシェーディング表現を利用する新しい深度改善ネットワーク(PPSNet)を提案する。
最後に,教師学生の移動学習を導入し,自己監督型と臨床データを用いた合成データから,より深い深度マップを作成する。
我々は,臨床データから高品質な深度マップを推定しながら,C3VDデータセットの最先端結果を得る。
私たちのコード、事前訓練されたモデル、補足的な資料は、プロジェクトのページで確認できます。
Monocular depth estimation in endoscopy videos can enable assistive and robotic surgery to obtain better coverage of the organ and detection of various health issues. Despite promising progress on mainstream, natural image depth estimation, techniques perform poorly on endoscopy images due to a lack of strong geometric features and challenging illumination effects. In this paper, we utilize the photometric cues, i.e., the light emitted from an endoscope and reflected by the surface, to improve monocular depth estimation. We first create two novel loss functions with supervised and self-supervised variants that utilize a per-pixel shading representation. We then propose a novel depth refinement network (PPSNet) that leverages the same per-pixel shading representation. Finally, we introduce teacher-student transfer learning to produce better depth maps from both synthetic data with supervision and clinical data with self-supervision. We achieve state-of-the-art results on the C3VD dataset while estimating high-quality depth maps from clinical data. Our code, pre-trained models, and supplementary materials can be found on our project page: https://ppsnet.github.io/ | 翻訳日:2024-03-27 14:08:24 公開日:2024-03-26 |
# TC4D:軌道記述型テキストから4D生成
TC4D: Trajectory-Conditioned Text-to-4D Generation ( http://arxiv.org/abs/2403.17920v1 ) ライセンス: Link先を確認 | Sherwin Bahmani, Xian Liu, Yifan Wang, Ivan Skorokhodov, Victor Rong, Ziwei Liu, Xihui Liu, Jeong Joon Park, Sergey Tulyakov, Gordon Wetzstein, Andrea Tagliasacchi, David B. Lindell, | (参考訳) 事前学習したテキスト・ビデオ・モデルを用いた動的3次元シーンのテキスト・ツー・4次元生成技術
しかし、変形モデルや時間依存神経表現のような既存の動きの表現は、生成できる動きの量に制限されている。
よりフレキシブルなモーションモデルが欠如していることは、4次元生成法と最近の近フォトリアリスティックなビデオ生成モデルの間の現実性のギャップに寄与する。
本稿では,グローバルおよびローカルなコンポーネントへの移動を要因とするトラジェクティブ条件付きテキスト-to-4D生成法を提案する。
スプラインによってパラメータ化された軌跡に沿った剛性変換を用いて,シーンの境界ボックスのグローバルな動きを表現する。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,生成した動きのリアリズムと量に対する大幅な改善を可能にし,質的かつユーザスタディを通じて評価する。
ビデオの結果は、私たちのWebサイト(https://sherwinbahmani.github.io/tc4d)で見ることができる。
Recent techniques for text-to-4D generation synthesize dynamic 3D scenes using supervision from pre-trained text-to-video models. However, existing representations for motion, such as deformation models or time-dependent neural representations, are limited in the amount of motion they can generate-they cannot synthesize motion extending far beyond the bounding box used for volume rendering. The lack of a more flexible motion model contributes to the gap in realism between 4D generation methods and recent, near-photorealistic video generation models. Here, we propose TC4D: trajectory-conditioned text-to-4D generation, which factors motion into global and local components. We represent the global motion of a scene's bounding box using rigid transformation along a trajectory parameterized by a spline. We learn local deformations that conform to the global trajectory using supervision from a text-to-video model. Our approach enables the synthesis of scenes animated along arbitrary trajectories, compositional scene generation, and significant improvements to the realism and amount of generated motion, which we evaluate qualitatively and through a user study. Video results can be viewed on our website: https://sherwinbahmani.github.io/tc4d. | 翻訳日:2024-03-27 14:08:24 公開日:2024-03-26 |
# FastCAR: オブジェクトクラスの連続特性をモデル化するためのタスク統合による高速な分類と回帰マルチタスク学習
FastCAR: Fast Classification And Regression Multi-Task Learning via Task Consolidation for Modelling a Continuous Property Variable of Object Classes ( http://arxiv.org/abs/2403.17926v1 ) ライセンス: Link先を確認 | Anoop Kini, Andreas Jansche, Timo Bernthaler, Gerhard Schneider, | (参考訳) FastCARは、微妙な相関しか持たないタスクの不均一性にもかかわらず、分類と回帰タスクのためのMTL(Multi-Task Learning)における新しいタスク統合アプローチである。
オブジェクト分類と連続特性変数回帰(continuous property variable regression)に対処する。
FastCARには、シングルタスク回帰ネットワークアーキテクチャで使用できるラベル変換アプローチが含まれている。
FastCAR は従来の MTL モデルファミリよりも優れており、アーキテクチャや損失重み付けの手法でパラメタ化され、両方のタスクの学習が一括して検討される(分類精度99.54%、回帰平均絶対パーセンテージ誤差2.3%)。
実験では、私たちに貢献したAdvanced Steel Propertyデータセットを使用しました。
データセットは224x224ピクセルの4536枚の画像で構成され、オブジェクトクラスと連続的な値を取る硬さ特性が注釈付けされている。
ラベル変換とシングルタスク回帰ネットワークアーキテクチャにより、FastCARはレイテンシと時間効率の低減を実現している。
FastCAR is a novel task consolidation approach in Multi-Task Learning (MTL) for a classification and a regression task, despite task heterogeneity with only subtle correlation. It addresses object classification and continuous property variable regression, a crucial use case in science and engineering. FastCAR involves a labeling transformation approach that can be used with a single-task regression network architecture. FastCAR outperforms traditional MTL model families, parametrized in the landscape of architecture and loss weighting schemes, when learning of both tasks are collectively considered (classification accuracy of 99.54%, regression mean absolute percentage error of 2.3%). The experiments performed used an Advanced Steel Property dataset contributed by us. The dataset comprises 4536 images of 224x224 pixels, annotated with object classes and hardness properties that take continuous values. With the labeling transformation and single-task regression network architecture, FastCAR achieves reduced latency and time efficiency. | 翻訳日:2024-03-27 14:08:24 公開日:2024-03-26 |
# 超複雑ニューラルネットワークの解説に向けて
Towards Explaining Hypercomplex Neural Networks ( http://arxiv.org/abs/2403.17929v1 ) ライセンス: Link先を確認 | Eleonora Lopez, Eleonora Grassucci, Debora Capriotti, Danilo Comminiello, | (参考訳) ハイパーコンプレックスニューラルネットワークは、ディープラーニングコミュニティへの関心が高まっている。
超複素モデルに向けられた注意は、純粋に理論的および数学的特徴から従来のネットワークよりも軽量なモデルが実用的に優れていること、そしてグローバルとローカルの関係を捉えるために固有の性質にまたがる様々な側面から来ている。
特に、これらのアーキテクチャのブランチであるパラメータ化ハイパーコンプレックスニューラルネットワーク(PHNN)は、多数のアプリケーションドメインにまたがる汎用性から人気を集めている。
それでも、その複雑さを説明・解釈する試みはごくわずかである。
本稿では,ポストホック法を必要とせず,本質的に解釈可能なPHNNと4元ネットワークを提案する。
これを実現するために、パラメータ化超複素領域内のコサイン相似変換のタイプを定義する。
このPHB-cos変換は、関連する入力特徴との重み付けを誘導し、モデルを1つの線形変換に還元し、直接解釈可能である。
この研究で、我々はこのユニークなニューラルモデルがどのように機能するかについての洞察を導き始めます。
我々は,超複雑ネットワークが対象物そのものの形状に加えて,主対象物を取り巻く形状に集中する傾向を示すことを観察した。
我々は、異なる階層の単一ニューロンを網羅的に分析し、実際の価値あるネットワークがどのように学習するかと比較する。
論文のコードはhttps://github.com/ispamm/HxAIで公開されている。
Hypercomplex neural networks are gaining increasing interest in the deep learning community. The attention directed towards hypercomplex models originates from several aspects, spanning from purely theoretical and mathematical characteristics to the practical advantage of lightweight models over conventional networks, and their unique properties to capture both global and local relations. In particular, a branch of these architectures, parameterized hypercomplex neural networks (PHNNs), has also gained popularity due to their versatility across a multitude of application domains. Nonetheless, only few attempts have been made to explain or interpret their intricacies. In this paper, we propose inherently interpretable PHNNs and quaternion-like networks, thus without the need for any post-hoc method. To achieve this, we define a type of cosine-similarity transform within the parameterized hypercomplex domain. This PHB-cos transform induces weight alignment with relevant input features and allows to reduce the model into a single linear transform, rendering it directly interpretable. In this work, we start to draw insights into how this unique branch of neural models operates. We observe that hypercomplex networks exhibit a tendency to concentrate on the shape around the main object of interest, in addition to the shape of the object itself. We provide a thorough analysis, studying single neurons of different layers and comparing them against how real-valued networks learn. The code of the paper is available at https://github.com/ispamm/HxAI. | 翻訳日:2024-03-27 14:08:24 公開日:2024-03-26 |
# あらゆる場所を高速かつロバストに追跡する
Track Everything Everywhere Fast and Robustly ( http://arxiv.org/abs/2403.17931v1 ) ライセンス: Link先を確認 | Yunzhou Song, Jiahui Lei, Ziyun Wang, Lingjie Liu, Kostas Daniilidis, | (参考訳) 本稿では,ビデオ中の任意のピクセルを効率的に,かつ頑健に追跡するための新しいテスト時間最適化手法を提案する。
最新の最先端の最適化ベースのトラッキング技術であるOmniMotionは、非常に長い最適化時間を必要とし、下流アプリケーションでは実用的ではない。
OmniMotionはランダムな種の選択に敏感であり、不安定な収束をもたらす。
効率性とロバスト性を向上させるために,関数表現を局所的な時空間特徴格子に分解し,非線型関数との結合ブロックの表現性を向上する,新しい非可逆変形ネットワークCaDeX++を導入する。
CaDeX++はアーキテクチャ設計に強力な幾何学的バイアスを組み込んでいるが、ビジョン基盤モデルが提供する帰納的バイアスも活用している。
本システムでは,DINOv2の長期意味論を取り入れて最適化プロセスの制御を行うことにより,シーン形状を表現するために単眼深度推定を利用する。
本実験は,SoTA最適化手法であるOmniMotionによる学習速度(textbf{10倍),ロバスト性,精度の大幅な向上を実証した。
We propose a novel test-time optimization approach for efficiently and robustly tracking any pixel at any time in a video. The latest state-of-the-art optimization-based tracking technique, OmniMotion, requires a prohibitively long optimization time, rendering it impractical for downstream applications. OmniMotion is sensitive to the choice of random seeds, leading to unstable convergence. To improve efficiency and robustness, we introduce a novel invertible deformation network, CaDeX++, which factorizes the function representation into a local spatial-temporal feature grid and enhances the expressivity of the coupling blocks with non-linear functions. While CaDeX++ incorporates a stronger geometric bias within its architectural design, it also takes advantage of the inductive bias provided by the vision foundation models. Our system utilizes monocular depth estimation to represent scene geometry and enhances the objective by incorporating DINOv2 long-term semantics to regulate the optimization process. Our experiments demonstrate a substantial improvement in training speed (more than \textbf{10 times} faster), robustness, and accuracy in tracking over the SoTA optimization-based method OmniMotion. | 翻訳日:2024-03-27 14:08:24 公開日:2024-03-26 |
# AiOS:オール・イン・ワン・ワン・ステージ表現型ヒューマン・メッセージと形状推定
AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation ( http://arxiv.org/abs/2403.17934v1 ) ライセンス: Link先を確認 | Qingping Sun, Yanjun Wang, Ailing Zeng, Wanqi Yin, Chen Wei, Wenjia Wang, Haiyi Mei, Chi Sing Leung, Ziwei Liu, Lei Yang, Zhongang Cai, | (参考訳) 表現力のある人間のポーズと形状の推定(つまり、全身メッシュの回復)には、人体、手、表情の推定が含まれる。
既存のほとんどの手法では、まず人体部位をオフザシェルフ検出モデルで検出し、異なる人体部位を個別に推定することで、この課題に2段階的に取り組んできた。
素晴らしい結果が得られたにも拘わらず、これらの手法は苦しむ。
1)収穫による貴重な文脈情報の喪失
2【注意散らしの導入】
3) 異なる人物と身体部位の相互関連が欠如しており, 特に混み合った場面において, 必然的に性能低下を引き起こしている。
これらの問題に対処するため、我々は新しいオール・イン・ワン・ステージ・フレームワークであるAiOSを導入する。
具体的には,多人数の人体メッシュ回復タスクを,様々な逐次検出を伴うプログレッシブセット予測問題として扱うDETRをベースとした手法を提案する。
私たちはデコーダトークンを考案し、タスクに拡張します。
具体的には、まず人間のトークンを用いて画像中の人間の位置を探索し、各インスタンスのグローバルな特徴を符号化し、後続のトランスフォーマーブロックの粗い位置を提供する。
次に、画像中のヒトの関節を探索し、局所的な微細な特徴を符号化するジョイント関連トークンを導入し、グローバルな特徴と協調して全身メッシュを復元する。
AGORAのNMVEの9%の削減、EHFのPVEの30%の削減、ARCTICのPVEの10%の削減、EgoBodyのPVEの3%の削減により、従来の最先端手法よりも優れている。
Expressive human pose and shape estimation (a.k.a. 3D whole-body mesh recovery) involves the human body, hand, and expression estimation. Most existing methods have tackled this task in a two-stage manner, first detecting the human body part with an off-the-shelf detection model and inferring the different human body parts individually. Despite the impressive results achieved, these methods suffer from 1) loss of valuable contextual information via cropping, 2) introducing distractions, and 3) lacking inter-association among different persons and body parts, inevitably causing performance degradation, especially for crowded scenes. To address these issues, we introduce a novel all-in-one-stage framework, AiOS, for multiple expressive human pose and shape recovery without an additional human detection step. Specifically, our method is built upon DETR, which treats multi-person whole-body mesh recovery task as a progressive set prediction problem with various sequential detection. We devise the decoder tokens and extend them to our task. Specifically, we first employ a human token to probe a human location in the image and encode global features for each instance, which provides a coarse location for the later transformer block. Then, we introduce a joint-related token to probe the human joint in the image and encoder a fine-grained local feature, which collaborates with the global feature to regress the whole-body mesh. This straightforward but effective model outperforms previous state-of-the-art methods by a 9% reduction in NMVE on AGORA, a 30% reduction in PVE on EHF, a 10% reduction in PVE on ARCTIC, and a 3% reduction in PVE on EgoBody. | 翻訳日:2024-03-27 14:08:24 公開日:2024-03-26 |
# OmniVid: ユニバーサルビデオ理解のための生成フレームワーク
OmniVid: A Generative Framework for Universal Video Understanding ( http://arxiv.org/abs/2403.17935v1 ) ライセンス: Link先を確認 | Junke Wang, Dongdong Chen, Chong Luo, Bo He, Lu Yuan, Zuxuan Wu, Yu-Gang Jiang, | (参考訳) 認識、キャプション、追跡などのビデオ理解タスクの中核は、ビデオ内のオブジェクトやアクションを自動的に検出し、その時間的進化を分析することである。
共通の目標を共有するにもかかわらず、異なるタスクは、しばしば異なるモデルアーキテクチャとアノテーションフォーマットに依存します。
対照的に、自然言語処理は統一された出力空間、すなわちGPT-3のような強力な基礎言語モデルのトレーニングを単純化するテキストシーケンスから恩恵を受ける。
そこで我々は,言語をラベルとして使用し,時間とボックストークンを付加することにより,映像理解タスクの出力空間を統一することを目指す。
このようにして、様々なビデオタスクをビデオグラウンドトークン生成として定式化することができる。
これにより、動画の分類(アクション認識など)、キャプション(クリップキャプションのカバー)、ビデオ質問応答、濃密なビデオキャプション)、および完全に共有されたエンコーダデコーダアーキテクチャ内のローカライズタスク(ビジュアルオブジェクトトラッキングなど)など、様々な種類のビデオタスクに、生成フレームワークに従って対処することができる。
総合的な実験を通じて、このようなシンプルで簡単なアイデアが極めて効果的であり、7つのビデオベンチマークで最先端または競争的な結果が得られることを実証し、より普遍的なビデオ理解のための新たな視点を提供する。
コードはhttps://github.com/wangjk666/OmniVid.comで入手できる。
The core of video understanding tasks, such as recognition, captioning, and tracking, is to automatically detect objects or actions in a video and analyze their temporal evolution. Despite sharing a common goal, different tasks often rely on distinct model architectures and annotation formats. In contrast, natural language processing benefits from a unified output space, i.e., text sequences, which simplifies the training of powerful foundational language models, such as GPT-3, with extensive training corpora. Inspired by this, we seek to unify the output space of video understanding tasks by using languages as labels and additionally introducing time and box tokens. In this way, a variety of video tasks could be formulated as video-grounded token generation. This enables us to address various types of video tasks, including classification (such as action recognition), captioning (covering clip captioning, video question answering, and dense video captioning), and localization tasks (such as visual object tracking) within a fully shared encoder-decoder architecture, following a generative framework. Through comprehensive experiments, we demonstrate such a simple and straightforward idea is quite effective and can achieve state-of-the-art or competitive results on seven video benchmarks, providing a novel perspective for more universal video understanding. Code is available at https://github.com/wangjk666/OmniVid. | 翻訳日:2024-03-27 14:08:24 公開日:2024-03-26 |
# 共音声ジェスチャ合成のための多モード会話拡散
ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis ( http://arxiv.org/abs/2403.17936v1 ) ライセンス: Link先を確認 | Muhammad Hamza Mughal, Rishabh Dabral, Ikhsanul Habibie, Lucia Donatelli, Marc Habermann, Christian Theobalt, | (参考訳) ジェスチャーは人間のコミュニケーションにおいて重要な役割を果たす。
近年の共同音声ジェスチャ生成手法は、ビートアライメントされた動作を生成するとともに、その発話にセマンティックに整合したジェスチャーを生成するのに苦労している。
音声信号と自然に一致したビートジェスチャと比較して、意味的コヒーレントなジェスチャーは、言語と人間の動作の間の複雑な相互作用をモデル化する必要がある。
そこで本研究では,多モーダル音声入力に基づくジェスチャを生成するだけでなく,ジェスチャ合成における制御性も向上できる,多モーダルジェスチャー合成のための拡散型アプローチであるConvoFusionを提案する。
そこで本手法では,異なる条件付きモーダル(例えば音声とテキスト)の影響をユーザが調整し,ジェスチャーで強調すべき単語を選択するための2つのガイダンス手法を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
DnD Group Gestureデータセットは、多人数の対話型ジェスチャーの研究をさらに進めるために、6時間のジェスチャーデータを含む。
提案手法を最近のいくつかの研究と比較し,様々な課題における本手法の有効性を実証する。
私たちは読者に、私たちのウェブサイトで補足ビデオを見るように促します。
Gestures play a key role in human communication. Recent methods for co-speech gesture generation, while managing to generate beat-aligned motions, struggle generating gestures that are semantically aligned with the utterance. Compared to beat gestures that align naturally to the audio signal, semantically coherent gestures require modeling the complex interactions between the language and human motion, and can be controlled by focusing on certain words. Therefore, we present ConvoFusion, a diffusion-based approach for multi-modal gesture synthesis, which can not only generate gestures based on multi-modal speech inputs, but can also facilitate controllability in gesture synthesis. Our method proposes two guidance objectives that allow the users to modulate the impact of different conditioning modalities (e.g. audio vs text) as well as to choose certain words to be emphasized during gesturing. Our method is versatile in that it can be trained either for generating monologue gestures or even the conversational gestures. To further advance the research on multi-party interactive gestures, the DnD Group Gesture dataset is released, which contains 6 hours of gesture data showing 5 people interacting with one another. We compare our method with several recent works and demonstrate effectiveness of our method on a variety of tasks. We urge the reader to watch our supplementary video at our website. | 翻訳日:2024-03-27 14:08:24 公開日:2024-03-26 |
# 変調型クロスアテンションメモリによる高能率映像オブジェクト分割
Efficient Video Object Segmentation via Modulated Cross-Attention Memory ( http://arxiv.org/abs/2403.17937v1 ) ライセンス: Link先を確認 | Abdelrahman Shaker, Syed Talal Wasim, Martin Danelljan, Salman Khan, Ming-Hsuan Yang, Fahad Shahbaz Khan, | (参考訳) 近年,半教師付きビデオオブジェクトセグメンテーションにおいて,トランスフォーマーに基づくアプローチが有望な結果を示している。
しかし、これらのアプローチは一般的に、GPUメモリの要求が増加するため、数フレーム毎にメモリバンクを頻繁に拡張するため、長いビデオに苦しむ。
我々は,時間的スムーズさを頻繁なメモリ拡張を必要とせず,時間的スムーズさをモデル化するために,MCAメモリを最適化し,動的に変更するMAVOSというトランスフォーマーベースの手法を提案する。
提案したMCAは,映像長に関わらず,局所的特徴とグローバルな特徴を多種多様な粒度で効果的に符号化し,一貫した速度を効率的に維持する。
複数のベンチマーク、LVOS、Long-Time Video、DAVIS 2017の大規模な実験では、提案したコントリビューションの有効性が実時間推論に結びつき、長いビデオのセグメンテーション精度を低下させることなく、メモリ要求が著しく削減された。
既存のトランスフォーマーベースのアプローチと比較して、MAVOSはスピードを7.6倍にし、GPUメモリはショートビデオとロングビデオのデータセットで同等のセグメンテーション性能で87%削減しました。
特にLVOSデータセットでは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコアが63.3%に達しています。
私たちのコードとモデルは、https://github.com/Amshaker/MAVOS.comで公開されます。
Recently, transformer-based approaches have shown promising results for semi-supervised video object segmentation. However, these approaches typically struggle on long videos due to increased GPU memory demands, as they frequently expand the memory bank every few frames. We propose a transformer-based approach, named MAVOS, that introduces an optimized and dynamic long-term modulated cross-attention (MCA) memory to model temporal smoothness without requiring frequent memory expansion. The proposed MCA effectively encodes both local and global features at various levels of granularity while efficiently maintaining consistent speed regardless of the video length. Extensive experiments on multiple benchmarks, LVOS, Long-Time Video, and DAVIS 2017, demonstrate the effectiveness of our proposed contributions leading to real-time inference and markedly reduced memory demands without any degradation in segmentation accuracy on long videos. Compared to the best existing transformer-based approach, our MAVOS increases the speed by 7.6x, while significantly reducing the GPU memory by 87% with comparable segmentation performance on short and long video datasets. Notably on the LVOS dataset, our MAVOS achieves a J&F score of 63.3% while operating at 37 frames per second (FPS) on a single V100 GPU. Our code and models will be publicly available at: https://github.com/Amshaker/MAVOS. | 翻訳日:2024-03-27 14:08:24 公開日:2024-03-26 |
# Pythonのためのスケーラブルで高精度なアプリケーション中心のコールグラフ構築
Scalable and Precise Application-Centered Call Graph Construction for Python ( http://arxiv.org/abs/2305.05949v3 ) ライセンス: Link先を確認 | Kaifeng Huang, Yixuan Yan, Bihuan Chen, Zixin Tao, Yulei Sui, Xin Peng, | (参考訳) コールグラフ構築は、手続き間静的解析の基礎である。
PYCGはPythonプログラムのコールグラフを構築するための最先端のアプローチである。
残念ながら、PyCGは、アプリケーションと依存ライブラリの両方が解析されるプログラム全体の解析に適応する場合、大規模プログラムにはスケールしない。
さらに、PyCGはフローに敏感であり、Pythonの機能を完全にサポートしていないため、その正確さを妨げている。
このような欠点を克服するために,Pythonプログラム用のアプリケーション中心のコールグラフを構築するためのスケーラブルで正確なアプローチを提案し,プロトタイプツールであるJARVISとして実装する。
JARVISは、型推論を可能にするプログラムの各関数の型グラフ(すなわち、プログラム識別子の型関係)を保持する。
1つの関数を入力として、JARVISはオンザフライでコールグラフを生成し、フローセンシティブなイントラプロデューラル解析とイントラプロデューラル解析を交互に行い、強力な更新を行う。
135個のPythonプログラムのマイクロベンチマークと6個の実世界のPythonアプリケーションのマクロベンチマークによる評価は、JARVISがPYCGを少なくとも67%高速化し、精度が84%向上し、リコール時に少なくとも20%向上できることを示した。
Call graph construction is the foundation of inter-procedural static analysis. PYCG is the state-of-the-art approach for constructing call graphs for Python programs. Unfortunately, PyCG does not scale to large programs when adapted to whole-program analysis where application and dependent libraries are both analyzed. Moreover, PyCG is flow-insensitive and does not fully support Python's features, hindering its accuracy. To overcome these drawbacks, we propose a scalable and precise approach for constructing application-centered call graphs for Python programs, and implement it as a prototype tool JARVIS. JARVIS maintains a type graph (i.e., type relations of program identifiers) for each function in a program to allow type inference. Taking one function as an input, JARVIS generates the call graph on-the-fly, where flow-sensitive intra-procedural analysis and inter-procedural analysis are conducted in turn and strong updates are conducted. Our evaluation on a micro-benchmark of 135 small Python programs and a macro-benchmark of 6 real-world Python applications has demonstrated that JARVIS can significantly improve PYCG by at least 67% faster in time, 84% higher in precision, and at least 20% higher in recall. | 翻訳日:2024-03-27 12:07:52 公開日:2024-03-26 |
# 論理による大規模言語モデルにおけるゼロショット・チェーン・オブ・サート推論の強化
Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic ( http://arxiv.org/abs/2309.13339v4 ) ライセンス: Link先を確認 | Xufeng Zhao, Mengdi Li, Wenhao Lu, Cornelius Weber, Jae Hee Lee, Kun Chu, Stefan Wermter, | (参考訳) 大規模言語モデルの最近の進歩は、様々な領域にまたがる顕著な一般化性を示している。
しかしながら、これらの推論能力は、特に多段階の推論を必要とするシナリオに直面した場合には、改善の余地が依然として大きい。
大きな言語モデルは広い知識を持っているが、その推論はしばしば、この知識を効果的に活用して一貫性のある思考パラダイムを確立するのに失敗する。
これらのモデルは、それらの推論手順が論理原理によって制約されないため、幻覚を示すこともある。
大規模言語モデルのゼロショット連鎖推論能力の向上を目的として,記号論理,特にReducetio ad Absurdumに根ざした原理を活用する自己改善促進フレームワークであるLoT (Logical Thoughts)を提案する。
算術,コモンセンス,記号,因果推論,社会問題など多種多様な領域における言語課題に対する実験的評価は,論理学による推論の強化の有効性を実証する。
LoTの実装コードは、https://github.com/xf-zhao/LoTでアクセスできます。
Recent advancements in large language models have showcased their remarkable generalizability across various domains. However, their reasoning abilities still have significant room for improvement, especially when confronted with scenarios requiring multi-step reasoning. Although large language models possess extensive knowledge, their reasoning often fails to effectively utilize this knowledge to establish a coherent thinking paradigm. These models sometimes show hallucinations as their reasoning procedures are unconstrained by logical principles. Aiming at improving the zero-shot chain-of-thought reasoning ability of large language models, we propose LoT (Logical Thoughts), a self-improvement prompting framework that leverages principles rooted in symbolic logic, particularly Reductio ad Absurdum, to systematically verify and rectify the reasoning processes step by step. Experimental evaluations conducted on language tasks in diverse domains, including arithmetic, commonsense, symbolic, causal inference, and social problems, demonstrate the efficacy of enhanced reasoning by logic. The implementation code for LoT can be accessed at: https://github.com/xf-zhao/LoT. | 翻訳日:2024-03-27 12:07:52 公開日:2024-03-26 |
# 地域安定化によるランダム森林の多変量ガウス近似
Multivariate Gaussian Approximation for Random Forest via Region-based Stabilization ( http://arxiv.org/abs/2403.09960v3 ) ライセンス: Link先を確認 | Zhaoyang Shi, Chinmoy Bhattacharjee, Krishnakumar Balasubramanian, Wolfgang Polonik, | (参考訳) 我々はポアソン過程によって与えられる一連のトレーニングポイントに基づいて、データ生成過程における比較的穏やかな規則性仮定に基づいて、ランダムな森林予測のためのガウス近似境界を導出する。
我々のアプローチは、ランダムな森林予測が地域ベースの安定化と呼ばれる特定の幾何学的特性を満たすという重要な観測に基づいている。
ランダム・フォレストの結果を開発する過程では,多変量ガウス近似によるポアソン過程の一般関数に対する独立な興味を持つ確率的結果も確立する。
この一般的な結果は、マリアビン=シュタイン法を利用しており、様々な関連する統計問題に適用できる可能性がある。
We derive Gaussian approximation bounds for random forest predictions based on a set of training points given by a Poisson process, under fairly mild regularity assumptions on the data generating process. Our approach is based on the key observation that the random forest predictions satisfy a certain geometric property called region-based stabilization. In the process of developing our results for the random forest, we also establish a probabilistic result, which might be of independent interest, on multivariate Gaussian approximation bounds for general functionals of Poisson process that are region-based stabilizing. This general result makes use of the Malliavin-Stein method, and is potentially applicable to various related statistical problems. | 翻訳日:2024-03-27 12:03:31 公開日:2024-03-26 |
# スパイキングウェーブレットトランス
Spiking Wavelet Transformer ( http://arxiv.org/abs/2403.11138v3 ) ライセンス: Link先を確認 | Yuetong Fang, Ziqing Wang, Lingfeng Zhang, Jiahang Cao, Honglei Chen, Renjing Xu, | (参考訳) スパイキングニューラルネットワーク(SNN)は、脳のイベント駆動処理を模倣することによって、従来のディープラーニングに代わるエネルギー効率の高い代替手段を提供する。
トランスフォーマーをSNNに組み込むことは正確性を示しているが、グローバルな自己注意操作に依存しているため、移動エッジや画素レベルの明るさ変化などの高周波パターンをキャプチャすることは不可能である。
SNNにおける周波数表現の移植は、イベント駆動型ビジョンでは難しいが、不可欠である。
この問題に対処するために,スパースウェーブレット変換を活用することで,空間周波数の包括的特徴をスパイク駆動方式で効果的に学習する,注目のないアーキテクチャであるSpking Wavelet Transformer (SWformer)を提案する。
重要なコンポーネントは、周波数対応のトークンミキサー(FATM)で、3つのブランチがある。
1)空間周波数領域学習のためのスパイクウェーブレット学習装置
2)空間特徴抽出のための畳み込みに基づく学習者
3) チャネル間情報集約のためのポイントワイド・コンボリューションをスパイクする。
また、周波数表現をさらに強化するために、負のスパイクダイナミクスを採用する。
これにより、SWformerは、私たちの経験的な結果によって証明されているように、高周波数の視覚成分をキャプチャするバニラスパイキングトランスフォーマーよりも優れている。
静的データセットとニューロモルフィックデータセットの両方の実験は、SWformerが乗算のないイベント駆動方式で空間周波数パターンをキャプチャし、最先端のSNNより優れた性能を発揮することを示す。
SWformerは、エネルギー消費の50%以上削減、パラメータ数21.1%削減、ImageNetデータセットのパフォーマンス改善を実現している。
Spiking neural networks (SNNs) offer an energy-efficient alternative to conventional deep learning by mimicking the event-driven processing of the brain. Incorporating the Transformers with SNNs has shown promise for accuracy, yet it is incompetent to capture high-frequency patterns like moving edge and pixel-level brightness changes due to their reliance on global self-attention operations. Porting frequency representations in SNN is challenging yet crucial for event-driven vision. To address this issue, we propose the Spiking Wavelet Transformer (SWformer), an attention-free architecture that effectively learns comprehensive spatial-frequency features in a spike-driven manner by leveraging the sparse wavelet transform. The critical component is a Frequency-Aware Token Mixer (FATM) with three branches: 1) spiking wavelet learner for spatial-frequency domain learning, 2) convolution-based learner for spatial feature extraction, and 3) spiking pointwise convolution for cross-channel information aggregation. We also adopt negative spike dynamics to strengthen the frequency representation further. This enables the SWformer to outperform vanilla Spiking Transformers in capturing high-frequency visual components, as evidenced by our empirical results. Experiments on both static and neuromorphic datasets demonstrate SWformer's effectiveness in capturing spatial-frequency patterns in a multiplication-free, event-driven fashion, outperforming state-of-the-art SNNs. SWformer achieves an over 50% reduction in energy consumption, a 21.1% reduction in parameter count, and a 2.40% performance improvement on the ImageNet dataset compared to vanilla Spiking Transformers. | 翻訳日:2024-03-27 12:03:31 公開日:2024-03-26 |
# 機械学習における脅威、攻撃、防御 - 調査より
Threats, Attacks, and Defenses in Machine Unlearning: A Survey ( http://arxiv.org/abs/2403.13682v2 ) ライセンス: Link先を確認 | Ziyao Liu, Huanyi Ye, Chen Chen, Kwok-Yan Lam, | (参考訳) 機械学習(MU)は、トレーニングされた機械学習モデルから特定のデータの影響を取り除き、安全なAIを実現する可能性を秘めている。
このプロセスは知識除去として知られるもので、品質、感度、著作権制限、陳腐化といったトレーニングデータに関するAIガバナンス上の懸念に対処する。
この機能は、忘れられる権利のようなプライバシー規則の遵守を保証するためにも重要である。
さらに、効果的な知識の除去は有害な結果のリスクを軽減し、バイアスや誤情報、不正なデータエクスプロイトから保護し、AIシステムの安全で責任ある使用を促進する。
MUサービスは既存の機械学習・アズ・ア・サービスとの統合のために検討されており、ユーザーはトレーニング・コーパスから特定のデータを削除するためのリクエストを提出することができる。
しかし、最近の研究では、情報漏洩や悪意のある未学習要求などの機械学習システムの脆弱性が強調されており、セキュリティとプライバシの重大な懸念に繋がる可能性がある。
さらに,未学習の手法や攻撃がMUシステムにおける多様な役割を担っていることを示す。
例えば、アンラーニングはバックドアアタックからモデルを復元するメカニズムとして機能し、バックドアアタック自体がアンラーニングの有効性を評価する指標として機能する。
このことは、システム機能と安全性の維持において、これらのメカニズム間の複雑な関係と複雑な相互作用を浮き彫りにする。
この調査は、機械学習における脅威、攻撃、防衛に関する広範な研究と、それらの分類、方法、解決策を分類する包括的なレビューの欠如の間のギャップを埋めることを目的としており、将来の研究の方向性や実践的な実装について貴重な洞察を提供する。
Machine Unlearning (MU) has gained considerable attention recently for its potential to achieve Safe AI by removing the influence of specific data from trained machine learning models. This process, known as knowledge removal, addresses AI governance concerns of training data such as quality, sensitivity, copyright restrictions, and obsolescence. This capability is also crucial for ensuring compliance with privacy regulations such as the Right To Be Forgotten. Furthermore, effective knowledge removal mitigates the risk of harmful outcomes, safeguarding against biases, misinformation, and unauthorized data exploitation, thereby enhancing the safe and responsible use of AI systems. Efforts have been made to design efficient unlearning approaches, with MU services being examined for integration with existing machine learning as a service, allowing users to submit requests to remove specific data from the training corpus. However, recent research highlights vulnerabilities in machine unlearning systems, such as information leakage and malicious unlearning requests, that can lead to significant security and privacy concerns. Moreover, extensive research indicates that unlearning methods and prevalent attacks fulfill diverse roles within MU systems. For instance, unlearning can act as a mechanism to recover models from backdoor attacks, while backdoor attacks themselves can serve as an evaluation metric for unlearning effectiveness. This underscores the intricate relationship and complex interplay among these mechanisms in maintaining system functionality and safety. This survey aims to fill the gap between the extensive number of studies on threats, attacks, and defenses in machine unlearning and the absence of a comprehensive review that categorizes their taxonomy, methods, and solutions, thus offering valuable insights for future research directions and practical implementations. | 翻訳日:2024-03-27 12:03:31 公開日:2024-03-26 |
# NaNaとMiGu:グラフニューラルネットワークにおけるタンパク質の分類を促進する意味的データ拡張技術
NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks ( http://arxiv.org/abs/2403.14736v2 ) ライセンス: Link先を確認 | Yi-Shan Lan, Pin-Yu Chen, Tsung-Yi Ho, | (参考訳) タンパク質の分類は薬物発見に不可欠である。
現実世界のタンパク質構造は動的であり、タンパク質の性質を決定する。
しかし、ProNet(Wang et al , 2022a)のような既存の機械学習手法は、限定されたコンフォメーション特性とタンパク質側鎖の特徴のみにアクセスでき、それらの予測において、非現実的なタンパク質構造とタンパク質クラスの不正確さをもたらす。
本稿では,新規なセマンティックデータ拡張手法,新しいノード属性の強化(NaNa)および分子間相互作用と幾何学的アップグレード(MiGu)を提案し,背骨化学および側鎖生物物理情報をタンパク質分類タスクと組込み残差学習フレームワークに組み込む。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, タンパク質の分類作業を容易にする。
さらに,我々のセマンティック強化手法と協調埋め込み残学習フレームワークは,ECおよびFoldデータセット(Bairoch, 2000; Andreeva et al, 2007)におけるGIN(Xu et al , 2019)の性能を,それぞれ16.41%,11.33%向上させることができる。
私たちのコードはhttps://github.com/r08b46009/Code_for_MIGU_NANA/tree/mainで利用可能です。
Protein classification tasks are essential in drug discovery. Real-world protein structures are dynamic, which will determine the properties of proteins. However, the existing machine learning methods, like ProNet (Wang et al., 2022a), only access limited conformational characteristics and protein side-chain features, leading to impractical protein structure and inaccuracy of protein classes in their predictions. In this paper, we propose novel semantic data augmentation methods, Novel Augmentation of New Node Attributes (NaNa), and Molecular Interactions and Geometric Upgrading (MiGu) to incorporate backbone chemical and side-chain biophysical information into protein classification tasks and a co-embedding residual learning framework. Specifically, we leverage molecular biophysical, secondary structure, chemical bonds, and ionic features of proteins to facilitate protein classification tasks. Furthermore, our semantic augmentation methods and the co-embedding residual learning framework can improve the performance of GIN (Xu et al., 2019) on EC and Fold datasets (Bairoch, 2000; Andreeva et al., 2007) by 16.41% and 11.33% respectively. Our code is available at https://github.com/r08b46009/Code_for_MIGU_NANA/tree/main. | 翻訳日:2024-03-27 12:03:31 公開日:2024-03-26 |
# RAGを用いた電子イオン衝突型加速器の要約
Towards a RAG-based Summarization Agent for the Electron-Ion Collider ( http://arxiv.org/abs/2403.15729v2 ) ライセンス: Link先を確認 | Karthik Suresh, Neeltje Kackar, Luke Schleck, Cristiano Fanelli, | (参考訳) 文書、論文、データ、その他大規模な実験から得られた資源を包含する複雑さと膨大な量の情報は、ナビゲートするためのかなりの時間と労力を必要としており、特に新しい協力者や初期の科学者にとって、これらの様々な情報へのアクセスと活用のタスクが要求される。
この問題に対処するため、Retrieval Augmented Generation(RAG)ベースのEIC用要約AI(RAGS4EIC)が開発中である。
このAIエージェントは情報を凝縮するだけでなく、関連する応答を効果的に参照する。
まず、関連するすべての実験情報を含む包括的ベクトルデータベースを問合せし、次に、Large Language Model(LLM)を用いて、ユーザクエリと検索データに基づく引用に富んだ簡潔な要約を生成する。
RAGアセスメント(RAGA)スコアリング機構を用いて応答の有効性を評価する評価手法について述べる。
さらに、要約の柔軟性と精度を提供するプロンプトテンプレートベースの命令チューニングについて述べる。
重要なのは、この実装がワークフロー全体の基盤となるLangChainに依存していることです。
この統合により効率性とスケーラビリティが保証され、Electron Ion Collider (EIC)コミュニティ内のさまざまなユーザグループに対して、スムーズなデプロイメントとアクセシビリティが実現される。
この革新的なAI駆動のフレームワークは、膨大なデータセットの理解を単純化するだけでなく、協力的な参加を促進し、研究者を力づける。
実演として、RAGエージェント開発の各段階を詳細に説明するために、Webアプリケーションが開発されている。
The complexity and sheer volume of information encompassing documents, papers, data, and other resources from large-scale experiments demand significant time and effort to navigate, making the task of accessing and utilizing these varied forms of information daunting, particularly for new collaborators and early-career scientists. To tackle this issue, a Retrieval Augmented Generation (RAG)--based Summarization AI for EIC (RAGS4EIC) is under development. This AI-Agent not only condenses information but also effectively references relevant responses, offering substantial advantages for collaborators. Our project involves a two-step approach: first, querying a comprehensive vector database containing all pertinent experiment information; second, utilizing a Large Language Model (LLM) to generate concise summaries enriched with citations based on user queries and retrieved data. We describe the evaluation methods that use RAG assessments (RAGAs) scoring mechanisms to assess the effectiveness of responses. Furthermore, we describe the concept of prompt template-based instruction-tuning which provides flexibility and accuracy in summarization. Importantly, the implementation relies on LangChain, which serves as the foundation of our entire workflow. This integration ensures efficiency and scalability, facilitating smooth deployment and accessibility for various user groups within the Electron Ion Collider (EIC) community. This innovative AI-driven framework not only simplifies the understanding of vast datasets but also encourages collaborative participation, thereby empowering researchers. As a demonstration, a web application has been developed to explain each stage of the RAG Agent development in detail. | 翻訳日:2024-03-27 12:03:31 公開日:2024-03-26 |
# X-ポートレート:階層的な動きを意図した表現的ポートレートアニメーション
X-Portrait: Expressive Portrait Animation with Hierarchical Motion Attention ( http://arxiv.org/abs/2403.15931v2 ) ライセンス: Link先を確認 | You Xie, Hongyi Xu, Guoxian Song, Chao Wang, Yichun Shi, Linjie Luo, | (参考訳) 本稿では,表現的かつ時間的コヒーレントなポートレートアニメーションを生成するための,革新的な条件拡散モデルであるX-Portraitを提案する。
具体的には、外観基準として1つのポートレートを考慮し、動画像から得られる動きをアニメーション化し、非常にダイナミックで微妙な表情と広角な頭部の動きをキャプチャすることを目的としている。
その中核として、予め訓練された拡散モデルの生成前をレンダリングバックボーンとして利用し、制御ネットのフレームワーク内で新しい制御信号による微粒な頭部ポーズと表現制御を実現した。
顔のランドマークのような従来の粗い明示的な制御とは対照的に、動作制御モジュールは、元の駆動RGB入力から直接ダイナミクスを解釈する。
さらに、眼球位置のような小さなニュアンスに対する動きの注意を効果的に高めるパッチベースの局所制御モジュールにより、動きの精度をさらに向上する。
特に、駆動信号からのIDリークを軽減するため、我々は、拡張されたクロスアイデンティティ画像を用いてモーションコントロールモジュールを訓練し、外観基準モジュールからの最大のゆがみを確保する。
実験により,多様な顔画像と表現的運転シーケンスにまたがるX-ポートレートの普遍的有効性を示し,一貫したアイデンティティ特性を持つキャプティベーション・ポートレート・アニメーションの生成能力を示した。
We propose X-Portrait, an innovative conditional diffusion model tailored for generating expressive and temporally coherent portrait animation. Specifically, given a single portrait as appearance reference, we aim to animate it with motion derived from a driving video, capturing both highly dynamic and subtle facial expressions along with wide-range head movements. As its core, we leverage the generative prior of a pre-trained diffusion model as the rendering backbone, while achieve fine-grained head pose and expression control with novel controlling signals within the framework of ControlNet. In contrast to conventional coarse explicit controls such as facial landmarks, our motion control module is learned to interpret the dynamics directly from the original driving RGB inputs. The motion accuracy is further enhanced with a patch-based local control module that effectively enhance the motion attention to small-scale nuances like eyeball positions. Notably, to mitigate the identity leakage from the driving signals, we train our motion control modules with scaling-augmented cross-identity images, ensuring maximized disentanglement from the appearance reference modules. Experimental results demonstrate the universal effectiveness of X-Portrait across a diverse range of facial portraits and expressive driving sequences, and showcase its proficiency in generating captivating portrait animations with consistently maintained identity characteristics. | 翻訳日:2024-03-27 12:03:31 公開日:2024-03-26 |
# PKU-DyMVHumans:高忠実度ダイナミックヒューマンモデリングのためのマルチビュービデオベンチマーク
PKU-DyMVHumans: A Multi-View Video Benchmark for High-Fidelity Dynamic Human Modeling ( http://arxiv.org/abs/2403.16080v2 ) ライセンス: Link先を確認 | Xiaoyun Zheng, Liwei Liao, Xufeng Li, Jianbo Jiao, Rongjie Wang, Feng Gao, Shiqi Wang, Ronggang Wang, | (参考訳) ハイクオリティな人間の再構築とダイナミックシーンのフォトリアリスティックレンダリングは、コンピュータビジョンとグラフィックスの長年の問題である。
様々な捕獲システムや再構築アルゴリズムの開発に多大な努力を払っているにもかかわらず、近年の進歩は、ゆるい服や過度に複雑なポーズに苦慮している。
その理由のひとつは、高品質な人間のデータセットを取得することの難しさにある。
本稿では,高忠実度再構成と動的人間シナリオのレンダリングのための多機能な人間中心データセットであるPKU-DyMVHumansを提案する。
フレーム数は820万フレームで、56台以上の同期カメラによって様々なシナリオで撮影されている。
これらのシーケンスは、45のシナリオにまたがって32人の被験者で構成され、それぞれが高精細な外観とリアルな人間の動きを持つ。
ニューラルラジアンスフィールド(NeRF)ベースのシーン表現の最近の進歩に触発されて、我々は、これらの最先端のNeRFベースの実装とベンチマークをPKU-DyMVHumansデータセットで簡単に提供できるオフ・ザ・シェルフ・フレームワークを慎重に構築した。
微粒な前景/背景の分解、高品質な人間の再構築、ダイナミックシーンのフォトリアリスティックなノベルビュー合成など、様々な応用の道を切り開いている。
ベンチマークで大規模な研究が行われ、そのような高忠実度なダイナミックデータから生まれる新しい観察と課題が実証された。
データセットは、https://pku-dymvhumans.github.ioで公開されている。
High-quality human reconstruction and photo-realistic rendering of a dynamic scene is a long-standing problem in computer vision and graphics. Despite considerable efforts invested in developing various capture systems and reconstruction algorithms, recent advancements still struggle with loose or oversized clothing and overly complex poses. In part, this is due to the challenges of acquiring high-quality human datasets. To facilitate the development of these fields, in this paper, we present PKU-DyMVHumans, a versatile human-centric dataset for high-fidelity reconstruction and rendering of dynamic human scenarios from dense multi-view videos. It comprises 8.2 million frames captured by more than 56 synchronized cameras across diverse scenarios. These sequences comprise 32 human subjects across 45 different scenarios, each with a high-detailed appearance and realistic human motion. Inspired by recent advancements in neural radiance field (NeRF)-based scene representations, we carefully set up an off-the-shelf framework that is easy to provide those state-of-the-art NeRF-based implementations and benchmark on PKU-DyMVHumans dataset. It is paving the way for various applications like fine-grained foreground/background decomposition, high-quality human reconstruction and photo-realistic novel view synthesis of a dynamic scene. Extensive studies are performed on the benchmark, demonstrating new observations and challenges that emerge from using such high-fidelity dynamic data. The dataset is available at: https://pku-dymvhumans.github.io. | 翻訳日:2024-03-27 12:03:31 公開日:2024-03-26 |
# 注視誘導型手動物体相互作用合成 : ベンチマークと方法
Gaze-guided Hand-Object Interaction Synthesis: Benchmark and Method ( http://arxiv.org/abs/2403.16169v2 ) ライセンス: Link先を確認 | Jie Tian, Lingxiao Yang, Ran Ji, Yuexin Ma, Lan Xu, Jingyi Yu, Ye Shi, Jingya Wang, | (参考訳) 迷路は人間の注意と意図を明らかにする上で重要な役割を担い、人間の行動の背後にある認知過程に光を当てる。
視線誘導と手動物体相互作用のダイナミクスを統合することにより、人間の動作予測の精度が向上する。
しかし、視線、手、物体の動きの間の複雑な関係と一貫性を捉えるデータセットの欠如は、依然としてかなりのハードルとなっている。
本稿では,第1回 Gaze-Guided Hand-Object Interaction データセットである GazeHOI について紹介する。
我々のデータセットであるGazeHOIは、平均時間19.1秒、サブシーケンス812、さまざまなサイズの33のオブジェクトを含む479のシーケンスからなる、視線、手、オブジェクトの相互作用を同時に3Dモデリングする。
本稿では,GHO拡散(GHO-Diffusion)という,視線誘導型手オブジェクト相互作用拡散モデルを中心とした階層型フレームワークを提案する。
拡散前段階では、視線条件を空間的時間的特徴に分離し、目標が情報粒度の異なるレベルに提示する。
拡散相の間、2つの視線条件付き拡散モデルが積み重なり、手対象運動の複雑な合成を単純化する。
ここでは、物体の動き拡散モデルが視線条件に基づいて物体の動きのシーケンスを生成し、手の動き拡散モデルが生成された物体の動きに基づいて手の動きを生成する。
細粒度のゴールポーズアライメントを改善するために,デノナイジングステップを導く球状ガウス制約を導入する。
その後の拡散段階において,接触整合性を用いて生成された手の動きを最適化する。
我々の広範な実験は、我々のデータセットのユニークさと、我々のアプローチの有効性を強調している。
Gaze plays a crucial role in revealing human attention and intention, shedding light on the cognitive processes behind human actions. The integration of gaze guidance with the dynamics of hand-object interactions boosts the accuracy of human motion prediction. However, the lack of datasets that capture the intricate relationship and consistency among gaze, hand, and object movements remains a substantial hurdle. In this paper, we introduce the first Gaze-guided Hand-Object Interaction dataset, GazeHOI, and present a novel task for synthesizing gaze-guided hand-object interactions. Our dataset, GazeHOI, features simultaneous 3D modeling of gaze, hand, and object interactions, comprising 479 sequences with an average duration of 19.1 seconds, 812 sub-sequences, and 33 objects of various sizes. We propose a hierarchical framework centered on a gaze-guided hand-object interaction diffusion model, named GHO-Diffusion. In the pre-diffusion phase, we separate gaze conditions into spatial-temporal features and goal pose conditions at different levels of information granularity. During the diffusion phase, two gaze-conditioned diffusion models are stacked to simplify the complex synthesis of hand-object motions. Here, the object motion diffusion model generates sequences of object motions based on gaze conditions, while the hand motion diffusion model produces hand motions based on the generated object motion. To improve fine-grained goal pose alignment, we introduce a Spherical Gaussian constraint to guide the denoising step. In the subsequent post-diffusion phase, we optimize the generated hand motions using contact consistency. Our extensive experiments highlight the uniqueness of our dataset and the effectiveness of our approach. | 翻訳日:2024-03-27 12:03:31 公開日:2024-03-26 |
# 新たなグラフニューラルネットワークによる地震検出
Rumor Detection with a novel graph neural network approach ( http://arxiv.org/abs/2403.16206v2 ) ライセンス: Link先を確認 | Tianrui Liu, Qi Cai, Changxin Xu, Bo Hong, Fanghao Ni, Yuxin Qiao, Tsungwei Yang, | (参考訳) ソーシャルメディアの噂が広まれば、人々の日常生活に悪影響を及ぼし、パニックや恐怖、精神的な健康問題を引き起こしている。
噂をできるだけ早く消し去る方法はまだ難しい問題だ。
既存の研究は主に情報伝達構造を利用して噂を検知するが、ユーザ間の相関に注目する研究はほとんどない。
本稿では,ソーシャルメディア上でのうわさを検出するために,ユーザ相関と情報伝達の両表現を共同で学習する新しい検出モデルを提案する。
具体的には、グラフニューラルネットワークを利用して、ユーザとソースツイートの相関関係を記述する二部グラフと、ツリー構造による情報伝達の表現から、ユーザ相関の表現を学習する。
次に、これらの2つのモジュールから得られた表現を組み合わせて、噂を分類する。
悪意のあるユーザはデプロイ後に我々のモデルを覆すつもりなので、グラフ攻撃、コメント攻撃、共同攻撃という3つの敵攻撃のコストを分析するための欲張り攻撃スキームをさらに発展させます。
2つの公開データセットの評価結果は、提案したMODELが最先端の噂検出モデルより優れていることを示している。
また,本手法は早期のうわさ検出にも有効であることを示す。
さらに,提案手法は,既存手法と比較して,敵攻撃に対してより堅牢である。
重要なことは、攻撃者がユーザ相関パターンを覆すのに高いコストが必要であることを示し、うわさ検出のためにユーザ相関を考慮することが重要であることを示す。
The wide spread of rumors on social media has caused a negative impact on people's daily life, leading to potential panic, fear, and mental health problems for the public. How to debunk rumors as early as possible remains a challenging problem. Existing studies mainly leverage information propagation structure to detect rumors, while very few works focus on correlation among users that they may coordinate to spread rumors in order to gain large popularity. In this paper, we propose a new detection model, that jointly learns both the representations of user correlation and information propagation to detect rumors on social media. Specifically, we leverage graph neural networks to learn the representations of user correlation from a bipartite graph that describes the correlations between users and source tweets, and the representations of information propagation with a tree structure. Then we combine the learned representations from these two modules to classify the rumors. Since malicious users intend to subvert our model after deployment, we further develop a greedy attack scheme to analyze the cost of three adversarial attacks: graph attack, comment attack, and joint attack. Evaluation results on two public datasets illustrate that the proposed MODEL outperforms the state-of-the-art rumor detection models. We also demonstrate our method performs well for early rumor detection. Moreover, the proposed detection method is more robust to adversarial attacks compared to the best existing method. Importantly, we show that it requires a high cost for attackers to subvert user correlation pattern, demonstrating the importance of considering user correlation for rumor detection. | 翻訳日:2024-03-27 12:03:31 公開日:2024-03-26 |
# ニュースレポーティングシナリオにおける画像キャプション
Image Captioning in news report scenario ( http://arxiv.org/abs/2403.16209v2 ) ライセンス: Link先を確認 | Tianrui Liu, Qi Cai, Changxin Xu, Bo Hong, Jize Xiong, Yuxin Qiao, Tsungwei Yang, | (参考訳) 画像キャプションは、特定の画像に対して関連するキャプションを生成し、コンピュータビジョン(CV)と自然言語処理(NLP)の交差点に自分自身を配置する。
この取り組みは、レコメンデーションシステム、ニュースメディア、ソーシャルメディアなどにおける広範囲の応用において、最重要事項である。
特にニュース報道の領域では、キャプションには、画像に写っている有名人の身元などの詳細な情報が含まれることが期待されている。
しかし、既存の作品の多くは、主に場面や行動を理解することに焦点を当てている。
本稿では,有名人の写真に特化された画像キャプションの領域を探求し,ニュース産業の実践強化の可能性について考察する。
この調査は、自動ニュースコンテンツ生成を強化し、より曖昧な情報発信を容易にすることを目的としている。
私たちの取り組みは、より直感的な画像キャプションフレームワークを通じて、ニュースレポートの物語を豊かにする、より広い視野を示している。
Image captioning strives to generate pertinent captions for specified images, situating itself at the crossroads of Computer Vision (CV) and Natural Language Processing (NLP). This endeavor is of paramount importance with far-reaching applications in recommendation systems, news outlets, social media, and beyond. Particularly within the realm of news reporting, captions are expected to encompass detailed information, such as the identities of celebrities captured in the images. However, much of the existing body of work primarily centers around understanding scenes and actions. In this paper, we explore the realm of image captioning specifically tailored for celebrity photographs, illustrating its broad potential for enhancing news industry practices. This exploration aims to augment automated news content generation, thereby facilitating a more nuanced dissemination of information. Our endeavor shows a broader horizon, enriching the narrative in news reporting through a more intuitive image captioning framework. | 翻訳日:2024-03-27 12:03:31 公開日:2024-03-26 |
# バイオメディカル・ヘルスインフォマティクスにおける大規模言語モデル
Large Language Models in Biomedical and Health Informatics: A Bibliometric Review ( http://arxiv.org/abs/2403.16303v2 ) ライセンス: Link先を確認 | Huizi Yu, Lizhou Fan, Lingyao Li, Jiayan Zhou, Zihui Ma, Lu Xian, Wenyue Hua, Sijia He, Mingyu Jin, Yongfeng Zhang, Ashvin Gandhi, Xin Ma, | (参考訳) 大規模言語モデル(LLM)は、バイオメディカルおよびヘルスインフォマティクス(BHI)において急速に重要なツールとなり、データを分析し、患者を治療し、研究を行う新しい方法を可能にしている。
本書評は,2022年から2023年までの研究論文やコラボレーションネットワークを調査し,LLMがBHIでどのように使われているかを示すパノラマ的な視点を提供することを目的とする。
LLMは、医療診断、患者のエンゲージメント、電子カルテ管理、パーソナライズドメディカル医療など、さまざまなBHI領域における自然言語処理(NLP)の応用をどのように改善するかについても検討している。
これを実現するために,本書評では,重要なトレンドを特定し,研究ネットワークをマップアウトし,この急速移動分野における主要な発展点を明らかにする。
最後に、データプライバシや信頼できる医療レコメンデーションなど、BHIにおけるLLMの使用に関する倫理的懸念と実践的課題について論じる。
今後は、LLMが医療提供や患者の成果だけでなく、バイオメディカル研究をさらに変えていくかを検討する。
この文献学的レビューは、BHIにおけるLLMの現状と将来の可能性を理解するために、研究者、臨床医、政策立案者を含む医療関係者のリソースとなる。
Large Language Models (LLMs) have rapidly become important tools in Biomedical and Health Informatics (BHI), enabling new ways to analyze data, treat patients, and conduct research. This bibliometric review aims to provide a panoramic view of how LLMs have been used in BHI by examining research articles and collaboration networks from 2022 to 2023. It further explores how LLMs can improve Natural Language Processing (NLP) applications in various BHI areas like medical diagnosis, patient engagement, electronic health record management, and personalized medicine. To do this, our bibliometric review identifies key trends, maps out research networks, and highlights major developments in this fast-moving field. Lastly, it discusses the ethical concerns and practical challenges of using LLMs in BHI, such as data privacy and reliable medical recommendations. Looking ahead, we consider how LLMs could further transform biomedical research as well as healthcare delivery and patient outcomes. This bibliometric review serves as a resource for stakeholders in healthcare, including researchers, clinicians, and policymakers, to understand the current state and future potential of LLMs in BHI. | 翻訳日:2024-03-27 12:03:31 公開日:2024-03-26 |
# Re2LLM: セッションベースのレコメンデーションのためのリフレクティブ強化大言語モデル
Re2LLM: Reflective Reinforcement Large Language Model for Session-based Recommendation ( http://arxiv.org/abs/2403.16427v2 ) ライセンス: Link先を確認 | Ziyan Wang, Yingpeng Du, Zhu Sun, Haoyan Chua, Kaidong Feng, Wenya Wang, Jie Zhang, | (参考訳) 大規模言語モデル (LLMs) はセッションベースレコメンデーション(SBR)を強化するための有望なアプローチとして登場し, プロンプトベースと微調整ベースの両方の手法が広く研究されている。
しかし、従来の手法では、タスク固有のフィードバックが欠如しているため、LLMの正しい推論を引き出すための最適なプロンプトに苦しむため、不満足なレコメンデーションが生じる。
後者の手法はドメイン固有の知識でLLMを微調整しようとするが、高い計算コストやオープンソースのバックボーンへの依存といった制限に直面している。
このような問題に対処するため、我々はSBRのための \underline{Re}flective \underline{Re}inforcement \underline{L}arge \underline{L}anguage \underline{M}odel (Re2LLM)を提案する。
特に,LLMが理解しやすく,消化しやすい知識を効果的に抽出するために,まず反射探索モジュールを設計する。
具体的には,LLMに対して自己回帰による推薦誤りの検証を指示し,これらの誤りを修正可能なヒントを含む知識ベース(KB)を構築する。
さらに,LLMの正しい推論を効率的に行うために,軽量検索エージェントを訓練するための強化利用モジュールを考案する。
タスク固有のフィードバックに基づいて、構築されたKBからヒントを選択することを学び、そこでヒントは、より良いレコメンデーションのためにLLMの推論を修正するためのガイダンスとして役立ちます。
複数の実世界のデータセットに対する大規模な実験は、我々の手法が常に最先端の手法より優れていることを示した。
Large Language Models (LLMs) are emerging as promising approaches to enhance session-based recommendation (SBR), where both prompt-based and fine-tuning-based methods have been widely investigated to align LLMs with SBR. However, the former methods struggle with optimal prompts to elicit the correct reasoning of LLMs due to the lack of task-specific feedback, leading to unsatisfactory recommendations. Although the latter methods attempt to fine-tune LLMs with domain-specific knowledge, they face limitations such as high computational costs and reliance on open-source backbones. To address such issues, we propose a \underline{Re}flective \underline{Re}inforcement \underline{L}arge \underline{L}anguage \underline{M}odel (Re2LLM) for SBR, guiding LLMs to focus on specialized knowledge essential for more accurate recommendations effectively and efficiently. In particular, we first design the Reflective Exploration Module to effectively extract knowledge that is readily understandable and digestible by LLMs. To be specific, we direct LLMs to examine recommendation errors through self-reflection and construct a knowledge base (KB) comprising hints capable of rectifying these errors. To efficiently elicit the correct reasoning of LLMs, we further devise the Reinforcement Utilization Module to train a lightweight retrieval agent. It learns to select hints from the constructed KB based on the task-specific feedback, where the hints can serve as guidance to help correct LLMs reasoning for better recommendations. Extensive experiments on multiple real-world datasets demonstrate that our method consistently outperforms state-of-the-art methods. | 翻訳日:2024-03-27 12:03:31 公開日:2024-03-26 |
# VMRNN: 効率的な時空間予測のためのビジョンマンバとLSTMの統合
VMRNN: Integrating Vision Mamba and LSTM for Efficient and Accurate Spatiotemporal Forecasting ( http://arxiv.org/abs/2403.16536v2 ) ライセンス: Link先を確認 | Yujin Tang, Peijie Dong, Zhenheng Tang, Xiaowen Chu, Junwei Liang, | (参考訳) CNN や ViT を時空間予測用の RNN と組み合わせることで,時間的・空間的ダイナミクスを予測できる無矛盾の結果が得られた。
しかし、広範にグローバルな情報をモデリングすることは依然として困難な課題であり、CNNは狭い受容領域によって制限されており、ViTは注意機構の計算的要求に苦慮している。
最近のマンバをベースとしたアーキテクチャの出現は、高効率と精度で確立されたビジョンモデルを超え、時空間予測に適した革新的なアーキテクチャを開発する動機となった、非常に長いシーケンスモデリング能力に熱中している。
本稿では,視覚マンバブロックの強みをLSTMと統合した新しいリカレントユニットであるVMRNNセルを提案する。
時空間予測処理を効果的に行うため,VMRNNセルを中心としたネットワークを構築した。
提案手法は, モデルサイズを小さく保ちながら, 様々なタスクにおける競争力を確保できることを示す。
私たちのコードはhttps://github.com/yyyujintang/VMRNN-PyTorchで公開されています。
Combining CNNs or ViTs, with RNNs for spatiotemporal forecasting, has yielded unparalleled results in predicting temporal and spatial dynamics. However, modeling extensive global information remains a formidable challenge; CNNs are limited by their narrow receptive fields, and ViTs struggle with the intensive computational demands of their attention mechanisms. The emergence of recent Mamba-based architectures has been met with enthusiasm for their exceptional long-sequence modeling capabilities, surpassing established vision models in efficiency and accuracy, which motivates us to develop an innovative architecture tailored for spatiotemporal forecasting. In this paper, we propose the VMRNN cell, a new recurrent unit that integrates the strengths of Vision Mamba blocks with LSTM. We construct a network centered on VMRNN cells to tackle spatiotemporal prediction tasks effectively. Our extensive evaluations show that our proposed approach secures competitive results on a variety of tasks while maintaining a smaller model size. Our code is available at https://github.com/yyyujintang/VMRNN-PyTorch. | 翻訳日:2024-03-27 12:03:31 公開日:2024-03-26 |
# CLHA: ヒューマンアライメントのためのシンプルで効果的なコントラスト学習フレームワーク
CLHA: A Simple yet Effective Contrastive Learning Framework for Human Alignment ( http://arxiv.org/abs/2403.16649v2 ) ライセンス: Link先を確認 | Feiteng Fang, Liang Zhu, Min Yang, Xi Feng, Jinchang Hou, Qixuan Zhao, Chengming Li, Xiping Hu, Ruifeng Xu, | (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる上で重要な手法であり、これらのLLMがユーザにとって有益で理解しやすい方法で振舞うことを保証する。
しかし、強化学習に基づく人間のアライメント技術における長年の課題は、その固有の複雑さと訓練の難しさにある。
この課題に対処するために、LLMと人間の嗜好を直接整合させる、単純で効果的な人間適応のためのコントラスト学習フレームワーク(CLHA)を提案する。
CLHAは、その固有の品質を考慮し、トレーニングプロセスを動的に調整することで、データ内のノイズを評価するために、新しいリスコリング戦略を採用している。
同時に、CLHAは対向的なコントラスト損失と適応的な教師付き微調整損失を利用して、反応の発生可能性を適応的に修正し、人間の嗜好との整合性を確保する。
高度な手法を用いることで、CLHAは他のアルゴリズムを超越し、報酬モデルスコア、自動評価、そして広く使われている `Helpful and Harmless''' データセットに対する人間の評価の点で優れたパフォーマンスを示す。
Reinforcement learning from human feedback (RLHF) is a crucial technique in aligning large language models (LLMs) with human preferences, ensuring these LLMs behave in beneficial and comprehensible ways to users. However, a longstanding challenge in human alignment techniques based on reinforcement learning lies in their inherent complexity and difficulty in training. To address this challenge, we present a simple yet effective Contrastive Learning Framework for Human Alignment (CLHA) to align LLMs with human preferences directly. CLHA employs a novel rescoring strategy to evaluate the noise within the data by considering its inherent quality and dynamically adjusting the training process. Simultaneously, CLHA utilizes pairwise contrastive loss and adaptive supervised fine-tuning loss to adaptively modify the likelihood of generating responses, ensuring enhanced alignment with human preferences. Using advanced methods, CLHA surpasses other algorithms, showcasing superior performance in terms of reward model scores, automatic evaluations, and human assessments on the widely used ``Helpful and Harmless'' dataset. | 翻訳日:2024-03-27 12:03:31 公開日:2024-03-26 |
# RU22Fact:ロシア・ウクライナ紛争における多言語説明可能なFact-Checkingのエビデンス最適化
RU22Fact: Optimizing Evidence for Multilingual Explainable Fact-Checking on Russia-Ukraine Conflict ( http://arxiv.org/abs/2403.16662v2 ) ライセンス: Link先を確認 | Yirong Zeng, Xiao Ding, Yi Zhao, Xiangyu Li, Jie Zhang, Chao Yao, Ting Liu, Bing Qin, | (参考訳) ファクトチェック(Fact-checking)は、あるクレームの事実を、利用可能な証拠を調べて検証するタスクである。
高品質な証拠は、事実確認システムを強化し、人間にとって理解できる説明の生成を促進する上で重要な役割を担っている。
しかし、説明可能なファクトチェックシステムに関する十分な証拠と関連する証拠の提供が課題となっている。
そこで本研究では,Webから証拠を自動的に抽出・要約する大規模言語モデルを提案する。
さらに、2022年にロシアとウクライナの紛争に関する新しい多言語で説明可能な事実チェックデータセットRU22Factを構築し、それぞれに現実世界の主張、最適化された証拠、参照された説明を含む。
また,データセットのベースラインを確立するために,クレームの検証と説明生成を行うエンドツーエンドのファクトチェックシステムを開発した。
実験結果から, 事実確認性能の向上が期待できることを示すとともに, エンド・ツー・エンドのクレーム検証および説明生成タスクのさらなる進展の可能性を示す。
Fact-checking is the task of verifying the factuality of a given claim by examining the available evidence. High-quality evidence plays a vital role in enhancing fact-checking systems and facilitating the generation of explanations that are understandable to humans. However, the provision of both sufficient and relevant evidence for explainable fact-checking systems poses a challenge. To tackle this challenge, we propose a method based on a Large Language Model to automatically retrieve and summarize evidence from the Web. Furthermore, we construct RU22Fact, a novel multilingual explainable fact-checking dataset on the Russia-Ukraine conflict in 2022 of 16K samples, each containing real-world claims, optimized evidence, and referenced explanation. To establish a baseline for our dataset, we also develop an end-to-end explainable fact-checking system to verify claims and generate explanations. Experimental results demonstrate the prospect of optimized evidence in increasing fact-checking performance and also indicate the possibility of further progress in the end-to-end claim verification and explanation generation tasks. | 翻訳日:2024-03-27 12:03:31 公開日:2024-03-26 |