このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240615となっている論文です。

PDF登録状況(公開日: 20240615)

TitleAuthorsAbstract論文公表日・翻訳日
# 学生ソーシャルメディアエンゲージメントにおけるLLMとAIツールの変容的影響:パーソナライズ、コミュニケーション効率、協調学習の分析

Transformative Influence of LLM and AI Tools in Student Social Media Engagement: Analyzing Personalization, Communication Efficiency, and Collaborative Learning ( http://arxiv.org/abs/2407.15012v1 )

ライセンス: Link先を確認
Masoud Bashiri, Kamran Kowsari, (参考訳) 大規模言語モデル(LLM)と人工知能(AI)ツールの出現は、特にソーシャルメディアの領域において、私たちの生活の様々な側面に革命をもたらした。 学生にとって、これらの進歩は、学習、コラボレーション、そして個人的成長のための前例のない機会を解き放った。 AI駆動のアプリケーションは、学生がソーシャルメディアと対話する方法を変え、パーソナライズされたコンテンツとレコメンデーションを提供し、よりスマートで効率的なコミュニケーションを可能にする。 近年のUniversityCubeのデータを活用した研究は、AIツールが学生の学術的、社会的な経験に深く影響していることを示している。 これらの研究は、AIを活用したソーシャルメディアプラットフォームに携わる学生が、より高い学業成績、批判的思考能力の強化、協力プロジェクトへの関与の増大を報告していることを示している。 さらに、AIツールは、邪魔なコンテンツをフィルタリングするのに役立つため、学生は教育資料や関連する議論に集中することができる。 ソーシャルメディアにおけるLLMの統合により、ピアツーピアコミュニケーションとメンターシップの機会が向上した。 AIアルゴリズムは、共有された学術的関心とキャリア目標に基づいて、学生を効果的にマッチングし、支援的かつ知的に刺激するオンラインコミュニティを育み、学生の満足度と保持率の向上に寄与する。 本稿では、UniversityCubeが提供するデータを調べ、LLMとAIツールが、学生向けのソーシャルメディアを具体的に変える方法を探る。 ケーススタディと統計分析を通じて、これらの技術がもたらす教育的および社会的利益の包括的理解を提供する。 我々の調査は、デジタル時代の学生のためのより豊かで効率的で支援的な教育環境を構築するための、AI駆動のツールの可能性を強調している。

The advent of Large Language Models (LLMs) and Artificial Intelligence (AI) tools has revolutionized various facets of our lives, particularly in the realm of social media. For students, these advancements have unlocked unprecedented opportunities for learning, collaboration, and personal growth. AI-driven applications are transforming how students interact with social media, offering personalized content and recommendations, and enabling smarter, more efficient communication. Recent studies utilizing data from UniversityCube underscore the profound impact of AI tools on students' academic and social experiences. These studies reveal that students engaging with AI-enhanced social media platforms report higher academic performance, enhanced critical thinking skills, and increased engagement in collaborative projects. Moreover, AI tools assist in filtering out distracting content, allowing students to concentrate more on educational materials and pertinent discussions. The integration of LLMs in social media has further facilitated improved peer-to-peer communication and mentorship opportunities. AI algorithms effectively match students based on shared academic interests and career goals, fostering a supportive and intellectually stimulating online community, thereby contributing to increased student satisfaction and retention rates. In this article, we delve into the data provided by UniversityCube to explore how LLMs and AI tools are specifically transforming social media for students. Through case studies and statistical analyses, we offer a comprehensive understanding of the educational and social benefits these technologies offer. Our exploration highlights the potential of AI-driven tools to create a more enriched, efficient, and supportive educational environment for students in the digital age.
翻訳日:2024-08-05 01:55:24 公開日:2024-06-15
# 残差接続に基づく映像の暗黙的ニューラル表現

Implicit Neural Representation for Videos Based on Residual Connection ( http://arxiv.org/abs/2407.06164v1 )

ライセンス: Link先を確認
Taiga Hayami, Hiroshi Watanabe, (参考訳) ビデオ圧縮技術はビデオの送信と保存に不可欠である。 多くのビデオ圧縮手法は、高周波数成分を除去し、フレーム間の類似性を利用することで、ビデオ内の情報を減らす。 あるいは、ビデオの暗黙的ニューラル表現(INR)も、モデル圧縮を通じてビデオの表現と圧縮にネットワークを使用している。 従来の手法ではフレーム特徴を用いて復元の質を向上させる。 しかし、フレームの詳細な表現は改善できる。 再構成フレームの品質向上のために,画像再構成に有効な残差接続として低解像度フレームを用いる手法を提案する。 実験の結果,本手法はPSNRの既存手法であるHNeRVを49本中46本で上回っていることがわかった。

Video compression technology is essential for transmitting and storing videos. Many video compression methods reduce information in videos by removing high-frequency components and utilizing similarities between frames. Alternatively, the implicit neural representations (INRs) for videos, which use networks to represent and compress videos through model compression. A conventional method improves the quality of reconstruction by using frame features. However, the detailed representation of the frames can be improved. To improve the quality of reconstructed frames, we propose a method that uses low-resolution frames as residual connection that is considered effective for image reconstruction. Experimental results show that our method outperforms the existing method, HNeRV, in PSNR for 46 of the 49 videos.
翻訳日:2024-07-22 14:07:46 公開日:2024-06-15
# Poetry2Image: 中国語の古典詩から生成された画像の反復補正フレームワーク

Poetry2Image: An Iterative Correction Framework for Images Generated from Chinese Classical Poetry ( http://arxiv.org/abs/2407.06196v1 )

ライセンス: Link先を確認
Jing Jiang, Yiran Ling, Binzhu Li, Pengxiang Li, Junming Piao, Yu Zhang, (参考訳) テキスト・ツー・イメージ・ジェネレーション・モデルは、漢詩に関わる課題において、重要な要素損失や意味的混乱に苦しむことが多く、微調整モデルによるこの問題の適応にはかなりの訓練コストが必要である。 さらに、再拡散調整のための手動プロンプトは専門的な知識を必要とする。 この問題を解決するために,漢詩から生成された画像の反復補正フレームワークであるPoetry2Imageを提案する。 Poetry2Imageは、外部の詩データセットを利用することで、自動的なフィードバックと修正ループを確立し、画像生成モデルを通じて詩と画像のアライメントを高め、その後、大きな言語モデル(LLM)によって提案される再拡散修正を行う。 提案手法は、漢詩200文からなるテストセットを用いて、5つの人気画像生成モデルを統合することで、平均的要素完全性70.63%を達成し、直接画像生成よりも25.56%向上したことを示す。 意味的正確性テストでは,平均的意味的一貫性が80.09%に達する。 この研究は、古代の詩文化の普及を促進するだけでなく、LLM生成を促進するための類似の非微調整手法への言及も提供する。

Text-to-image generation models often struggle with key element loss or semantic confusion in tasks involving Chinese classical poetry.Addressing this issue through fine-tuning models needs considerable training costs. Additionally, manual prompts for re-diffusion adjustments need professional knowledge. To solve this problem, we propose Poetry2Image, an iterative correction framework for images generated from Chinese classical poetry. Utilizing an external poetry dataset, Poetry2Image establishes an automated feedback and correction loop, which enhances the alignment between poetry and image through image generation models and subsequent re-diffusion modifications suggested by large language models (LLM). Using a test set of 200 sentences of Chinese classical poetry, the proposed method--when integrated with five popular image generation models--achieves an average element completeness of 70.63%, representing an improvement of 25.56% over direct image generation. In tests of semantic correctness, our method attains an average semantic consistency of 80.09%. The study not only promotes the dissemination of ancient poetry culture but also offers a reference for similar non-fine-tuning methods to enhance LLM generation.
翻訳日:2024-07-22 14:07:46 公開日:2024-06-15
# 眼球運動補助アノテーションを用いた脳波による焦点状態認識

Focused State Recognition Using EEG with Eye Movement-Assisted Annotation ( http://arxiv.org/abs/2407.09508v1 )

ライセンス: Link先を確認
Tian-Hua Li, Tian-Fang Ma, Dan Peng, Wei-Long Zheng, Bao-Liang Lu, (参考訳) 機械学習の急速な進歩により、脳波と眼球運動信号に基づく脳活動の認識と分析が高度に洗練されている。 脳波と眼球運動の特徴を学習するためのディープラーニングモデルの利用は、脳活動の分類に有効である。 集中状態は、タスクや思考に強い集中力を示す。 焦点を絞った非焦点状態の識別は、脳活動の変動を反映して、眼球運動行動によって達成される。 眼球運動信号の両眼焦点差を計算し、関連する脳波特徴を統合することにより、焦点状態のアノテーション手法を提案する。 その結果得られた包括的データセットは、バイオ取得デバイスによって処理された生データから導かれるもので、脳波の特徴と眼球運動によって注釈付けされた集中ラベルの両方を含む。 いくつかのディープラーニングモデル、特にTransformerの大規模なトレーニングとテストにより、被験者に依存した実験では90.16%の精度が得られた。 提案手法の有効性を実証し, クロスオブジェクト実験, キー周波数帯域, 脳領域分析により, その一般化可能性を確認し, 生理的説明を行った。

With the rapid advancement in machine learning, the recognition and analysis of brain activity based on EEG and eye movement signals have attained a high level of sophistication. Utilizing deep learning models for learning EEG and eye movement features proves effective in classifying brain activities. A focused state indicates intense concentration on a task or thought. Distinguishing focused and unfocused states can be achieved through eye movement behaviors, reflecting variations in brain activities. By calculating binocular focusing point disparity in eye movement signals and integrating relevant EEG features, we propose an annotation method for focused states. The resulting comprehensive dataset, derived from raw data processed through a bio-acquisition device, includes both EEG features and focused labels annotated by eye movements. Extensive training and testing on several deep learning models, particularly the Transformer, yielded a 90.16% accuracy on the subject-dependent experiments. The validity of this approach was demonstrated, with cross-subject experiments, key frequency band and brain region analyses confirming its generalizability and providing physiological explanations.
翻訳日:2024-07-22 13:28:38 公開日:2024-06-15
# ライブストリーミングハイライト予測のためのマルチモーダルトランス

A Multimodal Transformer for Live Streaming Highlight Prediction ( http://arxiv.org/abs/2407.12002v1 )

ライセンス: Link先を確認
Jiaxin Deng, Shiyao Wang, Dong Shen, Liqin Zhao, Fan Yang, Guorui Zhou, Gaofeng Meng, (参考訳) 近年、ライブストリーミングプラットフォームは大きな人気を集めている。 従来のビデオハイライト検出は主に視覚的特徴に焦点を当てており、過去のコンテンツと将来のコンテンツの両方を予測に利用している。 しかし、ライブストリーミングでは、将来のフレームなしで推論し、画像、オーディオ、テキストコメントを含む複雑なマルチモーダルインタラクションを処理するモデルが必要である。 これらの問題に対処するために,歴史的ルックバックウィンドウを組み込んだマルチモーダルトランスフォーマーを提案する。 モーダル信号の時間的シフトを扱うための新しいモーダル時間アライメントモジュールを提案する。 さらに、手動のアノテーションが制限された既存のデータセットを使用することは、トピックが常に更新され、変更されるライブストリーミングには不十分である。 そこで本稿では,大規模データセットから学習し,ユーザの暗黙的なフィードバックを弱い監視信号として活用する,境界対応Pairwise Lossを提案する。 大規模な実験により、我々のモデルは現実世界のシナリオと公開データセットの両方において、様々な強力なベースラインを上回ります。 そして、このトピックをよりよく評価するために、データセットとコードを公開します。

Recently, live streaming platforms have gained immense popularity. Traditional video highlight detection mainly focuses on visual features and utilizes both past and future content for prediction. However, live streaming requires models to infer without future frames and process complex multimodal interactions, including images, audio and text comments. To address these issues, we propose a multimodal transformer that incorporates historical look-back windows. We introduce a novel Modality Temporal Alignment Module to handle the temporal shift of cross-modal signals. Additionally, using existing datasets with limited manual annotations is insufficient for live streaming whose topics are constantly updated and changed. Therefore, we propose a novel Border-aware Pairwise Loss to learn from a large-scale dataset and utilize user implicit feedback as a weak supervision signal. Extensive experiments show our model outperforms various strong baselines on both real-world scenarios and public datasets. And we will release our dataset and code to better assess this topic.
翻訳日:2024-07-22 11:30:12 公開日:2024-06-15
# 対話型・生成型人工知能の科学的展望と教育・研究における人間-チャットボット相互作用に関する研究

An investigation into the scientific landscape of the conversational and generative artificial intelligence, and human-chatbot interaction in education and research ( http://arxiv.org/abs/2407.12004v1 )

ライセンス: Link先を確認
Ikpe Justice Akpan, Yawo M. Kobara, Josiah Owolabi, Asuama Akpam, Onyebuchi Felix Offodile, (参考訳) 破壊的技術としての人工知能(AI)は新しいものではない。 しかし、その最近の進化は、技術変革、ビッグデータ分析、量子コンピューティングによって構築され、対話的で生成的なAI(CGAI/GenAI)と、さまざまな分野における従来の操作やメソッドを妨害する人間のようなチャットボットを生み出している。 本研究は,CGAIと人間-チャットボットのインタラクション・コラボレーションの科学的展望を考察し,多学際教育および関連産業活動におけるユースケース,メリット,課題,および政策含意を評価した。 この傾向は、2006-2018年にわずか4%(n=75)、2019-2023年には天文学的な成長を経験した(n=1763または96%)。 CGAI(例:ChatGPT)のコンピュータ科学(マルチディシプリナとAI)、32%、医療・医療(17%)、工学(7%)、ビジネス分野(6%)における教育・学習・研究活動の顕著な利用例が報告された。 知的構造は、ビジネス、情報システム、その他の分野における卓越した複数の学際的な情報源の間で強い協力関係を示している。 SLPのテーマ構造は、人-コンピュータインタラクションにおけるユーザエクスペリエンスの向上、コンピュータプログラム/コード生成、システム生成など、CGAIの顕著なユースケースを強調している。 教師、研究者、学習者には、シラビ/コースコンテンツ生成、テスト支援、学術的執筆など、幅広いCGAIの有用性がある。 虐待や誤用(プラグマリズム、学術的完全性、プライバシー侵害)や誤情報、自己診断の危険性、医療・医療分野における患者のプライバシーに関する懸念が顕著である。 教育・学習・実践におけるCGAIの潜在的な課題に対処するための戦略と政策の定式化が最優先事項である。 乱用チェックのための規律に基づくGenAIコンテンツの自動検出手法を提案する。

Artificial intelligence (AI) as a disruptive technology is not new. However, its recent evolution, engineered by technological transformation, big data analytics, and quantum computing, produces conversational and generative AI (CGAI/GenAI) and human-like chatbots that disrupt conventional operations and methods in different fields. This study investigates the scientific landscape of CGAI and human-chatbot interaction/collaboration and evaluates use cases, benefits, challenges, and policy implications for multidisciplinary education and allied industry operations. The publications trend showed that just 4% (n=75) occurred during 2006-2018, while 2019-2023 experienced astronomical growth (n=1763 or 96%). The prominent use cases of CGAI (e.g., ChatGPT) for teaching, learning, and research activities occurred in computer science [multidisciplinary and AI] (32%), medical/healthcare (17%), engineering (7%), and business fields (6%). The intellectual structure shows strong collaboration among eminent multidisciplinary sources in business, Information Systems, and other areas. The thematic structure of SLP highlights prominent CGAI use cases, including improved user experience in human-computer interaction, computer programs/code generation, and systems creation. Widespread CGAI usefulness for teachers, researchers, and learners includes syllabi/course content generation, testing aids, and academic writing. The concerns about abuse and misuse (plagiarism, academic integrity, privacy violations) and issues about misinformation, danger of self-diagnoses, and patient privacy in medical/healthcare applications are prominent. Formulating strategies and policies to address potential CGAI challenges in teaching/learning and practice are priorities. Developing discipline-based automatic detection of GenAI contents to check abuse is proposed.
翻訳日:2024-07-22 11:30:12 公開日:2024-06-15
# VCEval: 良い教育ビデオとそれを自動的に評価する方法を再考する

VCEval: Rethinking What is a Good Educational Video and How to Automatically Evaluate It ( http://arxiv.org/abs/2407.12005v1 )

ライセンス: Link先を確認
Xiaoxuan Zhu, Zhouhong Gu, Sihang Jiang, Zhixu Li, Hongwei Feng, Yanghua Xiao, (参考訳) オンラインコースは、教育へのアクセス障壁を著しく減らしているが、これらのビデオのコンテンツ品質の変化は課題を招いている。 本研究では,映像コンテンツの品質を自動評価する作業に焦点をあてる。 ビデオコースや教材を大量に収集したデータセットを構築した。 これらの原則に基づいて,3つの評価原則を提案し,新しい評価枠組みである「textit{VCEval}」を設計する。 タスクは複数選択の質問応答タスクとしてモデル化され、言語モデルが評価者として機能する。 本手法は,コンテンツ品質の異なるビデオコースを効果的に識別し,様々な解釈可能な結果を生成する。

Online courses have significantly lowered the barrier to accessing education, yet the varying content quality of these videos poses challenges. In this work, we focus on the task of automatically evaluating the quality of video course content. We have constructed a dataset with a substantial collection of video courses and teaching materials. We propose three evaluation principles and design a new evaluation framework, \textit{VCEval}, based on these principles. The task is modeled as a multiple-choice question-answering task, with a language model serving as the evaluator. Our method effectively distinguishes video courses of different content quality and produces a range of interpretable results.
翻訳日:2024-07-22 11:30:12 公開日:2024-06-15
# 深部ニューラルネットワークを用いた引張構造の形状フィンディングと物性予測

Form-Finding and Physical Property Predictions of Tensegrity Structures Using Deep Neural Networks ( http://arxiv.org/abs/2407.12006v1 )

ライセンス: Link先を確認
Muhao Chen, Jing Qin, (参考訳) 引張構造の設計において、従来のホルムフィンディング法は運動学的および静的なアプローチを用いて平衡を達成する幾何学的構成を同定する。 しかし、これらの手法は、構造要素、組立誤差、材料非直線性の製造において不完全であるために、実際の物理モデルに適用すると、しばしば不足する。 本研究では, 非線形座標, 部材力, および平衡状態における任意の張力構造の自然周波数など, 幾何学的構成や物理特性を予測するためのディープニューラルネットワーク(DNN)アプローチを開発する。 まず, テンソル構造の解析的支配方程式について概説し, 正弦波座標と部材力を含む静的構造とモーダル情報について概説する。 次に, 等式と物理特性を同時に予測し, 平衡方程式の解法を回避できる適切なDNNモデルをトレーニングするためのデータ駆動型フレームワークを提案する。 検証のために,Dバー,プリズム,ランダーを含む3つの緊張構造を解析し,比較的少ない出力誤差で近似系を同定できることを実証した。 この手法は、特に実世界の構造において、幅広い引張構造に適用でき、構造物理学情報を識別する際のさらなる課題に対処するために拡張することができる。

In the design of tensegrity structures, traditional form-finding methods utilize kinematic and static approaches to identify geometric configurations that achieve equilibrium. However, these methods often fall short when applied to actual physical models due to imperfections in the manufacturing of structural elements, assembly errors, and material non-linearities. In this work, we develop a deep neural network (DNN) approach to predict the geometric configurations and physical properties-such as nodal coordinates, member forces, and natural frequencies-of any tensegrity structures in equilibrium states. First, we outline the analytical governing equations for tensegrity structures, covering statics involving nodal coordinates and member forces, as well as modal information. Next, we propose a data-driven framework for training an appropriate DNN model capable of simultaneously predicting tensegrity forms and physical properties, thereby circumventing the need to solve equilibrium equations. For validation, we analyze three tensegrity structures, including a tensegrity D-bar, prism, and lander, demonstrating that our approach can identify approximation systems with relatively very small output errors. This technique is applicable to a wide range of tensegrity structures, particularly in real-world construction, and can be extended to address additional challenges in identifying structural physics information.
翻訳日:2024-07-22 11:30:12 公開日:2024-06-15
# 有限ハートリー変換に対するミータの固有ベクトル

Mehta's eigenvectors for the finite Hartely transform ( http://arxiv.org/abs/2406.19410v1 )

ライセンス: Link先を確認
Fethi Bouzeffour, (参考訳) 本稿では,有限ハートレー変換の解析的固有関数を評価するための新しい手法を提案する。 N=1/2$-supersymmetric quantum mechanics を基本ツールとして使用することにより、ハートレー変換がスーパーチャージ演算子と可換であることを示す重要な観測に基づいている。 ハートリー変換と有限ハートリー変換の間の絡み合う作用素を用いて、我々のアプローチは超対称エルミート多項式の項で表される固有ベクトルのオーバーコンプリート基底を与える。

This paper presents a novel approach for evaluating analytical eigenfunctions of the finite Hartley transform. The approach is based on the use of $N=1/2$-supersymmetric quantum mechanics as a fundamental tool, which builds on the key observation that the Hartley transform commutes with the supercharge operator. Using the intertwining operator between the Hartley transform and the finite Hartley transform, our approach provides an overcomplete basis of eigenvectors expressed in terms of supersymmetric Hermite polynomials.
翻訳日:2024-07-07 13:43:41 公開日:2024-06-15
# MMBee:マルチモーダルフュージョンとビヘイビア展開によるライブストリーミングギフト販売勧告

MMBee: Live Streaming Gift-Sending Recommendations via Multi-Modal Fusion and Behaviour Expansion ( http://arxiv.org/abs/2407.00056v1 )

ライセンス: Link先を確認
Jiaxin Deng, Shiyao Wang, Yuchen Wang, Jiansong Qi, Liqin Zhao, Guorui Zhou, Gaofeng Meng, (参考訳) リアルタイムの対話やエンターテイメントによって、ライブストリーミングサービスはますます人気が高まっている。 視聴者はチャットやコメントやバーチャルギフトを送信して、ストリーマーの好みを表現できる。 ギフトインタラクションの正確なモデリングは、ユーザのエクスペリエンスを向上するだけでなく、ストリーマーの収益も増大させる。 従来のリコメンデーション問題であるライブストリーミングギフト予測に関する先行研究や,分類データを用いたユーザの嗜好のモデル化,過去の行動観察などを行った。 しかし、限られたカテゴリー情報を用いて、ライブストリーミングにおけるリアルタイムコンテンツの変化を正確に記述することは困難である。 また、贈与行動の幅が広いため、ユーザの好みや意図を捉えることは極めて困難である。 本研究では,実時間マルチモーダルフュージョンとビヘイビア展開に基づくMMBeeを提案し,これらの課題に対処する。 具体的には、まず、ストリーミングセグメントの動的内容を認識し、画像、テキストコメント、音声を含む複雑なマルチモーダルインタラクションを処理するMFQ(Multi-modal Fusion Module with Learnable Query)を提案する。 ギフト行動の空間的問題を軽減するため,マルチモーダル属性を持つ大規模ギフトグラフ上で,ユーザとストリーマーの両方の表現を学習するグラフ誘導興味拡張(GIE)アプローチを提案する。 総合的な実験結果から、MMBeeはパブリックデータセットとクアイショー実世界のストリーミングデータセットの両方で大幅なパフォーマンス向上を実現し、オンラインA/B実験によりその効果がさらに検証された。 MMBeeはデプロイされ、Kuaishouでは数億人のユーザにサービスを提供している。

Live streaming services are becoming increasingly popular due to real-time interactions and entertainment. Viewers can chat and send comments or virtual gifts to express their preferences for the streamers. Accurately modeling the gifting interaction not only enhances users' experience but also increases streamers' revenue. Previous studies on live streaming gifting prediction treat this task as a conventional recommendation problem, and model users' preferences using categorical data and observed historical behaviors. However, it is challenging to precisely describe the real-time content changes in live streaming using limited categorical information. Moreover, due to the sparsity of gifting behaviors, capturing the preferences and intentions of users is quite difficult. In this work, we propose MMBee based on real-time Multi-Modal Fusion and Behaviour Expansion to address these issues. Specifically, we first present a Multi-modal Fusion Module with Learnable Query (MFQ) to perceive the dynamic content of streaming segments and process complex multi-modal interactions, including images, text comments and speech. To alleviate the sparsity issue of gifting behaviors, we present a novel Graph-guided Interest Expansion (GIE) approach that learns both user and streamer representations on large-scale gifting graphs with multi-modal attributes. Comprehensive experiment results show that MMBee achieves significant performance improvements on both public datasets and Kuaishou real-world streaming datasets and the effectiveness has been further validated through online A/B experiments. MMBee has been deployed and is serving hundreds of millions of users at Kuaishou.
翻訳日:2024-07-07 13:43:41 公開日:2024-06-15
# 人々のモチベーションを高めるためにノイズを遮断する: 予防接種を動機づけるソーシャルメディア投稿の包括的分析

Cutting through the noise to motivate people: A comprehensive analysis of COVID-19 social media posts de/motivating vaccination ( http://arxiv.org/abs/2407.03190v1 )

ライセンス: Link先を確認
Ashiqur Rahman, Ehsan Mohammadi, Hamed Alhoori, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、医療情報システムの重大な弱点を露呈した。 ソーシャルメディアやその他の社会経済的要因に関する誤報が圧倒的に多いことは、人々が適切な予防措置を講じて予防接種を受けるよう動機付けるという、極めて困難な課題を生み出した。 そこで本研究では,2年間にわたって収集された広範囲なデータセットを解析し,新型コロナウイルスの予防接種に関する話題を抽出し,新たな方向性を探究した。 我々はこれらのトピックを、時間、地理的位置、政治的指向に基づいて分析した。 モチベーションのあるトピックは時間と地理的な場所によって変わらないが、モチベーションのトピックは急速に減少している。 また、外的委任よりも内在的動機の方が、大衆に刺激を与えるのに有利であることも確認した。 本研究では,ソーシャルメディアにおける科学的コミュニケーションと公衆のモチベーションについて論じる。 これは、公衆衛生当局、政策立案者、ソーシャルメディアプラットフォームが、誤報のノイズを減らし、科学的な発見について大衆に教育するための、より効果的なメッセージング戦略を開発するのに役立つ。

The COVID-19 pandemic exposed significant weaknesses in the healthcare information system. The overwhelming volume of misinformation on social media and other socioeconomic factors created extraordinary challenges to motivate people to take proper precautions and get vaccinated. In this context, our work explored a novel direction by analyzing an extensive dataset collected over two years, identifying the topics de/motivating the public about COVID-19 vaccination. We analyzed these topics based on time, geographic location, and political orientation. We noticed that while the motivating topics remain the same over time and geographic location, the demotivating topics rapidly. We also identified that intrinsic motivation, rather than external mandate, is more advantageous to inspire the public. This study addresses scientific communication and public motivation in social media. It can help public health officials, policymakers, and social media platforms develop more effective messaging strategies to cut through the noise of misinformation and educate the public about scientific findings.
翻訳日:2024-07-07 13:14:55 公開日:2024-06-15
# 推論か、それとも単純に次のToken予測か? 大規模言語モデルのストレステストのためのベンチマーク

Reasoning or Simply Next Token Prediction? A Benchmark for Stress-Testing Large Language Models ( http://arxiv.org/abs/2406.15468v1 )

ライセンス: Link先を確認
Wentian Wang, Paul Kantor, Jacob Feldman, Lazaros Gallos, Hao Wang, (参考訳) 本稿では,大規模言語モデル(LLM)の真の理解能力を測定するための新しいデータセットMMLU-SRを提案する。 我々は、キー語が適切な定義の代替語に置き換えられる場合にも、「truly」が概念を理解するエージェントがそれを評価できると推論し、そのような理解を単なるテキスト置換と区別しようと試みた。 そこで本研究では,キーワードをダミー語に置き換えることにより,標準化されたテスト問題を修正した。 重要な用語は、質問、回答、あるいは質問と回答の両方の文脈にあるかもしれない。 MMLUのリーダーボード上での最近のLLMの高得点にもかかわらず, モデル性能の大幅な低下が見られ, 理解に乏しいことが示唆された。 この新しいベンチマークは、真のモデルの理解をテストするための厳密なベンチマークを提供する。

We propose MMLU-SR, a novel dataset designed to measure the true comprehension abilities of Large Language Models (LLMs) by challenging their performance in question-answering tasks with modified terms. We reasoned that an agent that ``truly'' understands a concept can still evaluate it when key terms are replaced by suitably defined alternate terms, and sought to differentiate such comprehension from mere text replacement. In our study, we modified standardized test questions by replacing a key term with a dummy word along with its definition. The key term could be in the context of questions, answers, or both questions and answers. Notwithstanding the high scores achieved by recent popular LLMs on the MMLU leaderboard, we found a substantial reduction in model performance after such replacement, suggesting poor comprehension. This new benchmark provides a rigorous benchmark for testing true model comprehension, and poses a challenge to the broader scientific community.
翻訳日:2024-07-01 07:01:19 公開日:2024-06-15
# テキストの時間表現による精神障害分類

Mental Disorder Classification via Temporal Representation of Text ( http://arxiv.org/abs/2406.15470v1 )

ライセンス: Link先を確認
Raja Kumar, Kishan Maharaj, Ashita Saxena, Pushpak Bhattacharyya, (参考訳) メンタル障害は、資格のあるメンタルヘルス専門家の不足によって増大する、世界的な課題を引き起こす。 現在のLCMによるソーシャルメディア投稿からの精神障害予測は、逐次テキストデータの複雑さと言語モデルの限られた文脈長のために困難である。 現在の言語モデルベースのアプローチでは、単一のデータインスタンスを複数のチャンクに分割し、限られたコンテキストサイズを補う。 次に、予測モデルを各チャンクに個別に適用し、最も投票率の高い出力を最終予測として選択する。 これにより、ポスト間の依存関係が失われ、重要な時間変更情報が失われ、パフォーマンスが低下する。 本稿では,時系列に順序付けられたソーシャルメディア投稿を一連の数に圧縮する新しいフレームワークを提案する。 次に、この時間変化表現を精神障害分類に使用します。 我々は,うつ病,自傷病,食欲不振の3つの精神状態において,現在のSOTAよりも優れ,F1スコアの5%を絶対的に向上させることで,フレームワークの一般化能力を実証した。 本研究では,現在のデータインスタンスが言語モデルの文脈長内に収まる状況について検討し,テキストデータの時間的特性の重要性を明らかにする実験結果を示す。 さらに、提案したフレームワークをドメイン横断研究に利用し、障害間の共通点とドメイン間データ利用の可能性を探る。

Mental disorders pose a global challenge, aggravated by the shortage of qualified mental health professionals. Mental disorder prediction from social media posts by current LLMs is challenging due to the complexities of sequential text data and the limited context length of language models. Current language model-based approaches split a single data instance into multiple chunks to compensate for limited context size. The predictive model is then applied to each chunk individually, and the most voted output is selected as the final prediction. This results in the loss of inter-post dependencies and important time variant information, leading to poor performance. We propose a novel framework which first compresses the large sequence of chronologically ordered social media posts into a series of numbers. We then use this time variant representation for mental disorder classification. We demonstrate the generalization capabilities of our framework by outperforming the current SOTA in three different mental conditions: depression, self-harm, and anorexia, with an absolute improvement of 5% in the F1 score. We investigate the situation where current data instances fall within the context length of language models and present empirical results highlighting the importance of temporal properties of textual data. Furthermore, we utilize the proposed framework for a cross-domain study, exploring commonalities across disorders and the possibility of inter-domain data usage.
翻訳日:2024-07-01 07:01:19 公開日:2024-06-15
# 小型モデルによる大規模モデルの改善 - コスト削減とパフォーマンス向上

Improving Large Models with Small models: Lower Costs and Better Performance ( http://arxiv.org/abs/2406.15471v1 )

ライセンス: Link先を確認
Dong Chen, Shuo Zhang, Yueting Zhuang, Siliang Tang, Qidong Liu, Hua Wang, Mingliang Xu, (参考訳) ChatGPTのような事前訓練された大型モデル(PLM)は、様々なタスクで顕著な性能を示した。 しかしながら、PLMの重要な計算要件は、ほとんどの製品チームがそれらの実行や微調整を妨げている。 このような場合、PLMの例外的な性能を利用するには、高価なAPIに頼る必要があり、それによって経済的負担が増大する。 小さなモデルの全体的な性能は劣るが、特定の分布では、同等あるいはそれ以上の結果が得られる。 結果として、いくつかの入力は小さなモデルでのみ処理できる。 一方、特定のタスクは複数のサブタスクに分割することができ、そのいくつかは強力な機能なしで完了することができる。 このような状況下では、小さなモデルは単純なサブタスクを処理でき、大きなモデルは挑戦的なサブタスクに集中できるため、パフォーマンスが向上する。 我々は,小型モデルと大規模モデルの協調のための一般的なパラダイムであるData Shunt$^+$ (DS$^+$)を提案する。 DS$^+$は、大規模モデルのクエリに関連するコストを大幅に削減するだけでなく、大規模モデルのパフォーマンスを効果的に改善する。 例えば、ChatGPTはAmazon Productの感情分析で9,4.43 %の精度を達成し、DS$^+$は9,5.64 %の精度を達成している。 さらに、実験により、提案した協調型パラダイムが、微調整よりも特定のタスク知識をPLMに注入できることが示された。

Pretrained large models (PLMs), such as ChatGPT, have demonstrated remarkable performance across diverse tasks. However, the significant computational requirements of PLMs have discouraged most product teams from running or fine-tuning them. In such cases, to harness the exceptional performance of PLMs, one must rely on expensive APIs, thereby exacerbating the economic burden. Despite the overall inferior performance of small models, in specific distributions, they can achieve comparable or even superior results. Consequently, some input can be processed exclusively by small models. On the other hand, certain tasks can be broken down into multiple subtasks, some of which can be completed without powerful capabilities. Under these circumstances, small models can handle the simple subtasks, allowing large models to focus on challenging subtasks, thus improving the performance. We propose Data Shunt$^+$ (DS$^+$), a general paradigm for collaboration of small and large models. DS$^+$ not only substantially reduces the cost associated with querying large models but also effectively improves large models' performance. For instance, ChatGPT achieves an accuracy of $94.43\%$ on Amazon Product sentiment analysis, and DS$^+$ achieves an accuracy of $95.64\%$, while the cost has been reduced to only $31.18\%$. Besides, experiments also prove that the proposed collaborative-based paradigm can better inject specific task knowledge into PLMs compared to fine-tuning.
翻訳日:2024-07-01 07:01:19 公開日:2024-06-15
# テキスト・エンターメントの解法における双曲型文表現

Hyperbolic sentence representations for solving Textual Entailment ( http://arxiv.org/abs/2406.15472v1 )

ライセンス: Link先を確認
Igor Petrovski, (参考訳) 双曲空間は階層的な性質のデータモデリングに適していることが証明されている。 そこで我々は,テキスト・エンタテインメントの解決にハイパーボリック・スペースをどのように利用できるかを証明するために,ポインケア・ボールを用いて文を埋め込む。 この目的のために、テキストの細部評価に使用される標準データセットとは別に、2つの追加データセットを開発した。 本研究では, LSTM, Order Embeddings, Euclidean Averagingなど,様々な背景のベースラインに対して, 文章をユークリッド空間に表現する自然な方法として評価する。 SICKデータセットのベースラインを一貫して上回り、entailmentタスクのバイナリ分類バージョンであるSNLIデータセットのOrder Embeddingsに次いで第2位です。

Hyperbolic spaces have proven to be suitable for modeling data of hierarchical nature. As such we use the Poincare ball to embed sentences with the goal of proving how hyperbolic spaces can be used for solving Textual Entailment. To this end, apart from the standard datasets used for evaluating textual entailment, we developed two additional datasets. We evaluate against baselines of various backgrounds, including LSTMs, Order Embeddings and Euclidean Averaging, which comes as a natural counterpart to representing sentences into the Euclidean space. We consistently outperform the baselines on the SICK dataset and are second only to Order Embeddings on the SNLI dataset, for the binary classification version of the entailment task.
翻訳日:2024-07-01 07:01:19 公開日:2024-06-15
# Intertwining CP and NLP: The Generation of Unreasonably Constrained文

Intertwining CP and NLP: The Generation of Unreasonably Constrained Sentences ( http://arxiv.org/abs/2406.15473v1 )

ライセンス: Link先を確認
Alexandre Bonlarron, Jean-Charles Régin, (参考訳) 制約付きテキスト生成は、特に厳しい制約を扱う場合、依然として難しい課題である。 従来の自然言語処理(NLP)アプローチは、有意義で一貫性のある出力を生成することを優先する。 また、現在の最先端の手法は、そのようなタスクを効果的に処理する表現力や制約満足度を欠いていることが多い。 本稿では,この問題を解決するためにConstraints First Frameworkを提案する。 このフレームワークは、制約付きテキスト生成問題を離散組合せ最適化問題とみなす。 これは、言語特性(例えば、n-gramや言語レベル)と他の古典的な制約(例えば、文字数、音節数、単語数)を組み合わせる制約プログラミング手法によって解決される。 最終的に、キュレーションフェーズは、大きな言語モデルを使用して、難易度に応じて最良の生成文を選択することができる。 このアプローチの有効性は、より退屈な制約付きテキスト生成問題である、象徴的なRADNER文問題に取り組むことで実証される。 この問題は、視覚と臨床研究における使用によって定義された、非常に厳格な規則の集合に関する文を生成することを目的としている。 CPに基づくアプローチにより,多くの制約付き文が自動生成されている。 これは、不合理に制約されたテキスト生成シナリオを扱うアプローチの可能性を強調します。

Constrained text generation remains a challenging task, particularly when dealing with hard constraints. Traditional Natural Language Processing (NLP) approaches prioritize generating meaningful and coherent output. Also, the current state-of-the-art methods often lack the expressiveness and constraint satisfaction capabilities to handle such tasks effectively. This paper presents the Constraints First Framework to remedy this issue. This framework considers a constrained text generation problem as a discrete combinatorial optimization problem. It is solved by a constraint programming method that combines linguistic properties (e.g., n-grams or language level) with other more classical constraints (e.g., the number of characters, syllables, or words). Eventually, a curation phase allows for selecting the best-generated sentences according to perplexity using a large language model. The effectiveness of this approach is demonstrated by tackling a new more tediously constrained text generation problem: the iconic RADNER sentences problem. This problem aims to generate sentences respecting a set of quite strict rules defined by their use in vision and clinical research. Thanks to our CP-based approach, many new strongly constrained sentences have been successfully generated in an automatic manner. This highlights the potential of our approach to handle unreasonably constrained text generation scenarios.
翻訳日:2024-07-01 07:01:19 公開日:2024-06-15
# SGSM: ファンデーションモデルのようなセミジェネリストセンシングモデル

SGSM: A Foundation-model-like Semi-generalist Sensing Model ( http://arxiv.org/abs/2406.16933v1 )

ライセンス: Link先を確認
Tianjian Yang, Hao Zhou, Shuo Liu, Kaiwen Guo, Yiwen Hou, Haohua Du, Zhi Liu, Xiang-Yang Li, (参考訳) インテリジェントなセンシングシステムの重要性は、スマートサービスの領域で増大している。 これらのシステムは、関連する信号の特徴を抽出し、特定のタスクに対する情報表現を生成する。 しかし、そのようなシステムのための機能抽出コンポーネントを構築するには、広範なドメイン固有の専門知識やデータが必要である。 ファンデーションモデルの非常に急速な開発は、そのようなインテリジェントなセンシングにおける新しい知能を後押しする可能性が高い。 本稿では,セミジェネリストセンシングモデル(SGSM)と呼ばれる新しいセンシングモデルを提案する。 SGSMは従来のシステムに比べてタスク固有のラベル付きデータが少ないため、様々なタスクを半自動で解くことができる。 一般的な理論モデルの解析を通じて構築されたSGSMは、音響信号やWi-Fi信号など、様々なモダリティを表現できる。 このような2つの異種センサの実験結果から、SGSMは幅広いシナリオで機能し、広い適用性を確立することが示されている。 一部のケースでは、SGSMはセンサー固有の特殊なソリューションよりも優れたパフォーマンスを実現している。 既存のセンサモデルにSGSMを適用する場合、Wi-Fi評価は20倍の精度向上を示す。

The significance of intelligent sensing systems is growing in the realm of smart services. These systems extract relevant signal features and generate informative representations for particular tasks. However, building the feature extraction component for such systems requires extensive domain-specific expertise or data. The exceptionally rapid development of foundation models is likely to usher in newfound abilities in such intelligent sensing. We propose a new scheme for sensing model, which we refer to as semi-generalist sensing model (SGSM). SGSM is able to semiautomatically solve various tasks using relatively less task-specific labeled data compared to traditional systems. Built through the analysis of the common theoretical model, SGSM can depict different modalities, such as the acoustic and Wi-Fi signal. Experimental results on such two heterogeneous sensors illustrate that SGSM functions across a wide range of scenarios, thereby establishing its broad applicability. In some cases, SGSM even achieves better performance than sensor-specific specialized solutions. Wi-Fi evaluations indicate a 20\% accuracy improvement when applying SGSM to an existing sensing model.
翻訳日:2024-07-01 06:31:46 公開日:2024-06-15
# 量子化LDMの一般化能力の評価:ベンチマーク,解析,ツールボックス

Evaluating the Generalization Ability of Quantized LLMs: Benchmark, Analysis, and Toolbox ( http://arxiv.org/abs/2406.12928v1 )

ライセンス: Link先を確認
Yijun Liu, Yuan Meng, Fang Wu, Shenhao Peng, Hang Yao, Chaoyu Guan, Chen Tang, Xinzhu Ma, Zhi Wang, Wenwu Zhu, (参考訳) 大規模言語モデル(LLM)は、複数のシナリオにおいてエキサイティングな進歩を見せている一方、膨大な計算要求によって、多くの現実世界のアプリケーションへのデプロイが妨げられている。 メモリフットプリントと推論コストを削減する効果的な方法として、量子化は低ビット幅での性能劣化にも直面する。 量子化がLLM能力、特に一般化能力に与える影響を理解することは重要である。 しかし、コミュニティの主な焦点は量子化のアルゴリズムとモデルであり、量子化モデルがLSMの強い一般化能力を維持できるかどうかについては十分に注目されていない。 本研究は,評価システム,詳細な分析,汎用ツールボックスなど,本研究の総合的なベンチマークスイートを提供することで,このギャップを埋めるものである。 具体的には, LLM量子化における支配的なパイプラインに基づいて, LLMの一般化に対するキャリブレーションデータ分布の影響を探索し, 2つの主要なシナリオにおいて40以上のデータセットを用いてベンチマークを行う。 このベンチマークに基づいて、2つの有名なLLM(英語と中国語)と4つの量子化アルゴリズムを用いて広範に実験を行い、このトピックを詳細に調査し、例えば、テストデータと同じ分布のキャリブレーションを用いて量子化されたモデルが必ずしも最適ではないことを示す。 さらに、将来の研究を促進するために、モジュール設計のツールボックスもリリースしています。このツールボックスは、パイプライン全体を、例えば、ベースLLMモジュール、データセットモジュール、量子化モジュールなど、いくつかの別々のコンポーネントに分離し、その後の研究者が簡単な構成でメソッドを簡単に組み立てることができます。 ベンチマークスイートはhttps://github.com/TsingmaoAI/MI-timizeで公開されています。

Large language models (LLMs) have exhibited exciting progress in multiple scenarios, while the huge computational demands hinder their deployments in lots of real-world applications. As an effective means to reduce memory footprint and inference cost, quantization also faces challenges in performance degradation at low bit-widths. Understanding the impact of quantization on LLM capabilities, especially the generalization ability, is crucial. However, the community's main focus remains on the algorithms and models of quantization, with insufficient attention given to whether the quantized models can retain the strong generalization abilities of LLMs. In this work, we fill this gap by providing a comprehensive benchmark suite for this research topic, including an evaluation system, detailed analyses, and a general toolbox. Specifically, based on the dominant pipeline in LLM quantization, we primarily explore the impact of calibration data distribution on the generalization of quantized LLMs and conduct the benchmark using more than 40 datasets within two main scenarios. Based on this benchmark, we conduct extensive experiments with two well-known LLMs (English and Chinese) and four quantization algorithms to investigate this topic in-depth, yielding several counter-intuitive and valuable findings, e.g., models quantized using a calibration set with the same distribution as the test data are not necessarily optimal. Besides, to facilitate future research, we also release a modular-designed toolbox, which decouples the overall pipeline into several separate components, e.g., base LLM module, dataset module, quantizer module, etc. and allows subsequent researchers to easily assemble their methods through a simple configuration. Our benchmark suite is publicly available at https://github.com/TsingmaoAI/MI-optimize
翻訳日:2024-06-22 00:47:45 公開日:2024-06-15
# RMF:機械学習モデルのためのリスク計測フレームワーク

RMF: A Risk Measurement Framework for Machine Learning Models ( http://arxiv.org/abs/2406.12929v1 )

ライセンス: Link先を確認
Jan Schröder, Jakub Breier, (参考訳) 機械学習(ML)モデルは、今日では多くの安全およびセキュリティクリティカルなアプリケーションで使われている。 したがって、MLをコンポーネントとして使用するシステムのセキュリティを測定することが重要である。 本稿では、MLの分野、特に自動運転車のセキュリティに焦点を当てる。 この目的のために、技術的なフレームワークをケーススタディで記述し、実装し、評価する。 ISO/IEC 27004:2016に基づいて、攻撃者が必要とする損害の程度と労力を計測し、評価するためにリスク指標が使用される。 しかし、攻撃者の努力を表す単一のリスク値を決定することは不可能である。 したがって、4つの異なる値を個別に解釈する必要がある。

Machine learning (ML) models are used in many safety- and security-critical applications nowadays. It is therefore important to measure the security of a system that uses ML as a component. This paper focuses on the field of ML, particularly the security of autonomous vehicles. For this purpose, a technical framework will be described, implemented, and evaluated in a case study. Based on ISO/IEC 27004:2016, risk indicators are utilized to measure and evaluate the extent of damage and the effort required by an attacker. It is not possible, however, to determine a single risk value that represents the attacker's effort. Therefore, four different values must be interpreted individually.
翻訳日:2024-06-22 00:47:45 公開日:2024-06-15
# 教師なし人物再同定のためのドメイン適応型注意学習

Domain Adaptive Attention Learning for Unsupervised Person Re-Identification ( http://arxiv.org/abs/1905.10529v2 )

ライセンス: Link先を確認
Yangru Huang, Peixi Peng, Yi Jin, Yidong Li, Junliang Xing, Shiming Ge, (参考訳) 複数のデータセットにまたがる人物の再識別(Re-ID)は、2つの主な理由から難しい課題である。 この2つの課題に対処するために,ラベル付きソースドメインからラベル付きターゲットドメインへの識別表現を確実に伝達するドメイン適応型注意学習手法を提案する。 このアプローチでは、ドメイン適応型注意モデルを用いて、特徴マップをドメイン共有部分とドメイン固有部分に分離する。 このようにして、ドメイン共有部は、クロスデータセットの区別を補い、ターゲットタスクに肯定的な貢献をすることができる転送可能なキューをキャプチャするために使用され、一方、ドメイン固有部は、ドメイン多様性に起因する負の転送を避けるためにノイズ情報をモデル化することを目的としている。 擬似ラベルを推定することにより、未ラベルのターゲットデータを完全に活用するために、ソフトラベル損失がさらに使用される。 Market-1501、DukeMTMC-reID、MSMT17ベンチマークの大規模な実験は、提案されたアプローチが最先端技術より優れていることを示した。

Person re-identification (Re-ID) across multiple datasets is a challenging task due to two main reasons: the presence of large cross-dataset distinctions and the absence of annotated target instances. To address these two issues, this paper proposes a domain adaptive attention learning approach to reliably transfer discriminative representation from the labeled source domain to the unlabeled target domain. In this approach, a domain adaptive attention model is learned to separate the feature map into domain-shared part and domain-specific part. In this manner, the domain-shared part is used to capture transferable cues that can compensate cross-dataset distinctions and give positive contributions to the target task, while the domain-specific part aims to model the noisy information to avoid the negative transfer caused by domain diversity. A soft label loss is further employed to take full use of unlabeled target data by estimating pseudo labels. Extensive experiments on the Market-1501, DukeMTMC-reID and MSMT17 benchmarks demonstrate the proposed approach outperforms the state-of-the-arts.
翻訳日:2024-06-20 05:50:01 公開日:2024-06-15
# FedCVT: クロスビュートレーニングによる半教師付き垂直的フェデレーション学習

FedCVT: Semi-supervised Vertical Federated Learning with Cross-view Training ( http://arxiv.org/abs/2008.10838v3 )

ライセンス: Link先を確認
Yan Kang, Yang Liu, Xinle Liang, (参考訳) フェデレートされた学習により、複数のパーティがデータを公開することなく、協調して機械学習モデルを構築することができる。 特に、垂直連合学習(VFL)により、参加者は、アライメントされたサンプルの分散特徴に基づいて、共同機械学習モデルを構築することができる。 しかしながら、VFLはすべての関係者に十分な量の一致したサンプルを共有することを要求する。 実際には、アライメントされたサンプルの集合は小さくなり、非アライメントされたデータの大部分は使われないままである。 本稿では,FedCVT(Federated Cross-view Training, FedCVT)を提案する。 より具体的には、FedCVTは機能不足の表現を推定し、未ラベルのサンプルの擬似ラベルを予測してトレーニングセットを拡張し、拡張されたトレーニングセットの異なるビューに基づいて3つの分類器を共同で訓練し、VFLモデルの性能を改善する。 FedCVTは独自のデータとモデルパラメータを共有する必要はなく、データのプライバシを保存する。 NUS-WIDE, Vehicle, CIFAR10データセットについて実験を行った。 実験の結果,FedCVTはアライメント標本のみを利用するバニラVFLよりも有意に優れていた。 最後に,FedCVTの各成分がFedCVTの性能に与える影響について,アブレーション研究を行った。 コードはhttps://github.com/yankang18/FedCVTで入手できる。

Federated learning allows multiple parties to build machine learning models collaboratively without exposing data. In particular, vertical federated learning (VFL) enables participating parties to build a joint machine learning model based on distributed features of aligned samples. However, VFL requires all parties to share a sufficient amount of aligned samples. In reality, the set of aligned samples may be small, leaving the majority of the non-aligned data unused. In this article, we propose Federated Cross-view Training (FedCVT), a semi-supervised learning approach that improves the performance of the VFL model with limited aligned samples. More specifically, FedCVT estimates representations for missing features, predicts pseudo-labels for unlabeled samples to expand the training set, and trains three classifiers jointly based on different views of the expanded training set to improve the VFL model's performance. FedCVT does not require parties to share their original data and model parameters, thus preserving data privacy. We conduct experiments on NUS-WIDE, Vehicle, and CIFAR10 datasets. The experimental results demonstrate that FedCVT significantly outperforms vanilla VFL that only utilizes aligned samples. Finally, we perform ablation studies to investigate the contribution of each component of FedCVT to the performance of FedCVT. Code is available at https://github.com/yankang18/FedCVT
翻訳日:2024-06-20 05:50:01 公開日:2024-06-15
# 量子シミュレーションのための近似量子コンパイル:テンソルネットワークに基づくアプローチ

Approximate Quantum Compiling for Quantum Simulation: A Tensor Network based approach ( http://arxiv.org/abs/2301.08609v6 )

ライセンス: Link先を確認
Niall F. Robertson, Albert Akhriev, Jiri Vala, Sergiy Zhuk, (参考訳) 本稿では,行列生成状態(MPS)から短深さ量子回路を生成する新しいアルゴリズムであるAQCtensorを紹介する。 我々のアプローチは、量子多体ハミルトニアンの時間進化から生じる量子状態の準備に特化している。 この調整されたアプローチは、ジェネリックMPSを量子回路にマッピングするように設計された以前のアルゴリズムよりも2つの明確な利点がある。 まず、近似量子コンパイル(AQC)を用いて、パラメトリック回路の全パラメータを一度に最適化する。 すなわち、2つの任意の量子状態の忠実度が指数関数的に量子ビットの数で崩壊するという事実であり、そうでなければ回路のグローバルな最適化は不可能である。 第2に、パラメトリック回路の深さは、固定されたシミュレーション時間と固定されたエラー耐性のキュービット数において一定である。 これは、深さがキュービット数で線形にスケールする一般的なアルゴリズムで使用される線形回路 Ansatz と対照的である。 100量子ビットのシミュレーション問題に対して、AQCtensorは、最適化された回路の深さの少なくとも1桁の縮小を実現していることを示す。 最大100キュービットのハイゼンベルク型ハミルトニアンのシミュレーション問題に対する我々のアプローチを実証し、標準的なトロッタライズド・サーキットと比較して、深さを著しく低減した最適化量子回路を求める。

We introduce AQCtensor, a novel algorithm to produce short-depth quantum circuits from Matrix Product States (MPS). Our approach is specifically tailored to the preparation of quantum states generated from the time evolution of quantum many-body Hamiltonians. This tailored approach has two clear advantages over previous algorithms that were designed to map a generic MPS to a quantum circuit. First, we optimize all parameters of a parametric circuit at once using Approximate Quantum Compiling (AQC) - this is to be contrasted with other approaches based on locally optimizing a subset of circuit parameters and "sweeping" across the system. We introduce an optimization scheme to avoid the so-called ``orthogonality catastrophe" - i.e. the fact that the fidelity of two arbitrary quantum states decays exponentially with the number of qubits - that would otherwise render a global optimization of the circuit impractical. Second, the depth of our parametric circuit is constant in the number of qubits for a fixed simulation time and fixed error tolerance. This is to be contrasted with the linear circuit Ansatz used in generic algorithms whose depth scales linearly in the number of qubits. For simulation problems on 100 qubits, we show that AQCtensor thus achieves at least an order of magnitude reduction in the depth of the resulting optimized circuit, as compared with the best generic MPS to quantum circuit algorithms. We demonstrate our approach on simulation problems on Heisenberg-like Hamiltonians on up to 100 qubits and find optimized quantum circuits that have significantly reduced depth as compared to standard Trotterized circuits.
翻訳日:2024-06-20 05:43:26 公開日:2024-06-15
# 水平学習パラダイムは遺伝子スプライシング同定を促進する

Horizon-wise Learning Paradigm Promotes Gene Splicing Identification ( http://arxiv.org/abs/2406.11900v1 )

ライセンス: Link先を確認
Qi-Jie Li, Qian Sun, Shao-Qun Zhang, (参考訳) 遺伝子スプライシングの同定は、人工知能とバイオインフォマティクスの現代的コラボレーションにおいて直面する、中核的で重要な課題である。 過去数十年間、生物工学的なスプライシングパターンAT-CGや有名なSpliceAIなど、この懸念に対する大きな取り組みを目撃してきた。 本稿では,Horizon-wise Gene Splicing Identification (H-GSI) と呼ばれる遺伝子スプライシング識別作業のための新しいフレームワークを提案する。 提案するH-GSIは,文字列データをテンソルに変換する前処理手順,長いシーケンスを扱うスライディングウインドウ手法,SeqLabモデル,予測器の4つのコンポーネントから構成される。 切り離された固定長配列で遺伝子情報を処理している既存の研究とは対照的に、H-GSIは、配列内の全ての位置を1つの前方計算で予測し、精度と効率を向上する水平方向同定パラダイムを採用している。 実世界のHumanデータセットを用いて行った実験は、提案したH-GSIがSpliceAIを上回り、97.20\%の精度を達成することを示した。 ソースコードはこのリンクから入手できる。

Identifying gene splicing is a core and significant task confronted in modern collaboration between artificial intelligence and bioinformatics. Past decades have witnessed great efforts on this concern, such as the bio-plausible splicing pattern AT-CG and the famous SpliceAI. In this paper, we propose a novel framework for the task of gene splicing identification, named Horizon-wise Gene Splicing Identification (H-GSI). The proposed H-GSI follows the horizon-wise identification paradigm and comprises four components: the pre-processing procedure transforming string data into tensors, the sliding window technique handling long sequences, the SeqLab model, and the predictor. In contrast to existing studies that process gene information with a truncated fixed-length sequence, H-GSI employs a horizon-wise identification paradigm in which all positions in a sequence are predicted with only one forward computation, improving accuracy and efficiency. The experiments conducted on the real-world Human dataset show that our proposed H-GSI outperforms SpliceAI and achieves the best accuracy of 97.20\%. The source code is available from this link.
翻訳日:2024-06-20 00:55:56 公開日:2024-06-15
# 深層学習法を用いた時間複雑ネットワークのモデル評価と異常検出

Model Evaluation and Anomaly Detection in Temporal Complex Networks using Deep Learning Methods ( http://arxiv.org/abs/2406.11901v1 )

ライセンス: Link先を確認
Alireza Rashnu, Sadegh Aliakbary, (参考訳) 複雑なネットワークをモデル化することで、病気の発生、情報拡散、輸送効率、社会的影響、さらには人間の脳機能といった現象を規定する基本的なメカニズムを解析し、発見することができる。 その結果、時間とともにネットワークトポロジが動的に進化する様子をモデル化するために、様々なネットワーク生成モデル(時間的ネットワークモデルと呼ばれる)が提示された。 評価手法は静的ネットワークにのみ適するため,時間ネットワークモデルは結果評価の課題に直面している。 本稿では,この問題に対処するためのディープラーニングに基づく自動アプローチを提案する。 評価法に加えて,提案手法は進化するネットワークにおける異常検出にも利用できる。 提案手法は, 5つの異なるデータセットで評価され, 異なるデータセットにおける誤差率測定に基づいて, 代替手法よりも優れていることを示す。

Modeling complex networks allows us to analyze the characteristics and discover the basic mechanisms governing phenomena such as disease outbreaks, information diffusion, transportation efficiency, social influence, and even human brain function. Consequently, various network generative models (called temporal network models) have been presented to model how the network topologies evolve dynamically over time. Temporal network models face the challenge of results evaluation because common evaluation methods are appropriate only for static networks. This paper proposes an automatic approach based on deep learning to handle this issue. In addition to an evaluation method, the proposed method can also be used for anomaly detection in evolving networks. The proposed method has been evaluated on five different datasets, and the evaluations show that it outperforms the alternative methods based on the error rate measure in different datasets.
翻訳日:2024-06-20 00:55:56 公開日:2024-06-15
# 金融アプリケーションのための大規模言語モデルに関する調査 : 進展, 展望, 課題

A Survey of Large Language Models for Financial Applications: Progress, Prospects and Challenges ( http://arxiv.org/abs/2406.11903v1 )

ライセンス: Link先を確認
Yuqi Nie, Yaxuan Kong, Xiaowen Dong, John M. Mulvey, H. Vincent Poor, Qingsong Wen, Stefan Zohren, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、金融分野における機械学習アプリケーションに新たな機会を開放している。 これらのモデルは、コンテキストを理解し、大量のデータを処理し、人間の好むコンテンツを生成する際、顕著な能力を示してきた。 本調査では,従来のプラクティスを変革し,イノベーションを促進する可能性に着目し,様々な金融業務におけるLCMの適用について検討する。 金融環境におけるLCMの進歩と優位性について議論し、その先進的な技術と、文脈理解、伝達学習の柔軟性、複雑な感情検出などの将来的な能力について分析する。 次に,既存の文献を言語タスク,感情分析,財務時系列,財務推論,エージェントベースモデリング,その他のアプリケーションなど,主要な応用分野に分類するための調査を取り上げる。 各アプリケーション領域について,テキスト分析,知識に基づく分析,予測,データ拡張,計画,意思決定支援,シミュレーションなど,具体的な方法論を探索する。 さらに、主流アプリケーションに関連するデータセット、モデル資産、有用なコードの包括的なコレクションが、研究者や実践者のためのリソースとして提示される。 最後に,今後の研究の課題と機会について概説する。 金融セクターにおけるLLMの採用とさらなる発展を促進する上で、当社の取り組みが役立つことを願っています。

Recent advances in large language models (LLMs) have unlocked novel opportunities for machine learning applications in the financial domain. These models have demonstrated remarkable capabilities in understanding context, processing vast amounts of data, and generating human-preferred contents. In this survey, we explore the application of LLMs on various financial tasks, focusing on their potential to transform traditional practices and drive innovation. We provide a discussion of the progress and advantages of LLMs in financial contexts, analyzing their advanced technologies as well as prospective capabilities in contextual understanding, transfer learning flexibility, complex emotion detection, etc. We then highlight this survey for categorizing the existing literature into key application areas, including linguistic tasks, sentiment analysis, financial time series, financial reasoning, agent-based modeling, and other applications. For each application area, we delve into specific methodologies, such as textual analysis, knowledge-based analysis, forecasting, data augmentation, planning, decision support, and simulations. Furthermore, a comprehensive collection of datasets, model assets, and useful codes associated with mainstream applications are presented as resources for the researchers and practitioners. Finally, we outline the challenges and opportunities for future research, particularly emphasizing a number of distinctive aspects in this field. We hope our work can help facilitate the adoption and further development of LLMs in the financial sector.
翻訳日:2024-06-20 00:46:12 公開日:2024-06-15
# EvIL: 汎用的な模倣学習のための進化戦略

EvIL: Evolution Strategies for Generalisable Imitation Learning ( http://arxiv.org/abs/2406.11905v1 )

ライセンス: Link先を確認
Silvia Sapora, Gokul Swamy, Chris Lu, Yee Whye Teh, Jakob Nicolaus Foerster, (参考訳) しばしば、模倣学習(IL)や、専門家によるデモを収集する環境、学習したポリシーをデプロイしたい環境は、まったく同じではありません(例えば、シミュレーションで収集されたデモは、現実世界に展開されます)。 行動クローニングのようなポリシー中心のアプローチと比較すると、逆強化学習(IRL)のような報酬中心のアプローチは、しばしば新しい環境における専門家の振る舞いをよりよく再現する。 この転送は通常、ターゲット環境のダイナミクスの下で回復した報酬を最適化することで実行される。 しかし、 (a)現代のディープILアルゴリズムは、専門家よりもはるかに弱いポリシーを誘導する報酬をしばしば回収する。 さらに (b)これらの報酬は、しばしば非常に不十分な形状であり、効果的に最適化するために広範囲にわたる環境相互作用を必要とする。 これら2つの懸念に対して、シンプルでスケーラブルな修正を提供します。 対訳 対訳 対訳 対訳 対訳 対訳 対 (a) 報酬モデルアンサンブルとわずかに異なる訓練目標が組み合わさって再訓練や伝達性能が大幅に向上することがわかった。 目的 b) IRLの古典的理論が残したギャップを埋め、目標環境における再学習を高速化する報酬形成項を最適化する進化戦略に基づく新しい手法 EvIL を提案する。 一連の継続的制御タスクでは、ターゲット(およびソース)環境のポリシーを以前の作業よりも効率的に再トレーニングすることができます。

Often times in imitation learning (IL), the environment we collect expert demonstrations in and the environment we want to deploy our learned policy in aren't exactly the same (e.g. demonstrations collected in simulation but deployment in the real world). Compared to policy-centric approaches to IL like behavioural cloning, reward-centric approaches like inverse reinforcement learning (IRL) often better replicate expert behaviour in new environments. This transfer is usually performed by optimising the recovered reward under the dynamics of the target environment. However, (a) we find that modern deep IL algorithms frequently recover rewards which induce policies far weaker than the expert, even in the same environment the demonstrations were collected in. Furthermore, (b) these rewards are often quite poorly shaped, necessitating extensive environment interaction to optimise effectively. We provide simple and scalable fixes to both of these concerns. For (a), we find that reward model ensembles combined with a slightly different training objective significantly improves re-training and transfer performance. For (b), we propose a novel evolution-strategies based method EvIL to optimise for a reward-shaping term that speeds up re-training in the target environment, closing a gap left open by the classical theory of IRL. On a suite of continuous control tasks, we are able to re-train policies in target (and source) environments more interaction-efficiently than prior work.
翻訳日:2024-06-20 00:46:12 公開日:2024-06-15
# 科学者はどのようにしてオブザーバーに依存しない科学を確立することができるのか?

How can scientists establish an observer-independent science? ( http://arxiv.org/abs/2112.15428v2 )

ライセンス: Link先を確認
John Realpe-Gómez, (参考訳) エビデンス(エビデンス)は、その行動と知覚が互いに一致して決定し、行動知覚ループを形成する、体現認知の理論のために成長している。 これは、人間が何らかの形で知覚するものに参加することを示唆している。 では、どのようにして科学者が行動知覚ループから逃れて、世界の観察者に依存しない説明を得ることができるのか? ここでは、心の哲学と科学と量子物理学のリバースエンジニアリングから得られる一連の予想を提示し、この問題を探求する。 我々は、エンボディメントが伝統的に理解されているように、想像時間量子力学の側面を示すことができると論じる。 次に、真にリアルタイムな量子力学の側面を得るのに必要な追加の制約について検討する。 特に、実験を行う実施科学者は、認知を具現化するための従来のアプローチでは無視されている他の科学者の視点から説明されなければならないと推測し、観察者は、他の観察者が経験する対象と、他の観察対象を経験する「対象」の両方として補完的な役割を担わなければならない。

Evidence is growing for the theory of embodied cognition, which posits that action and perception co-determine each other, forming an action-perception loop. This suggests that we humans somehow participate in what we perceive. So, how can scientists escape the action-perception loop to obtain an observer-independent description of the world? Here we present a set of conjectures informed by the philosophy of mind and a reverse-engineering of science and quantum physics to explore this question. We argue that embodiment, as traditionally understood, can manifest aspects of imaginary-time quantum dynamics. We then explore what additional constraints are required to obtain aspects of genuine, real-time quantum dynamics. In particular, we conjecture that an embodied scientist doing experiments must be described from the perspective of another scientist, which is ignored in traditional approaches to embodied cognition, and that observers play complementary roles as both objects experienced by other observers and ``subjects'' that experience other objects.
翻訳日:2024-06-19 13:36:52 公開日:2024-06-15
# ビザンティン攻撃で武装した複数の武装組織

Federated Multi-Armed Bandits Under Byzantine Attacks ( http://arxiv.org/abs/2205.04134v2 )

ライセンス: Link先を確認
Artun Saday, İlker Demirel, Yiğit Yıldırım, Cem Tekin, (参考訳) マルチアーム・バンディット(英: Multi-armed bandits、MAB)は、学習者が探索と搾取の間のトレードオフを制御し、その累積報酬を最大化する、シーケンシャルな意思決定モデルである。 FMAB(Federated Multi-armed Bandits)は、異種ローカルモデルを持つ学習者のコホートがMABゲームをプレイし、集約されたフィードバックをサーバに伝達し、グローバルな最適なアームを学習する新興フレームワークである。 FMABの2つの重要なハードルは、コミュニケーション効率の学習と敵攻撃に対するレジリエンスである。 これらの問題に対処するために、学習プロセスを脅かす偽モデル更新を送信できるビザンティンクライアントの存在下で、FMAB問題を調査する。 我々は、サンプルの複雑さと、$\beta$-optimal arm IDの後悔を分析した。 我々は、ロバストな統計からツールを借り、ビザンティンのクライアントに対処するために、中央値のオンラインアルゴリズムであるFed-MoM-UCBを提案する。 特に、ビザンツのクライアントがコホートの半分以下である場合、$\beta$-Optimal アームに対する累積的後悔は、高い確率で時間とともに束縛され、通信効率とビザンツのレジリエンスの両方を示す。 我々は,アルゴリズムパラメータ間の相互作用,識別率,後悔,通信コスト,アームの準最適差を分析した。 実験により, ビザンチン攻撃の存在下でのベースラインに対するFed-MoM-UCBの有効性を実証した。

Multi-armed bandits (MAB) is a sequential decision-making model in which the learner controls the trade-off between exploration and exploitation to maximize its cumulative reward. Federated multi-armed bandits (FMAB) is an emerging framework where a cohort of learners with heterogeneous local models play an MAB game and communicate their aggregated feedback to a server to learn a globally optimal arm. Two key hurdles in FMAB are communication-efficient learning and resilience to adversarial attacks. To address these issues, we study the FMAB problem in the presence of Byzantine clients who can send false model updates threatening the learning process. We analyze the sample complexity and the regret of $\beta$-optimal arm identification. We borrow tools from robust statistics and propose a median-of-means (MoM)-based online algorithm, Fed-MoM-UCB, to cope with Byzantine clients. In particular, we show that if the Byzantine clients constitute less than half of the cohort, the cumulative regret with respect to $\beta$-optimal arms is bounded over time with high probability, showcasing both communication efficiency and Byzantine resilience. We analyze the interplay between the algorithm parameters, a discernibility margin, regret, communication cost, and the arms' suboptimality gaps. We demonstrate Fed-MoM-UCB's effectiveness against the baselines in the presence of Byzantine attacks via experiments.
翻訳日:2024-06-19 13:29:49 公開日:2024-06-15
# 社会科学のための言葉埋め込み : 学際的調査

Word Embedding for Social Sciences: An Interdisciplinary Survey ( http://arxiv.org/abs/2207.03086v2 )

ライセンス: Link先を確認
Akira Matsui, Emilio Ferrara, (参考訳) 複雑なデータから重要な情報を抽出するために、計算機科学者は低次元表現モードを学習する機械学習モデルを開発してきた。 このような機械学習研究の進歩から、コンピュータ科学者だけでなく、社会科学者も、人間の行動や社会現象が複雑なデータにあるため、研究の恩恵を受け、進歩してきた。 しかし、この新たな傾向は、異なる社会科学分野が互いの業績を覆うことは稀であり、文学における知識の断片化につながるため、十分に文書化されていない。 この新たな傾向を示すために,人間の行動マイニングに単語埋め込み技術を適用した最近の研究を調査する。 我々は,調査論文の手法と方法を説明するための分類学を構築し,単語埋め込み応用に関する文献における研究の文脈化を社会科学研究者に支援した。 この調査はまた、文献で使用される共通類似度の測定が、集合レベルで一貫した結果を返すとしても、異なる結果が得られることを警告するための簡単な実験も行った。

To extract essential information from complex data, computer scientists have been developing machine learning models that learn low-dimensional representation mode. From such advances in machine learning research, not only computer scientists but also social scientists have benefited and advanced their research because human behavior or social phenomena lies in complex data. However, this emerging trend is not well documented because different social science fields rarely cover each other's work, resulting in fragmented knowledge in the literature. To document this emerging trend, we survey recent studies that apply word embedding techniques to human behavior mining. We built a taxonomy to illustrate the methods and procedures used in the surveyed papers, aiding social science researchers in contextualizing their research within the literature on word embedding applications. This survey also conducts a simple experiment to warn that common similarity measurements used in the literature could yield different results even if they return consistent results at an aggregate level.
翻訳日:2024-06-19 13:29:49 公開日:2024-06-15
# 空間的に不規則なハイゼンベルクスピン系における異方性非依存磁化ダイナミクスの観察

Observation of anisotropy-independent magnetization dynamics in spatially disordered Heisenberg spin systems ( http://arxiv.org/abs/2209.08080v4 )

ライセンス: Link先を確認
Titus Franz, Sebastian Geier, Clément Hainaut, Adrian Braemer, Nithiwadee Thaicharoen, Moritz Hornung, Eduard Braun, Martin Gärttner, Gerhard Zürn, Matthias Weidemüller, (参考訳) 量子多体系の遠方平衡力学の包括的理解に向けた重要なステップは、システムの微視的詳細に依存しない統一された特徴の同定である。 本研究では, ハイゼンベルク XX-, XXZ- およびイジング・ハミルトンの磁化緩和力学におけるロバストな特徴を実験的に観察した。 これらのハイゼンベルクスピンモデルとチューナブル異方性パラメータとパワー-ロー相互作用は、適切なリドベルク状態の組み合わせでスピンを符号化することで、ライドベルク原子のアンサンブル内で実現できる。 スピンモデルすべてに対する磁化の伸張指数緩和を常に観察し、適切な時間再スケーリング後に1つの曲線に崩壊する。 この堅牢な短時間緩和挙動は、対のカップリングにおける強い障害を利用する摂動的処理によって説明され、およそ独立したスピンの対の言葉で説明される。 小系の数値シミュレーションでは、これらのスピンの対が運動の近似局所積分を構成することが示され、これは磁化の緩和ダイナミクスの持続時間を超える時間スケールで少なくとも部分的に保存されている。

An important step towards a comprehensive understanding of far-from-equilibrium dynamics of quantum many-body systems is the identification of unifying features that are independent of microscopic details of the system. We experimentally observe such robust features in the magnetization relaxation dynamics of disordered Heisenberg XX-, XXZ- and Ising Hamiltonians. We realize these Heisenberg spin models with tunable anisotropy parameter and power-law interactions in an ensemble of Rydberg atoms by encoding the spin in suitable Rydberg state combinations. We consistently observe stretched-exponential relaxation of magnetization for all considered spin models, collapsing onto a single curve after appropriate rescaling of time. This robust short-time relaxation behavior is explained by a perturbative treatment that exploits the strong disorder in pairwise couplings, which leads to a description in terms of approximately independent pairs of spins. In numerical simulations of small systems, we show that these pairs of spins constitute approximate local integrals of motion, which remain at least partially conserved on a timescale exceeding the duration of the relaxation dynamics of the magnetization.
翻訳日:2024-06-19 13:29:49 公開日:2024-06-15
# 動的システムのモデリングのためのグラフニューラル・オードの帰納的ビアーゼの強化

Enhancing the Inductive Biases of Graph Neural ODE for Modeling Dynamical Systems ( http://arxiv.org/abs/2209.10740v2 )

ライセンス: Link先を確認
Suresh Bishnoi, Ravinder Bhattoo, Sayan Ranu, N. M. Anoop Krishnan, (参考訳) ラグランジアンニューラルネットワーク(LNN)やハミルトニアンニューラルネットワーク(HNN)のような物理学に基づく帰納バイアスを持つニューラルネットワークは、強い帰納バイアスを符号化することで物理的システムの力学を学ぶ。 あるいは、適切な帰納バイアスを持つニューラルODEも同様の性能を示すことが示されている。 しかしながら、これらのモデルが粒子系に適用された場合、自然界において帰納的であり、従って大きなシステムサイズに一般化されない。 本稿では,動的システムの時間進化を学習するためのグラフベースニューラルODE,GNODEを提案する。 さらに, GNODEの性能に及ぼす誘導バイアスの影響を慎重に分析する。 我々は,LNNやHNNと同様,制約を明示的に符号化することで,GNODEのトレーニング効率と性能を大幅に向上させることができることを示す。 我々の実験はまた、モデルの最終性能に関するニュートンの第3法則のような帰納的バイアスの付加価値も評価した。 これらのバイアスを誘導することで、エネルギー違反とロールアウトエラーの両方の観点から、モデルの性能を桁違いに向上させることができることを実証する。 興味深いことに、GNODEは最も効果的なインダクティブバイアス、すなわちMCGNODEで訓練され、LNNとHNNのグラフバージョン、すなわちラグランジアングラフネットワーク(LGN)とハミルトングラフネットワーク(HGN)を、振り子系において4桁のエネルギー違反誤差で上回り、バネ系では2桁の精度で処理する。 これらの結果から, エネルギー保存型ニューラルネットワークを用いた競合性能は, 適切な帰納バイアスを誘導することにより, NODEベースのシステムに対して得られることが示唆された。

Neural networks with physics based inductive biases such as Lagrangian neural networks (LNN), and Hamiltonian neural networks (HNN) learn the dynamics of physical systems by encoding strong inductive biases. Alternatively, Neural ODEs with appropriate inductive biases have also been shown to give similar performances. However, these models, when applied to particle based systems, are transductive in nature and hence, do not generalize to large system sizes. In this paper, we present a graph based neural ODE, GNODE, to learn the time evolution of dynamical systems. Further, we carefully analyse the role of different inductive biases on the performance of GNODE. We show that, similar to LNN and HNN, encoding the constraints explicitly can significantly improve the training efficiency and performance of GNODE significantly. Our experiments also assess the value of additional inductive biases, such as Newtons third law, on the final performance of the model. We demonstrate that inducing these biases can enhance the performance of model by orders of magnitude in terms of both energy violation and rollout error. Interestingly, we observe that the GNODE trained with the most effective inductive biases, namely MCGNODE, outperforms the graph versions of LNN and HNN, namely, Lagrangian graph networks (LGN) and Hamiltonian graph networks (HGN) in terms of energy violation error by approx 4 orders of magnitude for a pendulum system, and approx 2 orders of magnitude for spring systems. These results suggest that competitive performances with energy conserving neural networks can be obtained for NODE based systems by inducing appropriate inductive biases.
翻訳日:2024-06-19 13:29:49 公開日:2024-06-15
# ロバストネスは統計的推定にプライバシーを損なう

Robustness Implies Privacy in Statistical Estimation ( http://arxiv.org/abs/2212.05015v3 )

ライセンス: Link先を確認
Samuel B. Hopkins, Gautam Kamath, Mahbod Majid, Shyam Narayanan, (参考訳) 本研究では,高次元アルゴリズム統計学における対向ロバスト性と差分プライバシーの関係について検討する。 提案手法は, サンプルの複雑さ, 精度, プライバシのトレードオフが最適であるプライベートな推定器を, 平均および共分散推定を含む多種多様な高次元パラメータ推定問題に対して生成できる, プライバシから堅牢性への最初のブラックボックス削減を実現する。 この削減は、いくつかの重要な特殊ケースにおいて多項式時間で実施可能であることを示す。 特に,2乗法に基づく高次元ガウス平均と共分散に対する近似多項式時間ロバスト推定器を用いて,ほぼ最適サンプル-精度-プライバシトレードオフを用いたこれらの問題の多項式時間プライベート推定器を設計する。 また, アルゴリズムは, ほぼ最適に崩壊したサンプルに対して頑健である。

We study the relationship between adversarial robustness and differential privacy in high-dimensional algorithmic statistics. We give the first black-box reduction from privacy to robustness which can produce private estimators with optimal tradeoffs among sample complexity, accuracy, and privacy for a wide range of fundamental high-dimensional parameter estimation problems, including mean and covariance estimation. We show that this reduction can be implemented in polynomial time in some important special cases. In particular, using nearly-optimal polynomial-time robust estimators for the mean and covariance of high-dimensional Gaussians which are based on the Sum-of-Squares method, we design the first polynomial-time private estimators for these problems with nearly-optimal samples-accuracy-privacy tradeoffs. Our algorithms are also robust to a nearly optimal fraction of adversarially-corrupted samples.
翻訳日:2024-06-19 13:20:03 公開日:2024-06-15
# 三次元ライドバーグ原子アレイにおける量子スピンアイス

Quantum spin ice in three-dimensional Rydberg atom arrays ( http://arxiv.org/abs/2301.04657v2 )

ライセンス: Link先を確認
Jeet Shah, Gautam Nambiar, Alexey V. Gorshkov, Victor Galitski, (参考訳) 量子スピン液体(Quantum spin liquids)は、低エネルギー物理学を創発ゲージ理論の分解相として記述した物質のエキゾチック相である。 最近の理論の提案と、$\mathbb{Z}_2$トポロジカルオーダー [G. Semeghini et al , Science 374, 1242 (2021)] の事前の兆候を示す実験により、リドバーグ原子配列は量子スピン液体を実現するための有望なプラットフォームとして現れた。 本研究では, ピロクロア格子Rydberg 原子配列において, 3次元の量子スピン液体を$U(1)$ゲージ理論の分解相で表す方法を提案する。 本稿では,実験パラメータの関数として提案したRydberg系の基底状態位相図について検討する。 我々の計算では、Rabi周波数をチューニングすることにより、磁化モノポールの拡散によって引き起こされる閉じ込め分解遷移と、創発ゲージ理論の「電化」電荷の拡散によって引き起こされるヒッグス遷移の両方にアクセスできる。 本稿では,分解相と秩序相を区別するための実験的プローブを提案する。 この研究は、Rydbergベースの量子シミュレータ上で3次元の閉じ込め分解遷移にアクセスするための提案として機能する。

Quantum spin liquids are exotic phases of matter whose low-energy physics is described as the deconfined phase of an emergent gauge theory. With recent theory proposals and an experiment showing preliminary signs of $\mathbb{Z}_2$ topological order [G. Semeghini et al., Science 374, 1242 (2021)], Rydberg atom arrays have emerged as a promising platform to realize a quantum spin liquid. In this work, we propose a way to realize a $U(1)$ quantum spin liquid in three spatial dimensions, described by the deconfined phase of $U(1)$ gauge theory in a pyrochlore lattice Rydberg atom array. We study the ground state phase diagram of the proposed Rydberg system as a function of experimentally relevant parameters. Within our calculation, we find that by tuning the Rabi frequency, one can access both the confinement-deconfinement transition driven by a proliferation of "magnetic" monopoles and the Higgs transition driven by a proliferation of "electric" charges of the emergent gauge theory. We suggest experimental probes for distinguishing the deconfined phase from ordered phases. This work serves as a proposal to access a confinement-deconfinement transition in three spatial dimensions on a Rydberg-based quantum simulator.
翻訳日:2024-06-19 13:20:03 公開日:2024-06-15
# メタバースでGPTを開放する - 救世主か破壊者か?

Unleashing GPT on the Metaverse: Savior or Destroyer? ( http://arxiv.org/abs/2303.13856v3 )

ライセンス: Link先を確認
Pengyuan Zhou, (参考訳) 人工知能(AI)技術、特に大きな言語モデル(LLM)を組み込むことは、没入的で対話的なメタバース体験を開発する上でますます重要になっている。 OpenAI が開発した代表的 LLM である GPT は LLM 開発をリードし,そのメタバース構築の可能性に注目されている。 この論文は、メタバースベースの教育、エンターテイメント、パーソナライゼーション、サポートにGPTを活用することの長所と短所を掘り下げている。 ダイナミックでパーソナライズされたエクスペリエンスは、このテクノロジでは可能だが、適切なプライバシ、バイアス、倫理的な問題も考慮する必要がある。 本稿では,GPTの技術的優位性がメタバースに与える影響と,これらの機会と障害を評価することで,より没入的で魅力的な仮想環境を効果的に創出する方法について,読者の理解を支援することを目的とする。

Incorporating artificial intelligence (AI) technology, particularly large language models (LLMs), is becoming increasingly vital for developing immersive and interactive metaverse experiences. GPT, a representative LLM developed by OpenAI, is leading LLM development and gaining attention for its potential in building the metaverse. The article delves into the pros and cons of utilizing GPT for metaverse-based education, entertainment, personalization, and support. Dynamic and personalized experiences are possible with this technology, but there are also legitimate privacy, bias, and ethical issues to consider. This article aims to help readers understand the possible influence of GPT, according to its unique technological advantages, on the metaverse and how it may be used to effectively create a more immersive and engaging virtual environment by evaluating these opportunities and obstacles.
翻訳日:2024-06-19 13:20:03 公開日:2024-06-15
# トポロジカル量子テレポーテーションと超高密度符号化

Topological Quantum Teleportation and Superdense Coding -- Without Braiding ( http://arxiv.org/abs/2303.17700v2 )

ライセンス: Link先を確認
Sachin J. Valera, (参考訳) タンバラ・山上圏から派生した異論の系に対して,最下位の等級理論がイジング・異論を記述したテレポーテーションと超高貴な符号化プロトコルを提示する。 正弦波計算に対する通常のアプローチとは対照的に、我々は正弦波をブレイドできるという要求を緩和する。 これは、準粒子の制御をあまり必要とせず、したがって短期的なシステムで実現可能な基本プロトコルを設計することによるものである。 これらの実装はブレイドフリーであるため、1d量子ワイヤ上のMajoranaモードとも互換性がある。

We present the teleportation and superdense coding protocols for a family of anyon theories coming from Tambara-Yamagami categories, of which the lowest rank theories describe Ising anyons. In contrast to the usual approach to anyonic computation, we relax the requirement that we should be able to braid anyons. This is motivated by the goal of designing basic protocols that require less control over quasiparticles, and which may therefore be amenable to realisation in near-term systems. Since these implementations are braid-free, they are also compatible with Majorana modes on a 1d quantum wire.
翻訳日:2024-06-19 13:20:03 公開日:2024-06-15
# KBody:一般,堅牢,整列した単分子体全体推定を目指して

KBody: Towards general, robust, and aligned monocular whole-body estimation ( http://arxiv.org/abs/2304.11542v3 )

ライセンス: Link先を確認
Nikolaos Zioulis, James F. O'Brien, (参考訳) KBodyは、低次元のボディモデルを画像に適合させる方法である。 これは予測と最適化のアプローチに従っており、身体のパラメータの解決に使用される制約に対して、データ駆動モデルの推定に依存する。 高品質な対応の重要性を認識し、"仮想関節"を活用してフィッティング性能を改善し、ポーズパラメータと形状パラメータの最適化を解き、非対称距離場を統合してポーズと形状キャプチャの能力と画素アライメントのバランスをとる。 また、生成モデルインバージョンは、部分的な人間の画像の完成に利用でき、一般化された頑健な単分子体フィッティングのためのビルディングブロックとして使用できる、強い外観を提供することを示す。 プロジェクトページ: https://zokin.github.io/KBody.com

KBody is a method for fitting a low-dimensional body model to an image. It follows a predict-and-optimize approach, relying on data-driven model estimates for the constraints that will be used to solve for the body's parameters. Acknowledging the importance of high quality correspondences, it leverages ``virtual joints" to improve fitting performance, disentangles the optimization between the pose and shape parameters, and integrates asymmetric distance fields to strike a balance in terms of pose and shape capturing capacity, as well as pixel alignment. We also show that generative model inversion offers a strong appearance prior that can be used to complete partial human images and used as a building block for generalized and robust monocular body fitting. Project page: https://zokin.github.io/KBody.
翻訳日:2024-06-19 13:10:19 公開日:2024-06-15
# 演算子学習における非局所性と非線形性の影響

Nonlocality and Nonlinearity Implies Universality in Operator Learning ( http://arxiv.org/abs/2304.13221v2 )

ライセンス: Link先を確認
Samuel Lanthaler, Zongyi Li, Andrew M. Stuart, (参考訳) ニューラル作用素アーキテクチャは、無限次元バナッハ空間の間の作用素を近似する。 従来の数値法を加速し、データドリブンな発見を可能にする可能性から、計算科学と工学の分野に注目が集まっている。 場の初期段階にあるので、普遍近似に対する最小限の要件に関する基本的な問題は、まだ未解決のままである。 函数空間間の作用素の一般近似が非局所的かつ非線形であることは明らかである。 本稿では,これらの2つの属性を,普遍近似を推定する簡単な方法で組み合わせる方法について述べる。 このようにして、幅広い神経オペレーターアーキテクチャの分析を統一し、新しいアーキテクチャを考察する。 ニューラル演算子の一般的な変種はフーリエニューラル演算子(FNO)である。 FNOsの普遍作用素近似定理を証明する以前の分析は、スペクトル法の伝統的な分析からの直観に頼って、無制限のフーリエモードを使用する。 現在の作業は、この観点からの課題である。 (i)この研究はFNOをその中核に還元し、「ANO」と呼ばれる最小限のアーキテクチャをもたらす。 (II) ANOの分析は、この最小限のANOアーキテクチャでさえ普遍近似の恩恵を受けていることを示している。 この結果は、その非局所成分として空間平均のみに基づいて得られる(FNOの特別の場合では、emph{single} Fourier モードのみに対応する)。 この分析は、新しい演算子学習アーキテクチャの開発と、既存のおよび新しいアーキテクチャの分析の両方を通じて、より体系的な非局所性探索の道を開く。 チャネル幅(埋め込み次元)とフーリエモードの数に関連する複雑性問題について,数値的な結果が提示される。

Neural operator architectures approximate operators between infinite-dimensional Banach spaces of functions. They are gaining increased attention in computational science and engineering, due to their potential both to accelerate traditional numerical methods and to enable data-driven discovery. As the field is in its infancy basic questions about minimal requirements for universal approximation remain open. It is clear that any general approximation of operators between spaces of functions must be both nonlocal and nonlinear. In this paper we describe how these two attributes may be combined in a simple way to deduce universal approximation. In so doing we unify the analysis of a wide range of neural operator architectures and open up consideration of new ones. A popular variant of neural operators is the Fourier neural operator (FNO). Previous analysis proving universal operator approximation theorems for FNOs resorts to use of an unbounded number of Fourier modes, relying on intuition from traditional analysis of spectral methods. The present work challenges this point of view: (i) the work reduces FNO to its core essence, resulting in a minimal architecture termed the ``averaging neural operator'' (ANO); and (ii) analysis of the ANO shows that even this minimal ANO architecture benefits from universal approximation. This result is obtained based on only a spatial average as its only nonlocal ingredient (corresponding to retaining only a \emph{single} Fourier mode in the special case of the FNO). The analysis paves the way for a more systematic exploration of nonlocality, both through the development of new operator learning architectures and the analysis of existing and new architectures. Numerical results are presented which give insight into complexity issues related to the roles of channel width (embedding dimension) and number of Fourier modes.
翻訳日:2024-06-19 13:10:19 公開日:2024-06-15
# FreePoint: Unsupervised Point Cloud Instance Segmentation

FreePoint: Unsupervised Point Cloud Instance Segmentation ( http://arxiv.org/abs/2305.06973v2 )

ライセンス: Link先を確認
Zhikai Zhang, Jian Ding, Li Jiang, Dengxin Dai, Gui-Song Xia, (参考訳) ポイントクラウドのインスタンスセグメンテーションは、シーン内のオブジェクトのローカライズとセグメンテーションを含む多くのアプリケーションで、3Dフィールドにおいて重要なタスクである。 しかし、十分な結果を達成するには、多くの手動のアノテーションが必要です。 アノテーションへの依存を軽減するため、ポイントクラウド上の教師なしクラス非依存のインスタンスセグメンテーションを探索する新しいフレームワークFreePointを提案する。 詳細は、座標、色、および自己監督された深い特徴を組み合わせることで、ポイントの特徴を表現する。 ポイント特徴に基づいて、ポイントクラウドを擬似ラベルとして粗いインスタンスマスクに分割するボトムアップマルチカットアルゴリズムを実行し、ポイントクラウドインスタンスセグメンテーションモデルをトレーニングする。 この段階では,マルチカットアルゴリズムのランダム性を緩和し,擬似ラベルの品質を向上させるためのid-as-feature戦略を提案する。 トレーニング中は、粗いマスクの不正確さを克服するために、弱教師付き2段階トレーニング戦略とそれに伴う損失を提案する。 FreePointは、ポイントクラウド上の教師なしのクラス非依存のインスタンスセグメンテーションにおいてブレークスルーを達成し、従来のメソッドを18.2%以上上回り、競合するコンカレントなUnScene3DをAPで5.5%上回った。 さらに、プリテキストタスクとして使われ、S3DISで微調整された場合、FreePointは制限されたアノテーションを持つ既存の自己教師付き事前学習方法よりも大幅に優れ、10%のアノテーションマスクを持つAPのCSCを6.0%上回る。

Instance segmentation of point clouds is a crucial task in 3D field with numerous applications that involve localizing and segmenting objects in a scene. However, achieving satisfactory results requires a large number of manual annotations, which is a time-consuming and expensive process. To alleviate dependency on annotations, we propose a novel framework, FreePoint, for underexplored unsupervised class-agnostic instance segmentation on point clouds. In detail, we represent the point features by combining coordinates, colors, and self-supervised deep features. Based on the point features, we perform a bottom-up multicut algorithm to segment point clouds into coarse instance masks as pseudo labels, which are used to train a point cloud instance segmentation model. We propose an id-as-feature strategy at this stage to alleviate the randomness of the multicut algorithm and improve the pseudo labels' quality. During training, we propose a weakly-supervised two-step training strategy and corresponding losses to overcome the inaccuracy of coarse masks. FreePoint has achieved breakthroughs in unsupervised class-agnostic instance segmentation on point clouds and outperformed previous traditional methods by over 18.2% and a competitive concurrent work UnScene3D by 5.5% in AP. Additionally, when used as a pretext task and fine-tuned on S3DIS, FreePoint performs significantly better than existing self-supervised pre-training methods with limited annotations and surpasses CSC by 6.0% in AP with 10% annotation masks.
翻訳日:2024-06-19 13:10:19 公開日:2024-06-15
# 野生で回収された証拠を用いた複雑クレームの検証

Complex Claim Verification with Evidence Retrieved in the Wild ( http://arxiv.org/abs/2305.11859v2 )

ライセンス: Link先を確認
Jifan Chen, Grace Kim, Aniruddh Sriram, Greg Durrett, Eunsol Choi, (参考訳) エビデンス検索は、自動ファクトチェックの中核部分である。 これまでの作業では、現実世界のユースケースから外れた検索における仮定を単純化している:証拠へのアクセス、人間の事実検査者によって算出された証拠へのアクセス、または主張が実行されてからずっと経ってから入手可能な証拠へのアクセス。 本研究では,Webから生の証拠を取り出すことによって,実世界のクレームをチェックするための,最初の完全自動化パイプラインを提案する。 我々は、クレームが作成される前に利用可能なドキュメントのみを検索し、新たなクレームをチェックする必要がある現実的なシナリオをモデル化する。 私たちのパイプラインには,クレーム分解,生文書検索,きめ細かい証拠検索,クレーム中心の要約,正確性判定という5つのコンポーネントが含まれています。 ClaimDecompデータセットにおける複雑な政治的主張の実験を行い、パイプラインが生成した集合的証拠が妥当性判定を改善することを示す。 人間の評価では,我々のシステムが生成したエビデンス・サマリーは信頼性が高く(幻覚的情報ではない),クレームに関する重要な疑問に答えることに関係しており,完全なエビデンス・セットを提示できない場合でもファクト・チェッカーを支援できることが示唆されている。

Evidence retrieval is a core part of automatic fact-checking. Prior work makes simplifying assumptions in retrieval that depart from real-world use cases: either no access to evidence, access to evidence curated by a human fact-checker, or access to evidence available long after the claim has been made. In this work, we present the first fully automated pipeline to check real-world claims by retrieving raw evidence from the web. We restrict our retriever to only search documents available prior to the claim's making, modeling the realistic scenario where an emerging claim needs to be checked. Our pipeline includes five components: claim decomposition, raw document retrieval, fine-grained evidence retrieval, claim-focused summarization, and veracity judgment. We conduct experiments on complex political claims in the ClaimDecomp dataset and show that the aggregated evidence produced by our pipeline improves veracity judgments. Human evaluation finds the evidence summary produced by our system is reliable (it does not hallucinate information) and relevant to answering key questions about a claim, suggesting that it can assist fact-checkers even when it cannot surface a complete evidence set.
翻訳日:2024-06-19 13:10:19 公開日:2024-06-15
# 時変処理におけるファクトファクチュアル生成モデル

Counterfactual Generative Models for Time-Varying Treatments ( http://arxiv.org/abs/2305.15742v4 )

ライセンス: Link先を確認
Shenghao Wu, Wenbin Zhou, Minshuo Chen, Shixiang Zhu, (参考訳) 公衆衛生や臨床科学における意思決定には, 治療の非現実的な結果の推定が不可欠である。 多くの場合、治療はシーケンシャルで、時間的に異なる方法で行われ、結果として起こりうる対実的な結果が指数関数的に増加する。 さらに、現代の応用では、結果は高次元であり、従来の平均処理効果推定では個人間の格差を捉えることができない。 これらの課題に対処するために, 時間変化処理下で, 明示的な密度推定を必要とせず, 対実的なサンプルを生成できる新しい条件生成フレームワークを提案する。 提案手法は,逆確率再重み付けに基づく損失関数を用いて観測された分布と反事実分布の分布ミスマッチを慎重に処理し,誘導拡散や条件変分オートエンコーダなどの最先端条件生成モデルとの統合を支援する。 合成データと実世界のデータの両方を用いて,本手法の徹底的な評価を行う。 提案手法は,高品質な反ファクトサンプルを生成でき,最先端のベースラインよりも優れていることを示す。

Estimating the counterfactual outcome of treatment is essential for decision-making in public health and clinical science, among others. Often, treatments are administered in a sequential, time-varying manner, leading to an exponentially increased number of possible counterfactual outcomes. Furthermore, in modern applications, the outcomes are high-dimensional and conventional average treatment effect estimation fails to capture disparities in individuals. To tackle these challenges, we propose a novel conditional generative framework capable of producing counterfactual samples under time-varying treatment, without the need for explicit density estimation. Our method carefully addresses the distribution mismatch between the observed and counterfactual distributions via a loss function based on inverse probability re-weighting, and supports integration with state-of-the-art conditional generative models such as the guided diffusion and conditional variational autoencoder. We present a thorough evaluation of our method using both synthetic and real-world data. Our results demonstrate that our method is capable of generating high-quality counterfactual samples and outperforms the state-of-the-art baselines.
翻訳日:2024-06-19 13:00:14 公開日:2024-06-15
# オフライン強化学習のための軽度制約付き評価政策

Mildly Constrained Evaluation Policy for Offline Reinforcement Learning ( http://arxiv.org/abs/2306.03680v2 )

ライセンス: Link先を確認
Linjie Xu, Zhengyao Jiang, Jinyu Wang, Lei Song, Jiang Bian, (参考訳) オフライン強化学習(RL)手法は、行動方針に忠実に従うためのポリシーに制約を課し、それによって価値学習を安定化し、テスト期間中にアウト・オブ・ディストリビューション(OOD)アクションの選択を緩和する。 従来のアプローチでは、バリューラーニングとテスト時間推論の両方に同じ制約を適用しています。 しかし, 実測値推定に適した制約は, テスト期間中の行動選択に過度に制限される可能性が示唆された。 この問題に対処するために、より制約のある値推定用 \textit{target Policy} を用いたテスト時間推論のための \textit{Mildly Constrained Evaluation Policy (MCEP) を提案する。 これまでの様々なアプローチで‘textit{target policy} が採用されているため、MCEP はプラグインとしてシームレスに統合できる。 我々はTD3BC(Fujimoto & Gu, 2021)、AWAC(Nair et al , 2020)、DQL(Wang et al , 2023)アルゴリズムに基づいてMCEPをインスタンス化する。 D4RL MuJoCoロコモーション、高次元ヒューマノイド、および16個のロボット操作タスクによる実験結果から、MCEPは古典的オフラインRL法に大幅な性能改善をもたらし、SOTA法をさらに改善できることが示された。 ソースコードは \url{https://github.com/egg-west/MCEP.git} でオープンソース化されている。

Offline reinforcement learning (RL) methodologies enforce constraints on the policy to adhere closely to the behavior policy, thereby stabilizing value learning and mitigating the selection of out-of-distribution (OOD) actions during test time. Conventional approaches apply identical constraints for both value learning and test time inference. However, our findings indicate that the constraints suitable for value estimation may in fact be excessively restrictive for action selection during test time. To address this issue, we propose a \textit{Mildly Constrained Evaluation Policy (MCEP)} for test time inference with a more constrained \textit{target policy} for value estimation. Since the \textit{target policy} has been adopted in various prior approaches, MCEP can be seamlessly integrated with them as a plug-in. We instantiate MCEP based on TD3BC (Fujimoto & Gu, 2021), AWAC (Nair et al., 2020) and DQL (Wang et al., 2023) algorithms. The empirical results on D4RL MuJoCo locomotion, high-dimensional humanoid and a set of 16 robotic manipulation tasks show that the MCEP brought significant performance improvement on classic offline RL methods and can further improve SOTA methods. The codes are open-sourced at \url{https://github.com/egg-west/MCEP.git}.
翻訳日:2024-06-19 13:00:14 公開日:2024-06-15
# SiBBlInGS:国別グラフを用いた類似性駆動型ビルディングブロック推論

SiBBlInGS: Similarity-driven Building-Block Inference using Graphs across States ( http://arxiv.org/abs/2306.04817v4 )

ライセンス: Link先を確認
Noga Mudrik, Gal Mishne, Adam S. Charles, (参考訳) 科学的領域にわたる時系列データは、しばしば異なる状態(例えばタスク)の下で収集される。 この複雑さを捉えるための重要なアプローチは、データ内の基本的な解釈可能なユニットであるビルディングブロック(BB)を明らかにすることである。 マルチウェイデータ中のBBを識別する既存の方法は、しばしば状態内変動に対して相互に見落とし、解釈不能なコンポーネントを生成したり、サンプルの欠落や異なる期間のセッションのような現実世界のデータの性質と一致しない。 本稿では、国間グラフ(SiBBlInGS)を用いた類似性駆動型ビルディングブロック推論のためのフレームワークを提案する。 SiBBlInGSは、コアクティビティパターンと状態間の関係に基づく、スパースBBを発見するためのグラフベースの辞書学習アプローチを提供する。 さらに、SiBBlInGSは、心房内時間変動と制御されたクロスステート構造BB適応を捉え、状態特異的と状態不変成分を識別し、観察されたセッションの数と期間の変動を許容する。 我々は、複雑な現象に対するSiBBlInGSの洞察を明らかにする能力と、ノイズに対する堅牢性、Web検索やニューラルデータなど、いくつかの合成および実世界の例を通して、サンプルの欠如を実証する。

Time series data across scientific domains are often collected under distinct states (e.g., tasks), wherein latent processes (e.g., biological factors) create complex inter- and intra-state variability. A key approach to capture this complexity is to uncover fundamental interpretable units within the data, Building Blocks (BBs), which modulate their activity and adjust their structure across observations. Existing methods for identifying BBs in multi-way data often overlook inter- vs. intra-state variability, produce uninterpretable components, or do not align with properties of real-world data, such as missing samples and sessions of different duration. Here, we present a framework for Similarity-driven Building Block Inference using Graphs across States (SiBBlInGS). SiBBlInGS offers a graph-based dictionary learning approach for discovering sparse BBs along with their temporal traces, based on co-activity patterns and inter- vs. intra-state relationships. Moreover, SiBBlInGS captures per-trial temporal variability and controlled cross-state structural BB adaptations, identifies state-specific vs. state-invariant components, and accommodates variability in the number and duration of observed sessions across states. We demonstrate SiBBlInGS's ability to reveal insights into complex phenomena as well as its robustness to noise and missing samples through several synthetic and real-world examples, including web search and neural data.
翻訳日:2024-06-19 13:00:14 公開日:2024-06-15
# 解釈可能な主観レベル予測のための軽量生成モデル

A Lightweight Generative Model for Interpretable Subject-level Prediction ( http://arxiv.org/abs/2306.11107v2 )

ライセンス: Link先を確認
Chiara Mauri, Stefano Cerri, Oula Puonti, Mark Mühlau, Koen Van Leemput, (参考訳) 近年、解剖学的機能的効果を描写した医用画像から、被験者の診断などの未知の変数を予測する方法への関心が高まっている。 識別的モデリングに基づく手法は正確な予測を行うのに優れているが、解剖学的に意味のある言葉でその決定を説明する能力に挑戦される。 本稿では,自然に解釈可能な単一対象予測のための簡単な手法を提案する。 これは、古典的な人間の脳マッピング技術で使われる生成モデルを拡張し、基礎となる因果関係を符号化し、支配的な空間的相関を捉える多変量ノイズモデルである。 実験により、結果のモデルを効率よく逆転して正確な主観レベルの予測を行うことができ、同時に内部動作の直感的な視覚的説明を提供することが示された。 トレーニングは一般的なトレーニングセットのサイズで高速で、ユーザが設定するハイパーパラメータは1つだけです。 私たちのコードはhttps://github.com/chiara-mauri/Interpretable-subject-level-predictionで利用可能です。

Recent years have seen a growing interest in methods for predicting an unknown variable of interest, such as a subject's diagnosis, from medical images depicting its anatomical-functional effects. Methods based on discriminative modeling excel at making accurate predictions, but are challenged in their ability to explain their decisions in anatomically meaningful terms. In this paper, we propose a simple technique for single-subject prediction that is inherently interpretable. It augments the generative models used in classical human brain mapping techniques, in which the underlying cause-effect relations can be encoded, with a multivariate noise model that captures dominant spatial correlations. Experiments demonstrate that the resulting model can be efficiently inverted to make accurate subject-level predictions, while at the same time offering intuitive visual explanations of its inner workings. The method is easy to use: training is fast for typical training set sizes, and only a single hyperparameter needs to be set by the user. Our code is available at https://github.com/chiara-mauri/Interpretable-subject-level-prediction.
翻訳日:2024-06-19 13:00:14 公開日:2024-06-15
# WaterScenes:マルチタスク4Dレーダカメラフュージョンデータセットと水面自律走行ベンチマーク

WaterScenes: A Multi-Task 4D Radar-Camera Fusion Dataset and Benchmarks for Autonomous Driving on Water Surfaces ( http://arxiv.org/abs/2307.06505v3 )

ライセンス: Link先を確認
Shanliang Yao, Runwei Guan, Zhaodong Wu, Yi Ni, Zile Huang, Ryan Wen Liu, Yong Yue, Weiping Ding, Eng Gee Lim, Hyungjoon Seo, Ka Lok Man, Jieming Ma, Xiaohui Zhu, Yutao Yue, (参考訳) 水面での自律運転は、海洋監視、生存者の救助、環境モニタリング、水路マッピング、廃棄物浄化といった危険で時間のかかるミッションを実行する上で重要な役割を担っている。 この研究は、水面での自律走行のための最初のマルチタスク4Dレーダーカメラ融合データセットであるWaterScenesを提示する。 4Dレーダーと単眼カメラを搭載して、我々の無人のSurface Vehicle(USV)は、色、形状、テクスチャ、範囲、速度、方位、高度など、オブジェクト関連の情報を識別するための全天候ソリューションを入手した。 水面上の典型的な静的物体と動的物体に焦点を合わせ、カメラ画像とレーダー点雲をそれぞれピクセルレベルと点レベルにラベル付けする。 オブジェクト検出やインスタンスセグメンテーション,セマンティックセグメンテーションといった基本的な認識タスクに加えて,自由空間セグメンテーションやウォーターラインセグメンテーションのためのアノテーションも提供する。 マルチタスクおよびマルチモーダルデータを活用することで、レーダーとカメラのユニモーダルと融合モードのベンチマーク実験を行う。 実験により,4次元レーダカメラ融合は,特に悪照明や気象条件下において,水面における知覚の精度と堅牢性を大幅に向上させることができることが示された。 WaterScenesデータセットはhttps://waterscenes.github.io.comで公開されている。

Autonomous driving on water surfaces plays an essential role in executing hazardous and time-consuming missions, such as maritime surveillance, survivors rescue, environmental monitoring, hydrography mapping and waste cleaning. This work presents WaterScenes, the first multi-task 4D radar-camera fusion dataset for autonomous driving on water surfaces. Equipped with a 4D radar and a monocular camera, our Unmanned Surface Vehicle (USV) proffers all-weather solutions for discerning object-related information, including color, shape, texture, range, velocity, azimuth, and elevation. Focusing on typical static and dynamic objects on water surfaces, we label the camera images and radar point clouds at pixel-level and point-level, respectively. In addition to basic perception tasks, such as object detection, instance segmentation and semantic segmentation, we also provide annotations for free-space segmentation and waterline segmentation. Leveraging the multi-task and multi-modal data, we conduct benchmark experiments on the uni-modality of radar and camera, as well as the fused modalities. Experimental results demonstrate that 4D radar-camera fusion can considerably improve the accuracy and robustness of perception on water surfaces, especially in adverse lighting and weather conditions. WaterScenes dataset is public on https://waterscenes.github.io.
翻訳日:2024-06-19 12:50:30 公開日:2024-06-15
# CeRF:光モデリングの導出による新しいビュー合成のための畳み込みニューラルラジアンス場

CeRF: Convolutional Neural Radiance Fields for New View Synthesis with Derivatives of Ray Modeling ( http://arxiv.org/abs/2307.07125v3 )

ライセンス: Link先を確認
Xiaoyan Yang, Dingbo Lu, Yang Li, Chenhui Li, Changbo Wang, (参考訳) 近年,高忠実度画像の生成において,新しいビュー合成が普及している。 新規なビューを合成する作業において優れた性能を示す一方で、これらの手法の大部分は、シーン埋め込みのための従来の多層パーセプトロンに基づいている。 さらに、光場モデルは画素レンダリング中に幾何的ぼかしに悩まされ、放射場に基づくボリュームレンダリング法は密度分布積分の特定のターゲットに対して複数の解を持つ。 これらの問題に対処するために、光線に沿った放射の微分をモデル化する畳み込みニューラルレイディアンス場を導入する。 提案手法は, 1次元畳み込み演算に基づいて, 構造化ニューラルネットワークアーキテクチャによる潜在的光線表現を効果的に抽出する。 さらに、提案したレイモデリングにより、完全なニューラルネットワークレンダリングプロセスにおける幾何学的曖昧性を解決するために、提案された再帰モジュールが使用される。 既存の最先端手法と比較して,提案手法の有望な結果を示した。

In recent years, novel view synthesis has gained popularity in generating high-fidelity images. While demonstrating superior performance in the task of synthesizing novel views, the majority of these methods are still based on the conventional multi-layer perceptron for scene embedding. Furthermore, light field models suffer from geometric blurring during pixel rendering, while radiance field-based volume rendering methods have multiple solutions for a certain target of density distribution integration. To address these issues, we introduce the Convolutional Neural Radiance Fields to model the derivatives of radiance along rays. Based on 1D convolutional operations, our proposed method effectively extracts potential ray representations through a structured neural network architecture. Besides, with the proposed ray modeling, a proposed recurrent module is employed to solve geometric ambiguity in the fully neural rendering process. Extensive experiments demonstrate the promising results of our proposed model compared with existing state-of-the-art methods.
翻訳日:2024-06-19 12:50:30 公開日:2024-06-15
# 過去の実験からプロキシメトリックを選択する

Choosing a Proxy Metric from Past Experiments ( http://arxiv.org/abs/2309.07893v2 )

ライセンス: Link先を確認
Nilesh Tripuraneni, Lee Richardson, Alexander D'Amour, Jacopo Soriano, Steve Yadlowsky, (参考訳) 多くのランダム化実験では、長期的な計量(すなわち、関心の最初の結果)の治療効果は、しばしば測定が困難または不可能である。 このような長期的なメトリクスは、しばしば変化に反応するのが遅く、短時間の水平実験で忠実に見積もるのは十分うるさい。 一般的な方法は、いくつかの短期的なプロキシメトリクスを測定して、彼らが長期的な指標を綿密に追跡することを期待することです。 ランダム化実験の同種集団で使用する最適なプロキシメトリックの定義と構築を両立する新しい統計フレームワークを提案する。 提案手法はまず,与えられた実験における最適プロキシメトリックの構成を,実際の潜時処理効果と検討中の実験の雑音レベルに依存するポートフォリオ最適化問題に還元する。 そこで我々は, ランダム化実験の歴史的コーパスにおいて, 長期的測定値と一連のプロキシの観察された治療効果を識別し, 最適化問題における潜在治療効果の評価を抽出する。 提案手法から得られた重要な洞察の一つは、与えられた実験の最適プロキシ指標がアプリオリ固定ではなく、その配置するランダム化実験のサンプルサイズ(あるいは有効雑音レベル)に依存することである。 提案手法を産業レコメンデーションシステムからのランダム化実験の大規模コーパスに応用し,いくつかの基準値に対して良好に作用するプロキシ指標を構築した。

In many randomized experiments, the treatment effect of the long-term metric (i.e. the primary outcome of interest) is often difficult or infeasible to measure. Such long-term metrics are often slow to react to changes and sufficiently noisy they are challenging to faithfully estimate in short-horizon experiments. A common alternative is to measure several short-term proxy metrics in the hope they closely track the long-term metric -- so they can be used to effectively guide decision-making in the near-term. We introduce a new statistical framework to both define and construct an optimal proxy metric for use in a homogeneous population of randomized experiments. Our procedure first reduces the construction of an optimal proxy metric in a given experiment to a portfolio optimization problem which depends on the true latent treatment effects and noise level of experiment under consideration. We then denoise the observed treatment effects of the long-term metric and a set of proxies in a historical corpus of randomized experiments to extract estimates of the latent treatment effects for use in the optimization problem. One key insight derived from our approach is that the optimal proxy metric for a given experiment is not apriori fixed; rather it should depend on the sample size (or effective noise level) of the randomized experiment for which it is deployed. To instantiate and evaluate our framework, we employ our methodology in a large corpus of randomized experiments from an industrial recommendation system and construct proxy metrics that perform favorably relative to several baselines.
翻訳日:2024-06-19 12:40:28 公開日:2024-06-15
# PlotMap:ゲームワールド構築のためのレイアウト自動設計

PlotMap: Automated Layout Design for Building Game Worlds ( http://arxiv.org/abs/2309.15242v2 )

ライセンス: Link先を確認
Yi Wang, Jieliang Luo, Adam Gaier, Evan Atherton, Hilmar Koch, (参考訳) ゲームにおける物語と物理的世界の両方を開発する過程であるワールドビルディングは、ゲーム体験において重要な役割を担っている。 批判的に賞賛された独立系ゲームとAAAのビデオゲームは、物語に巧みに介入し、高揚させ、プレイヤーを魅了し、永続的な印象を残すゲームマップによって、強力な世界構築を称賛されている。 しかし、様々な考察から複雑な制約を満たす必要があるため、所望の物語をサポートするゲームマップの設計は困難である。 既存の地図生成手法の多くは、ゲームプレイの仕組みや地図地形に関する考察に重点を置いているが、ストーリーをサポートする必要性は通常無視されている。 結果として、特定のストーリーを促進するゲーム世界を設計するためには、手作業による広範囲な調整が依然として必要である。 本研究では,世界構築パイプラインにおけるマップ生成手法に依存しないプロット配置設計の余分なレイヤを導入することで,この問題に対処する。 具体的には、Reinforcement Learning(RL)を利用して、ゲームマップ上の具体的位置を、与えられたストーリー(プロット施設)に言及された抽象的な場所に自動的に割り当てるシステムを提案する。 意思決定エージェントは、プロット施設を地図と相互の関係を考慮して、物語の制約を最も満たす地図上の場所に移動させる。 本システムでは,画像の画素化,施設位置の実際の値化,自然言語で表現されたストーリー制約など,複数のモードからの入力について検討する。 施設配置タスクのデータセットを作成し、RLモデルを訓練し評価するためのRL環境を作成し、さらに総合的な実験とアブレーション研究グループを通じてエージェントの挙動を分析し、RLに基づくプロット配置設計の洞察を提供することを目的としている。

World-building, the process of developing both the narrative and physical world of a game, plays a vital role in the game's experience. Critically acclaimed independent and AAA video games are praised for strong world building, with game maps that masterfully intertwine with and elevate the narrative, captivating players and leaving a lasting impression. However, designing game maps that support a desired narrative is challenging, as it requires satisfying complex constraints from various considerations. Most existing map generation methods focus on considerations about gameplay mechanics or map topography, while the need to support the story is typically neglected. As a result, extensive manual adjustment is still required to design a game world that facilitates particular stories. In this work, we approach this problem by introducing an extra layer of plot facility layout design that is independent of the underlying map generation method in a world-building pipeline. Concretely, we present a system that leverages Reinforcement Learning (RL) to automatically assign concrete locations on a game map to abstract locations mentioned in a given story (plot facilities), following spatial constraints derived from the story. A decision-making agent moves the plot facilities around, considering their relationship to the map and each other, to locations on the map that best satisfy the constraints of the story. Our system considers input from multiple modalities: map images as pixels, facility locations as real values, and story constraints expressed in natural language. We develop a method of generating datasets of facility layout tasks, create an RL environment to train and evaluate RL models, and further analyze the behaviors of the agents through a group of comprehensive experiments and ablation studies, aiming to provide insights for RL-based plot facility layout design.
翻訳日:2024-06-19 12:30:40 公開日:2024-06-15
# LLMはプロンプトを通してグラフ構造情報を効果的に活用できるのか?

Can LLMs Effectively Leverage Graph Structural Information through Prompts, and Why? ( http://arxiv.org/abs/2309.16595v4 )

ライセンス: Link先を確認
Jin Huang, Xingjian Zhang, Qiaozhu Mei, Jiaqi Ma, (参考訳) 大規模言語モデル(LLM)は、特にゼロショット方式で、リッチテキスト属性でグラフを処理する能力に注目が集まっている。 近年の研究では、LLMは、一般的なテキストリッチグラフベンチマーク上で適切なテキスト分類性能を得ており、エンコードされた構造情報を自然言語としてプロンプトに付加することで、その性能を向上させることができる。 グラフデータに固有の構造情報の取り込みにより,LLMの予測性能が向上する理由を理解することを目的としている。 まず、新しいリークフリーデータセットをキュレートし、以前に広く使用されていたデータセットと比較分析を行うことで、データ漏洩の懸念を解消する。 第二に、過去の研究は通常、自然言語でグラフ構造を記述することで、エゴグラフをエンコードするので、LLMは、プロンプトデザイナの意図に従ってグラフ構造を理解するのか? 第3に,LLMが構造情報を組み込んだ後,性能を向上できる理由について検討する。 これらの疑問に対する我々の調査は、それを明らかにしている。 i) LLMの性能がデータ漏洩に大きく起因しているという実質的な証拠はない。 (二)図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図 3) プロンプトに含まれる局所近傍の最も効率的な要素は、グラフ構造ではなく、ノードラベルに関連付けられたフレーズである。

Large language models (LLMs) are gaining increasing attention for their capability to process graphs with rich text attributes, especially in a zero-shot fashion. Recent studies demonstrate that LLMs obtain decent text classification performance on common text-rich graph benchmarks, and the performance can be improved by appending encoded structural information as natural languages into prompts. We aim to understand why the incorporation of structural information inherent in graph data can improve the prediction performance of LLMs. First, we rule out the concern of data leakage by curating a novel leakage-free dataset and conducting a comparative analysis alongside a previously widely-used dataset. Second, as past work usually encodes the ego-graph by describing the graph structure in natural language, we ask the question: do LLMs understand the graph structure in accordance with the intent of the prompt designers? Third, we investigate why LLMs can improve their performance after incorporating structural information. Our exploration of these questions reveals that (i) there is no substantial evidence that the performance of LLMs is significantly attributed to data leakage; (ii) instead of understanding prompts as graph structures as intended by the prompt designers, LLMs tend to process prompts more as contextual paragraphs and (iii) the most efficient elements of the local neighborhood included in the prompt are phrases that are pertinent to the node label, rather than the graph structure.
翻訳日:2024-06-19 12:30:40 公開日:2024-06-15
# 古典的影と対称性によって実現された群理論誤差緩和

Group-theoretic error mitigation enabled by classical shadows and symmetries ( http://arxiv.org/abs/2310.03071v3 )

ライセンス: Link先を確認
Andrew Zhao, Akimasa Miyake, (参考訳) 期待値の推定は量子アルゴリズムにおける重要なサブルーチンである。 オブザーバブルの大規模なコレクションを学習するために必要なサンプルの数が限られており、量子エラー訂正のないデバイスにエラーが蓄積されている。 これらの課題を同時に解決するために,古典的シャドウトモグラフィをデバイスエラーによる対称性の劣化に応じて調整することにより,「対称性調整された古典的影」と呼ばれる量子誤差緩和戦略を開発する。 具体的な例として、大域的な$\mathrm{U(1)}$対称性は、フェルミオンを粒子数として、スピンを全磁化として表し、それぞれの古典的シャドウプロトコルとの群論的統一性を示す。 我々は、最小の仮定に従う読み出し誤差の下で厳密なサンプリング境界を確立し、既存の量子プロセッサから派生したより包括的なゲートレベルの誤差モデルを用いて数値実験を行う。 この結果から, 対称性を調整した古典影は, 対称性の存在下でのノイズ量子実験による誤差を軽減するために, 低コストな戦略であることが明らかとなった。

Estimating expectation values is a key subroutine in quantum algorithms. Near-term implementations face two major challenges: a limited number of samples required to learn a large collection of observables, and the accumulation of errors in devices without quantum error correction. To address these challenges simultaneously, we develop a quantum error-mitigation strategy called ``symmetry-adjusted classical shadows,'' by adjusting classical-shadow tomography according to how symmetries are corrupted by device errors. As a concrete example, we highlight global $\mathrm{U(1)}$ symmetry, which manifests in fermions as particle number and in spins as total magnetization, and illustrate their group-theoretic unification with respective classical-shadow protocols. We establish rigorous sampling bounds under readout errors obeying minimal assumptions, and perform numerical experiments with a more comprehensive model of gate-level errors derived from existing quantum processors. Our results reveal symmetry-adjusted classical shadows as a low-cost strategy to mitigate errors from noisy quantum experiments in the ubiquitous presence of symmetry.
翻訳日:2024-06-19 12:30:40 公開日:2024-06-15
# 安全駆動型未学習拡散モデルでは、安全でない画像を簡単に生成できる...今のところ

To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now ( http://arxiv.org/abs/2310.11868v3 )

ライセンス: Link先を確認
Yimeng Zhang, Jinghan Jia, Xin Chen, Aochuan Chen, Yihua Zhang, Jiancheng Liu, Ke Ding, Sijia Liu, (参考訳) 拡散モデル(DM)の最近の進歩は、現実的で複雑な画像の生成に革命をもたらした。 しかし、これらのモデルは有害なコンテンツを生成し、データ著作権を侵害するなど、潜在的な安全リスクも導入する。 これらの課題に対処する安全駆動のアンラーニング技術が開発されているにもかかわらず、その有効性に疑問が残る。 この問題に対処するため,本稿では,非学習的有害概念のプロセスを経て,これらの安全駆動型DMの信頼性を識別するために,敵対的刺激を活用する評価枠組みを導入する。 具体的には、不要な概念、スタイル、対象を除去する際、敵のプロンプトによって評価されたDMの対向的堅牢性について検討した。 我々は,UnlearnDiffAtk と呼ばれる DM の効率的かつ効率的な対向的プロンプト生成手法を開発した。 本手法は,DMの本質的な分類能力を活用して,敵対的プロンプトの作成を簡素化し,補助的分類や拡散モデルの必要性を解消する。 提案手法の有効性と有効性を示すとともに,DMに適用した場合の現在の安全駆動型アンラーニング手法の堅牢性の欠如を明らかにした。 コードはhttps://github.com/OPTML-Group/Diffusion-MU-Attack.comで公開されている。 WARNING: 本論文は、自然界で攻撃的なモデル出力を含む。

The recent advances in diffusion models (DMs) have revolutionized the generation of realistic and complex images. However, these models also introduce potential safety hazards, such as producing harmful content and infringing data copyrights. Despite the development of safety-driven unlearning techniques to counteract these challenges, doubts about their efficacy persist. To tackle this issue, we introduce an evaluation framework that leverages adversarial prompts to discern the trustworthiness of these safety-driven DMs after they have undergone the process of unlearning harmful concepts. Specifically, we investigated the adversarial robustness of DMs, assessed by adversarial prompts, when eliminating unwanted concepts, styles, and objects. We develop an effective and efficient adversarial prompt generation approach for DMs, termed UnlearnDiffAtk. This method capitalizes on the intrinsic classification abilities of DMs to simplify the creation of adversarial prompts, thereby eliminating the need for auxiliary classification or diffusion models.Through extensive benchmarking, we evaluate the robustness of five widely-used safety-driven unlearned DMs (i.e., DMs after unlearning undesirable concepts, styles, or objects) across a variety of tasks. Our results demonstrate the effectiveness and efficiency merits of UnlearnDiffAtk over the state-of-the-art adversarial prompt generation method and reveal the lack of robustness of current safety-driven unlearning techniques when applied to DMs. Codes are available at https://github.com/OPTML-Group/Diffusion-MU-Attack. WARNING: This paper contains model outputs that may be offensive in nature.
翻訳日:2024-06-19 12:20:53 公開日:2024-06-15
# 音声分類課題に対するテキストレス音声モデルの文脈内学習の探索

Exploring In-Context Learning of Textless Speech Language Model for Speech Classification Tasks ( http://arxiv.org/abs/2310.12477v2 )

ライセンス: Link先を確認
Ming-Hao Hsu, Kai-Wei Chang, Shang-Wen Li, Hung-yi Lee, (参考訳) 自然言語処理(NLP)分野におけるGPT-3の開発以来、インコンテキスト学習(ICL)は大規模言語モデル(LLM)の利用において重要な役割を担ってきた。 入力にLM発声ラベルのデモンストレーションを提示することにより、LMは勾配降下やパラメータの明示的な修正を必要とせずに、数発の学習を達成できる。 これにより、LMはブラックボックス方式で様々な下流タスクを実行することができる。 NLP における ICL の成功にもかかわらず,音声処理における ICL の可能性を探る研究はほとんどない。 本研究は,テキストレス音声 LM を用いた音声分類タスクのための ICL を探索する最初の研究である。 まず、現在の音声LMにはICL機能がないことを示す。 次に、音声LMでウォームアップトレーニングを行い、実演学習機能を備えた。 本稿では、ICL方式で未知の分類タスクを実行できる最初の音声LMについて検討し、提案する。

Ever since the development of GPT-3 in the natural language processing (NLP) field, in-context learning (ICL) has played an essential role in utilizing large language models (LLMs). By presenting the LM utterance-label demonstrations at the input, the LM can accomplish few-shot learning without relying on gradient descent or requiring explicit modification of its parameters. This enables the LM to perform various downstream tasks in a black-box manner. Despite the success of ICL in NLP, little work is exploring the possibility of ICL in speech processing. This study is the first work exploring ICL for speech classification tasks with textless speech LM. We first show that the current speech LM lacks the ICL capability. We then perform warmup training on the speech LM, equipping the LM with demonstration learning capability. This paper explores and proposes the first speech LM capable of performing unseen classification tasks in an ICL manner.
翻訳日:2024-06-19 12:20:53 公開日:2024-06-15
# 指数安定性を用いた時間差学習アルゴリズムにおける高確率境界の改善

Improved High-Probability Bounds for the Temporal Difference Learning Algorithm via Exponential Stability ( http://arxiv.org/abs/2310.14286v2 )

ライセンス: Link先を確認
Sergey Samsonov, Daniil Tiapkin, Alexey Naumov, Eric Moulines, (参考訳) 本稿では, 時間差分法 (TD) を線形関数近似で実現し, マルコフ決定過程のポリシー評価を行う場合の, シャープな境界を求める問題について考察する。 本稿では,Polyak-Rupperttail averagingと組み合わせた,普遍的かつインスタンスに依存しないステップサイズを持つ単純なアルゴリズムが,ほぼ最適分散とバイアス項を得るのに十分であることを示す。 また、各サンプルの複雑性境界も提供する。 提案手法は, 線形確率近似のための洗練された誤差境界と, TD型再帰から生じるランダム行列の積に対する新しい安定性結果に基づいている。

In this paper we consider the problem of obtaining sharp bounds for the performance of temporal difference (TD) methods with linear function approximation for policy evaluation in discounted Markov decision processes. We show that a simple algorithm with a universal and instance-independent step size together with Polyak-Ruppert tail averaging is sufficient to obtain near-optimal variance and bias terms. We also provide the respective sample complexity bounds. Our proof technique is based on refined error bounds for linear stochastic approximation together with the novel stability result for the product of random matrices that arise from the TD-type recurrence.
翻訳日:2024-06-19 12:20:53 公開日:2024-06-15
# 心の感情理論:緩やかな言語推論による高速な視覚処理

Emotional Theory of Mind: Bridging Fast Visual Processing with Slow Linguistic Reasoning ( http://arxiv.org/abs/2310.19995v2 )

ライセンス: Link先を確認
Yasaman Etesam, Özge Nilay Yalçın, Chuxuan Zhang, Angelica Lim, (参考訳) 心的問題の感情理論は、感情と原因を推論するために、表情、身体のポーズ、文脈情報、暗黙のコモンセンス知識を必要とする。 本研究では,感情の知覚に関連する「物語的キャプション」を構築することで,感情の推論能力を取り入れる複数の手法を提案する。 ゼロショット分類器 (CLIP) と微調整型視覚言語モデル (LLaVA) を用いて, 人間の生成した記述子上でのキャプションを構築する2つの方法を提案する。 さらにこれらのキャプションを利用して、言語推論(GPT-4)と視覚言語モデル(LLaVa, GPT-Vision)を導く。 画像・言語・感情のタスクにおける結果モデルの使用について検討する。 実験の結果,「最強」の物語記述子と言語モデルの「スロー」推論を組み合わせることは,心の感情理論を実現するための有望な方法であることがわかった。

The emotional theory of mind problem requires facial expressions, body pose, contextual information and implicit commonsense knowledge to reason about the person's emotion and its causes, making it currently one of the most difficult problems in affective computing. In this work, we propose multiple methods to incorporate the emotional reasoning capabilities by constructing "narrative captions" relevant to emotion perception, that includes contextual and physical signal descriptors that focuses on "Who", "What", "Where" and "How" questions related to the image and emotions of the individual. We propose two distinct ways to construct these captions using zero-shot classifiers (CLIP) and fine-tuning visual-language models (LLaVA) over human generated descriptors. We further utilize these captions to guide the reasoning of language (GPT-4) and vision-language models (LLaVa, GPT-Vision). We evaluate the use of the resulting models in an image-to-language-to-emotion task. Our experiments showed that combining the "Fast" narrative descriptors and "Slow" reasoning of language models is a promising way to achieve emotional theory of mind.
翻訳日:2024-06-19 12:20:53 公開日:2024-06-15
# トロイの木馬から城壁へ:拡散モデルにおけるバイラテラルデータ汚染効果の解明

From Trojan Horses to Castle Walls: Unveiling Bilateral Data Poisoning Effects in Diffusion Models ( http://arxiv.org/abs/2311.02373v2 )

ライセンス: Link先を確認
Zhuoshi Pan, Yuguang Yao, Gaowen Liu, Bingquan Shen, H. Vicky Zhao, Ramana Rao Kompella, Sijia Liu, (参考訳) 最先端拡散モデル(DM)は画像生成において優れているが、セキュリティに関する懸念は持続する。 以前の研究では、DMによるデータ中毒攻撃に対する脆弱性が強調されていたが、これらの研究は画像分類における'BadNets'のような従来の方法よりも厳格な要件を定めていた。 これは拡散訓練やサンプリング手順の変更を必要とするためである。 従来の研究と異なり、BadNetsのようなデータ中毒手法がDMによって直接的に生成を劣化させるかどうかを調査する。 言い換えれば、トレーニングデータセットが(拡散過程を操作せずに)汚染されている場合、これは学習されたDMの性能にどのように影響するのだろうか? この環境では、敵対的な目的(DMの機能を補完する)だけでなく、防御的優位性(中毒攻撃に対する分類タスクの防御に活用できる)をももたらした、両側のデータ中毒効果を明らかにする。 我々は、BadNetsのようなデータ中毒攻撃が、(意図したテキスト条件と一致した)誤った画像を生成するためのDMに有効であることを示す。 一方、有毒なDMはトリガーの割合が増加しており、この現象は生成された画像の中で「トリガー増幅」と呼ばれている。 この洞察は、有毒なトレーニングデータの検出を強化するために使用できる。 また、低毒性比下においても、DMの毒性効果を研究することは、このような攻撃に対して堅牢な画像分類器を設計する上でも有用である。 最後に、DM固有のデータ記憶傾向を探索することにより、データ中毒とデータ複製現象の有意義な関連性を確立する。

While state-of-the-art diffusion models (DMs) excel in image generation, concerns regarding their security persist. Earlier research highlighted DMs' vulnerability to data poisoning attacks, but these studies placed stricter requirements than conventional methods like `BadNets' in image classification. This is because the art necessitates modifications to the diffusion training and sampling procedures. Unlike the prior work, we investigate whether BadNets-like data poisoning methods can directly degrade the generation by DMs. In other words, if only the training dataset is contaminated (without manipulating the diffusion process), how will this affect the performance of learned DMs? In this setting, we uncover bilateral data poisoning effects that not only serve an adversarial purpose (compromising the functionality of DMs) but also offer a defensive advantage (which can be leveraged for defense in classification tasks against poisoning attacks). We show that a BadNets-like data poisoning attack remains effective in DMs for producing incorrect images (misaligned with the intended text conditions). Meanwhile, poisoned DMs exhibit an increased ratio of triggers, a phenomenon we refer to as `trigger amplification', among the generated images. This insight can be then used to enhance the detection of poisoned training data. In addition, even under a low poisoning ratio, studying the poisoning effects of DMs is also valuable for designing robust image classifiers against such attacks. Last but not least, we establish a meaningful linkage between data poisoning and the phenomenon of data replications by exploring DMs' inherent data memorization tendencies.
翻訳日:2024-06-19 11:31:29 公開日:2024-06-15
# 自律走行車におけるコンピュータビジョンの応用:方法,課題,今後の方向性

Applications of Computer Vision in Autonomous Vehicles: Methods, Challenges and Future Directions ( http://arxiv.org/abs/2311.09093v3 )

ライセンス: Link先を確認
Xingshuai Dong, Massimiliano L. Cappuccio, (参考訳) 自動運転車(Autonomous Vehicle)は、周囲の環境を知覚し、運転者の入力をほとんど、あるいは全く行わずに運転できる車両である。 認識システムは、自動運転車がデータを収集し、環境から関連する情報を抽出して安全に運転することを可能にする基本的なコンポーネントである。 コンピュータビジョンの最近の進歩に特化して、カメラ、LiDAR、レーダー、超音波センサーなどのセンサーを使用することで、知覚タスクを実現することができる。 本稿では,過去10年間に出版されたコンピュータビジョンと自動運転に関する論文をレビューする。 特に、まず自律運転システムの開発について検討し、各国の主要自動車メーカーによって開発されたこれらのシステムを要約する。 次に,自律運転によく利用されるセンサとベンチマークデータセットについて検討する。 そこで, 深度推定, 物体検出, 車線検出, 信号認識など, 自律運転におけるコンピュータビジョン応用の概要を概観する。 さらに、自動運転車に関する世論や懸念についても検討する。 この議論に基づいて、自動運転車が直面する現在の技術的課題を分析します。 最後に、私たちの洞察を示し、今後の研究に向けたいくつかの有望な方向性を指摘します。 本論文は,学術・産業の観点から,自動運転車の理解を支援するものである。

Autonomous vehicle refers to a vehicle capable of perceiving its surrounding environment and driving with little or no human driver input. The perception system is a fundamental component which enables the autonomous vehicle to collect data and extract relevant information from the environment to drive safely. Benefit from the recent advances in computer vision, the perception task can be achieved by using sensors, such as camera, LiDAR, radar, and ultrasonic sensor. This paper reviews publications on computer vision and autonomous driving that are published during the last ten years. In particular, we first investigate the development of autonomous driving systems and summarize these systems that are developed by the major automotive manufacturers from different countries. Second, we investigate the sensors and benchmark data sets that are commonly utilized for autonomous driving. Then, a comprehensive overview of computer vision applications for autonomous driving such as depth estimation, object detection, lane detection, and traffic sign recognition are discussed. Additionally, we review public opinions and concerns on autonomous vehicles. Based on the discussion, we analyze the current technological challenges that autonomous vehicles meet with. Finally, we present our insights and point out some promising directions for future research. This paper will help the reader to understand autonomous vehicles from the perspectives of academia and industry.
翻訳日:2024-06-19 11:31:28 公開日:2024-06-15
# 対話型インコンテキスト学習による大規模言語モデルのハイジャック

Hijacking Large Language Models via Adversarial In-Context Learning ( http://arxiv.org/abs/2311.09948v2 )

ライセンス: Link先を確認
Yao Qiang, Xiangyu Zhou, Dongxiao Zhu, (参考訳) In-context Learning (ICL) は、プレコンディションプロンプトにおいて、ラベル付き例をデモ(demos)として活用することにより、特定の下流タスクにLLMを活用する強力なパラダイムとして登場した。 有望なパフォーマンスにもかかわらず、ICLはサンプルの選択と配置の不安定さに悩まされている。 さらに、対人攻撃はICLの堅牢性に顕著な脅威をもたらす。 しかし、既存の攻撃は検出しやすく、外部モデルに依存しているか、ICLに対する特異性を欠いている。 この研究は、これらの問題に対処するために、新たなICLに対するトランスファー可能な攻撃を導入し、LLMをハイジャックしてターゲットの応答やジェイルブレイクを生成することを目的としている。 我々のハイジャック攻撃は、ユーザクエリを直接汚染することなく、インコンテクストのデモに知覚不能な逆サフィックスを学習し、付加するための勾配に基づくプロンプトサーチ手法を活用する。 異なる世代にわたる総合的な実験結果と脱獄作業は、ハイジャック攻撃の有効性を強調し、敵のトークンに注意をそらす結果となり、望ましくない目標の出力に繋がる。 ICL における LLM の堅牢性を高めるため, 余分なクリーンデモによるハイジャック攻撃に対する防御戦略も提案する。 この研究は、LLMの重大なセキュリティ脆弱性を明らかにし、その堅牢性に関する詳細な研究の必要性を強調している。

In-context learning (ICL) has emerged as a powerful paradigm leveraging LLMs for specific downstream tasks by utilizing labeled examples as demonstrations (demos) in the precondition prompts. Despite its promising performance, ICL suffers from instability with the choice and arrangement of examples. Additionally, crafted adversarial attacks pose a notable threat to the robustness of ICL. However, existing attacks are either easy to detect, rely on external models, or lack specificity towards ICL. This work introduces a novel transferable attack against ICL to address these issues, aiming to hijack LLMs to generate the target response or jailbreak. Our hijacking attack leverages a gradient-based prompt search method to learn and append imperceptible adversarial suffixes to the in-context demos without directly contaminating the user queries. Comprehensive experimental results across different generation and jailbreaking tasks highlight the effectiveness of our hijacking attack, resulting in distracted attention towards adversarial tokens and consequently leading to unwanted target outputs. We also propose a defense strategy against hijacking attacks through the use of extra clean demos, which enhances the robustness of LLMs during ICL. Broadly, this work reveals the significant security vulnerabilities of LLMs and emphasizes the necessity for in-depth studies on their robustness.
翻訳日:2024-06-19 11:31:28 公開日:2024-06-15
# AIシステムのためのメタプロンプティング

Meta Prompting for AI Systems ( http://arxiv.org/abs/2311.11482v6 )

ライセンス: Link先を確認
Yifan Zhang, Yang Yuan, Andrew Chi-Chih Yao, (参考訳) 本稿では,メタ・プロンプティング(MP)を包括的に研究し,問題解決とデータインタラクションにおける言語モデル(LM)とAIシステムの利用を再構築する革新的手法を提案する。 型理論と圏論に根ざしたメタ・プロンプティングは、伝統的なコンテンツ中心の手法よりも情報の構造と構文を強調している。 この論文はメタプロンプトの形式的定義を探求し、いくつかのプロンプトから分離し、様々なAIアプリケーションにおけるその効果を裏付けるものである。 重要な焦点は、複雑な推論タスクにMeta Promptingを適用することであり、複雑な問題をより単純なサブプロブレムに効果的に分解し、トークン効率を向上し、より公平な問題解決比較を可能にする。 さらに,LLMが再帰的メタプログラミング的な方法で新たなプロンプトを自己生成できるように,タスクのプロンプトのためのメタプロンプトを導入する。 Qwen-72Bベース言語モデルに命令調整なしでメタプロンプトを装備したメタプロンプトを46.3%の精度で解くこと、広範囲な数学的QA命令ペアとGPT-4の初期バージョンで訓練された教師付き微調整の問題を83.5%の精度で解決すること、GPT-4を使用した24のタスクを100%成功率で解決すること、GPT-4を使用したメタプロンプトのメタプロンプトの有効性を実証すること、AI問題に対するメタプロンプトの変換的影響を例示することを含む経験的な実験である。

In this work, we present a comprehensive study of Meta Prompting (MP), an innovative technique reshaping the utilization of language models (LMs) and AI systems in problem-solving and data interaction. Grounded in type theory and category theory, Meta Prompting emphasizes the structure and syntax of information over traditional content-centric methods. The paper explores the formal definitions of Meta Prompting, sets it apart from few-shot prompting, and underlines its effectiveness in various AI applications. A key focus is applying Meta Prompting for complex reasoning tasks, showing how it effectively deconstructs intricate problems into simpler sub-problems, enhancing token efficiency, and enabling more equitable problem-solving comparisons, especially against few-shot prompting methods. Additionally, the paper introduces Meta Prompting for prompting tasks, allowing LLMs to self-generate new prompts in a recursive, metaprogramming-like manner. Empirical experiments, including using a Qwen-72B base language model equipped with meta prompt without instruction-tuning to solve MATH problems with accuracy at 46.3%, which surpass the supervised fine-tuned counterpart trained with extensive mathematical QA instruction pairs and even the initial version of GPT-4, solving GSM8K problems with 83.5% accuracy with zero-shot meta-prompted Qwen-72B base language model, and solving the Game of 24 tasks with a 100% success rate using GPT-4, demonstrate the meta prompting's efficacy in achieving high accuracy and efficiency, showcasing Meta Prompting's transformative impact on AI problem-solving The code is available at https://github.com/meta-prompting/meta-prompting.
翻訳日:2024-06-19 11:31:28 公開日:2024-06-15
# オフザシェルフビジョンランゲージモデルからの創発的開語彙セマンティックセマンティックセグメンテーション

Emergent Open-Vocabulary Semantic Segmentation from Off-the-shelf Vision-Language Models ( http://arxiv.org/abs/2311.17095v4 )

ライセンス: Link先を確認
Jiayun Luo, Siddhesh Khandelwal, Leonid Sigal, Boyang Li, (参考訳) 画像テキストペアから、大規模視覚言語モデル(VLM)は、画像領域と単語を暗黙的に関連付けることを学習し、視覚的質問応答のようなタスクに有効である。 しかし、学習した関連をオープン語彙のセマンティックセグメンテーションに活用することは依然として課題である。 本稿では,PnP-OVSS(Plug-and-Play Open-Vocabulary Semantic Segmentation)を提案する。 PnP-OVSSは、直接テキスト対イメージのクロスアテンションと画像-テキストマッチング損失を備えたVLMを利用する。 過偏差と過偏差のバランスをとるために、Salience Dropoutを導入し、モデルが最も注意すべきパッチを反復的にドロップすることで、セグメンテーションマスクの全範囲をよりよく解決する。 PnP-OVSSはニューラルネットワークのトレーニングを一切必要とせず、検証セットであってもセグメンテーションアノテーションを必要とせずにハイパーパラメータチューニングを実行する。 PnP-OVSSは、同等のベースライン(Pascal VOCでは+26.2% mIoU、MS COCOでは+20.5% mIoU、COCO Stuffでは+3.1% mIoU、ADE20Kでは+3.0% mIoU)よりも大幅に改善されている。 私たちのコードベースはhttps://github.com/letitiabanana/PnP-OVSSにあります。

From image-text pairs, large-scale vision-language models (VLMs) learn to implicitly associate image regions with words, which prove effective for tasks like visual question answering. However, leveraging the learned association for open-vocabulary semantic segmentation remains a challenge. In this paper, we propose a simple, yet extremely effective, training-free technique, Plug-and-Play Open-Vocabulary Semantic Segmentation (PnP-OVSS) for this task. PnP-OVSS leverages a VLM with direct text-to-image cross-attention and an image-text matching loss. To balance between over-segmentation and under-segmentation, we introduce Salience Dropout; by iteratively dropping patches that the model is most attentive to, we are able to better resolve the entire extent of the segmentation mask. PnP-OVSS does not require any neural network training and performs hyperparameter tuning without the need for any segmentation annotations, even for a validation set. PnP-OVSS demonstrates substantial improvements over comparable baselines (+26.2% mIoU on Pascal VOC, +20.5% mIoU on MS COCO, +3.1% mIoU on COCO Stuff and +3.0% mIoU on ADE20K). Our codebase is at https://github.com/letitiabanana/PnP-OVSS.
翻訳日:2024-06-19 09:12:15 公開日:2024-06-15
# 構造的逆自由自然勾配:メモリ効率・数値安定KFAC

Structured Inverse-Free Natural Gradient: Memory-Efficient & Numerically-Stable KFAC ( http://arxiv.org/abs/2312.05705v3 )

ライセンス: Link先を確認
Wu Lin, Felix Dangel, Runa Eschenhagen, Kirill Neklyudov, Agustinus Kristiadi, Richard E. Turner, Alireza Makhzani, (参考訳) KFACのような二階法はニューラルネットトレーニングに有用である。 しかし、Kronecker因子は密度が高く、行列逆転や分解を必要とするため、数値的に低い精度で不安定であるため、メモリ非効率であることが多い。 これらの制限は、現代の混合精度訓練には不人気である。 私たちはそれらに対処します i)逆フリーなKFAC更新を定式化し、 (II) Kronecker因子の構造を示唆し、構造的逆自由な自然勾配降下(SINGD)をもたらす。 現代のニューラルネットワークでは、SINGDはKFACとは対照的にメモリ効率が高く、数値的に堅牢であり、半精度でもAdamWより優れていることが示されている。 我々の研究は、現代の低精度トレーニングにおける一階法と二階法のギャップを埋める。

Second-order methods such as KFAC can be useful for neural net training. However, they are often memory-inefficient since their preconditioning Kronecker factors are dense, and numerically unstable in low precision as they require matrix inversion or decomposition. These limitations render such methods unpopular for modern mixed-precision training. We address them by (i) formulating an inverse-free KFAC update and (ii) imposing structures in the Kronecker factors, resulting in structured inverse-free natural gradient descent (SINGD). On modern neural networks, we show that SINGD is memory-efficient and numerically robust, in contrast to KFAC, and often outperforms AdamW even in half precision. Our work closes a gap between first- and second-order methods in modern low-precision training.
翻訳日:2024-06-19 09:12:15 公開日:2024-06-15
# 脳MRIのためのSISMIK:k空間における深層学習に基づく動き推定とモデルに基づく動き補正

SISMIK for brain MRI: Deep-learning-based motion estimation and model-based motion correction in k-space ( http://arxiv.org/abs/2312.13220v2 )

ライセンス: Link先を確認
Oscar Dabrowski, Jean-Luc Falcone, Antoine Klauser, Julien Songeon, Michel Kocher, Bastien Chopard, François Lazeyras, Sébastien Courvoisier, (参考訳) 広汎な非侵襲的医療画像モダリティであるMRIは、患者の動きに非常に敏感である。 長年にわたる多くの試みにもかかわらず、運動補正は難しい問題であり、あらゆる状況に適用できる一般的な方法はない。 本研究では,脳の古典的2次元スピンエコースキャンに適応する平面内剛体運動問題に対する運動推定と修正の振り返り手法を提案する。 k-空間の逐次取得のため、運動アーティファクトは十分に局所化されている。 この手法は、深層ニューラルネットワークのパワーを活用してk空間内の運動パラメータを推定し、モデルに基づくアプローチで劣化した画像を復元し、「幻覚」を避ける。 注目すべき利点は、動きのない参照を必要とせずに、高空間周波数で発生する動きを推定できることである。 提案手法はk空間のダイナミックレンジ全体で動作し,高調波の低SNRの影響を受けやすい。 概念実証として、43種類の被験者の無運動スキャンに基づいて600kの動作シミュレーションを教師付き学習を用いて訓練したモデルを提供する。 一般化性能はシミュレーションとin-vivoで試験された。 動きパラメータ推定と画像再構成のための定性的,定量的評価を行った。 実験結果から,本手法はシミュレーションデータとin-vivo取得に対して優れた一般化性能が得られることが示された。 https://gitlab.unige.ch/Oscar.Dabrowski/sismik_mri/でPythonの実装を提供しています。

MRI, a widespread non-invasive medical imaging modality, is highly sensitive to patient motion. Despite many attempts over the years, motion correction remains a difficult problem and there is no general method applicable to all situations. We propose a retrospective method for motion estimation and correction to tackle the problem of in-plane rigid-body motion, apt for classical 2D Spin-Echo scans of the brain, which are regularly used in clinical practice. Due to the sequential acquisition of k-space, motion artifacts are well localized. The method leverages the power of deep neural networks to estimate motion parameters in k-space and uses a model-based approach to restore degraded images to avoid ''hallucinations''. Notable advantages are its ability to estimate motion occurring in high spatial frequencies without the need of a motion-free reference. The proposed method operates on the whole k-space dynamic range and is moderately affected by the lower SNR of higher harmonics. As a proof of concept, we provide models trained using supervised learning on 600k motion simulations based on motion-free scans of 43 different subjects. Generalization performance was tested with simulations as well as in-vivo. Qualitative and quantitative evaluations are presented for motion parameter estimations and image reconstruction. Experimental results show that our approach is able to obtain good generalization performance on simulated data and in-vivo acquisitions. We provide a Python implementation at https://gitlab.unige.ch/Oscar.Dabrowski/sismik_mri/.
翻訳日:2024-06-19 07:14:24 公開日:2024-06-15
# 量子モンテカルロシミュレーションによる相互作用するフェルミオンのエンタングルメントレニイ負性

Entanglement Rényi Negativity of Interacting Fermions from Quantum Monte Carlo Simulations ( http://arxiv.org/abs/2312.14155v3 )

ライセンス: Link先を確認
Fo-Hong Wang, Xiao Yan Xu, (参考訳) 多体の絡み合いは、量子物質のさらなる側面を明らかにし、強い相関物理学に関する洞察を提供する。 基底状態の絡み合いは過去10年間に多くの注目を集めてきたが、相互作用するフェルミオン系における負性率を用いた混合状態の量子絡み合いの研究はほとんど未解明のままである。 相互作用するフェルミオンの部分転位密度行列は、その還元密度行列と同様に、自由フェルミオンを記述するガウス状態の重み付け和として表すことができ、決定的量子モンテカルロフレームワーク内のランク-$n$ R\'{e}nyi 負の負の計算を可能にする。 半充填ハバードモデルとスピンレスの$t$-$V$モデルに対するランク2R\'{e}nyi負性率の最初の計算を行う。 我々の計算によれば、スピンレスの$t$-$V$モデルのR\'{e}nyi負の面積法係数は、有限温度遷移点における対数的有限スケールを持つ。 我々の研究は絡み合いの計算に寄与し、様々なフェルミオン多体混合状態における量子絡み合いの将来の研究の舞台となる。

Many-body entanglement unveils additional aspects of quantum matter and offers insights into strongly correlated physics. While ground-state entanglement has received much attention in the past decade, the study of mixed-state quantum entanglement using negativity in interacting fermionic systems remains largely unexplored. We demonstrate that the partially transposed density matrix of interacting fermions, similar to their reduced density matrix, can be expressed as a weighted sum of Gaussian states describing free fermions, enabling the calculation of rank-$n$ R\'{e}nyi negativity within the determinant quantum Monte Carlo framework. We conduct the first calculation of the rank-two R\'{e}nyi negativity for the half-filled Hubbard model and the spinless $t$-$V$ model. Our calculation reveals that the area law coefficient of the R\'{e}nyi negativity for the spinless $t$-$V$ model has a logarithmic finite-size scaling at the finite-temperature transition point. Our work contributes to the calculation of entanglement and sets the stage for future studies on quantum entanglement in various fermionic many-body mixed states.
翻訳日:2024-06-19 07:14:24 公開日:2024-06-15
# ランジュバン拡散を用いた多様体上のサンプリングと推定

Sampling and estimation on manifolds using the Langevin diffusion ( http://arxiv.org/abs/2312.14882v2 )

ライセンス: Link先を確認
Karthik Bharath, Alexander Lewis, Akash Sharma, Michael V Tretyakov, (参考訳) 誤差境界は、コンパクトリーマン多様体上の不変測度 $\text{d}\mu_\phi \propto e^{-\phi} \mathrm{dvol}_g $ で本質的に定義されたランゲヴィン拡散の離散化を用いてサンプリングと推定のために導出される。 離散化されたマルコフ過程に基づく$\mu_\phi $の線形汎関数の2つの推定器は、単一の軌跡に基づく時間分解推定器と、複数の独立軌跡に基づくアンサンブル吸収推定器である。 差分化ステップサイズにおける$\phi$, 1次誤差境界上の名目的滑らかさ以上の制限は、両方の推定器のバイアスと分散/平均二乗誤差を導出する。 誤差の順序はユークリッド空間と平坦空間の最適速度と一致し、不変測度 $\mu_\phi$ と離散化されたマルコフ過程の定常測度の間の距離上の一階境界につながる。 この順序は指数写像がクローズドな形で利用できない場合にも取り除かれるため、提案アルゴリズムの実用性が向上する。 2つの偏微分方程式とランゲヴィン拡散に対応する作用素の半群の間のリンクを利用する証明技法の一般性は、ランゲヴィン拡散に関連するより一般的なサンプリングアルゴリズムの研究にそれらを適用可能である。 非コンパクト多様体の場合まで解析を拡張するための条件について論じる。 導出境界上の正および負の曲率の多様体上の分布、対数凹、その他の数値図解はサンプリングアルゴリズムの実用性を実証する。

Error bounds are derived for sampling and estimation using a discretization of an intrinsically defined Langevin diffusion with invariant measure $\text{d}\mu_\phi \propto e^{-\phi} \mathrm{dvol}_g $ on a compact Riemannian manifold. Two estimators of linear functionals of $\mu_\phi $ based on the discretized Markov process are considered: a time-averaging estimator based on a single trajectory and an ensemble-averaging estimator based on multiple independent trajectories. Imposing no restrictions beyond a nominal level of smoothness on $\phi$, first-order error bounds, in discretization step size, on the bias and variance/mean-square error of both estimators are derived. The order of error matches the optimal rate in Euclidean and flat spaces, and leads to a first-order bound on distance between the invariant measure $\mu_\phi$ and a stationary measure of the discretized Markov process. This order is preserved even upon using retractions when exponential maps are unavailable in closed form, thus enhancing practicality of the proposed algorithms. Generality of the proof techniques, which exploit links between two partial differential equations and the semigroup of operators corresponding to the Langevin diffusion, renders them amenable for the study of a more general class of sampling algorithms related to the Langevin diffusion. Conditions for extending analysis to the case of non-compact manifolds are discussed. Numerical illustrations with distributions, log-concave and otherwise, on the manifolds of positive and negative curvature elucidate on the derived bounds and demonstrate practical utility of the sampling algorithm.
翻訳日:2024-06-19 07:14:24 公開日:2024-06-15
# 達成可能なAIからLLMはどこまで遠いか? : 人間の行動シミュレーションの信頼性評価のためのベンチマーク

How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation ( http://arxiv.org/abs/2312.17115v2 )

ライセンス: Link先を確認
Yang Xiao, Yi Cheng, Jinlan Fu, Jiashuo Wang, Wenjie Li, Pengfei Liu, (参考訳) 近年、AIは人間の行動、特に大規模言語モデル(LLM)で実装された行動のシミュレーションにおいて顕著な能力を発揮している。 しかし、LLMのシミュレートされた行動の体系的評価が欠如しているため、LLMの人間に対する信頼性はあいまいである。 本研究では,人間行動のシミュレーションにおいて,LLMの信頼性を評価するためにシミュレートベンチを設計する。 具体的には,LLMの信頼性を2つの臨界次元に基づいて評価する。 1) 一貫性: LLMが人間に模擬される所定の情報と一貫して振る舞うことができる範囲、及び 2) 頑健性: 摂動に直面するとき, LLMのシミュレーション行動が頑健であること。 SimulateBenchには65の文字プロファイルと8,400の質問が含まれている。 SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。 実験結果から,現在のLSMは与えられた文字と行動の整合に苦慮し,特定の要因の摂動に弱いことが明らかとなった。

In recent years, AI has demonstrated remarkable capabilities in simulating human behaviors, particularly those implemented with large language models (LLMs). However, due to the lack of systematic evaluation of LLMs' simulated behaviors, the believability of LLMs among humans remains ambiguous, i.e., it is unclear which behaviors of LLMs are convincingly human-like and which need further improvements. In this work, we design SimulateBench to evaluate the believability of LLMs when simulating human behaviors. In specific, we evaluate the believability of LLMs based on two critical dimensions: 1) consistency: the extent to which LLMs can behave consistently with the given information of a human to simulate; and 2) robustness: the ability of LLMs' simulated behaviors to remain robust when faced with perturbations. SimulateBench includes 65 character profiles and a total of 8,400 questions to examine LLMs' simulated behaviors. Based on SimulateBench, we evaluate the performances of 10 widely used LLMs when simulating characters. The experimental results reveal that current LLMs struggle to align their behaviors with assigned characters and are vulnerable to perturbations in certain factors.
翻訳日:2024-06-19 07:04:39 公開日:2024-06-15
# Human-AI Collaborative Essay Scoring: LLMを用いたデュアルプロセスフレームワーク

Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs ( http://arxiv.org/abs/2401.06431v2 )

ライセンス: Link先を確認
Changrong Xiao, Wenxing Ma, Qingping Song, Sean Xin Xu, Kunpeng Zhang, Yufang Wang, Qi Fu, (参考訳) タイムリーでパーソナライズされたフィードバックを受け取ることは、特に人間のインストラクターが利用できない場合、第二言語学習者にとって不可欠である。 本研究では,AES(Automated Essay Scoring)において,プロプライエタリモデルとオープンソースモデルの両方を含むLLM(Large Language Models)の有効性について検討する。 公開およびプライベートデータセットによる広範な実験により、従来のSOTA(State-of-the-art)グレーディングモデルを超えないが、顕著な一貫性、一般化可能性、説明可能性を示すことがわかった。 本稿では,デュアルプロセス理論にインスパイアされたオープンソースのLLMベースのAESシステムを提案する。 我々のシステムでは、精度の高いグレーディングと高品質なフィードバックを提供しており、少なくともミスグレーディングを緩和する能力に加えて、微調整されたプロプライエタリなLCMに匹敵する。 さらに,初等者および熟練者の両方を対象に,人間とAIの共学実験を行った。 我々のシステムでは、学習プロセスの自動化だけでなく、特にモデルの信頼性が低いエッセイにおいて、人間の学級のパフォーマンスと効率の向上も期待できる。 これらの結果は、LLMが教育的文脈における効果的な人間とAIのコラボレーションを促進する可能性を強調し、AIによるフィードバックを通じて学習経験を変革する可能性がある。

Receiving timely and personalized feedback is essential for second-language learners, especially when human instructors are unavailable. This study explores the effectiveness of Large Language Models (LLMs), including both proprietary and open-source models, for Automated Essay Scoring (AES). Through extensive experiments with public and private datasets, we find that while LLMs do not surpass conventional state-of-the-art (SOTA) grading models in performance, they exhibit notable consistency, generalizability, and explainability. We propose an open-source LLM-based AES system, inspired by the dual-process theory. Our system offers accurate grading and high-quality feedback, at least comparable to that of fine-tuned proprietary LLMs, in addition to its ability to alleviate misgrading. Furthermore, we conduct human-AI co-grading experiments with both novice and expert graders. We find that our system not only automates the grading process but also enhances the performance and efficiency of human graders, particularly for essays where the model has lower confidence. These results highlight the potential of LLMs to facilitate effective human-AI collaboration in the educational context, potentially transforming learning experiences through AI-generated feedback.
翻訳日:2024-06-19 06:54:55 公開日:2024-06-15
# 歩行者の意図予測のための合成データ生成フレームワーク、データセット、および効率的な深部モデル

Synthetic Data Generation Framework, Dataset, and Efficient Deep Model for Pedestrian Intention Prediction ( http://arxiv.org/abs/2401.06757v2 )

ライセンス: Link先を確認
Muhammad Naveed Riaz, Maciej Wielgosz, Abel Garcia Romera, Antonio M. Lopez, (参考訳) 歩行者の意図予測は自動運転に不可欠である。 特に、エゴ車の前で歩行者が横断するかどうかを知ることは、安全で快適な操作を行うための中核となる。 このような意図をシーケンシャルな画像から予測する正確で高速なモデルを作成することは難しい。 これに寄与する要因は、多様なクロスおよびノンクロス(C/NC)シナリオを持つデータセットの欠如である。 我々は、C/NCビデオクリップサンプルからなる合成データセットをプログラムで生成するARCANEというフレームワークを導入することで、この不足に対処する。 例えば、ARCANEを使用して、PedSynthという大規模で多様なデータセットを生成します。 PedSynthは、JAADやPIEなどの広く使われている現実世界のデータセットを補完し、より正確なC/NC予測モデルを可能にすることを示す。 C/NC予測モデルのオンボード展開を考慮すると、高速でメモリフットプリントが非常に少ないPedGNNというディープモデルも提案する。 PedGNNはGNN-GRUアーキテクチャに基づいており、横断意図を予測するために一連の歩行者骨格を入力として利用する。

Pedestrian intention prediction is crucial for autonomous driving. In particular, knowing if pedestrians are going to cross in front of the ego-vehicle is core to performing safe and comfortable maneuvers. Creating accurate and fast models that predict such intentions from sequential images is challenging. A factor contributing to this is the lack of datasets with diverse crossing and non-crossing (C/NC) scenarios. We address this scarceness by introducing a framework, named ARCANE, which allows programmatically generating synthetic datasets consisting of C/NC video clip samples. As an example, we use ARCANE to generate a large and diverse dataset named PedSynth. We will show how PedSynth complements widely used real-world datasets such as JAAD and PIE, so enabling more accurate models for C/NC prediction. Considering the onboard deployment of C/NC prediction models, we also propose a deep model named PedGNN, which is fast and has a very low memory footprint. PedGNN is based on a GNN-GRU architecture that takes a sequence of pedestrian skeletons as input to predict crossing intentions.
翻訳日:2024-06-19 06:54:55 公開日:2024-06-15
# MMToM-QA:マインド質問回答のマルチモーダル理論

MMToM-QA: Multimodal Theory of Mind Question Answering ( http://arxiv.org/abs/2401.08743v2 )

ライセンス: Link先を確認
Chuanyang Jin, Yutong Wu, Jing Cao, Jiannan Xiang, Yen-Ling Kuo, Zhiting Hu, Tomer Ullman, Antonio Torralba, Joshua B. Tenenbaum, Tianmin Shu, (参考訳) 人間の精神状態を理解する能力である心の理論(ToM)は、人間レベルの社会知能を持つ機械を開発する上で欠かせない要素である。 最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。 しかし、既存のToMベンチマークでは、ビデオまたはテキストのいずれでも、unimodalデータセットを使用している。 一方、ヒューマンToMはビデオやテキストの理解以上のものです。 人は、利用可能なデータから抽出された概念的表現(例えば、目標、信念、計画)に基づいて、他人の心について柔軟に推論することができる。 そこで本稿では,Multimodal Theory of Mind Question answering (MMToM-QA)ベンチマークを提案する。 MMToM-QAは、マルチモーダルデータと家庭環境における人の活動に関する様々な種類の単調なデータに基づいて、機械ToMを包括的に評価する。 マルチモーダルToMキャパシティを構築するために,BIP-ALM(Bayesian Inverse Planning Accelerated by Language Models)を提案する。 BIP-ALMはマルチモーダルデータから統一表現を抽出し、スケーラブルなベイズ逆計画に言語モデルを利用する。 我々は,GPT-4を含むヒトのパフォーマンス,BIP-ALM,最先端モデルの体系的比較を行った。 実験により、大規模言語モデルと大規模マルチモーダルモデルは依然として強力なToMキャパシティを欠いていることが示された。 一方、BIP-ALMは、モデルに基づくメンタル推論と言語モデルの両方のパワーを活用することで、有望な結果を示す。

Theory of Mind (ToM), the ability to understand people's mental states, is an essential ingredient for developing machines with human-level social intelligence. Recent machine learning models, particularly large language models, seem to show some aspects of ToM understanding. However, existing ToM benchmarks use unimodal datasets - either video or text. Human ToM, on the other hand, is more than video or text understanding. People can flexibly reason about another person's mind based on conceptual representations (e.g., goals, beliefs, plans) extracted from any available data. To address this, we introduce a multimodal Theory of Mind question answering (MMToM-QA) benchmark. MMToM-QA comprehensively evaluates machine ToM both on multimodal data and on different kinds of unimodal data about a person's activity in a household environment. To engineer multimodal ToM capacity, we propose a novel method, BIP-ALM (Bayesian Inverse Planning Accelerated by Language Models). BIP-ALM extracts unified representations from multimodal data and utilizes language models for scalable Bayesian inverse planning. We conducted a systematic comparison of human performance, BIP-ALM, and state-of-the-art models, including GPT-4. The experiments demonstrate that large language models and large multimodal models still lack robust ToM capacity. BIP-ALM, on the other hand, shows promising results, by leveraging the power of both model-based mental inference and language models.
翻訳日:2024-06-19 06:54:55 公開日:2024-06-15
# 点雲色情報のための高速グラフベースデノケーション

Fast graph-based denoising for point cloud color information ( http://arxiv.org/abs/2401.09721v3 )

ライセンス: Link先を確認
Ryosuke Watanabe, Keisuke Nonaka, Eduardo Pavez, Tatsuya Kobayashi, Antonio Ortega, (参考訳) ポイントクラウドは、クロスリアリティ(XR)やリアルな3Dディスプレイなど、さまざまな3Dアプリケーションで利用されています。 例えば、3Dポイントクラウドを使ったライブストリーミングでは、視覚的品質を高めるためにリアルタイムのポイントクラウドデノゲーション方法が必要である。 しかし、K近傍のグラフ構造とノイズレベル推定の複雑さのため、従来の高精度デノナイズ法は大規模点雲に対してリアルタイムに実行できない。 本稿では,大規模クラウドのための高速グラフベースデノイング(FGBD)を提案する。 まず,様々な方向の点雲を走査し,近傍の走査線を探索することにより,高速グラフ構築を実現する。 次に,グラフ上の共分散行列の固有値を用いた高速雑音レベル推定法を提案する。 また,高速化アルゴリズムによる劣化を補うために,デノナイジング精度を向上させるために,新しい低コストフィルタ選択法を提案する。 本実験では,従来の復調法と比較して精度を保ちながら,処理時間を劇的に短縮することに成功した。 復調は30fpsで行われ、フレームは約100万点であった。

Point clouds are utilized in various 3D applications such as cross-reality (XR) and realistic 3D displays. In some applications, e.g., for live streaming using a 3D point cloud, real-time point cloud denoising methods are required to enhance the visual quality. However, conventional high-precision denoising methods cannot be executed in real time for large-scale point clouds owing to the complexity of graph constructions with K nearest neighbors and noise level estimation. This paper proposes a fast graph-based denoising (FGBD) for a large-scale point cloud. First, high-speed graph construction is achieved by scanning a point cloud in various directions and searching adjacent neighborhoods on the scanning lines. Second, we propose a fast noise level estimation method using eigenvalues of the covariance matrix on a graph. Finally, we also propose a new low-cost filter selection method to enhance denoising accuracy to compensate for the degradation caused by the acceleration algorithms. In our experiments, we succeeded in reducing the processing time dramatically while maintaining accuracy relative to conventional denoising methods. Denoising was performed at 30fps, with frames containing approximately 1 million points.
翻訳日:2024-06-19 06:54:55 公開日:2024-06-15
# DressCode: テキストガイダンスからガーメントの自動縫製と生成

DressCode: Autoregressively Sewing and Generating Garments from Text Guidance ( http://arxiv.org/abs/2401.16465v4 )

ライセンス: Link先を確認
Kai He, Kaixin Yao, Qixuan Zhang, Jingyi Yu, Lingjie Liu, Lan Xu, (参考訳) アパレルの人間の外見における重要な役割は、デジタル人間の創造における衣服のデジタル化の重要性を浮き彫りにしている。 近年の3Dコンテンツ制作の進歩は、デジタル人間の創造にとって重要な要素である。 それでも、テキストガイダンスによる衣服生成はまだ初期段階にある。 DressCodeは、初心者向けデザインを民主化し、ファッションデザイン、バーチャルトライオン、デジタルヒューマン創造において大きな可能性を秘めている。 まず,GPT ベースのアーキテクチャである SewingGPT を導入し,テキスト条件の埋め込みとクロスアテンションを統合し,テキスト誘導による縫製パターンの生成を行う。 次に、トレーニング済みの安定拡散を調整し、タイルベースの衣服用物理レンダリング(PBR)テクスチャを生成します。 大規模言語モデルを活用することにより,本フレームワークは自然言語インタラクションによりCGフレンドリーな衣服を生成する。 また、パターン補完とテクスチャ編集を容易にし、ユーザフレンドリーなインタラクションを通じてデザインプロセスを合理化する。 このフレームワークは、クリエーターが自由にデザインを実験し、独自の要素を作品に組み込むことによって、イノベーションを促進する。 提案手法は,他の最先端手法と比較して総合的な評価と比較を行い,優れた品質と入力プロンプトとの整合性を示す。 ユーザスタディは、私たちの高品質なレンダリング結果をさらに検証し、実用性と本番環境での可能性を強調します。 私たちのプロジェクトページはhttps://IHe-KaiI.github.io/DressCode/。

Apparel's significant role in human appearance underscores the importance of garment digitalization for digital human creation. Recent advances in 3D content creation are pivotal for digital human creation. Nonetheless, garment generation from text guidance is still nascent. We introduce a text-driven 3D garment generation framework, DressCode, which aims to democratize design for novices and offer immense potential in fashion design, virtual try-on, and digital human creation. We first introduce SewingGPT, a GPT-based architecture integrating cross-attention with text-conditioned embedding to generate sewing patterns with text guidance. We then tailor a pre-trained Stable Diffusion to generate tile-based Physically-based Rendering (PBR) textures for the garments. By leveraging a large language model, our framework generates CG-friendly garments through natural language interaction. It also facilitates pattern completion and texture editing, streamlining the design process through user-friendly interaction. This framework fosters innovation by allowing creators to freely experiment with designs and incorporate unique elements into their work. With comprehensive evaluations and comparisons with other state-of-the-art methods, our method showcases superior quality and alignment with input prompts. User studies further validate our high-quality rendering results, highlighting its practical utility and potential in production settings. Our project page is https://IHe-KaiI.github.io/DressCode/.
翻訳日:2024-06-19 06:45:07 公開日:2024-06-15
# コスト効果を考慮した開発支援のための因果機械学習

Causal Machine Learning for Cost-Effective Allocation of Development Aid ( http://arxiv.org/abs/2401.16986v3 )

ライセンス: Link先を確認
Milan Kuzmanovic, Dennis Frauen, Tobias Hatt, Stefan Feuerriegel, (参考訳) 国連の持続可能な開発目標(SDG)は「誰もいないままにしておく」ことでより良い未来の青写真を提供し、2030年までにSDGを達成するためには、貧しい国は膨大な開発支援を必要としている。 本稿では,援助給付金の不均一な処理効果を予測するための因果機械学習フレームワークを開発した。 具体的には、私たちのフレームワークは3つのコンポーネントで構成されています。 一 処理選択バイアスに対処しつつ、表現学習を用いて高次元国の特徴を埋め込むバランスオートエンコーダ 二 サンプルサイズの小さな設定に対処するため、各種補助ボリュームの対実結果を算出するための反実生成装置 (iii)不均一な処理応答曲線の予測に使用される推論モデル。 我々は,105か国でHIV/AIDSを終了するための公式な開発支援データを用いて,この枠組みの有効性を実証した。 そこで本研究では, 半合成データを用いた不均一な処理応答曲線の計算に成功していることを示す。 そして、実世界のHIVデータを用いて、我々のフレームワークを実演する。 我々の枠組みは、より効果的なエイズアロケーションの機会が大きいことを指摘し、現在のアロケーションの実践と比較して、新しいHIV感染症の総数は最大で3.3%(約5万件)減少する可能性があることを示唆している。

The Sustainable Development Goals (SDGs) of the United Nations provide a blueprint of a better future by 'leaving no one behind', and, to achieve the SDGs by 2030, poor countries require immense volumes of development aid. In this paper, we develop a causal machine learning framework for predicting heterogeneous treatment effects of aid disbursements to inform effective aid allocation. Specifically, our framework comprises three components: (i) a balancing autoencoder that uses representation learning to embed high-dimensional country characteristics while addressing treatment selection bias; (ii) a counterfactual generator to compute counterfactual outcomes for varying aid volumes to address small sample-size settings; and (iii) an inference model that is used to predict heterogeneous treatment-response curves. We demonstrate the effectiveness of our framework using data with official development aid earmarked to end HIV/AIDS in 105 countries, amounting to more than USD 5.2 billion. For this, we first show that our framework successfully computes heterogeneous treatment-response curves using semi-synthetic data. Then, we demonstrate our framework using real-world HIV data. Our framework points to large opportunities for a more effective aid allocation, suggesting that the total number of new HIV infections could be reduced by up to 3.3% (~50,000 cases) compared to the current allocation practice.
翻訳日:2024-06-19 06:45:07 公開日:2024-06-15
# 量子コンピューティングによる原子核散乱

Nuclear scattering via quantum computing ( http://arxiv.org/abs/2401.17138v2 )

ライセンス: Link先を確認
Peiyan Wang, Weijie Du, Wei Zuo, James P. Vary, (参考訳) 未結合チャネルにおける2つの有界核の弾性散乱位相シフトを解くためのハイブリッド量子古典的枠組みを提案する。 この枠組みの中では、2つの衝突核の連続散乱状態が、強度の異なる弱い外部調和振動子電位によって制御される多体形式を開発する。 本稿では, 共役核の相対運動の低次散乱状態の固有エネルギーを, 共役核の振動子強度の関数として計算する手法を提案する。 改良された有効範囲拡大を利用して、衝突核の弾性散乱位相シフトをこれらの固有エネルギーから外部ポテンシャルが消滅する限界まで外挿する。 我々のハイブリッドアプローチでは、量子コンピューティングの利点を利用して、多くの核子ハミルトニアン固有値問題の集合からこれらの固有エネルギーを解く。 これらの固有エネルギーは、位相シフトを得るために古典的なコンピュータに入力される。 そこで我々は,IBM Qiskit量子シミュレータを用いて,関係する固有エネルギーを解くために,ロデオアルゴリズムを実装した。 スペクトルと弾性散乱相のシフトの結果は他の理論的結果とよく一致している。

We propose a hybrid quantum-classical framework to solve the elastic scattering phase shift of two well-bound nuclei in an uncoupled channel. Within this framework, we develop a many-body formalism in which the continuum scattering states of the two colliding nuclei are regulated by a weak external harmonic oscillator potential with varying strength. Based on our formalism, we propose an approach to compute the eigenenergies of the low-lying scattering states of the relative motion of the colliding nuclei as a function of the oscillator strength of the confining potential. Utilizing the modified effective range expansion, we extrapolate the elastic scattering phase shift of the colliding nuclei from these eigenenergies to the limit when the external potential vanishes. In our hybrid approach, we leverage the advantage of quantum computing to solve for these eigenenergies from a set of many-nucleon Hamiltonian eigenvalue problems. These eigenenergies are inputs to classical computers to obtain the phase shift. We demonstrate our framework with two simple problems, where we implement the rodeo algorithm to solve the relevant eigenenergies with the IBM Qiskit quantum simulator. The results of both the spectra and the elastic scattering phase shifts agree well with other theoretical results.
翻訳日:2024-06-19 06:45:07 公開日:2024-06-15
# 逆問題に対する弱凸正規化器:臨界点の収束と最小二次元最適化

Weakly Convex Regularisers for Inverse Problems: Convergence of Critical Points and Primal-Dual Optimisation ( http://arxiv.org/abs/2402.01052v2 )

ライセンス: Link先を確認
Zakhar Shumaylov, Jeremy Budd, Subhadip Mukherjee, Carola-Bibiane Schönlieb, (参考訳) 変分正則化は逆問題の解法の主要な手法であり、近年はより深く学習された正則化を利用して性能を向上する研究が盛んに行われている。 しかし、このような正則化の収束、特に大域的最小化とは対照的な臨界点の文脈における問題に対処する結果はほとんどない。 本稿では、臨界点の観点から収束正規化の一般化式を示し、弱凸正規化器のクラスによって達成されることを示す。 我々は、関連する変分問題に対する原始-双対ハイブリッド勾配法の収束を証明し、クルディカ・ロジャシエヴィチ条件が与えられたとき、$\mathcal{O}(\log{k}/k)$エルゴード収束率を与えられる。 最後に、この理論を学習正規化に適用し、入力弱凸ニューラルネットワーク(IWCNN)の普遍近似を証明し、IWCNNがCT再構成のための学習逆正則器の性能を向上させることを実証的に示す。

Variational regularisation is the primary method for solving inverse problems, and recently there has been considerable work leveraging deeply learned regularisation for enhanced performance. However, few results exist addressing the convergence of such regularisation, particularly within the context of critical points as opposed to global minimisers. In this paper, we present a generalised formulation of convergent regularisation in terms of critical points, and show that this is achieved by a class of weakly convex regularisers. We prove convergence of the primal-dual hybrid gradient method for the associated variational problem, and, given a Kurdyka-Lojasiewicz condition, an $\mathcal{O}(\log{k}/k)$ ergodic convergence rate. Finally, applying this theory to learned regularisation, we prove universal approximation for input weakly convex neural networks (IWCNN), and show empirically that IWCNNs can lead to improved performance of learned adversarial regularisers for computed tomography (CT) reconstruction.
翻訳日:2024-06-19 06:35:20 公開日:2024-06-15
# 大規模言語モデルにおける選択バイアスの低減

Reducing Selection Bias in Large Language Models ( http://arxiv.org/abs/2402.01740v3 )

ライセンス: Link先を確認
J. E. Eicher, R. F. Irgolič, (参考訳) gpt-3.5-turbo-0613やclaude-instant-1.2のような大きな言語モデル(LLM)は、セマンティックタスクの解釈と実行に不可欠である。 残念ながら、これらのモデル固有のバイアスは、パフォーマンスに悪影響を及ぼす。特に、リストからのオブジェクト選択は、デジタルナビゲーションと意思決定における基本的な操作である。 本研究は、これらのバイアスを批判的に検討し、代表リスト選択タスクへの影響を定量化する。 これらのバイアスを探索するために、温度、リストの長さ、オブジェクトのアイデンティティ、オブジェクトタイプ、迅速な複雑性、モデルを操作する実験を行う。 選択行動に対するバイアスの影響を分離,測定した。 以上の結果から, モデルにバイアス構造が強く依存していることが示唆された。 強いプライマリー効果により、リストの最初のオブジェクトが不均等に出力に表現される。 応答構造を確保するための素早いエンジニアリング手法であるガードレールの使用はバイアスを増大させ、選択タスクに対する指示の順守を減少させる。 ガードレールステップがリストサンプリングステップから分離されるとバイアスが緩和され、個々のタスクの複雑さが低下する。 我々は LLM アプリケーションを提供し、理論的には LLM がバイアスを補償する認知的負荷を経験することを示唆する。

Large Language Models (LLMs) like gpt-3.5-turbo-0613 and claude-instant-1.2 are vital in interpreting and executing semantic tasks. Unfortunately, these models' inherent biases adversely affect their performance Particularly affected is object selection from lists; a fundamental operation in digital navigation and decision-making. This research critically examines these biases and quantifies the effects on a representative list selection task. To explore these biases, we experiment manipulating temperature, list length, object identity, object type, prompt complexity, and model. We isolated and measured the influence of the biases on selection behavior. Our findings show that bias structure is strongly dependent on the model, with object type modulating the magnitude of the effect. With a strong primacy effect, causing the first objects in a list to be disproportionately represented in outputs. The usage of guard rails, a prompt engineering method of ensuring a response structure, increases bias and decreases instruction adherence when to a selection task. The bias is ablated when the guard rail step is separated from the list sampling step, lowering the complexity of each individual task. We provide LLM applications and theoretically suggest that LLMs experience a form of cognitive load that is compensated for with bias.
翻訳日:2024-06-19 06:35:20 公開日:2024-06-15
# 理解への学習:メビウス変換による相互作用の同定

Learning to Understand: Identifying Interactions via the Möbius Transform ( http://arxiv.org/abs/2402.02631v2 )

ライセンス: Link先を確認
Justin S. Kang, Yigit E. Erginbas, Landon Butler, Ramtin Pedarsani, Kannan Ramchandran, (参考訳) 機械学習における重要な課題の1つは、学習した関数の解釈可能な表現を見つけることである。 M\"obius 変換はこの目的のために必須であり、その係数は入力変数の集合に対するユニークな重要なスコアに対応する。 この変換は、ShapleyやBhanzafの値のような、広く使われているゲーム理論の重要さの概念と密接に関連しているが、同時に重要な高次相互作用も捉えている。 入力が$n$の関数のオビウス変換の計算には2^n$の係数が伴うが、関数がスパースであり、実世界の多くの関数が示すように、低次関数のときのトラクタブルになる。 これらの条件下では、変換計算の複雑さが大幅に減少する。 非ゼロ係数が$K$である場合、我々のアルゴリズムはM\"obius transform in $O(Kn)$ sample and $O(Kn^2)$ time asymptotically under certain assumptions, the first non-adaptive algorithm to be recovering $O(Kn)$ sample and $O(Kn^2)$ time asymptotically。 また、グループテストとM\"obius変換の驚くべき関係も明らかにした。 すべての相互作用が少なくとも$t$入力を含む関数に対しては、M\"obius変換を$O(Kt\log n)$サンプル複雑性と$O(K\mathrm{poly}(n))$タイムで計算するためにグループテスト結果を使用する。 このアルゴリズムの頑健なバージョンはノイズに耐え、この複雑さを維持する。 これはM\"obius変換のサブ線形クエリ複雑性、耐雑音性アルゴリズムの最初の$n$である。 いくつかの例では、スパースM\"ビウス変換によって生成される表現は、同じ数の項を使用しながら、シャプリー値やバンジャフ値に比べて元の関数に最大2倍忠実である。

One of the key challenges in machine learning is to find interpretable representations of learned functions. The M\"obius transform is essential for this purpose, as its coefficients correspond to unique importance scores for sets of input variables. This transform is closely related to widely used game-theoretic notions of importance like the Shapley and Bhanzaf value, but it also captures crucial higher-order interactions. Although computing the obius Transform of a function with $n$ inputs involves $2^n$ coefficients, it becomes tractable when the function is sparse and of low-degree as we show is the case for many real-world functions. Under these conditions, the complexity of the transform computation is significantly reduced. When there are $K$ non-zero coefficients, our algorithm recovers the M\"obius transform in $O(Kn)$ samples and $O(Kn^2)$ time asymptotically under certain assumptions, the first non-adaptive algorithm to do so. We also uncover a surprising connection between group testing and the M\"obius transform. For functions where all interactions involve at most $t$ inputs, we use group testing results to compute the M\"obius transform with $O(Kt\log n)$ sample complexity and $O(K\mathrm{poly}(n))$ time. A robust version of this algorithm withstands noise and maintains this complexity. This marks the first $n$ sub-linear query complexity, noise-tolerant algorithm for the M\"obius transform. In several examples, we observe that representations generated via sparse M\"obius transform are up to twice as faithful to the original function, as compared to Shaply and Banzhaf values, while using the same number of terms.
翻訳日:2024-06-19 06:35:20 公開日:2024-06-15
# コントラストディフューザ:コントラスト学習による高戻り状態に向けた計画

Contrastive Diffuser: Planning Towards High Return States via Contrastive Learning ( http://arxiv.org/abs/2402.02772v3 )

ライセンス: Link先を確認
Yixiang Shan, Zhengbang Zhu, Ting Long, Qifan Liang, Yi Chang, Weinan Zhang, Liang Yin, (参考訳) オフライン強化学習(RL)の性能は、オフラインデータセットにおけるハイリターン軌道の割合に敏感である。 しかし,多くのシミュレーション環境や実世界のシナリオでは,高リターントラジェクトリよりも低リターントラジェクトリの比率が大きいため,学習の効率化が図られている。 本稿では,低リターントラジェクトリをフル活用し,オフラインRLアルゴリズムの性能を向上させるために,Contrastive Diffuser (CDiffuser) という手法を提案する。 具体的には、CDiffuserはオフラインデータセットのトラジェクトリの状態を高リターン状態と低リターン状態に分類し、それに対応する正と負のサンプルとして扱う。 そして、エージェントの軌道を高リターン状態に引き上げ、低リターン状態から引き離すための対照的なメカニズムを設計する。 コントラスト機構を通じて、低利得のトラジェクトリは政策学習のネガティブな例として機能し、低利得に関連する領域を避け、より良いパフォーマンスを達成するようにエージェントを誘導する。 14個のD4RLベンチマークを用いて提案手法の有効性を実証した。 我々のコードは \url{https://anonymous.4open.science/r/CDiffuser} で公開されている。

The performance of offline reinforcement learning (RL) is sensitive to the proportion of high-return trajectories in the offline dataset. However, in many simulation environments and real-world scenarios, there are large ratios of low-return trajectories rather than high-return trajectories, which makes learning an efficient policy challenging. In this paper, we propose a method called Contrastive Diffuser (CDiffuser) to make full use of low-return trajectories and improve the performance of offline RL algorithms. Specifically, CDiffuser groups the states of trajectories in the offline dataset into high-return states and low-return states and treats them as positive and negative samples correspondingly. Then, it designs a contrastive mechanism to pull the trajectory of an agent toward high-return states and push them away from low-return states. Through the contrast mechanism, trajectories with low returns can serve as negative examples for policy learning, guiding the agent to avoid areas associated with low returns and achieve better performance. Experiments on 14 commonly used D4RL benchmarks demonstrate the effectiveness of our proposed method. Our code is publicly available at \url{https://anonymous.4open.science/r/CDiffuser}.
翻訳日:2024-06-19 06:35:20 公開日:2024-06-15
# 凸凹損失による会員推測におけるプライバシーリスクの軽減

Mitigating Privacy Risk in Membership Inference by Convex-Concave Loss ( http://arxiv.org/abs/2402.05453v2 )

ライセンス: Link先を確認
Zhenlong Liu, Lei Feng, Huiping Zhuang, Xiaofeng Cao, Hongxin Wei, (参考訳) 機械学習モデルは、トレーニングセットにサンプルがあるかどうかを推測することを目的とした、メンバシップ推論攻撃(MIA)の影響を受けやすい。 既存の作業では、勾配上昇を利用してトレーニングデータの損失分散を拡大し、プライバシリスクを軽減する。 しかし、逆方向に向かって最適化すると、モデルパラメータが局所的なミニマ付近で振動し、不安定性と準最適性能をもたらす可能性がある。 本研究では,勾配降下によるトレーニング損失分布の分散化を可能にする新しい手法であるConvex-Concave Lossを提案する。 本手法は, 凸損失がトレーニング中の損失分散を減少させる傾向があるという理論解析によって動機づけられた。 したがって、CCLの背後にある重要な考え方は、凹凸項による損失関数の凸度を低減することである。 CCLでトレーニングされたニューラルネットワークは、トレーニングデータのばらつきの高い損失を生成し、MIAに対する防御を強化する。 大規模な実験は、プライバシーとユーティリティのトレードオフにおける最先端のバランスを達成するために、CCLの優位性を実証している。

Machine learning models are susceptible to membership inference attacks (MIAs), which aim to infer whether a sample is in the training set. Existing work utilizes gradient ascent to enlarge the loss variance of training data, alleviating the privacy risk. However, optimizing toward a reverse direction may cause the model parameters to oscillate near local minima, leading to instability and suboptimal performance. In this work, we propose a novel method -- Convex-Concave Loss, which enables a high variance of training loss distribution by gradient descent. Our method is motivated by the theoretical analysis that convex losses tend to decrease the loss variance during training. Thus, our key idea behind CCL is to reduce the convexity of loss functions with a concave term. Trained with CCL, neural networks produce losses with high variance for training data, reinforcing the defense against MIAs. Extensive experiments demonstrate the superiority of CCL, achieving state-of-the-art balance in the privacy-utility trade-off.
翻訳日:2024-06-19 06:25:35 公開日:2024-06-15
# 粒子デノイング拡散サンプリング装置

Particle Denoising Diffusion Sampler ( http://arxiv.org/abs/2402.06320v2 )

ライセンス: Link先を確認
Angus Phillips, Hai-Dang Dau, Michael John Hutchinson, Valentin De Bortoli, George Deligiannidis, Arnaud Doucet, (参考訳) 拡散モデルは、生成的モデリングのためにユビキタスになってきた。 中心となる考え方は拡散を用いてデータ分布をガウスへ輸送することである。 データ分布からの近似サンプルは、スコアマッチングのアイデアを用いて、この拡散の時間反転を推定することによって得られる。 ここでは、非正規化確率密度からサンプリングし、それらの正規化定数を計算するための同様の戦略に従う。 しかし、時間反転拡散は、新しいスコアマッチング損失に依存する元の反復粒子スキームを用いてシミュレートされる。 標準的な分極拡散モデルとは対照的に、結果として生じる粒子分極拡散サンプリング(PDDS)は、穏やかな仮定の下で漸近的に一貫した推定を与える。 マルチモーダルおよび高次元サンプリングタスクにおけるPDDSの実証を行った。

Denoising diffusion models have become ubiquitous for generative modeling. The core idea is to transport the data distribution to a Gaussian by using a diffusion. Approximate samples from the data distribution are then obtained by estimating the time-reversal of this diffusion using score matching ideas. We follow here a similar strategy to sample from unnormalized probability densities and compute their normalizing constants. However, the time-reversed diffusion is here simulated by using an original iterative particle scheme relying on a novel score matching loss. Contrary to standard denoising diffusion models, the resulting Particle Denoising Diffusion Sampler (PDDS) provides asymptotically consistent estimates under mild assumptions. We demonstrate PDDS on multimodal and high dimensional sampling tasks.
翻訳日:2024-06-19 06:25:35 公開日:2024-06-15
# 真実はどこにあるのか? 連続的な世界で結束するリスク

Where is the Truth? The Risk of Getting Confounded in a Continual World ( http://arxiv.org/abs/2402.06434v2 )

ライセンス: Link先を確認
Florian Peter Busch, Roshni Kamath, Rupert Mitchell, Wolfgang Stammer, Kristian Kersting, Martin Mundt, (参考訳) データセットは、新たなデータへの一般化に失敗する急激な相関によって、最も容易に解決される場合、構築される。 本研究は,共同ファウンダーがタスク間で時間的に異なる連続的な学習環境において,共同創設者の効果を緩和するという課題が,通常考慮される標準的忘れ問題を上回ることを示した。 特に, 連続的共同設立者の形式的記述を提示し, 一般に, 全てのタスクを共同で訓練する場合, 素早い相関は容易に無視できるが, 逐次的に検討された場合には, 相反を避けることは困難である。 これらの記述は、ConConデータセットと呼ばれる、新しいCLEVRベースの継続的に構築されたデータセットを構築する基盤となる。 我々の評価は、標準連続学習手法がデータセットの共著者を無視できないことを示す。 全体的な研究は、特に連続的な学習環境において、要因を補うことの課題を強調し、これらに頑健に取り組むための連続的な学習方法を開発する必要性を実証する。

A dataset is confounded if it is most easily solved via a spurious correlation, which fails to generalize to new data. In this work, we show that, in a continual learning setting where confounders may vary in time across tasks, the challenge of mitigating the effect of confounders far exceeds the standard forgetting problem normally considered. In particular, we provide a formal description of such continual confounders and identify that, in general, spurious correlations are easily ignored when training for all tasks jointly, but it is harder to avoid confounding when they are considered sequentially. These descriptions serve as a basis for constructing a novel CLEVR-based continually confounded dataset, which we term the ConCon dataset. Our evaluations demonstrate that standard continual learning methods fail to ignore the dataset's confounders. Overall, our work highlights the challenges of confounding factors, particularly in continual learning settings, and demonstrates the need for developing continual learning methods to robustly tackle these.
翻訳日:2024-06-19 06:25:35 公開日:2024-06-15
# 先例のないコード変更自動化 - LLMの融合と例による変換

Unprecedented Code Change Automation: The Fusion of LLMs and Transformation by Example ( http://arxiv.org/abs/2402.07138v3 )

ライセンス: Link先を確認
Malinda Dilhara, Abhiram Bellur, Timofey Bryksin, Danny Dig, (参考訳) ソフトウェア開発者は、しばしば"コード変更パターン"(CPAT)と呼ばれる、プロジェクト内およびプロジェクト間のコード変更を繰り返します。 これらのCPATの自動化は開発を加速させるが、現在のTransform by Example(TBE)技術は入力例の品質と量によって制限される。 膨大なコードデータセットに基づいてトレーニングされた大規模言語モデル(LLM)は、意味論的に等価で見えないCPAT変種を生成して、TBEの有効性を高めることで、これらの制限を克服することができる。 正確性、有用性、適用性の基準を満たすコード変種を生成するためにLLMを使用するためのベストプラクティスを特定した。 これらはPyCraftで実装され、静的解析と動的解析をLLMと組み合わせ、96.6%のF測定で正しい変種を識別し、入力を平均58倍拡張し、ターゲット符号を最大39倍向上させる変更を自動化した。 PyCraftのパッチは、microsoft/DeepSpeedやIBM/inFairnessといったプロジェクトに83%の受け入れ率で提出され、私たちのアプローチの有用性を検証しました。

Software developers often repeat code changes, known as "code change patterns" (CPATs), within and across projects. Automating these CPATs accelerates development, but current Transformation by Example (TBE) techniques are limited by the input examples' quality and quantity, missing variations with different syntax or flow yet semantically similar. Large Language Models (LLMs), trained on vast code datasets, can overcome these limitations by generating semantically equivalent, unseen CPAT variants, enhancing TBE effectiveness. We identified best practices for using LLMs to generate code variants meeting criteria of correctness, usefulness, and applicability. Implementing these in PyCraft, combining static and dynamic analysis with LLMs, we achieved an F-measure of 96.6% in identifying correct variants, expanding inputs by 58x on average, and automating changes to increase target codes by up to 39x. Patches from PyCraft were submitted to projects like microsoft/DeepSpeed and IBM/inFairness, with an 83% acceptance rate, validating our approach's usefulness.
翻訳日:2024-06-19 06:25:35 公開日:2024-06-15
# 全下流エージェントにおけるスワップレギュレットの予測

Forecasting for Swap Regret for All Downstream Agents ( http://arxiv.org/abs/2402.08753v2 )

ライセンス: Link先を確認
Aaron Roth, Mirah Shi, (参考訳) 本報告では, 最善を尽くす下流エージェントが, 実用機能が何であれ, スワップ後悔を減らし, 確実に対応できるように予測を行うことの課題について検討する。 Foster and Vohra (1997) 以降、校正された予測に最も適したエージェントは、スワップ後悔をしていないことが知られている。 残念なことに、逐次的対向環境における校正予測を保証する最もよく知られたアルゴリズムは、予測空間の次元と指数関数的に減少する速度で行う。 本研究は、校正されていないが、慎重に選択されたイベントの収集の対象となっている予測を行うことにより、任意の下流エージェントが、校正された予測結果よりも大幅に改善されたレートで、任意の下流エージェントを保証できることを示します。一方、我々の予測が予測アルゴリズムを必要とせずに、下流エージェントに対して保証する魅力特性を維持しながら、そのユーティリティ機能を知る必要があることを示します。我々は、'`low' (1 または 2) 次元設定と'high' (> 2$) 次元設定で別々の結果を与えます。低次元設定では、我々の予測に最も反応するエージェントが、スワップリを - 最適な$O(\sq{T}) レートで - 1 次元で-- を減少させるような予測を行う方法を示します。 高次元設定では、下流エージェントがスムーズに応答するという仮定の下で、後悔のスケーリングを$O(T^{2/3})$(厳密には次元独立指数)で保証する予測を行う方法を示す。 この結果は, 予測空間の次元に指数的に依存するキャリブレーション予測に最も反応するエージェントから導かれる速度とは対照的である。

We study the problem of making predictions so that downstream agents who best respond to them will be guaranteed diminishing swap regret, no matter what their utility functions are. It has been known since Foster and Vohra (1997) that agents who best-respond to calibrated forecasts have no swap regret. Unfortunately, the best known algorithms for guaranteeing calibrated forecasts in sequential adversarial environments do so at rates that degrade exponentially with the dimension of the prediction space. In this work, we show that by making predictions that are not calibrated, but are unbiased subject to a carefully selected collection of events, we can guarantee arbitrary downstream agents diminishing swap regret at rates that substantially improve over the rates that result from calibrated forecasts -- while maintaining the appealing property that our forecasts give guarantees for any downstream agent, without our forecasting algorithm needing to know their utility function. We give separate results in the ``low'' (1 or 2) dimensional setting and the ``high'' ($> 2$) dimensional setting. In the low dimensional setting, we show how to make predictions such that all agents who best respond to our predictions have diminishing swap regret -- in 1 dimension, at the optimal $O(\sqrt{T})$ rate. In the high dimensional setting we show how to make forecasts that guarantee regret scaling at a rate of $O(T^{2/3})$ (crucially, a dimension independent exponent), under the assumption that downstream agents smoothly best respond. Our results stand in contrast to rates that derive from agents who best respond to calibrated forecasts, which have an exponential dependence on the dimension of the prediction space.
翻訳日:2024-06-19 06:25:35 公開日:2024-06-15
# 関係関数の近似と注意機構

Approximation of relation functions and attention mechanisms ( http://arxiv.org/abs/2402.08856v2 )

ライセンス: Link先を確認
Awni Altabaa, John Lafferty, (参考訳) ニューラルネットワークの特徴マップの内部積は、入力間の関係をモデル化する方法として、幅広い機械学習フレームワークに現れる。 本研究では,ニューラルネットワークの内部積の近似特性について検討する。 多層パーセプトロンの内積自体が対称正定値関係関数に対する普遍近似であることを示す。 非対称関係関数の場合、2つの異なる多層パーセプトロンの内部積が普遍近似であることを示す。 どちらの場合も、与えられた近似の精度を達成するために必要なニューロンの数に境界が与えられる。 対称の場合、関数類は再生カーネルヒルベルト空間のカーネルと同一視できるが、非対称の場合、関数類は再生カーネルバナッハ空間のカーネルと同一視できる。 最後に、これらの近似結果をトランスフォーマーの基盤となるアテンションメカニズムの解析に適用し、その内部積関係を通して、抽象的なプレオーダーによって定義された任意の検索機構をアテンションによって近似できることを示す。 この結果は、経済学におけるDebreu表現定理を用いて、実用関数の観点からの好み関係を表現している。

Inner products of neural network feature maps arise in a wide variety of machine learning frameworks as a method of modeling relations between inputs. This work studies the approximation properties of inner products of neural networks. It is shown that the inner product of a multi-layer perceptron with itself is a universal approximator for symmetric positive-definite relation functions. In the case of asymmetric relation functions, it is shown that the inner product of two different multi-layer perceptrons is a universal approximator. In both cases, a bound is obtained on the number of neurons required to achieve a given accuracy of approximation. In the symmetric case, the function class can be identified with kernels of reproducing kernel Hilbert spaces, whereas in the asymmetric case the function class can be identified with kernels of reproducing kernel Banach spaces. Finally, these approximation results are applied to analyzing the attention mechanism underlying Transformers, showing that any retrieval mechanism defined by an abstract preorder can be approximated by attention through its inner product relations. This result uses the Debreu representation theorem in economics to represent preference relations in terms of utility functions.
翻訳日:2024-06-19 06:15:51 公開日:2024-06-15
# ベイズ逆ゲームの自動エンコード

Auto-Encoding Bayesian Inverse Games ( http://arxiv.org/abs/2402.08902v3 )

ライセンス: Link先を確認
Xinjie Liu, Lasse Peters, Javier Alonso-Mora, Ufuk Topcu, David Fridovich-Keil, (参考訳) 複数のエージェントが共通の環境で相互作用する場合、各エージェントのアクションは他のエージェントの将来の決定に影響を与え、非協調的なダイナミックゲームは自然にこの結合を捉えます。 しかしながら、インタラクティブなモーションプランニングでは、エージェントは他のプレイヤーの未知の目的のために、通常、ゲームの完全なモデル、例えば、にアクセスできない。 したがって,ゲームの性質が不明であり,観測結果から推測しなければならない,逆ゲーム問題を考える。 既存の最大誤差推定(MLE)アプローチは、不確実性を定量化せずに未知のパラメータの点推定のみを提供し、多くのパラメータ値が観測された振る舞いを説明すると性能が低下する。 これらの制限に対処するため、ベイズ的視点を採り、ゲームパラメータの後方分布を構築する。 Inference tractable のレンダリングには、可変オートエンコーダ(VAE)と組込み微分可能なゲームソルバを用いる。 この構造化されたVAEは、観測された相互作用のラベルのないデータセットからトレーニングすることができ、自然に連続したマルチモーダル分布を処理し、実行時にゲームソリューションを計算せずに推論された後部からの効率的なサンプリングをサポートする。 シミュレーション駆動シナリオにおける広範囲な評価は,提案手法がゲームパラメータの事前および後部分布の学習に成功し,MLEベースラインよりも正確な目標推定を提供し,より安全で効率的なゲーム理論の動作計画を容易にすることを証明している。

When multiple agents interact in a common environment, each agent's actions impact others' future decisions, and noncooperative dynamic games naturally capture this coupling. In interactive motion planning, however, agents typically do not have access to a complete model of the game, e.g., due to unknown objectives of other players. Therefore, we consider the inverse game problem, in which some properties of the game are unknown a priori and must be inferred from observations. Existing maximum likelihood estimation (MLE) approaches to solve inverse games provide only point estimates of unknown parameters without quantifying uncertainty, and perform poorly when many parameter values explain the observed behavior. To address these limitations, we take a Bayesian perspective and construct posterior distributions of game parameters. To render inference tractable, we employ a variational autoencoder (VAE) with an embedded differentiable game solver. This structured VAE can be trained from an unlabeled dataset of observed interactions, naturally handles continuous, multi-modal distributions, and supports efficient sampling from the inferred posteriors without computing game solutions at runtime. Extensive evaluations in simulated driving scenarios demonstrate that the proposed approach successfully learns the prior and posterior game parameter distributions, provides more accurate objective estimates than MLE baselines, and facilitates safer and more efficient game-theoretic motion planning.
翻訳日:2024-06-19 06:15:51 公開日:2024-06-15
# アンサー検出におけるステップバイステップの検証

Can We Verify Step by Step for Incorrect Answer Detection? ( http://arxiv.org/abs/2402.10528v2 )

ライセンス: Link先を確認
Xin Xu, Shizhe Diao, Can Yang, Yang Wang, (参考訳) CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)の推論能力の向上に大きく貢献している。 従来の研究は、主にエンドタスク性能の向上に焦点を当てたCoTの様々な拡張を開発してきた。 さらに、CoTにおける推論鎖の品質を評価する研究も行われている。 LLM出力の精度は、それらが生成する推論連鎖を精査することによって予測できるのか? そこで本研究では,5つのドメインにまたがる様々な推論タスクにおいて,推論連鎖と性能の関係を調査するためのベンチマークR2PEを提案する。 本ベンチマークは,LLMの最終出力の誤りを推論ステップに基づいて測定することを目的としている。 複数の推論チェーンにおける情報を完全に活用するために,回答チェックベースラインを大きなマージンで打ち負かすプロセス識別可能性スコア(PDS)フレームワークを提案する。 具体的には、F1スコアが平均5.1\%、R2PE内の45サブセットが平均2.97\%、AUC-PRが平均2.97\%向上した。 さらに,オープンドメインQAの精度向上にPSDの有効性を実証した。 データとコードはhttps://github.com/XinXU-USTC/R2PEで入手できる。

Chain-of-Thought (CoT) prompting has marked a significant advancement in enhancing the reasoning capabilities of large language models (LLMs). Previous studies have developed various extensions of CoT, which focus primarily on enhancing end-task performance. In addition, there has been research on assessing the quality of reasoning chains in CoT. This raises an intriguing question: Is it possible to predict the accuracy of LLM outputs by scrutinizing the reasoning chains they generate? To answer this research question, we introduce a benchmark, R2PE, designed specifically to explore the relationship between reasoning chains and performance in various reasoning tasks spanning five different domains. This benchmark aims to measure the falsehood of the final output of LLMs based on the reasoning steps. To make full use of information in multiple reasoning chains, we propose the process discernibility score (PDS) framework that beats the answer-checking baseline by a large margin. Concretely, this resulted in an average of $5.1\%$ increase in the F1 score and $2.97\%$ improvement in AUC-PR across all 45 subsets within R2PE. We further demonstrate our PDS's efficacy in advancing open-domain QA accuracy. Data and code are available at https://github.com/XinXU-USTC/R2PE.
翻訳日:2024-06-19 06:15:51 公開日:2024-06-15
# 攻撃的クエリによるロールプレイングシステムの強化:評価と改善

Enhancing Role-playing Systems through Aggressive Queries: Evaluation and Improvement ( http://arxiv.org/abs/2402.10618v2 )

ライセンス: Link先を確認
Yihong Tang, Jiao Ou, Che Liu, Fuzheng Zhang, Di Zhang, Kun Gai, (参考訳) LLM(Large Language Models)の出現は、特にロールプレイングシステム(RPS)の分野において、対話生成を新たな領域へと押し上げている。 通常のロール関連トレーニングダイアログによって強化されているが、既存のLLMベースのRSSは、境界シナリオにおける複雑なクエリと閉じ込められたクエリを扱う際に、ロールと整合するのに苦労している。 本稿では,Modular Orchestrated Trap-setting Interaction SystEm (MORTISE) を設計し,ロールプレイングLLMの性能をベンチマークし改善する。 MORTISEは、複数のLCMベースのモジュールの協調作業を通じて、非常にロール関連性の高いアグレッシブクエリを生成し、対応するレスポンスを定式化し、一貫した応答生成器を介して敵のトレーニングデータセットを作成する。 我々は、既存のロールプレイングLLMをベンチマークするアグレッシブクエリを構築するために、190の中国語と英語のロールを選択した。 包括的評価により,既存のモデルでは役割アライメント能力が欠如していることが判明した。 さらに180のロールを選択して、敵のトレーニングデータセット(RoleADという名前)を収集し、他の10のロールをテストとして保持します。 RoleADにより改善されたモデルに対する実験は、我々の敵対的データセットがこの欠陥を改善することを示し、通常のシナリオにおける一般化可能性の度合いを示す。

The advent of Large Language Models (LLMs) has propelled dialogue generation into new realms, particularly in the field of role-playing systems (RPSs). While enhanced with ordinary role-relevant training dialogues, existing LLM-based RPSs still struggle to align with roles when handling intricate and trapped queries in boundary scenarios. In this paper, we design the Modular ORchestrated Trap-setting Interaction SystEm (MORTISE) to benchmark and improve the role-playing LLMs' performance. MORTISE can produce highly role-relevant aggressive queries through the collaborative effort of multiple LLM-based modules, and formulate corresponding responses to create an adversarial training dataset via a consistent response generator. We select 190 Chinese and English roles to construct aggressive queries to benchmark existing role-playing LLMs. Through comprehensive evaluation, we find that existing models exhibit a general deficiency in role alignment capabilities. We further select 180 of the roles to collect an adversarial training dataset (named RoleAD) and retain the other 10 roles for testing. Experiments on models improved by RoleAD indicate that our adversarial dataset ameliorates this deficiency, with the improvements demonstrating a degree of generalizability in ordinary scenarios.
翻訳日:2024-06-19 06:15:51 公開日:2024-06-15
# ニュースナラティブの復号化:フレーム検出における大規模言語モデルの批判的分析

Decoding News Narratives: A Critical Analysis of Large Language Models in Framing Detection ( http://arxiv.org/abs/2402.11621v3 )

ライセンス: Link先を確認
Valeria Pastorino, Jasivan A. Sivakumar, Nafise Sadat Moosavi, (参考訳) フレーミングに関するこれまでの研究は、注釈付きデータセットが限られた手動分析や微調整モデルに依存していた。 しかし、訓練済みのモデルは、さまざまなトレーニングの背景を持つため、有望な代替手段を提供する。 本稿では,ニュース見出しにおけるフレーミングの検出において,GPT-4,GPT-3.5 Turbo,FLAN-T5モデルを包括的に分析する。 我々はこれらのモデルを,ゼロショット,ドメイン内例による少数ショット,クロスドメイン例,モデルが予測を説明する設定など,さまざまなシナリオで評価した。 以上の結果から,説明可能な予測がより信頼性の高い結果をもたらすことが示唆された。 GPT-4は、わずかな設定で非常によく機能したが、しばしば感情的な言語をフレーミングと誤解し、重大な課題を浮き彫りにした。 さらに、複数のモデルにまたがる一貫した予測は、データセットの潜在的なアノテーションの不正確さを特定するのに役立つことを示唆している。 最後に,多種多様なトピックの見出しから実世界の評価を行うための,新しい小さなデータセットを提案する。

Previous studies on framing have relied on manual analysis or fine-tuning models with limited annotated datasets. However, pre-trained models, with their diverse training backgrounds, offer a promising alternative. This paper presents a comprehensive analysis of GPT-4, GPT-3.5 Turbo, and FLAN-T5 models in detecting framing in news headlines. We evaluated these models in various scenarios: zero-shot, few-shot with in-domain examples, cross-domain examples, and settings where models explain their predictions. Our results show that explainable predictions lead to more reliable outcomes. GPT-4 performed exceptionally well in few-shot settings but often misinterpreted emotional language as framing, highlighting a significant challenge. Additionally, the results suggest that consistent predictions across multiple models could help identify potential annotation inaccuracies in datasets. Finally, we propose a new small dataset for real-world evaluation on headlines from a diverse set of topics.
翻訳日:2024-06-19 06:06:06 公開日:2024-06-15
# ニューラルWebストラップによるコーパスキュレーションのクリーン化

Cleaner Pretraining Corpus Curation with Neural Web Scraping ( http://arxiv.org/abs/2402.14652v3 )

ライセンス: Link先を確認
Zhipeng Xu, Zhenghao Liu, Yukun Yan, Zhiyuan Liu, Ge Yu, Chenyan Xiong, (参考訳) ウェブには、人間の情報検索のニーズを満たすために、大規模で多様で豊富な情報が含まれている。 厳密なデータ収集、事前処理、キュレーションを通じて、Webページは言語モデル事前学習の基本的なデータリソースとして利用することができる。 しかし、Webページの革新的かつ複雑な性質に直面すると、ルールベース/フィーチャーベースのWebスクレイパーはますます不十分になりつつある。 本稿では,Webページから一次的かつクリーンなテキストコンテンツを抽出するための,シンプルで高速かつ効果的なNeuScraper(NeuScraper)を提案する。 実験の結果,NeuScraperは20%以上の改善を達成し,言語モデルの事前学習を促進するために高品質なデータを抽出する可能性を示した。 すべてのコードはhttps://github.com/OpenMatch/NeuScraperで入手できる。

The web contains large-scale, diverse, and abundant information to satisfy the information-seeking needs of humans. Through meticulous data collection, preprocessing, and curation, webpages can be used as a fundamental data resource for language model pretraining. However, when confronted with the progressively revolutionized and intricate nature of webpages, rule-based/feature-based web scrapers are becoming increasingly inadequate. This paper presents a simple, fast, and effective Neural web Scraper (NeuScraper) to help extract primary and clean text contents from webpages. Experimental results show that NeuScraper surpasses the baseline scrapers by achieving more than a 20% improvement, demonstrating its potential in extracting higher-quality data to facilitate the language model pretraining. All of the code is available at https://github.com/OpenMatch/NeuScraper.
翻訳日:2024-06-19 05:56:21 公開日:2024-06-15
# 不規則時系列データ解析における安定なニューラル確率微分方程式

Stable Neural Stochastic Differential Equations in Analyzing Irregular Time Series Data ( http://arxiv.org/abs/2402.14989v4 )

ライセンス: Link先を確認
YongKyung Oh, Dongyoung Lim, Sungil Kim, (参考訳) 実世界の時系列データにおける不規則サンプリング間隔と欠落値は、一貫した間隔と完全データを仮定する従来の手法の課題を示す。 ニューラル正規微分方程式(Neural Ordinary Differential Equations (Neural ODEs))は、パラメータ化されたベクトル場を通して連続的な潜在表現を学習するためにODEソルバと結合されたニューラルネットワークを利用する別のアプローチを提供する。 ニューラル確率微分方程式(Neural Stochastic Differential Equations (Neural SDEs))は、拡散項を組み込むことでニューラル ODE を拡張するが、特に不規則区間や欠落値を扱う場合、この加算は自明ではない。 その結果, ドリフトと拡散関数の注意設計は安定性の維持と性能の向上に不可欠であるが, 強い解の欠如, 確率的不安定化, 不安定なオイラー離散化などの不適切な選択はニューラルSDEの性能に大きな影響を及ぼす可能性がある。 本研究では,Langevin型SDE,Linear Noise SDE,Geometric SDEの3つの安定クラスを提案する。 そして, 配電時の性能を良好に維持する上で, 過度な適合を効果的に防止し, その堅牢性を示す。 提案手法の有効性を評価するため, 補間, 予測, 分類タスクの4つのベンチマークデータセットに対して広範囲な実験を行い, 欠落率の異なる30個の公開データセットを用いて手法のロバスト性を解析した。 本研究は,実世界の不規則時系列データを扱う上で,提案手法の有効性を示すものである。

Irregular sampling intervals and missing values in real-world time series data present challenges for conventional methods that assume consistent intervals and complete data. Neural Ordinary Differential Equations (Neural ODEs) offer an alternative approach, utilizing neural networks combined with ODE solvers to learn continuous latent representations through parameterized vector fields. Neural Stochastic Differential Equations (Neural SDEs) extend Neural ODEs by incorporating a diffusion term, although this addition is not trivial, particularly when addressing irregular intervals and missing values. Consequently, careful design of drift and diffusion functions is crucial for maintaining stability and enhancing performance, while incautious choices can result in adverse properties such as the absence of strong solutions, stochastic destabilization, or unstable Euler discretizations, significantly affecting Neural SDEs' performance. In this study, we propose three stable classes of Neural SDEs: Langevin-type SDE, Linear Noise SDE, and Geometric SDE. Then, we rigorously demonstrate their robustness in maintaining excellent performance under distribution shift, while effectively preventing overfitting. To assess the effectiveness of our approach, we conduct extensive experiments on four benchmark datasets for interpolation, forecasting, and classification tasks, and analyze the robustness of our methods with 30 public datasets under different missing rates. Our results demonstrate the efficacy of the proposed method in handling real-world irregular time series data.
翻訳日:2024-06-19 05:56:21 公開日:2024-06-15
# Chu-ko-nu: フェデレートラーニングにおけるマルチラウンドセキュアアグリゲーションのための信頼性,効率,匿名性を備えた認証実現

Chu-ko-nu: A Reliable, Efficient, and Anonymously Authentication-Enabled Realization for Multi-Round Secure Aggregation in Federated Learning ( http://arxiv.org/abs/2402.15111v2 )

ライセンス: Link先を確認
Kaiping Cui, Xia Feng, Liangmin Wang, Haiqin Wu, Xiaoyu Zhang, Boris Düdder, (参考訳) セキュアアグリゲーションにより、フェデレーション学習(FL)は、生データを公開せずに、ローカルな勾配更新からクライアントの協調的なトレーニングを行うことができる。 しかし、既存のセキュアなアグリゲーションスキームは、異なるラウンドに対して新しい入力非依存のシークレットを確立する必要があるため、必然的に1ラウンド当たりの高価な新しいセットアップを実行する。 最新の研究であるFlamingo (S&P 2023)は、複数のアグリゲーションを継続的に実行するサーバをサポートするために、共有転送ベースの再利用可能なシークレットキーを設計した。 それでも、提案した共有転送機構は、信頼性に限界があるP確率でしか達成できない。 上記の問題に対処するため,複数ラウンドの安全なアグリゲーションのための,より信頼性が高く,匿名で認証する方式であるChu-ko-nuを提案する。 具体的には、共有転送の面では、秘密鍵成分の再分配過程(すべての成分の和が秘密鍵である)を補足することにより、確率P障壁を破り、秘密鍵の再利用性を確保する。 この再利用可能な秘密鍵に基づいて、次のラウンドで連続的な集計を効率よく行うことができる。 さらに,クライアント認証とプライバシ保護の問題がほとんど無視されていることを考えると,Chu-ko-nuはゼロ知識証明に基づく認証機構を導入している。 FLトレーニングに参加するクライアントを匿名でサポートし、さまざまな攻撃がある場合、サーバがクライアントを効果的に認証することができる。 厳密なセキュリティ証明と広範囲な実験により、中古ぬは低い集約コストでFLに対して信頼性と匿名で認証されたアグリゲーションを提供し、少なくとも最先端のスキームに比べて21.02%の削減を達成できることを示した。

Secure aggregation enables federated learning (FL) to perform collaborative training of clients from local gradient updates without exposing raw data. However, existing secure aggregation schemes inevitably perform an expensive fresh setup per round because each client needs to establish fresh input-independent secrets over different rounds. The latest research, Flamingo (S&P 2023), designed a share-transfer-based reusable secret key to support the server continuously performing multiple rounds of aggregation. Nevertheless, the share transfer mechanism it proposed can only be achieved with P probability, which has limited reliability. To tackle the aforementioned problems, we propose a more reliable and anonymously authenticated scheme called Chu-ko-nu for multi-round secure aggregation. Specifically, in terms of share transfer, Chu-ko-nu breaks the probability P barrier by supplementing a redistribution process of secret key components (the sum of all components is the secret key), thus ensuring the reusability of the secret key. Based on this reusable secret key, Chu-ko-nu can efficiently perform consecutive aggregation in the following rounds. Furthermore, considering the client identity authentication and privacy protection issue most approaches ignore, Chu-ko-nu introduces a zero-knowledge proof-based authentication mechanism. It can support clients anonymously participating in FL training and enables the server to authenticate clients effectively in the presence of various attacks. Rigorous security proofs and extensive experiments demonstrated that Chu-ko-nu can provide reliable and anonymously authenticated aggregation for FL with low aggregation costs, at least a 21.02% reduction compared to the state-of-the-art schemes.
翻訳日:2024-06-19 05:56:21 公開日:2024-06-15
# GenNBV:アクティブ3D再構築のための汎用的な次世代ビューポリシー

GenNBV: Generalizable Next-Best-View Policy for Active 3D Reconstruction ( http://arxiv.org/abs/2402.16174v2 )

ライセンス: Link先を確認
Xiao Chen, Quanyi Li, Tai Wang, Tianfan Xue, Jiangmiao Pang, (参考訳) 近年のニューラルラディアンス分野の進歩により、大規模シーンのリアルなデジタル化が可能になったが、画像キャプチャープロセスはまだ時間がかかり、労働集約的だ。 従来の作業では,Next-Best-View (NBV) ポリシを使用して,アクティブな3次元再構築を試みていた。 しかし、既存のNBVポリシーは手作りの基準、限られたアクション空間、シーンごとの最適化された表現に大きく依存している。 これらの制約は、データセット間の一般化性を制限する。 そこで我々は、エンドツーエンドの一般化可能なNBVポリシーであるGenNBVを提案する。 我々の政策は強化学習(RL)ベースのフレームワークを採用し、典型的な制限されたアクション空間を5次元自由空間に拡張する。 それは、エージェントドローンがあらゆる視点からスキャンし、訓練中に見えない地形と対話することを可能にします。 また,クロスデータセットの一般化性を高めるために,幾何学的,意味的,行動表現を含む新しい多元的状態埋め込みを提案する。 我々は,このNBVポリシーを評価するために,Houses3KとOmniObject3Dデータセットを用いたIsaac Gymシミュレータを用いたベンチマークを構築した。 実験により、これらのデータセットから、目に見えないビルディングスケールのオブジェクトに対して、ポリシーが98.26%と97.12%のカバレッジ比を達成し、事前のソリューションよりも優れた結果が得られた。

While recent advances in neural radiance field enable realistic digitization for large-scale scenes, the image-capturing process is still time-consuming and labor-intensive. Previous works attempt to automate this process using the Next-Best-View (NBV) policy for active 3D reconstruction. However, the existing NBV policies heavily rely on hand-crafted criteria, limited action space, or per-scene optimized representations. These constraints limit their cross-dataset generalizability. To overcome them, we propose GenNBV, an end-to-end generalizable NBV policy. Our policy adopts a reinforcement learning (RL)-based framework and extends typical limited action space to 5D free space. It empowers our agent drone to scan from any viewpoint, and even interact with unseen geometries during training. To boost the cross-dataset generalizability, we also propose a novel multi-source state embedding, including geometric, semantic, and action representations. We establish a benchmark using the Isaac Gym simulator with the Houses3K and OmniObject3D datasets to evaluate this NBV policy. Experiments demonstrate that our policy achieves a 98.26% and 97.12% coverage ratio on unseen building-scale objects from these datasets, respectively, outperforming prior solutions.
翻訳日:2024-06-19 05:46:37 公開日:2024-06-15
# 数値情報場理論(NIFTy.re):ガウス過程と変分推論のためのライブラリー

Re-Envisioning Numerical Information Field Theory (NIFTy.re): A Library for Gaussian Processes and Variational Inference ( http://arxiv.org/abs/2402.16683v2 )

ライセンス: Link先を確認
Gordian Edenhofer, Philipp Frank, Jakob Roth, Reimar H. Leike, Massin Guerdi, Lukas I. Scheel-Platz, Matteo Guardiani, Vincent Eberle, Margret Westerkamp, Torsten A. Enßlin, (参考訳) イメージングは、ノイズの多い不完全なデータを人間が解釈できる空間に変換するプロセスである。 NIFTyはベイズ的なイメージングのフレームワークであり、すでに天体物理学の多くの分野に応用されている。 以前の設計決定では、NIFTyにおけるメソッドのパフォーマンスと開発が行われていた。 我々は、NIFTyを書き換え、NIFTy.reという造語で、モデリングの原則を再検討し、推論戦略を拡張し、JAXへの重み付けの多くをアウトソースする。 このリライトはNIFTyで書かれたモデルを劇的に加速し、新しいタイプの推論マシンの基礎を築き、保守性を改善し、NIFTyとJAX機械学習エコシステムの相互運用性を可能にする。

Imaging is the process of transforming noisy, incomplete data into a space that humans can interpret. NIFTy is a Bayesian framework for imaging and has already successfully been applied to many fields in astrophysics. Previous design decisions held the performance and the development of methods in NIFTy back. We present a rewrite of NIFTy, coined NIFTy.re, which reworks the modeling principle, extends the inference strategies, and outsources much of the heavy lifting to JAX. The rewrite dramatically accelerates models written in NIFTy, lays the foundation for new types of inference machineries, improves maintainability, and enables interoperability between NIFTy and the JAX machine learning ecosystem.
翻訳日:2024-06-19 05:46:37 公開日:2024-06-15
# 対訳 単語問題生成

Adversarial Math Word Problem Generation ( http://arxiv.org/abs/2402.17916v3 )

ライセンス: Link先を確認
Roy Xie, Chengxuan Huang, Junlin Wang, Bhuwan Dhingra, (参考訳) 大型言語モデル(LLM)は教育の景観を大きく変えた。 現在の盗作検出ツールは、LLMの急速な進歩に追随するのに苦労しているため、教育コミュニティは、LLMの存在下での生徒の真の問題解決能力を評価するという課題に直面している。 本研究は,評価対象の質問の構造と難易度を保ちつつも,LLMでは解決できないような,公正な評価を保証するための新たなパラダイムを探求する。 数学の単語問題に焦点をあて、抽象構文木を利用して、LLMが問題の数値を単純に編集することで誤った解を生成するような逆例を構造的に生成する。 我々は様々なオープン・クローズド・ソース LLM の実験を行い、定量的かつ質的に、我々の手法が数学の問題解決能力を著しく低下させることを示した。 LLM間で共有脆弱性を識別し,高コストモデルを攻撃するための費用対効果のアプローチを提案する。 さらに, 故障原因を自動解析し, LLMの限界についてさらなる知見を提供する。

Large language models (LLMs) have significantly transformed the educational landscape. As current plagiarism detection tools struggle to keep pace with LLMs' rapid advancements, the educational community faces the challenge of assessing students' true problem-solving abilities in the presence of LLMs. In this work, we explore a new paradigm for ensuring fair evaluation -- generating adversarial examples which preserve the structure and difficulty of the original questions aimed for assessment, but are unsolvable by LLMs. Focusing on the domain of math word problems, we leverage abstract syntax trees to structurally generate adversarial examples that cause LLMs to produce incorrect answers by simply editing the numeric values in the problems. We conduct experiments on various open- and closed-source LLMs, quantitatively and qualitatively demonstrating that our method significantly degrades their math problem-solving ability. We identify shared vulnerabilities among LLMs and propose a cost-effective approach to attack high-cost models. Additionally, we conduct automatic analysis to investigate the cause of failure, providing further insights into the limitations of LLMs.
翻訳日:2024-06-19 05:46:37 公開日:2024-06-15
# NewsQs: 問い合わせマインドのためのマルチソース質問生成

NewsQs: Multi-Source Question Generation for the Inquiring Mind ( http://arxiv.org/abs/2402.18479v2 )

ライセンス: Link先を確認
Alyssa Hwang, Kalpit Dixit, Miguel Ballesteros, Yassine Benajiba, Vittorio Castelli, Markus Dreyer, Mohit Bansal, Kathleen McKeown, (参考訳) 複数のニュース文書に対して質問応答ペアを提供するデータセットであるNewsQs(news-cues)を提示する。 NewsQsを作成するために、News On the WebコーパスからFAQスタイルのニュース記事に微調整されたT5-Largeモデルによって自動生成される質問で、従来のマルチドキュメント要約データセットを拡張する。 制御符号を持つモデルに微調整を行うことで、人間の評価によって測定されるような同じモデルよりも、より頻繁に許容できると判断される質問が生成されることを示す。 人間のアノテーションと高い相関関係を持つQNLIモデルを用いてデータをフィルタリングする。 我々は、クエリベースのマルチドキュメント要約における将来の作業のためのリソースとして、高品質な質問、回答、ドキュメントクラスタの最終データセットをリリースします。

We present NewsQs (news-cues), a dataset that provides question-answer pairs for multiple news documents. To create NewsQs, we augment a traditional multi-document summarization dataset with questions automatically generated by a T5-Large model fine-tuned on FAQ-style news articles from the News On the Web corpus. We show that fine-tuning a model with control codes produces questions that are judged acceptable more often than the same model without them as measured through human evaluation. We use a QNLI model with high correlation with human annotations to filter our data. We release our final dataset of high-quality questions, answers, and document clusters as a resource for future work in query-based multi-document summarization.
翻訳日:2024-06-19 05:46:37 公開日:2024-06-15
# RORA:ロバストなフリーテキストライタリー評価

RORA: Robust Free-Text Rationale Evaluation ( http://arxiv.org/abs/2402.18678v3 )

ライセンス: Link先を確認
Zhengping Jiang, Yining Lu, Hanjie Chen, Daniel Khashabi, Benjamin Van Durme, Anqi Liu, (参考訳) 自由文理性は説明可能なNLPにおいて重要な役割を担い、モデルの意思決定の背後にある知識と推論のギャップを埋める。 しかしながら、潜在的な推論経路の多様性とそれに伴う決定的な根拠の欠如により、それらの評価は依然として課題である。 既存の評価指標は、合理的なラベルが対象ラベルをサポートする程度に依存していますが、ラベルを不注意にリークする合理性の評価ではこれらが不足していることが分かりました。 この問題に対処するため,ラベルリークに対するロバスト自由文Rationale評価法であるRORAを提案する。 RORAは、ラベルを正当化するために合理的に提供される新しい情報を定量化する。 これは、小さなモデルで活用できる漏洩した特徴に対して頑健な予測系を持つ条件V-information \citep{hewitt-etal-2021-conditional}を評価することで達成される。 RORAは、人間の書き起こし、合成、またはモデル生成の合理性を評価する既存のアプローチを一貫して上回り、特にラベルの漏洩に対する堅牢性を示す。 また、RORAは人間の判断とよく一致していることを示し、多様な自由文理性にまたがってより信頼性と正確な測定を提供する。

Free-text rationales play a pivotal role in explainable NLP, bridging the knowledge and reasoning gaps behind a model's decision-making. However, due to the diversity of potential reasoning paths and a corresponding lack of definitive ground truth, their evaluation remains a challenge. Existing evaluation metrics rely on the degree to which a rationale supports a target label, but we find these fall short in evaluating rationales that inadvertently leak the labels. To address this problem, we propose RORA, a Robust free-text Rationale evaluation against label leakage. RORA quantifies the new information supplied by a rationale to justify the label. This is achieved by assessing the conditional V-information \citep{hewitt-etal-2021-conditional} with a predictive family robust against leaky features that can be exploited by a small model. RORA consistently outperforms existing approaches in evaluating human-written, synthetic, or model-generated rationales, particularly demonstrating robustness against label leakage. We also show that RORA aligns well with human judgment, providing a more reliable and accurate measurement across diverse free-text rationales.
翻訳日:2024-06-19 05:46:37 公開日:2024-06-15
# SciAssess:科学文献分析におけるLCM能力のベンチマーク

SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis ( http://arxiv.org/abs/2403.01976v3 )

ライセンス: Link先を確認
Hengxing Cai, Xiaochen Cai, Junhan Chang, Sihang Li, Lin Yao, Changxin Wang, Zhifeng Gao, Hongshuai Wang, Yongge Li, Mujie Lin, Shuwen Yang, Jiankun Wang, Mingjun Xu, Jin Huang, Fang Xi, Jiaxi Zhuang, Yuqi Yin, Yaqi Li, Changhong Chen, Zheng Cheng, Zifeng Zhao, Linfeng Zhang, Guolin Ke, (参考訳) 近年のLarge Language Models(LLM)のブレークスルーは、自然言語の理解と生成に革命をもたらした。 しかし、既存のベンチマークでは、特に単なる記憶以上の高度な能力とマルチモーダルデータの処理を必要とするシナリオにおいて、この領域におけるLCMの熟練度を適切に評価することができない。 このギャップに対応するために、科学文献分析におけるLLMの総合評価のためのベンチマークであるSciAssessを紹介した。 SciAssessは, 記憶機能(L1), 理解機能(L2), 分析機能(L3)に着目し, LLMの有効性を徹底的に評価することを目的としている。 基礎科学、合金材料、生物医学、薬物発見、有機材料など、様々な科学分野から引き出された様々なタスクを包含している。 SciAssessの信頼性を確保するため、厳格な品質管理対策が実施され、正確性、匿名化、著作権基準の遵守が保証された。 SciAssessは、GPT、Claude、Geminiを含む11のLCMを評価し、改善の強さと領域を強調している。 この評価は、科学文献の分析におけるLLM応用の継続的な発展を支えている。 SciAssessとそのリソースは \url{https://sci-asses.github.io/} で入手できる。

Recent breakthroughs in Large Language Models (LLMs) have revolutionized natural language understanding and generation, sparking significant interest in applying them to scientific literature analysis. However, existing benchmarks fail to adequately evaluate the proficiency of LLMs in this domain, particularly in scenarios requiring higher-level abilities beyond mere memorization and the handling of multimodal data. In response to this gap, we introduce SciAssess, a benchmark specifically designed for the comprehensive evaluation of LLMs in scientific literature analysis. SciAssess aims to thoroughly assess the efficacy of LLMs by focusing on their capabilities in Memorization (L1), Comprehension (L2), and Analysis \& Reasoning (L3). It encompasses a variety of tasks drawn from diverse scientific fields, including fundamental science, alloy materials, biomedicine, drug discovery, and organic materials. To ensure the reliability of SciAssess, rigorous quality control measures have been implemented, ensuring accuracy, anonymization, and compliance with copyright standards. SciAssess evaluates 11 LLMs, including GPT, Claude, and Gemini, highlighting their strengths and areas for improvement. This evaluation supports the ongoing development of LLM applications in the analysis of scientific literature. SciAssess and its resources are available at \url{https://sci-assess.github.io/}.
翻訳日:2024-06-19 05:36:50 公開日:2024-06-15
# KnowPhish: 参照ベースのフィッシング検出を支援するマルチモーダル知識グラフを備えた大規模言語モデル

KnowPhish: Large Language Models Meet Multimodal Knowledge Graphs for Enhancing Reference-Based Phishing Detection ( http://arxiv.org/abs/2403.02253v2 )

ライセンス: Link先を確認
Yuexin Li, Chengyu Huang, Shumin Deng, Mei Lin Lock, Tri Cao, Nay Oo, Hoon Wei Lim, Bryan Hooi, (参考訳) フィッシング攻撃は個人や企業にも大きな損失をもたらし、堅牢で効率的な自動フィッシング検出手法の開発を必要としている。 参照ベースのフィッシング検出器(RBPD)は、ターゲットWebページのロゴと既知のロゴのセットを比較し、最先端のアプローチとして登場した。 しかし、既存のRBPDの最大の制限は、手動で構築されたブランドナレッジベースに依存しており、多数のブランドにスケールすることは不可能であり、知識ベースが不十分なブランドカバレッジのために誤りを犯す可能性があることである。 この問題に対処するために,我々は大規模なマルチモーダルブランド知識ベースであるKnowPhishを収集する自動知識収集パイプラインを提案する。 KnowPhishは既存のRBPDのパフォーマンスをプラグアンドプレイで向上するために使用することができる。 既存のRBPDの2つめの制限は、画像のモダリティのみに依存しており、WebページHTMLに存在する有用なテキスト情報を無視していることである。 このテキスト情報を活用するために,テキストからWebページのブランド情報を抽出するLarge Language Model (LLM)に基づくアプローチを提案する。 結果として得られたマルチモーダルフィッシング検出手法であるKnowPhish Detector(KPD)は,ロゴの有無に関わらずフィッシングWebページを検出することができる。 我々は,KnowPhishとKPDを手作業による検証データセットで評価し,シンガポールの現地文脈下でのフィールドスタディにより,最先端のベースラインに比べて有効性と効率が著しく向上したことを示した。

Phishing attacks have inflicted substantial losses on individuals and businesses alike, necessitating the development of robust and efficient automated phishing detection approaches. Reference-based phishing detectors (RBPDs), which compare the logos on a target webpage to a known set of logos, have emerged as the state-of-the-art approach. However, a major limitation of existing RBPDs is that they rely on a manually constructed brand knowledge base, making it infeasible to scale to a large number of brands, which results in false negative errors due to the insufficient brand coverage of the knowledge base. To address this issue, we propose an automated knowledge collection pipeline, using which we collect a large-scale multimodal brand knowledge base, KnowPhish, containing 20k brands with rich information about each brand. KnowPhish can be used to boost the performance of existing RBPDs in a plug-and-play manner. A second limitation of existing RBPDs is that they solely rely on the image modality, ignoring useful textual information present in the webpage HTML. To utilize this textual information, we propose a Large Language Model (LLM)-based approach to extract brand information of webpages from text. Our resulting multimodal phishing detection approach, KnowPhish Detector (KPD), can detect phishing webpages with or without logos. We evaluate KnowPhish and KPD on a manually validated dataset, and a field study under Singapore's local context, showing substantial improvements in effectiveness and efficiency compared to state-of-the-art baselines.
翻訳日:2024-06-19 05:36:50 公開日:2024-06-15
# 教科書を使わないのはなぜか? : 教科ビデオの知識強化プロシージャプランニング

Why Not Use Your Textbook? Knowledge-Enhanced Procedure Planning of Instructional Videos ( http://arxiv.org/abs/2403.02782v2 )

ライセンス: Link先を確認
Kumaranage Ravindu Yasas Nagasinghe, Honglu Zhou, Malitha Gunawardhana, Martin Renqiang Min, Daniel Harari, Muhammad Haris Khan, (参考訳) 本稿では,エージェントが行動手順を論理的に構築し,戦略的手続き計画を構築する能力について検討する。 この計画は、実生活の指導ビデオに示されているように、初期視覚観察から対象視結果へのナビゲートに不可欠である。 既存の研究は、高度な中間的視覚観察、手続き名、自然言語のステップバイステップ指示など、データセットで利用可能な様々な情報ソースを特徴や監視信号に広く活用することで、部分的に成功している。 しかし、ステップのシークエンシングにおける暗黙の因果制約と、複数の実行可能な計画に固有の変動性のために、このタスクは依然として恐ろしいままである。 従来の取り組みが見落としていたこれらの複雑さに対処するために,手続き的知識を取り入れることでエージェントの能力を高めることを提案する。 この知識は、訓練手順計画から導き出され、有向重み付きグラフとして構成され、ステップシークエンシングの複雑さとその潜在的なバリエーションをよりよくナビゲートするためにエージェントを装備する。 我々は,学習データから抽出した確率論的手続き的知識グラフを利用して,学習領域の総合的な教科書として効果的に機能する,知識向上型手続き計画システムKEPPを提案する。 さまざまな複雑さの設定下で広く使用されている3つのデータセットに対する実験的評価により、KEPPは最小限の監視しか必要とせず、より優れた最先端の結果が得られることが明らかになった。

In this paper, we explore the capability of an agent to construct a logical sequence of action steps, thereby assembling a strategic procedural plan. This plan is crucial for navigating from an initial visual observation to a target visual outcome, as depicted in real-life instructional videos. Existing works have attained partial success by extensively leveraging various sources of information available in the datasets, such as heavy intermediate visual observations, procedural names, or natural language step-by-step instructions, for features or supervision signals. However, the task remains formidable due to the implicit causal constraints in the sequencing of steps and the variability inherent in multiple feasible plans. To tackle these intricacies that previous efforts have overlooked, we propose to enhance the capabilities of the agent by infusing it with procedural knowledge. This knowledge, sourced from training procedure plans and structured as a directed weighted graph, equips the agent to better navigate the complexities of step sequencing and its potential variations. We coin our approach KEPP, a novel Knowledge-Enhanced Procedure Planning system, which harnesses a probabilistic procedural knowledge graph extracted from training data, effectively acting as a comprehensive textbook for the training domain. Experimental evaluations across three widely-used datasets under settings of varying complexity reveal that KEPP attains superior, state-of-the-art results while requiring only minimal supervision.
翻訳日:2024-06-19 05:36:50 公開日:2024-06-15
# 深層集合における創発的等価性

Emergent Equivariance in Deep Ensembles ( http://arxiv.org/abs/2403.03103v2 )

ライセンス: Link先を確認
Jan E. Gerken, Pan Kessel, (参考訳) 深層アンサンブルは、データ拡張を用いることで、全ての入力とあらゆる訓練時間に等しくなることを示す。 重要なことに、同値性は、無限幅極限の任意のアーキテクチャに対して、オフマンフォールドを保持する。 等式は、個々のアンサンブルメンバーの予測が同変ではなく、その集合的予測であるという意味で創発的である。 この結果を導出するためにニューラル・タンジェント・カーネル理論が用いられ、詳細な数値実験を用いて理論的な洞察を検証した。

We show that deep ensembles become equivariant for all inputs and at all training times by simply using data augmentation. Crucially, equivariance holds off-manifold and for any architecture in the infinite width limit. The equivariance is emergent in the sense that predictions of individual ensemble members are not equivariant but their collective prediction is. Neural tangent kernel theory is used to derive this result and we verify our theoretical insights using detailed numerical experiments.
翻訳日:2024-06-19 05:36:50 公開日:2024-06-15
# メタバースの相互運用性:デジタル生態系の展望

Interoperability of the Metaverse: A Digital Ecosystem Perspective Review ( http://arxiv.org/abs/2403.05205v4 )

ライセンス: Link先を確認
Liang Yang, Shi-Ting Ni, Yuyang Wang, Ao Yu, Jyh-An Lee, Pan Hui, (参考訳) メタバースは、差し迫ったデジタル革命の先駆者であり、産業やライフスタイルを大きく変える可能性を秘めている。 しかし、2023年、産業と学術の分野に懐疑論が浮上し、興奮が実際の技術進歩を上回るのではないかという懸念が高まった。 インターオペラビリティはメタバースの潜在能力の大きな障壁として認識されており、この議論の中心となっている。 2023年2月のCoinMarketCapのレポートでは、240以上のメタバースイニシアチブが独立して存在し、相互運用性の課題を浮き彫りにした。 その重要な役割について意見が一致しているにもかかわらず、メタバース、重要性、発達範囲への影響を探求する研究のギャップがある。 本研究は,Web of Science (WoS) と Scopus データベースの体系的な文献レビューとコンテンツ分析を通じて,このギャップを埋めるものである。 相互運用性は、さまざまなコンテキストと標準化の欠如によって定義が難しいため、メタバースの中心であり、しばしばデジタルエコシステムと見なされる。 アース・ガッサーのフレームワークは、技術的、データ、人間的、制度的な次元を概説し、相互運用の複雑さに体系的に対処する。 このフレームワークを組み込んで、メタバースの相互運用の概要を包括的に検討する。 本研究は,メタバース相互運用研究の複雑な分野をナビゲートし,学術的発展に寄与する,今後の調査のためのベンチマークを確立することを目的とする。

The Metaverse is at the vanguard of the impending digital revolution, with the potential to significantly transform industries and lifestyles. However, in 2023, skepticism surfaced within industrial and academic spheres, raising concerns that excitement may outpace actual technological progress. Interoperability, recognized as a major barrier to the Metaverse's full potential, is central to this debate. CoinMarketCap's report in February 2023 indicated that of over 240 metaverse initiatives, most existed in isolation, underscoring the interoperability challenge. Despite consensus on its critical role, there is a research gap in exploring the impact on the Metaverse, significance, and developmental extent. Our study bridges this gap via a systematic literature review and content analysis of the Web of Science (WoS) and Scopus databases, yielding 74 publications after a rigorous selection process. Interoperability, difficult to define due to varied contexts and lack of standardization, is central to the Metaverse, often seen as a digital ecosystem. Urs Gasser's framework, outlining technological, data, human, and institutional dimensions, systematically addresses interoperability complexities. Incorporating this framework, we dissect the literature for a comprehensive Metaverse interoperability overview. Our study seeks to establish benchmarks for future inquiries, navigating the complex field of Metaverse interoperability studies and contributing to academic advancement.
翻訳日:2024-06-19 05:27:06 公開日:2024-06-15
# AI修正コンテンツを大規模に監視する - AIカンファレンスピアレビューにおけるChatGPTの影響に関するケーススタディ

Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews ( http://arxiv.org/abs/2403.07183v2 )

ライセンス: Link先を確認
Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel A. McFarland, James Y. Zou, (参考訳) 本稿では,大言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおいて,テキストの割合を推定するためのアプローチを提案する。 我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。 本稿では、ChatGPT: ICLR 2024, NeurIPS 2023, CoRL 2023, EMNLP 2023のリリース後に行われたAIカンファレンスにおける、科学的ピアレビューのケーススタディに適用する。 我々の結果は、これらの会議にピアレビューとして提出されたテキストの6.5%から16.9%は、スペルチェックやマイナーな書き込み更新を超えて、LLMによって大幅に修正された可能性があることを示唆している。 生成したテキストが生成される状況は、ユーザ行動に関する洞察を与える: LLM生成したテキストの見積分は、信頼度を低く報告するレビューにおいて高く、期限に近く提出された、著者の反論に反応しにくいレビュアーから。 また,個人レベルでは検出できないほど微妙な生成テキストのコーパスレベルの傾向を観察し,その傾向がピアレビューに与える影響について考察する。 LLMが私たちの情報や知識の実践をどのように変えているかを調べるために、今後の学際的な研究を求めている。

We present an approach for estimating the fraction of text in a large corpus which is likely to be substantially modified or produced by a large language model (LLM). Our maximum likelihood model leverages expert-written and AI-generated reference texts to accurately and efficiently examine real-world LLM-use at the corpus level. We apply this approach to a case study of scientific peer review in AI conferences that took place after the release of ChatGPT: ICLR 2024, NeurIPS 2023, CoRL 2023 and EMNLP 2023. Our results suggest that between 6.5% and 16.9% of text submitted as peer reviews to these conferences could have been substantially modified by LLMs, i.e. beyond spell-checking or minor writing updates. The circumstances in which generated text occurs offer insight into user behavior: the estimated fraction of LLM-generated text is higher in reviews which report lower confidence, were submitted close to the deadline, and from reviewers who are less likely to respond to author rebuttals. We also observe corpus-level trends in generated text which may be too subtle to detect at the individual level, and discuss the implications of such trends on peer review. We call for future interdisciplinary work to examine how LLM use is changing our information and knowledge practices.
翻訳日:2024-06-19 05:27:06 公開日:2024-06-15
# 部分観測可能な因果表現学習のための空間原理

A Sparsity Principle for Partially Observable Causal Representation Learning ( http://arxiv.org/abs/2403.08335v2 )

ライセンス: Link先を確認
Danru Xu, Dingling Yao, Sébastien Lachapelle, Perouz Taslakian, Julius von Kügelgen, Francesco Locatello, Sara Magliacane, (参考訳) 因果表現学習は、知覚データから高レベルの因果変数を特定することを目的としている。 ほとんどの手法は、すべての潜伏因果変数が高次元の観測で捉えられると仮定する。 代わりに、各測定値が根底にある因果状態のサブセットに関する情報のみを提供する部分的な設定を考える。 以前の研究では、複数のドメインやビューでこの設定を研究しており、それぞれがラテントの固定されたサブセットに依存している。 ここでは、インスタンスに依存した部分的可観測パターンを持つデータセットから、未確認の観測から学ぶことに焦点を当てる。 本研究の主な貢献は, 基礎となる因果モデルにパラメトリックな仮定を伴わない線形混合関数と, ガウス潜在因果変数を持つ片方向線形混合関数の2つの相同性を求めることである。 これらの知見に基づいて、推定された表現の空間性を強制することにより、基礎となる因果変数を推定する2つの方法を提案する。 異なるシミュレーションデータセットと確立されたベンチマークの実験は、地道潜伏者の回復における我々のアプローチの有効性を強調している。

Causal representation learning aims at identifying high-level causal variables from perceptual data. Most methods assume that all latent causal variables are captured in the high-dimensional observations. We instead consider a partially observed setting, in which each measurement only provides information about a subset of the underlying causal state. Prior work has studied this setting with multiple domains or views, each depending on a fixed subset of latents. Here, we focus on learning from unpaired observations from a dataset with an instance-dependent partial observability pattern. Our main contribution is to establish two identifiability results for this setting: one for linear mixing functions without parametric assumptions on the underlying causal model, and one for piecewise linear mixing functions with Gaussian latent causal variables. Based on these insights, we propose two methods for estimating the underlying causal variables by enforcing sparsity in the inferred representation. Experiments on different simulated datasets and established benchmarks highlight the effectiveness of our approach in recovering the ground-truth latents.
翻訳日:2024-06-19 05:27:06 公開日:2024-06-15
# Uni-SMART:Universal Science Multimodal Analysis and Research Transformer

Uni-SMART: Universal Science Multimodal Analysis and Research Transformer ( http://arxiv.org/abs/2403.10301v2 )

ライセンス: Link先を確認
Hengxing Cai, Xiaochen Cai, Shuwen Yang, Jiankun Wang, Lin Yao, Zhifeng Gao, Junhan Chang, Sihang Li, Mingjun Xu, Changxin Wang, Hongshuai Wang, Yongge Li, Mujie Lin, Yaqi Li, Yuqi Yin, Linfeng Zhang, Guolin Ke, (参考訳) 科学的研究とその応用において、科学的文献分析は、研究者が他者の業績に基づいて構築できるため、不可欠である。 しかし、科学的知識の急速な成長は学術論文の大幅な増加をもたらし、詳細な文献分析はますます困難で時間を要するものになっている。 LLM(Large Language Models)の出現は、この課題に対処する新しい方法を提供する。 テキストを要約する能力が強いことで知られており、LLMは科学文献の分析を改善するための潜在的なツールと見なされている。 しかし、既存のLLMには独自の制限がある。 科学文献は、表、チャート、分子などの多モード要素を幅広く含んでおり、テキスト中心のLCMが理解し分析することが困難である。 この問題は、科学文献におけるマルチモーダルコンテンツを完全に理解し分析できる新しいソリューションが緊急に必要であることを示している。 この要求に応えるために,多モーダル科学文献の詳細な理解を目的とした革新的なモデルであるtextbf{Uni-SMART(Universal Science Multimodal Analysis and Research Transformer)を提案する。 複数の領域にわたる厳密な定量的評価を通じて、Uni-SMARTは他のテキスト中心のLLMよりも優れた性能を示す。 さらに,本研究は,特許侵害検出やグラフのニュアンス解析など,実用的な応用にまで拡張されている。 これらの応用は、Uni-SMARTの適応性だけでなく、科学文献との相互作用に革命をもたらす可能性も強調している。

In scientific research and its application, scientific literature analysis is crucial as it allows researchers to build on the work of others. However, the fast growth of scientific knowledge has led to a massive increase in scholarly articles, making in-depth literature analysis increasingly challenging and time-consuming. The emergence of Large Language Models (LLMs) has offered a new way to address this challenge. Known for their strong abilities in summarizing texts, LLMs are seen as a potential tool to improve the analysis of scientific literature. However, existing LLMs have their own limits. Scientific literature often includes a wide range of multimodal elements, such as tables, charts, and molecule, which are hard for text-focused LLMs to understand and analyze. This issue points to the urgent need for new solutions that can fully understand and analyze multimodal content in scientific literature. To answer this demand, we present \textbf{Uni-SMART} (Universal Science Multimodal Analysis and Research Transformer), an innovative model designed for in-depth understanding of multimodal scientific literature. Through rigorous quantitative evaluation across several domains, Uni-SMART demonstrates superior performance over other text-focused LLMs. Furthermore, our exploration extends to practical applications, including patent infringement detection and nuanced analysis of charts. These applications not only highlight Uni-SMART's adaptability but also its potential to revolutionize how we interact with scientific literature.
翻訳日:2024-06-19 05:27:06 公開日:2024-06-15
# RetinaQA: 解答可能質問と解答不能質問の両方に対するロバストな知識ベース質問回答モデル

RetinaQA: A Robust Knowledge Base Question Answering Model for both Answerable and Unanswerable Questions ( http://arxiv.org/abs/2403.10849v2 )

ライセンス: Link先を確認
Prayushi Faldu, Indrajit Bhattacharya, Mausam, (参考訳) 実世界の知識ベース質問回答システム(KBQA)の必須要件は、論理形式を生成する際の質問の回答可能性を検出することである。 しかし、最先端のKBQAモデルは全ての質問に答えられると仮定する。 近年の研究では、表面的に解答可能性を検出するために適合する場合、解答不可能な質問のカテゴリを満足して識別し、解答可能な質問に対して優れた結果を維持するのに苦労していることが判明している。 この問題に対処するために、単一のKBQAアーキテクチャにおいて2つの重要なアイデアを統一する新しいKBQAモデルであるRetinaQAを提案する。 (a)スキーマ関連の未解決性を扱うために、これらを生成するのではなく、候補論理形式を識別すること、 b) スケッチフィリングに基づくデータ関連不確定性を扱うための候補論理形式の構築。 以上の結果から, RetinaQAは, 問合せ可能な問合せと解答不能問合せの両処理において, 最先端KBQAモデルの適応性を大幅に向上し, 問合せ不能問合せのすべてのカテゴリにおいて頑健性を示した。 特にRetinaQAは、既存のモデルを上回る、回答可能なKBQAのための新しい最先端技術も設定している。

An essential requirement for a real-world Knowledge Base Question Answering (KBQA) system is the ability to detect answerability of questions when generating logical forms. However, state-of-the-art KBQA models assume all questions to be answerable. Recent research has found that such models, when superficially adapted to detect answerability, struggle to satisfactorily identify the different categories of unanswerable questions, and simultaneously preserve good performance for answerable questions. Towards addressing this issue, we propose RetinaQA, a new KBQA model that unifies two key ideas in a single KBQA architecture: (a) discrimination over candidate logical forms, rather than generating these, for handling schema-related unanswerability, and (b) sketch-filling-based construction of candidate logical forms for handling data-related unaswerability. Our results show that RetinaQA significantly outperforms adaptations of state-of-the-art KBQA models in handling both answerable and unanswerable questions and demonstrates robustness across all categories of unanswerability. Notably, RetinaQA also sets a new state-of-the-art for answerable KBQA, surpassing existing models.
翻訳日:2024-06-19 05:27:06 公開日:2024-06-15
# MindEye2:1時間のデータでfMRIと画像を共有できるオブジェクトモデル

MindEye2: Shared-Subject Models Enable fMRI-To-Image With 1 Hour of Data ( http://arxiv.org/abs/2403.11207v2 )

ライセンス: Link先を確認
Paul S. Scotti, Mihir Tripathy, Cesar Kadir Torrico Villanueva, Reese Kneeland, Tong Chen, Ashutosh Narang, Charan Santhirasegaran, Jonathan Xu, Thomas Naselaris, Kenneth A. Norman, Tanishq Mathew Abraham, (参考訳) 脳活動からの視覚的知覚の再構築は著しく改善されているが、そのような手法の実用性は限られている。 これは、高品質な結果を得るためには、被験者ごとに何十時間もの高価なfMRIトレーニングデータを必要とするためである。 本研究は1時間 fMRI トレーニングデータを用いて高品質な再構成を行う。 7つの被験者にまたがってモデルを事前トレーニングし、新しい被験者から最小限のデータに基づいて微調整します。 新規な機能的アライメント法では、すべての脳データを共有オブジェクト潜在空間に線形にマッピングし、CLIP画像空間への共有非線形マッピングを行った。 次に、CLIP空間からピクセル空間へ、安定拡散XLを微調整してマッピングし、テキストの代わりにCLIPラテントを入力として受け入れます。 このアプローチは、限られた訓練データを用いてオブジェクト外一般化を改善し、また、単一のオブジェクトアプローチと比較して、最先端の画像検索と再構築のメトリクスを得る。 MindEye2は、MRI施設への単一の訪問から、いかに正確に知覚の再構築が可能かを実証する。 すべてのコードはGitHubで入手できる。

Reconstructions of visual perception from brain activity have improved tremendously, but the practical utility of such methods has been limited. This is because such models are trained independently per subject where each subject requires dozens of hours of expensive fMRI training data to attain high-quality results. The present work showcases high-quality reconstructions using only 1 hour of fMRI training data. We pretrain our model across 7 subjects and then fine-tune on minimal data from a new subject. Our novel functional alignment procedure linearly maps all brain data to a shared-subject latent space, followed by a shared non-linear mapping to CLIP image space. We then map from CLIP space to pixel space by fine-tuning Stable Diffusion XL to accept CLIP latents as inputs instead of text. This approach improves out-of-subject generalization with limited training data and also attains state-of-the-art image retrieval and reconstruction metrics compared to single-subject approaches. MindEye2 demonstrates how accurate reconstructions of perception are possible from a single visit to the MRI facility. All code is available on GitHub.
翻訳日:2024-06-19 05:17:19 公開日:2024-06-15
# インラインテキストオートコンプリートにおける逐次決定処理

Sequential Decision-Making for Inline Text Autocomplete ( http://arxiv.org/abs/2403.15502v2 )

ライセンス: Link先を確認
Rohan Chitnis, Shentao Yang, Alborz Geramifard, (参考訳) 自動補完提案は、メッセージングやメール合成といった分野の応用によって、現代のテキスト入力システムの基本となっている。 通常、自動補完提案は信頼しきい値を持つ言語モデルから生成される。 しかし、このしきい値は、入力から読み上げへのコンテキスト切り替えや、提案を受諾するかどうかを決める時間などの提案を提示することによって、ユーザーに課される認知負荷を直接考慮しない。 本稿では,テキスト入力システムにおける逐次決定定式化によるインラインオートコンプリート提案の改善の問題について検討し,強化学習を用いて,対象ユーザとの繰り返し対話を通じて提案ポリシーを学習する。 この定式化により,テキスト入力速度に基づく報酬関数を用いて,自己完備モデルの学習目標に認知負荷を分解することができる。 我々は, ある目的の下では, 自己完備問題の逐次決定定式化が, ミオピック単段階推論よりも優れた提案ポリシーを提供するという理論的および実験的証拠を得た。 しかし、これらの目的を実際のユーザと一致させるには、さらなる調査が必要である。 特に、シーケンシャルな意思決定が自動補完システムを改善する目的は、テキスト入力速度だけでなく、ユーザ満足度や利便性といった指標にも当てはまる、という仮説を立てる。

Autocomplete suggestions are fundamental to modern text entry systems, with applications in domains such as messaging and email composition. Typically, autocomplete suggestions are generated from a language model with a confidence threshold. However, this threshold does not directly take into account the cognitive load imposed on the user by surfacing suggestions, such as the effort to switch contexts from typing to reading the suggestion, and the time to decide whether to accept the suggestion. In this paper, we study the problem of improving inline autocomplete suggestions in text entry systems via a sequential decision-making formulation, and use reinforcement learning to learn suggestion policies through repeated interactions with a target user over time. This formulation allows us to factor cognitive load into the objective of training an autocomplete model, through a reward function based on text entry speed. We acquired theoretical and experimental evidence that, under certain objectives, the sequential decision-making formulation of the autocomplete problem provides a better suggestion policy than myopic single-step reasoning. However, aligning these objectives with real users requires further exploration. In particular, we hypothesize that the objectives under which sequential decision-making can improve autocomplete systems are not tailored solely to text entry speed, but more broadly to metrics such as user satisfaction and convenience.
翻訳日:2024-06-19 05:17:19 公開日:2024-06-15
# DVIS-DAQ:動的アンカークエリによるビデオセグメンテーションの改善

DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries ( http://arxiv.org/abs/2404.00086v4 )

ライセンス: Link先を確認
Yikang Zhou, Tao Zhang, Shunping Ji, Shuicheng Yan, Xiangtai Li, (参考訳) 現代のビデオセグメンテーション手法では、大規模な動きや過渡的閉塞にもかかわらず、オブジェクトクエリを用いてフレーム間アソシエーションを行い、連続的に現れるオブジェクトを追跡するのに満足な性能を示す。 しかし、それらはいずれも、背景と前景のクエリ間の大きな特徴ギャップを持つ特徴遷移を通じて、オブジェクトの出現と消失をモデル化しようとするために、現実世界でよく見られる、新しく出現し、消滅するオブジェクトに過小評価されている。 本稿では,潜在的な候補の特徴に基づいて,アンカークエリを動的に生成することにより,アンカーとターゲットクエリ間の遷移ギャップを短くする動的アンカークエリ(DAQ)を提案する。 さらに,クエリレベルのオブジェクトEmergence and Disappearance Simulation (EDS) 戦略を導入する。 最後に、提案したDAQとEDSをDVISと組み合わせてDVIS-DAQを得る。 大規模な実験により、DVIS-DAQは5つの主流ビデオセグメンテーションベンチマーク上で、新しい最先端(SOTA)性能を達成することが示された。 コードとモデルは \url{https://github.com/SkyworkAI/DAQ-VS} で公開されている。

Modern video segmentation methods adopt object queries to perform inter-frame association and demonstrate satisfactory performance in tracking continuously appearing objects despite large-scale motion and transient occlusion. However, they all underperform on newly emerging and disappearing objects that are common in the real world because they attempt to model object emergence and disappearance through feature transitions between background and foreground queries that have significant feature gaps. We introduce Dynamic Anchor Queries (DAQ) to shorten the transition gap between the anchor and target queries by dynamically generating anchor queries based on the features of potential candidates. Furthermore, we introduce a query-level object Emergence and Disappearance Simulation (EDS) strategy, which unleashes DAQ's potential without any additional cost. Finally, we combine our proposed DAQ and EDS with DVIS to obtain DVIS-DAQ. Extensive experiments demonstrate that DVIS-DAQ achieves a new state-of-the-art (SOTA) performance on five mainstream video segmentation benchmarks. Code and models are available at \url{https://github.com/SkyworkAI/DAQ-VS}.
翻訳日:2024-06-19 05:07:34 公開日:2024-06-15
# Eigenpruning: 解釈可能性にインスパイアされたPEFT法

Eigenpruning: an Interpretability-Inspired PEFT Method ( http://arxiv.org/abs/2404.03147v4 )

ライセンス: Link先を確認
Tomás Vergara-Browne, Álvaro Soto, Akiko Aizawa, (参考訳) 固有プルーニング(eigenpruning)は、LLMの重み行列から特異値を取り除き、特定のタスクの性能を向上させる手法である。 この方法は、特定のタスクを解決するモデルのサブネットワークを自動的に見つけるために設計された解釈可能性メソッドにインスパイアされている。 実験では, プルーンドモデルでは, 重量行列のプルーニングに最小限の計算しか必要とせず, 元のモデルよりも大きなマージンで性能が向上した。 整数乗算における小さな合成タスクの場合、Phi-2モデルはテストセットの精度を13.75%から97.50%に向上させることができる。 興味深いことに、これらの結果はタスクを効果的に解決できる計算経路の存在を示すものと思われるが、元のモデルでは使われていなかった。 最後に、実装を公開します。

We introduce eigenpruning, a method that removes singular values from weight matrices in an LLM to improve its performance in a particular task. This method is inspired by interpretability methods designed to automatically find subnetworks of a model which solve a specific task. In our tests, the pruned model outperforms the original model by a large margin, while only requiring minimal computation to prune the weight matrices. In the case of a small synthetic task in integer multiplication, the Phi-2 model can improve its accuracy in the test set from 13.75% to 97.50%. Interestingly, these results seem to indicate the existence of a computation path that can solve the task very effectively, but it was not being used by the original model. Finally, we publicly release our implementation.
翻訳日:2024-06-19 05:07:34 公開日:2024-06-15
# 過パラメータ化非線形回帰における一貫性予測に対するベイズ推論

Bayesian Inference for Consistent Predictions in Overparameterized Nonlinear Regression ( http://arxiv.org/abs/2404.04498v2 )

ライセンス: Link先を確認
Tomoya Wakayama, (参考訳) 大規模モデルの顕著な一般化性能は、統計学習理論の従来の知恵に挑戦してきた。 最近の理論的研究は、線形モデルや非線形分類器におけるこの挙動に光を当てているが、非線形回帰モデルにおける過度パラメータ化の包括的理解はいまだに欠けている。 本研究では,ベイズフレームワーク内での過パラメータ化非線形回帰の予測特性について検討し,本質的なスペクトル構造を考慮した適応の方法論を拡張した。 リプシッツ連続活性化関数を持つ一般化線形および単一ニューロンモデルに対して後部収縮が確立され、提案手法の予測における整合性を示す。 さらに、ベイズフレームワークは予測の不確実性の推定を可能にする。 提案手法は数値シミュレーションと実データアプリケーションを用いて検証し,精度の高い予測と確実な不確実性推定を実現する能力を示した。 この研究は、過パラメータ化の利点と大きな非線形モデルに対する原理化されたベイズ的アプローチに関する理論的理解を提供する。

The remarkable generalization performance of large-scale models has been challenging the conventional wisdom of the statistical learning theory. Although recent theoretical studies have shed light on this behavior in linear models and nonlinear classifiers, a comprehensive understanding of overparameterization in nonlinear regression models is still lacking. This study explores the predictive properties of overparameterized nonlinear regression within the Bayesian framework, extending the methodology of the adaptive prior considering the intrinsic spectral structure of the data. Posterior contraction is established for generalized linear and single-neuron models with Lipschitz continuous activation functions, demonstrating the consistency in the predictions of the proposed approach. Moreover, the Bayesian framework enables uncertainty estimation of the predictions. The proposed method was validated via numerical simulations and a real data application, showing its ability to achieve accurate predictions and reliable uncertainty estimates. This work provides a theoretical understanding of the advantages of overparameterization and a principled Bayesian approach to large nonlinear models.
翻訳日:2024-06-19 05:07:34 公開日:2024-06-15
# Dual Randomized Smoothing によるロバスト性認定のための次元曲線の修正

Mitigating the Curse of Dimensionality for Certified Robustness via Dual Randomized Smoothing ( http://arxiv.org/abs/2404.09586v4 )

ライセンス: Link先を確認
Song Xia, Yi Yu, Xudong Jiang, Henghui Ding, (参考訳) Randomized Smoothing (RS) は、任意の画像分類器に確証のあるロバスト性を与えるための有望な手法であることが証明されている。 しかし、高次元等方性ガウスノイズに固有のかなりの不確実性は、RSに次元性の呪いを課す。 具体的には、RS によって与えられる証明されたロバストネス半径 ${\ell_2}$ の上界は、入力次元 $d$ の膨張とともに減少傾向を示し、比例的に 1/\sqrt{d}$ の速度で減少する。 本稿では,低次元空間における双対平滑化の利用を通じて,高次元入力に対して${\ell_2}$認証ロバスト性を提供することの実現可能性について検討する。 提案したDual Randomized Smoothing (DRS)は、入力イメージを2つのサブイメージにダウンサンプルし、下位次元で2つのサブイメージを滑らかにする。 理論的には、DRSが元の入力に対して厳密な${\ell_2}$証明されたロバストネス半径を保証し、DRSが${\ell_2}$ロバストネス半径の上位境界に達することを証明し、$m+n=d$で$(1/\sqrt m + 1/\sqrt n )$で比例的に減少することを示す。 CIFAR-10 と ImageNet のデータセット上での RS の信頼性向上を${\ell_2}$ の証明されたロバストネスベースラインが得られた。 コードはhttps://github.com/xiasong0501/DRSで入手できる。

Randomized Smoothing (RS) has been proven a promising method for endowing an arbitrary image classifier with certified robustness. However, the substantial uncertainty inherent in the high-dimensional isotropic Gaussian noise imposes the curse of dimensionality on RS. Specifically, the upper bound of ${\ell_2}$ certified robustness radius provided by RS exhibits a diminishing trend with the expansion of the input dimension $d$, proportionally decreasing at a rate of $1/\sqrt{d}$. This paper explores the feasibility of providing ${\ell_2}$ certified robustness for high-dimensional input through the utilization of dual smoothing in the lower-dimensional space. The proposed Dual Randomized Smoothing (DRS) down-samples the input image into two sub-images and smooths the two sub-images in lower dimensions. Theoretically, we prove that DRS guarantees a tight ${\ell_2}$ certified robustness radius for the original input and reveal that DRS attains a superior upper bound on the ${\ell_2}$ robustness radius, which decreases proportionally at a rate of $(1/\sqrt m + 1/\sqrt n )$ with $m+n=d$. Extensive experiments demonstrate the generalizability and effectiveness of DRS, which exhibits a notable capability to integrate with established methodologies, yielding substantial improvements in both accuracy and ${\ell_2}$ certified robustness baselines of RS on the CIFAR-10 and ImageNet datasets. Code is available at https://github.com/xiasong0501/DRS.
翻訳日:2024-06-19 04:57:50 公開日:2024-06-15
# エレファントをキャッチできるか? : 自然言語生成における幻覚評価の展開に関する調査

Can We Catch the Elephant? A Survey of the Evolvement of Hallucination Evaluation on Natural Language Generation ( http://arxiv.org/abs/2404.12041v2 )

ライセンス: Link先を確認
Siya Qi, Yulan He, Zheng Yuan, (参考訳) 自然言語生成における幻覚(NLG)は、部屋の象のようなものであり、しばしば見過ごされるが、近年の成果が生成したテキストの流速と文法性を大幅に改善するまでは、しばしば見過ごされる。 テキスト生成モデルの能力が向上するにつれて、研究者は幻覚現象により多くの注意を払っている。 近年,この分野ではかなり進歩しているにもかかわらず,幻覚評価システムは複雑で多様であり,明確な組織が欠如している。 本研究は,ハロゲン化事実の粒度,評価者設計の原則,評価ファセットなどの3次元からテキスト生成モデルを開発することで,様々な評価手法がどのように発展したのかを包括的に調査するものである。 本調査は,幻覚評価における現在の限界を特定し,今後の研究方向性を明らかにすることを目的としている。

Hallucination in Natural Language Generation (NLG) is like the elephant in the room, obvious but often overlooked until recent achievements significantly improved the fluency and grammaticality of generated text. As the capabilities of text generation models have improved, researchers have begun to pay more attention to the phenomenon of hallucination. Despite significant progress in this field in recent years, the evaluation system for hallucination is complex and diverse, lacking clear organization. We are the first to comprehensively survey how various evaluation methods have evolved with the development of text generation models from three dimensions, including hallucinated fact granularity, evaluator design principles, and assessment facets. This survey aims to help researchers identify current limitations in hallucination evaluation and highlight future research directions.
翻訳日:2024-06-19 04:57:50 公開日:2024-06-15
# FlowMap: グラディエントDescentによる高画質カメラの可能性、内在性、奥行き

FlowMap: High-Quality Camera Poses, Intrinsics, and Depth via Gradient Descent ( http://arxiv.org/abs/2404.15259v2 )

ライセンス: Link先を確認
Cameron Smith, David Charatan, Ayush Tewari, Vincent Sitzmann, (参考訳) 本稿では、カメラの正確なポーズ、カメラの内在性、フレームごとの深度を解消する、エンドツーエンドの差別化手法であるFlowMapを紹介する。 本手法は,奥行き,内在性によって誘導される光の流れを比較し,オフザシェルフ光の流れと点追跡によって得られる対応に対処する,最小2乗目的の映像ごとの勾配・ディフレッシブ最小化を行う。 長期的幾何整合性を促進するために点線を用いるとともに、一階最適化に寄与する深度、内在性、ポーズの微分可能な再パラメータ化を導入する。 提案手法により得られたカメラパラメータと密度深度は,ガウススプラッティングを用いた360度軌道上での光リアルな新規ビュー合成を可能にすることを実証的に示す。 提案手法は, 従来の勾配差に基づくバンドル調整法よりもはるかに優れるだけでなく, 従来のSfM法であるCOLMAPと同等に動作し, 従来のSfM法と完全に相違し, 従来のSfM法と完全に相違しているにもかかわらず, 360度新規ビュー合成の下流タスクにおいて, 従来のSfM法と同等に機能する。

This paper introduces FlowMap, an end-to-end differentiable method that solves for precise camera poses, camera intrinsics, and per-frame dense depth of a video sequence. Our method performs per-video gradient-descent minimization of a simple least-squares objective that compares the optical flow induced by depth, intrinsics, and poses against correspondences obtained via off-the-shelf optical flow and point tracking. Alongside the use of point tracks to encourage long-term geometric consistency, we introduce differentiable re-parameterizations of depth, intrinsics, and pose that are amenable to first-order optimization. We empirically show that camera parameters and dense depth recovered by our method enable photo-realistic novel view synthesis on 360-degree trajectories using Gaussian Splatting. Our method not only far outperforms prior gradient-descent based bundle adjustment methods, but surprisingly performs on par with COLMAP, the state-of-the-art SfM method, on the downstream task of 360-degree novel view synthesis (even though our method is purely gradient-descent based, fully differentiable, and presents a complete departure from conventional SfM).
翻訳日:2024-06-19 04:48:05 公開日:2024-06-15
# モノのインターネットのためのブロックチェーン - 基本、アプリケーション、課題

Blockchains for Internet of Things: Fundamentals, Applications, and Challenges ( http://arxiv.org/abs/2405.04803v5 )

ライセンス: Link先を確認
Yusen Wu, Ye Hu, Mingzhe Chen, Yelena Yesha, Mérouane Debbah, (参考訳) IoT(Internet of Things)サービスは、推論、自律性、制御のために、さまざまなデータのストレージ、送信、分析を必要とする。 ブロックチェーンは、分散化とセキュリティの固有の特性を持ち、コンセンサスベースのデータ共有を通じて、これらのデバイスに効率的なデータベースソリューションを提供する。 しかしながら、すべてのブロックチェーンシステムが特定のIoTアプリケーションに適している訳ではなく、プライバシの懸念から除外された方がメリットがある、という認識が不可欠です。 例えば、パブリックブロックチェーンは機密データを格納するのに適していない。 本稿では,IoTアプリケーションの拡張に適した3つのブロックチェーンについて,詳細なレビューを行う。 最初は3つのブロックチェーンシステムの基盤的な側面を掘り下げて、その強み、制限、実装ニーズを強調しました。 さらに、異なるブロックチェーンにおけるセキュリティ問題についても論じる。 その後、エッジAI、通信、ヘルスケアの3つの重要なIoT領域でブロックチェーンのアプリケーションを調査する。 さまざまなブロックチェーンをIoTに統合する上で、潜在的な課題と今後の方向性について述べています。 最終的に、この論文はブロックチェーンとIoTエコシステムのシナジーに関する包括的な視点を提供することを目的としており、関連する機会と複雑さを強調している。

Internet of Things (IoT) services necessitate the storage, transmission, and analysis of diverse data for inference, autonomy, and control. Blockchains, with their inherent properties of decentralization and security, offer efficient database solutions for these devices through consensus-based data sharing. However, it's essential to recognize that not every blockchain system is suitable for specific IoT applications, and some might be more beneficial when excluded with privacy concerns. For example, public blockchains are not suitable for storing sensitive data. This paper presents a detailed review of three distinct blockchains tailored for enhancing IoT applications. We initially delve into the foundational aspects of three blockchain systems, highlighting their strengths, limitations, and implementation needs. Additionally, we discuss the security issues in different blockchains. Subsequently, we explore the blockchain's application in three pivotal IoT areas: edge AI, communications, and healthcare. We underscore potential challenges and the future directions for integrating different blockchains in IoT. Ultimately, this paper aims to offer a comprehensive perspective on the synergies between blockchains and the IoT ecosystem, highlighting the opportunities and complexities involved.
翻訳日:2024-06-19 04:38:09 公開日:2024-06-15
# 変量量子固有解器を用いたギャップの交差:比較研究

Crossing The Gap Using Variational Quantum Eigensolver: A Comparative Study ( http://arxiv.org/abs/2405.11687v2 )

ライセンス: Link先を確認
I-Chi Chen, Nouhaila Innan, Suman Kumar Roy, Jason Saroni, (参考訳) 量子化学の進化領域の中で、変分量子固有解法(VQE)は基底状態だけでなく分子の励起状態も探索するために開発された。 本研究では,変分量子デフレレーション(VQD)法とサブスペース探索変分量子固有解法(SSVQE)法を比較し,LiH$の低い励起状態を決定する。 我々の研究は、VQDは精度においてわずかに有利であるが、SSVQEはその効率を際立っており、単一のパラメータ最適化手順によって全ての低励起状態を決定することができることを示した。 我々はさらに、最少繰り返しを必要とする場合に優れた効率性を示すAdamオプティマイザを用いて、LiH$の最初の励起状態を得る際に、グラディエント・ディクチュア(GD)、量子自然グラディエント(QNG)、アダム・オプティマイザ(Adam Optimizationr)などのオプティマイザの有効性を評価する。 さらに、Folded Spectrum VQE (FS-VQE) とVQDまたはSSVQEを組み合わせ、高励起状態の探索を可能にする新しいアプローチを提案する。 我々は3つのH_4$の励起状態を見つけるための新しいアプローチをテストする。 Folded Spectrum SSVQE (FS-SSVQE) は、1つの最適化手順しか持たない$-1.0$Ha付近で3つの高励起状態を見つけることができるが、手順は緩やかに収束する。 対照的に、Folded spectrum VQD (FS-VQD) は個々の最適化手順で高い励起状態を得るが、最適化手順はより速く収束する。

Within the evolving domain of quantum computational chemistry, the Variational Quantum Eigensolver (VQE) has been developed to explore not only the ground state but also the excited states of molecules. In this study, we compare the performance of Variational Quantum Deflation (VQD) and Subspace-Search Variational Quantum Eigensolver (SSVQE) methods in determining the low-lying excited states of $LiH$. Our investigation reveals that while VQD exhibits a slight advantage in accuracy, SSVQE stands out for its efficiency, allowing the determination of all low-lying excited states through a single parameter optimization procedure. We further evaluate the effectiveness of optimizers, including Gradient Descent (GD), Quantum Natural Gradient (QNG), and Adam optimizer, in obtaining $LiH$'s first excited state, with the Adam optimizer demonstrating superior efficiency in requiring the fewest iterations. Moreover, we propose a novel approach combining Folded Spectrum VQE (FS-VQE) with either VQD or SSVQE, enabling the exploration of highly excited states. We test the new approaches for finding all three $H_4$'s excited states. Folded Spectrum SSVQE (FS-SSVQE) can find all three highly excited states near $-1.0$ Ha with only one optimizing procedure, but the procedure converges slowly. In contrast, although Folded spectrum VQD (FS-VQD) gets highly excited states with individual optimizing procedures, the optimizing procedure converges faster.
翻訳日:2024-06-19 04:28:22 公開日:2024-06-15
# DEGAP: スロットクエリによるテンプレートベースのイベント引数抽出のためのデュアルイベントガイド型アダプティブプレフィックス

DEGAP: Dual Event-Guided Adaptive Prefixes for Templated-Based Event Argument Extraction with Slot Querying ( http://arxiv.org/abs/2405.13325v2 )

ライセンス: Link先を確認
Guanghui Wang, Dexi Liu, Jian-Yun Nie, Qizhi Wan, Rong Hu, Xiping Liu, Wanlong Liu, Jiaming Liu, (参考訳) イベント引数抽出(EAE)の最近の進歩は、検索されたインスタンスやイベントテンプレートなど、トレーニングや推論中に有用な補助情報をモデルに組み込むことである。 これらの手法は,(1)検索結果が無関係である場合があり,(2)テンプレートは関連性を考慮せずに,各イベントごとに独立して開発される場合の2つの課題に直面する。 本稿では,2つのプレフィックス,すなわち学習可能なプロンプトベクトル,インスタンス指向のプレフィックスとテンプレート指向のプレフィックスを学習して,異なるイベントインスタンスやテンプレートから情報を学ぶという,これらの課題に対処するためのDEGAPを提案する。 さらに、異なるイベント間の接続を適応的に利用し、プレフィックスから関連する情報をキャプチャするイベント誘導型適応ゲーティング機構を提案する。 最後に、これらのイベント誘導プレフィックスは、検索せずにEAEモデルへの手がかりとして関連する情報を提供する。 4つのデータセット(ACE05, RAMS, WIKIEVENTS, MLEE)に対して,本手法が新たな最先端性能を実現することを示す。 さらなる分析は、異なるコンポーネントの影響を示している。

Recent advancements in event argument extraction (EAE) involve incorporating useful auxiliary information into models during training and inference, such as retrieved instances and event templates. These methods face two challenges: (1) the retrieval results may be irrelevant and (2) templates are developed independently for each event without considering their possible relationship. In this work, we propose DEGAP to address these challenges through a simple yet effective components: dual prefixes, i.e. learnable prompt vectors, where the instance-oriented prefix and template-oriented prefix are trained to learn information from different event instances and templates. Additionally, we propose an event-guided adaptive gating mechanism, which can adaptively leverage possible connections between different events and thus capture relevant information from the prefix. Finally, these event-guided prefixes provide relevant information as cues to EAE model without retrieval. Extensive experiments demonstrate that our method achieves new state-of-the-art performance on four datasets (ACE05, RAMS, WIKIEVENTS, and MLEE). Further analysis shows the impact of different components.
翻訳日:2024-06-19 04:28:22 公開日:2024-06-15
# フッド下の信頼:大規模言語モデルにおける信頼-確率アライメントの検討

Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models ( http://arxiv.org/abs/2405.16282v5 )

ライセンス: Link先を確認
Abhishek Kumar, Robert Morabito, Sanzhar Umbet, Jad Kabbara, Ali Emami, (参考訳) LLM(Large Language Models)の使用が広まるにつれて、これらのモデルの出力の信頼性に不可欠なので、生成した応答に対する自信の自己評価を理解することがますます重要になる。 本稿では, LLMの内部信頼度をトークン確率で定量化した信頼度と, その確実性を明示的に問う場合のモデル応答で伝達される信頼度を結合する信頼確率アライメントの概念を紹介する。 モデルイントロスペクションを促進する様々なデータセットとプロンプト技術を用いて、モデルの内部と表現された信頼の一致を探索する。 これらの手法は、信頼度を評価するために構造化された評価尺度を使用し、プロンプト時の回答オプションや、それ自身が認識していない出力に対してモデルの信頼レベルを引き出すことを含む。 特に、分析されたモデルの中で、OpenAIのGPT-4は、幅広いタスクにわたって、平均的なSpearmanの$\hat{\rho}$ 0.42の信頼性と確率のアライメントを示した。 我々の研究は、LCMの適用におけるリスクアセスメントの促進と、モデル信頼性のさらなる理解に寄与する。

As the use of Large Language Models (LLMs) becomes more widespread, understanding their self-evaluation of confidence in generated responses becomes increasingly important as it is integral to the reliability of the output of these models. We introduce the concept of Confidence-Probability Alignment, that connects an LLM's internal confidence, quantified by token probabilities, to the confidence conveyed in the model's response when explicitly asked about its certainty. Using various datasets and prompting techniques that encourage model introspection, we probe the alignment between models' internal and expressed confidence. These techniques encompass using structured evaluation scales to rate confidence, including answer options when prompting, and eliciting the model's confidence level for outputs it does not recognize as its own. Notably, among the models analyzed, OpenAI's GPT-4 showed the strongest confidence-probability alignment, with an average Spearman's $\hat{\rho}$ of 0.42, across a wide range of tasks. Our work contributes to the ongoing efforts to facilitate risk assessment in the application of LLMs and to further our understanding of model trustworthiness.
翻訳日:2024-06-19 04:18:36 公開日:2024-06-15
# WirelessLLM: 大規模言語モデルをワイヤレスインテリジェンスに活用する

WirelessLLM: Empowering Large Language Models Towards Wireless Intelligence ( http://arxiv.org/abs/2405.17053v2 )

ライセンス: Link先を確認
Jiawei Shao, Jingwen Tong, Qiong Wu, Wei Guo, Zijian Li, Zehong Lin, Jun Zhang, (参考訳) 無線技術の急速な進化とネットワークインフラの複雑化は、通信ネットワークの設計、構成、管理のパラダイムシフトを必要とする。 大規模言語モデル(LLM)の最近の進歩は、無線通信システムに革命をもたらす可能性への関心を喚起している。 しかし、無線システムにおけるLLMの研究は、通信言語理解の直接的な応用に限られている。 本稿では,無線通信ネットワークのユニークな課題と要件に対処するため,LLMを適応・拡張するための総合的なフレームワークであるWirelessLLMを提案する。 まず,WirelessLLMの基盤となる3つの基本原理,すなわち知識のアライメント,知識融合,知識進化の3つを同定する。 そこで我々は,WirelessLLMの構築を可能にする技術について検討し,即時エンジニアリング,検索拡張生成,ツール利用,マルチモーダル事前学習,ドメイン固有の微調整などについて検討した。 さらに、無線ネットワークにおける典型的な問題を解決するために、WirelessLLMの実用性と利点を示す3つのケーススタディを示す。 最後に,本論文の結論として,今後の課題と今後の研究への可能性について概説する。

The rapid evolution of wireless technologies and the growing complexity of network infrastructures necessitate a paradigm shift in how communication networks are designed, configured, and managed. Recent advancements in Large Language Models (LLMs) have sparked interest in their potential to revolutionize wireless communication systems. However, existing studies on LLMs for wireless systems are limited to a direct application for telecom language understanding. To empower LLMs with knowledge and expertise in the wireless domain, this paper proposes WirelessLLM, a comprehensive framework for adapting and enhancing LLMs to address the unique challenges and requirements of wireless communication networks. We first identify three foundational principles that underpin WirelessLLM: knowledge alignment, knowledge fusion, and knowledge evolution. Then, we investigate the enabling technologies to build WirelessLLM, including prompt engineering, retrieval augmented generation, tool usage, multi-modal pre-training, and domain-specific fine-tuning. Moreover, we present three case studies to demonstrate the practical applicability and benefits of WirelessLLM for solving typical problems in wireless networks. Finally, we conclude this paper by highlighting key challenges and outlining potential avenues for future research.
翻訳日:2024-06-19 04:18:36 公開日:2024-06-15
# インコンテキスト学習のためのデモ選択と圧縮の統一化

Unifying Demonstration Selection and Compression for In-Context Learning ( http://arxiv.org/abs/2405.17062v2 )

ライセンス: Link先を確認
Jun Gao, Ziqiang Cao, Wenjie Li, (参考訳) In-context Learning (ICL)は、様々なシナリオにおいて目覚ましい創発的な能力を示す大規模な言語モデル(LLM)を促進する。 残念なことに、デモを導入することで、迅速な長さが爆発的になり、ハードウェアに大きな負担がかかる。 加えて、ランダムなデモは通常、ICLの限られた改善を達成し、アクセス可能な候補間のデモ選択を必要とする。 従来の研究では、デモ圧縮や選択を独立して行うための追加モジュールが導入されていた。 本稿では、実演選択と圧縮を統一するICLフレームワークUniICLと、単一凍結LLMによる最終応答生成を提案する。 特に、UniICLは、まず実演と推測テキストの入力をそれぞれ短い仮想トークンに投影する。 次に、仮想トークンを候補演示と推論入力の間の潜在空間内の意味的類似性を測定することにより、適切な演示を選択するために適用する。 最後に、選択された仮想デモンストレーションと共に推論テキスト入力を同じ凍結LDMに入力して応答生成を行う。 注目すべきは、UniICLはプロジェクション層から派生した17Mのトレーニング可能なパラメータのみを含むパラメータ効率のよいフレームワークである。 生成タスクと理解タスクの両方のドメイン内および外部データセットに関する実験と分析を行い、多能かつ限定的な実証候補を伴うICLシナリオを包含する。 結果は,UniICLが圧縮,デモ選択,応答生成を効果的に統合し,24GBのCUDAアロケーションを持つIMDbの4ショットICLから64ショットICLまでのベースラインを効率的にスケールアップすることを示した。

In-context learning (ICL) facilitates large language models (LLMs) exhibiting spectacular emergent capabilities in various scenarios. Unfortunately, introducing demonstrations easily makes the prompt length explode, bringing a significant burden to hardware. In addition, random demonstrations usually achieve limited improvements in ICL, necessitating demonstration selection among accessible candidates. Previous studies introduce extra modules to perform demonstration compression or selection independently. In this paper, we propose an ICL framework UniICL, which Unifies demonstration selection and compression, and final response generation via a single frozen LLM. Specifically, UniICL first projects actual demonstrations and inference text inputs into short virtual tokens, respectively. Then, virtual tokens are applied to select suitable demonstrations by measuring semantic similarity within latent space among candidate demonstrations and inference input. Finally, inference text inputs together with selected virtual demonstrations are fed into the same frozen LLM for response generation. Notably, UniICL is a parameter-efficient framework that only contains 17M trainable parameters originating from the projection layer. We conduct experiments and analysis over in- and out-domain datasets of both generative and understanding tasks, encompassing ICL scenarios with plentiful and limited demonstration candidates. Results show that UniICL effectively unifies $12 \times$ compression, demonstration selection, and response generation, efficiently scaling up the baseline from 4-shot to 64-shot ICL in IMDb with 24 GB CUDA allocation
翻訳日:2024-06-19 04:18:36 公開日:2024-06-15
# 確率過程に基づくシーケンス評価について

On the Sequence Evaluation based on Stochastic Processes ( http://arxiv.org/abs/2405.17764v2 )

ライセンス: Link先を確認
Tianhao Zhang, Zhexiao Lin, Zhecheng Sheng, Chen Jiang, Dongyeop Kang, (参考訳) テキストの長いシーケンスのモデリングと解析は自然言語処理にとって重要な課題である。 ニューラルネットワークモデルによる長いテキストダイナミクスのキャプチャの成功は、コヒーレンス評価、テキスト生成、機械翻訳など、多くの下流タスクを促進する。 本稿では,確率過程を通したモデル系列に対する新しいアプローチを提案する。 本稿では,テキストエンコーダの訓練目標について紹介し,従来の手法と比較して,より詳細なテキスト評価のためのスコア(スコア)を設計する。 提案したトレーニング目的はシーケンスコヒーレンスを効果的に保存し,新しいスコアは時間的および空間的両方の依存関係を包括的にキャプチャする。 新しいスコアの理論的特性は、シーケンス評価においてその利点を示す。 実験の結果,異なる長さの文書間の大域的および局所的な識別を含む,様々なシーケンス評価タスクにおいて,優れた性能を示した。 また,人間とAIによるテキストの識別において,エンコーダが競合する結果を得ることを示す。

Modeling and analyzing long sequences of text is an essential task for Natural Language Processing. Success in capturing long text dynamics using neural language models will facilitate many downstream tasks such as coherence evaluation, text generation, machine translation and so on. This paper presents a novel approach to model sequences through a stochastic process. We introduce a likelihood-based training objective for the text encoder and design a more thorough measurement (score) for long text evaluation compared to the previous approach. The proposed training objective effectively preserves the sequence coherence, while the new score comprehensively captures both temporal and spatial dependencies. Theoretical properties of our new score show its advantages in sequence evaluation. Experimental results show superior performance in various sequence evaluation tasks, including global and local discrimination within and between documents of different lengths. We also demonstrate the encoder achieves competitive results on discriminating human and AI written text.
翻訳日:2024-06-19 04:18:36 公開日:2024-06-15
# 教師なし学習と教師なし学習を混合した言語変化の反復学習モデル

An iterated learning model of language change that mixes supervised and unsupervised learning ( http://arxiv.org/abs/2405.20818v2 )

ライセンス: Link先を確認
Jack Bunyan, Seth Bullock, Conor Houghton, (参考訳) 反復学習モデルは、教師から生徒に言語が伝達されるエージェントベースの言語変化モデルである。 安定で表現力があり、構成的な言語は、言語伝達ボトルネックの結果として自然に発生する。 従来のモデルは、人工知能ニューラルネットワークデコーダを使用して、信号から意味へのマッピングを実装していたが、関連するエンコーダを実装するために、非現実的で計算コストのかかるプロセスに依存していた。 ここでは、デコーダとエンコーダの両方がニューラルネットワークであり、教師なし学習を通じて個別に訓練され、教師なし学習によってオートエンコーダの形で訓練される新しいモデルを示す。 これにより、変形に伴うかなりの計算負担を回避し、人間の発達中に観察される教師なし学習と教師なし学習の混合を導入する。

The iterated learning model is an agent-based model of language change in which language is transmitted from a tutor to a pupil which itself becomes a tutor to a new pupil, and so on. Languages that are stable, expressive, and compositional arise spontaneously as a consequence of a language transmission bottleneck. Previous models have implemented an agent's mapping from signals to meanings using an artificial neural network decoder, but have relied on an unrealistic and computationally expensive process of obversion to implement the associated encoder, mapping from meanings to signals. Here, a new model is presented in which both decoder and encoder are neural networks, trained separately through supervised learning, and trained together through unsupervised learning in the form of an autoencoder. This avoids the substantial computational burden entailed in obversion and introduces a mixture of supervised and unsupervised learning as observed during human development.
翻訳日:2024-06-19 04:18:36 公開日:2024-06-15
# 動的機構設計におけるフェアアロケーション

Fair Allocation in Dynamic Mechanism Design ( http://arxiv.org/abs/2406.00147v2 )

ライセンス: Link先を確認
Alireza Fallah, Michael I. Jordan, Annie Ulichney, (参考訳) 競売人が各ラウンドで2つのグループに分割可能な商品を販売し、合計$T$ラウンドで販売する動的メカニズム設計問題を考える。 競売人は、各グループの最低平均配分を保証する公正な制約に固執しつつ、割引された全体の収益を最大化することを目的としている。 まず、静的ケース(T=1$)を調査し、最適メカニズムは、すべての購入者への割り当ての全体的な確率を増大させるものと、それ以外はアイテムを勝ち取る確率が低いグループを優先する2つのタイプの補助金を含むことを確認します。 次に、各ラウンドにおける最適な割り当てと支払いを決定する再帰関数のセットを特徴付けることにより、結果を動的ケースに拡張する。 特に、私たちの結果は、ダイナミックなケースでは、売り手は、真理をインセンティブ付けするための参加報酬をコミットし、一方、ラウンド毎にエントリー料金を請求する、ということを確立しています。 さらに、最適なアロケーションは、あるグループに対して、あるグループに対してアイテムを割り当てる際に、売り手と買い手の両方の将来のユーティリティの違いによって、補助金の程度が左右されるような、一つのグループのために補助金が再び必要となる。 最後に、再帰方程式を解き、ほぼ最適かつ公平な割当を効率的に決定する近似スキームを提案する。

We consider a dynamic mechanism design problem where an auctioneer sells an indivisible good to two groups of buyers in every round, for a total of $T$ rounds. The auctioneer aims to maximize their discounted overall revenue while adhering to a fairness constraint that guarantees a minimum average allocation for each group. We begin by studying the static case ($T=1$) and establish that the optimal mechanism involves two types of subsidization: one that increases the overall probability of allocation to all buyers, and another that favors the group which otherwise has a lower probability of winning the item. We then extend our results to the dynamic case by characterizing a set of recursive functions that determine the optimal allocation and payments in each round. Notably, our results establish that in the dynamic case, the seller, on the one hand, commits to a participation reward to incentivize truth-telling, and on the other hand, charges an entry fee for every round. Moreover, the optimal allocation once more involves subsidization in favor of one group, where the extent of subsidization depends on the difference in future utilities for both the seller and buyers when allocating the item to one group versus the other. Finally, we present an approximation scheme to solve the recursive equations and determine an approximately optimal and fair allocation efficiently.
翻訳日:2024-06-19 04:08:51 公開日:2024-06-15
# ラベル優先によるCTC強制アライメントの最小化と高精度化

Less Peaky and More Accurate CTC Forced Alignment by Label Priors ( http://arxiv.org/abs/2406.02560v2 )

ライセンス: Link先を確認
Ruizhe Huang, Xiaohui Zhang, Zhaoheng Ni, Li Sun, Moto Hira, Jeff Hwang, Vimal Manohar, Vineel Pratap, Matthew Wiesner, Shinji Watanabe, Daniel Povey, Sanjeev Khudanpur, (参考訳) 接続性時間分類(CTC)モデルはピーク出力分布を持つことが知られている。 このような動作は自動音声認識(ASR)では問題にならないが、特に音素レベルなどの粒度の細かい場合、不正確な強制アライメント(FA)を引き起こす可能性がある。 本稿では, CTCのピーク時挙動を緩和し, ラベル事前を利用して強制アライメント生成の適性を向上させることを目的として, トレーニング中に空白が少ないアライメントパスのスコアを引き上げ, 最大化することを目的とする。 その結果、CTCモデルはピーク後部を小さくし、トークンのオフセットだけでなく、トークンのオフセットをより正確に予測することができる。 これは、BuckeyeとTIMITのデータで測定された音素と単語境界誤差(PBEとWBE)において、標準CTCモデルと、CTCのトークンオフセットタイムスタンプを12-40%向上させるヒューリスティックスに基づくアプローチよりも優れている。 最も広く使われているFAツールキットであるモントリオール強制アリグナー (MFA) と比較すると、Buckeye の PBE/WBE も同様に機能するが、TIMIT では MFA に劣る。 それにもかかわらず、我々の手法はより単純なトレーニングパイプラインとより良い実行効率を持つ。 トレーニングレシピと事前学習モデルはTorchAudioでリリースされています。

Connectionist temporal classification (CTC) models are known to have peaky output distributions. Such behavior is not a problem for automatic speech recognition (ASR), but it can cause inaccurate forced alignments (FA), especially at finer granularity, e.g., phoneme level. This paper aims at alleviating the peaky behavior for CTC and improve its suitability for forced alignment generation, by leveraging label priors, so that the scores of alignment paths containing fewer blanks are boosted and maximized during training. As a result, our CTC model produces less peaky posteriors and is able to more accurately predict the offset of the tokens besides their onset. It outperforms the standard CTC model and a heuristics-based approach for obtaining CTC's token offset timestamps by 12-40% in phoneme and word boundary errors (PBE and WBE) measured on the Buckeye and TIMIT data. Compared with the most widely used FA toolkit Montreal Forced Aligner (MFA), our method performs similarly on PBE/WBE on Buckeye, yet falls behind MFA on TIMIT. Nevertheless, our method has a much simpler training pipeline and better runtime efficiency. Our training recipe and pretrained model are released in TorchAudio.
翻訳日:2024-06-19 02:10:30 公開日:2024-06-15
# タスク算術は自動音声認識における合成対リアルギャップを緩和できる

Task Arithmetic can Mitigate Synthetic-to-Real Gap in Automatic Speech Recognition ( http://arxiv.org/abs/2406.02925v2 )

ライセンス: Link先を確認
Hsuan Su, Hua Farn, Fan-Yun Sun, Shang-Tse Chen, Hung-yi Lee, (参考訳) 合成データは、これまで見つからなかったテキストドメインへの適応モデルを容易にするテキスト音声モデルの可用性のため、音声認識に広く利用されている。 しかし,既存の手法では,合成データに自動音声認識モデル(ASR)を微調整する場合は,合成と現実のギャップと呼ばれる分布シフトに悩まされる。 本稿では,このギャップを緩和するタスクベクトル算術が有効であることを示す。 提案手法であるSyn2REALタスクベクトルは,SLURPデータセットをベースラインとした単語誤り率の平均10.03\%の改善を示す。 さらに、Syn2REALタスクベクトルの平均は、複数の異なるドメインから実際の音声を受信すると、元のASRモデルにさらに適応して、ターゲットのテキスト領域でより良い処理を行うことができることを示す。

Synthetic data is widely used in speech recognition due to the availability of text-to-speech models, which facilitate adapting models to previously unseen text domains. However, existing methods suffer in performance when they fine-tune an automatic speech recognition (ASR) model on synthetic data as they suffer from the distributional shift commonly referred to as the synthetic-to-real gap. In this paper, we find that task vector arithmetic is effective at mitigating this gap. Our proposed method, SYN2REAL task vector, shows an average improvement of 10.03\% improvement in word error rate over baselines on the SLURP dataset. Additionally, we show that an average of SYN2REAL task vectors, when we have real speeches from multiple different domains, can further adapt the original ASR model to perform better on the target text domain.
翻訳日:2024-06-19 02:10:30 公開日:2024-06-15
# クラウス表現からの量子力学半群のゴリーニ-コサコフスキー-スダルシャン-リンドブラッドマスター方程式の非標準導出

Nonstandard derivation of the Gorini-Kossakowski-Sudarshan-Lindblad master equation of a quantum dynamical semigroup from the Kraus representation ( http://arxiv.org/abs/2406.03775v2 )

ライセンス: Link先を確認
Yui Kuramochi, (参考訳) 有限次元量子系上の量子力学半群 $\exp(tL)$ の生成元 $L$ が、Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) 生成元(リンドブラディアンとも呼ばれる)と呼ばれる特定の形式を持つという、よく知られた定理の新たな非標準証明を与える。 この証明は、無限小超現実数 $\delta t>0$ に対する量子チャネル $\exp (\delta t L)$ のクラウス表現から始まり、その後、クラウス作用素のトレースレス成分の順序を推定する。 ジャンプ作用素は自然に、クラス作用素のトレースレス成分の標準部分を$\sqrt{\delta t}$で割ったものとして生じる。 また、閉完全正の写像が閉クラウス作用素を持つという関連する事実の非標準的証明を与える。

We give a new nonstandard proof of the well-known theorem that the generator $L$ of a quantum dynamical semigroup $\exp(tL)$ on a finite-dimensional quantum system has a specific form called a Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) generator (also known as a Lindbladian) and vice versa. The proof starts from the Kraus representation of the quantum channel $\exp (\delta t L)$ for an infinitesimal hyperreal number $\delta t>0$ and then estimates the orders of the traceless components of the Kraus operators. The jump operators naturally arise as the standard parts of the traceless components of the Kraus operators divided by $\sqrt{\delta t}$. We also give a nonstandard proof of a related fact that close completely positive maps have close Kraus operators.
翻訳日:2024-06-19 02:10:30 公開日:2024-06-15
# GenHeld: ハンドヘルドオブジェクトの生成と編集

GenHeld: Generating and Editing Handheld Objects ( http://arxiv.org/abs/2406.05059v3 )

ライセンス: Link先を確認
Chaerin Min, Srinath Sridhar, (参考訳) グラスピングは、ロボット工学、コンピュータビジョン、認知科学において長年研究されてきた重要な人間の活動である。 既存の研究の多くは、3次元または2次元のオブジェクト表現に条件付けされた手ポーズの合成の観点から把握することを研究している。 我々は3次元ハンドモデルや2次元画像に条件付き保持オブジェクトを合成する逆問題にGenHeldを提案する。 GenHeld 3Dは3Dモデルによってオブジェクトコードと呼ばれるコンパクトなオブジェクト表現を用いて大きなデータセットから可塑性保持オブジェクトを選択できる。 もし2Dハンドイメージが利用可能であれば、GenHeld 2Dはこの画像を編集して保持されているオブジェクトを追加したり置き換えたりできる。 GenHeld 2Dは、GenHeld 3Dの能力と拡散ベースの画像編集を組み合わせることで動作する。 結果と実験により, 2次元および3次元の両方において, ベースラインを上回り, 保持可能な物体を生成できることが判明した。 実験により,本手法は3次元および2次元の両方で保持対象合成の精度と妥当性を実証した。

Grasping is an important human activity that has long been studied in robotics, computer vision, and cognitive science. Most existing works study grasping from the perspective of synthesizing hand poses conditioned on 3D or 2D object representations. We propose GenHeld to address the inverse problem of synthesizing held objects conditioned on 3D hand model or 2D image. Given a 3D model of hand, GenHeld 3D can select a plausible held object from a large dataset using compact object representations called object codes.The selected object is then positioned and oriented to form a plausible grasp without changing hand pose. If only a 2D hand image is available, GenHeld 2D can edit this image to add or replace a held object. GenHeld 2D operates by combining the abilities of GenHeld 3D with diffusion-based image editing. Results and experiments show that we outperform baselines and can generate plausible held objects in both 2D and 3D. Our experiments demonstrate that our method achieves high quality and plausibility of held object synthesis in both 3D and 2D.
翻訳日:2024-06-19 02:10:30 公開日:2024-06-15
# タイニー物体検出のための変圧器R-CNNを用いたFPNのデノベート

A DeNoising FPN With Transformer R-CNN for Tiny Object Detection ( http://arxiv.org/abs/2406.05755v3 )

ライセンス: Link先を確認
Hou-I Liu, Yu-Wen Tseng, Kai-Cheng Chang, Pin-Jyun Wang, Hong-Han Shuai, Wen-Huang Cheng, (参考訳) コンピュータビジョンの分野における顕著な進歩にもかかわらず、小さな物体の正確な検出は、画像データの中でこれらの物体に割り当てられた極小ピクセルの表現のために、大きな課題を呈し続けている。 この課題は、地球科学とリモートセンシングの分野において深く反響し、小さな物体の高忠実度検出は、都市計画から環境監視まで、無数の応用を促進する。 本稿では,小型物体検出の性能向上のために,Trans R-CNN (DNTR) を用いたデノイングFPNを提案する。 DNTRは、簡単なプラグイン設計、DeNoising FPN (DN-FPN)、効果的なTransformerベースの検出器であるTrans R-CNNで構成されている。 具体的には,マルチスケールオブジェクトの検出において,特徴ピラミッドネットワークにおける特徴融合が重要である。 しかし、異なるスケールの特徴の間に規則化がないため、核融合プロセス中にノイズが生じる可能性がある。 そこで本稿では,FPNの上位ダウンパスにおける各レベルの特徴の雑音を抑制するために,コントラスト学習を利用するDN-FPNモジュールを提案する。 第二に、この2段階の枠組みに基づいて、老朽化したR-CNN検出器を新しいトランスR-CNN検出器に置き換え、自己注意を伴う小さな物体の表現に焦点を当てる。 実験結果から,我々のDNTRはAI-TODデータセットのAPvtでは少なくとも17.4%,VisDroneデータセットのAPでは9.6%,ベースラインでは少なくとも17.4%向上していることがわかった。 私たちのコードはhttps://github.com/hoiliu-0801/DNTRで公開されます。

Despite notable advancements in the field of computer vision, the precise detection of tiny objects continues to pose a significant challenge, largely owing to the minuscule pixel representation allocated to these objects in imagery data. This challenge resonates profoundly in the domain of geoscience and remote sensing, where high-fidelity detection of tiny objects can facilitate a myriad of applications ranging from urban planning to environmental monitoring. In this paper, we propose a new framework, namely, DeNoising FPN with Trans R-CNN (DNTR), to improve the performance of tiny object detection. DNTR consists of an easy plug-in design, DeNoising FPN (DN-FPN), and an effective Transformer-based detector, Trans R-CNN. Specifically, feature fusion in the feature pyramid network is important for detecting multiscale objects. However, noisy features may be produced during the fusion process since there is no regularization between the features of different scales. Therefore, we introduce a DN-FPN module that utilizes contrastive learning to suppress noise in each level's features in the top-down path of FPN. Second, based on the two-stage framework, we replace the obsolete R-CNN detector with a novel Trans R-CNN detector to focus on the representation of tiny objects with self-attention. Experimental results manifest that our DNTR outperforms the baselines by at least 17.4% in terms of APvt on the AI-TOD dataset and 9.6% in terms of AP on the VisDrone dataset, respectively. Our code will be available at https://github.com/hoiliu-0801/DNTR.
翻訳日:2024-06-19 02:00:43 公開日:2024-06-15
# セルフチューニング: 自己学習を通じて新たな知識を効果的に獲得するLLMの指導

Self-Tuning: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching ( http://arxiv.org/abs/2406.06326v3 )

ライセンス: Link先を確認
Xiaoying Zhang, Baolin Peng, Ye Tian, Jingyan Zhou, Yipeng Zhang, Haitao Mi, Helen Meng, (参考訳) 大規模言語モデル(LLM)は、一度のトレーニングと常に進化する世界の性質のために、最新の情報の提供に苦慮することが多い。 LLMの現在の状態を維持するために、既存のアプローチは、通常、新しいドキュメントの事前トレーニングを継続する。 しかし、それらは記憶された知識の抽出にしばしば困難に直面している。 効率的なヒューマンラーニングにおけるFeynman Techniqueの顕著な成功に感銘を受けて,LLMが生文書から新たな知識を効果的に獲得する能力を向上させるための学習フレームワークであるSelf-Tuningを紹介した。 具体的には、記憶、理解、自己反省という3つの重要な側面に焦点をあて、自己監督的な方法で作成された知識集約的なタスクのセットで文書を増強する自己学習戦略を開発する。 さらに,3つのWiki-Newpages-2023-QAデータセットを導入し,記憶,抽出,推論に関するLLMの知識獲得能力を詳細に分析する。 Llama2ファミリーモデルに対する大規模な実験結果から、自己チューニングはすべての知識獲得タスクに対して一貫して優れた性能を示し、過去の知識の保存に優れることが明らかになった。

Large language models (LLMs) often struggle to provide up-to-date information due to their one-time training and the constantly evolving nature of the world. To keep LLMs current, existing approaches typically involve continued pre-training on new documents. However, they frequently face difficulties in extracting stored knowledge. Motivated by the remarkable success of the Feynman Technique in efficient human learning, we introduce Self-Tuning, a learning framework aimed at improving an LLM's ability to effectively acquire new knowledge from raw documents through self-teaching. Specifically, we develop a Self-Teaching strategy that augments the documents with a set of knowledge-intensive tasks created in a self-supervised manner, focusing on three crucial aspects: memorization, comprehension, and self-reflection. In addition, we introduce three Wiki-Newpages-2023-QA datasets to facilitate an in-depth analysis of an LLM's knowledge acquisition ability concerning memorization, extraction, and reasoning. Extensive experimental results on Llama2 family models reveal that Self-Tuning consistently exhibits superior performance across all knowledge acquisition tasks and excels in preserving previous knowledge.
翻訳日:2024-06-19 02:00:43 公開日:2024-06-15
# トークン経済における推論:LCM推論戦略の予算的評価

Reasoning in Token Economies: Budget-Aware Evaluation of LLM Reasoning Strategies ( http://arxiv.org/abs/2406.06461v3 )

ライセンス: Link先を確認
Junlin Wang, Siddhartha Jain, Dejiao Zhang, Baishakhi Ray, Varun Kumar, Ben Athiwaratkun, (参考訳) 大規模言語モデルの能力を引き出すための多種多様な推論戦略が提案されている。 しかし,本稿では,パフォーマンス指標のみに着目した従来の評価は,計算量の増加による有効性の増加という重要な要因を欠いていることを指摘する。 この側面を見渡すことで、戦略効率の歪んだ見方がしばしば提示される。 本稿では,計算予算を評価に組み込んだフレームワークを導入し,性能指標と計算コストの両面を考慮に入れた,より情報に富んだ比較を行う。 この予算面から見れば、複雑な推論戦略はアルゴリズムの創発性によって純粋に単純なベースラインを超越するのではなく、より多くの計算資源が割り当てられているためである。 計算資源に匹敵するチェーン・オブ・シンクの自己整合性のような単純なベースラインを提供する場合、文献で提案される推論戦略よりも優れていることがしばしばある。 このスケール・アウェアの観点からは、自己整合性とは異なり、より計算予算を活用すれば、マルチエージェントの議論やリフレクションのような特定の戦略が悪化する可能性がある。

A diverse array of reasoning strategies has been proposed to elicit the capabilities of large language models. However, in this paper, we point out that traditional evaluations which focus solely on performance metrics miss a key factor: the increased effectiveness due to additional compute. By overlooking this aspect, a skewed view of strategy efficiency is often presented. This paper introduces a framework that incorporates the compute budget into the evaluation, providing a more informative comparison that takes into account both performance metrics and computational cost. In this budget-aware perspective, we find that complex reasoning strategies often don't surpass simpler baselines purely due to algorithmic ingenuity, but rather due to the larger computational resources allocated. When we provide a simple baseline like chain-of-thought self-consistency with comparable compute resources, it frequently outperforms reasoning strategies proposed in the literature. In this scale-aware perspective, we find that unlike self-consistency, certain strategies such as multi-agent debate or Reflexion can become worse if more compute budget is utilized.
翻訳日:2024-06-19 02:00:43 公開日:2024-06-15
# 埋め込みには何が入っていますか。埋め込みの匂いは甘いでしょうか?

What's in an embedding? Would a rose by any embedding smell as sweet? ( http://arxiv.org/abs/2406.06870v3 )

ライセンス: Link先を確認
Venkat Venkatasubramanian, (参考訳) 大規模言語モデル(LLM)は、真の「理解」が欠如していることや、知識と「関係」する能力が欠如していることがしばしば批判され、単にオートコンプリートシステムと見なされる。 この評価には、微妙な洞察が欠落しているのではないかと考えています。 我々は,LSMが,NLP,コンピュータビジョン,コーディング支援など,様々な応用に適した「幾何学的」な実験的な「下地」を開発することを示唆する。 しかし、この「幾何学的」理解は、不完全でノイズの多いデータから構築され、数十年前にヒューリスティックスベースのエキスパートシステムによって直面した課題と同様に、信頼できない、一般化が難しい、推論能力や説明が欠如している。 これらの制限を克服するために、私たちはLLMをエキスパートシステムで使用されるシンボリックAI要素を含む知識の「代数的」表現に統合すべきだと提案する。 この統合の目的は、第一原理に根ざした「深い」知識を持つだけでなく、人間専門家の能力を模倣し、説明し、説明する能力を持つ、大きな知識モデル(LKM)を作ることである。 生成AIの潜在能力を安全かつ効果的に活用するためには、LLMからより包括的なLKMへのパラダイムシフトが必要である。

Large Language Models (LLMs) are often criticized for lacking true "understanding" and the ability to "reason" with their knowledge, being seen merely as autocomplete systems. We believe that this assessment might be missing a nuanced insight. We suggest that LLMs do develop a kind of empirical "understanding" that is "geometry"-like, which seems adequate for a range of applications in NLP, computer vision, coding assistance, etc. However, this "geometric" understanding, built from incomplete and noisy data, makes them unreliable, difficult to generalize, and lacking in inference capabilities and explanations, similar to the challenges faced by heuristics-based expert systems decades ago. To overcome these limitations, we suggest that LLMs should be integrated with an "algebraic" representation of knowledge that includes symbolic AI elements used in expert systems. This integration aims to create large knowledge models (LKMs) that not only possess "deep" knowledge grounded in first principles, but also have the ability to reason and explain, mimicking human expert capabilities. To harness the full potential of generative AI safely and effectively, a paradigm shift is needed from LLM to more comprehensive LKM.
翻訳日:2024-06-19 01:50:51 公開日:2024-06-15
# 不確実性駆動型アクティブマッピングのためのニューラル可視界

Neural Visibility Field for Uncertainty-Driven Active Mapping ( http://arxiv.org/abs/2406.06948v2 )

ライセンス: Link先を確認
Shangjie Xue, Jesse Dill, Pranay Mathur, Frank Dellaert, Panagiotis Tsiotras, Danfei Xu, (参考訳) 本稿では,ニューラル・ヴィジビリティ・フィールド(NVF, Neural Visibility Field)について述べる。 我々の重要な洞察は、トレーニングビューで見えない領域は、この領域におけるNeRFによる本質的に信頼性の低い色予測につながり、合成ビューでは不確実性が増大するということである。 これを解決するために,ベイジアンネットワークを用いて位置ベースフィールドの不確かさをカメラ観測におけるレイベース不確実性に合成することを提案する。 その結果、NVFは自然に、観測されていない領域に高い不確実性を割り当て、ロボットが最も有益な次の視点を選択するのを助ける。 大規模な評価では,NVFは不確実な定量化だけでなく,能動的マッピングのためのシーン再構成においても優れており,既存の手法よりも優れていた。

This paper presents Neural Visibility Field (NVF), a novel uncertainty quantification method for Neural Radiance Fields (NeRF) applied to active mapping. Our key insight is that regions not visible in the training views lead to inherently unreliable color predictions by NeRF at this region, resulting in increased uncertainty in the synthesized views. To address this, we propose to use Bayesian Networks to composite position-based field uncertainty into ray-based uncertainty in camera observations. Consequently, NVF naturally assigns higher uncertainty to unobserved regions, aiding robots to select the most informative next viewpoints. Extensive evaluations show that NVF excels not only in uncertainty quantification but also in scene reconstruction for active mapping, outperforming existing methods.
翻訳日:2024-06-19 01:50:51 公開日:2024-06-15
# 対話型AIの透明性と制御のためのダッシュボードの設計

Designing a Dashboard for Transparency and Control of Conversational AI ( http://arxiv.org/abs/2406.07882v2 )

ライセンス: Link先を確認
Yida Chen, Aoyu Wu, Trevor DePodesta, Catherine Yeh, Kenneth Li, Nicholas Castillo Marin, Oam Patel, Jan Riecke, Shivam Raval, Olivia Seow, Martin Wattenberg, Fernanda Viégas, (参考訳) 会話型LLMはブラックボックスシステムとして機能し、ユーザがなぜ出力を見るのかを推測する。 この透明性の欠如は、特に偏見と真実性に関する懸念から、潜在的に問題となる可能性がある。 この問題に対処するため,チャットボットをより透明なものにしようと試みるユーザエクスペリエンス設計を伴う,エンドツーエンドのプロトタイプ・ツー・エンドの解釈可能性技術を提案する。 システムの内部状態を調べることで、ユーザの年齢、性別、教育水準、社会経済状態に関するデータを抽出することができる。 次に、チャットボットインタフェースに付随するダッシュボードの設計について述べ、このユーザモデルをリアルタイムで表示する。 ダッシュボードは、ユーザモデルとシステムの振る舞いを制御するためにも使用できる。 最後に、ユーザが計測システムと会話する研究について述べる。 以上の結果から,利用者は内的状態の認識に感謝し,偏りのある行動に曝露し,コントロール意識を高めたことが示唆された。 参加者はまた、デザインと機械学習の両方の研究の今後の方向性を示す貴重な提案を行った。 TalkTunerシステムのプロジェクトページとビデオデモはhttps://bit.ly/talktuner-project-pageで公開されている。

Conversational LLMs function as black box systems, leaving users guessing about why they see the output they do. This lack of transparency is potentially problematic, especially given concerns around bias and truthfulness. To address this issue, we present an end-to-end prototype-connecting interpretability techniques with user experience design-that seeks to make chatbots more transparent. We begin by showing evidence that a prominent open-source LLM has a "user model": examining the internal state of the system, we can extract data related to a user's age, gender, educational level, and socioeconomic status. Next, we describe the design of a dashboard that accompanies the chatbot interface, displaying this user model in real time. The dashboard can also be used to control the user model and the system's behavior. Finally, we discuss a study in which users conversed with the instrumented system. Our results suggest that users appreciate seeing internal states, which helped them expose biased behavior and increased their sense of control. Participants also made valuable suggestions that point to future directions for both design and machine learning research. The project page and video demo of our TalkTuner system are available at https://bit.ly/talktuner-project-page
翻訳日:2024-06-19 01:41:06 公開日:2024-06-15
# PDFA学習による制約付きLLMの分析

Analyzing constrained LLM through PDFA-learning ( http://arxiv.org/abs/2406.08269v2 )

ライセンス: Link先を確認
Matías Carrasco, Franz Mayr, Sergio Yovine, Johny Kidd, Martín Iturbide, Juan Pedro da Silva, Alejo Garat, (参考訳) 我々は,言語モデルの出力がテキスト生成中に何らかの方法で制約されたときに発生する,ヌル次シンボル確率に対処する合同を定義する。 本研究は,LLMの統計特性を解析するためのケーススタディにおいて,このコングルーエンスに関する商を効率的に学習するアルゴリズムを開発し,評価する。

We define a congruence that copes with null next-symbol probabilities that arise when the output of a language model is constrained by some means during text generation. We develop an algorithm for efficiently learning the quotient with respect to this congruence and evaluate it on case studies for analyzing statistical properties of LLM.
翻訳日:2024-06-19 01:41:06 公開日:2024-06-15
# 2.5D Multi-view Averaging Diffusion Model for 3D Medical Image Translation: for Low-count PET Reconstruction with CTless Attenuation Correction

2.5D Multi-view Averaging Diffusion Model for 3D Medical Image Translation: Application to Low-count PET Reconstruction with CT-less Attenuation Correction ( http://arxiv.org/abs/2406.08374v2 )

ライセンス: Link先を確認
Tianqi Chen, Jun Hou, Yinchi Zhou, Huidong Xie, Xiongchao Chen, Qiong Liu, Xueqi Guo, Menghua Xia, James S. Duncan, Chi Liu, Bo Zhou, (参考訳) ポジトロン・エミッション・トモグラフィ(PET)は重要な臨床画像診断ツールであるが、患者や医療機関に必然的に放射線障害をもたらす。 トレーサー注入量を減らすことと、減衰補正のためのCTの取得をなくすことは、全体的な放射線線量を減らすことができるが、しばしば高ノイズと偏りを伴うPETが生じる。 したがって、非減衰補正低線量PET(NAC-LDPET)を減衰補正標準線量PET(AC-SDPET)に変換する3D法を開発することが望ましい。 近年、拡散モデルは従来のCNN方式よりも優れた画像から画像への翻訳のための最先端のディープラーニング手法として登場した。 しかし、高い計算コストとメモリ負荷のため、主に2Dアプリケーションに限られる。 これらの課題に対処するため,我々は,NAC-LDPETとAC-SDPETを用いた3次元画像合成のための新しい2.5D多視点平均拡散モデル(MADM)を開発した。 特に、MADMは、複数のビューから3D生成品質を確保するために、各サンプリングステップで出力が平均される軸方向、コロナ方向、矢状方向のビューに対して別々の拡散モデルを採用している。 また,3次元サンプリングプロセスの高速化を目的として,拡散モデルの先行としてCNNを用いた3次元生成手法を提案する。 以上の結果から,MADMは従来のCNNベースおよび拡散ベースライン法よりも優れた高画質な3次元翻訳画像を生成可能であることが示唆された。

Positron Emission Tomography (PET) is an important clinical imaging tool but inevitably introduces radiation hazards to patients and healthcare providers. Reducing the tracer injection dose and eliminating the CT acquisition for attenuation correction can reduce the overall radiation dose, but often results in PET with high noise and bias. Thus, it is desirable to develop 3D methods to translate the non-attenuation-corrected low-dose PET (NAC-LDPET) into attenuation-corrected standard-dose PET (AC-SDPET). Recently, diffusion models have emerged as a new state-of-the-art deep learning method for image-to-image translation, better than traditional CNN-based methods. However, due to the high computation cost and memory burden, it is largely limited to 2D applications. To address these challenges, we developed a novel 2.5D Multi-view Averaging Diffusion Model (MADM) for 3D image-to-image translation with application on NAC-LDPET to AC-SDPET translation. Specifically, MADM employs separate diffusion models for axial, coronal, and sagittal views, whose outputs are averaged in each sampling step to ensure the 3D generation quality from multiple views. To accelerate the 3D sampling process, we also proposed a strategy to use the CNN-based 3D generation as a prior for the diffusion model. Our experimental results on human patient studies suggested that MADM can generate high-quality 3D translation images, outperforming previous CNN-based and Diffusion-based baseline methods.
翻訳日:2024-06-19 01:41:06 公開日:2024-06-15
# MFF-EINV2:音事象定位・検出のためのスペクトル空間-時間領域間のマルチスケール特徴融合

MFF-EINV2: Multi-scale Feature Fusion across Spectral-Spatial-Temporal Domains for Sound Event Localization and Detection ( http://arxiv.org/abs/2406.08771v2 )

ライセンス: Link先を確認
Da Mu, Zhicheng Zhang, Haobo Yue, (参考訳) 音事象の局所化と検出(SELD)は、マルチチャンネル音声記録を用いた音事象の検出と位置決めを伴う。 従来提案されていたイベント独立ネットワークV2(EINV2)は,SELD上での優れた性能を実現している。 しかし、スペクトル領域、空間領域、時間領域にまたがる特徴を効果的に抽出する上で、依然として課題に直面している。 本稿では,マルチスケール・フィーチャー・フュージョン(MFF)モジュールという3段階のネットワーク構造を提案し,スペクトル領域,空間領域,時間領域にまたがるマルチスケール特徴を抽出する。 MFFモジュールは並列サブネットワークアーキテクチャを使用して、マルチスケールのスペクトルと空間の特徴を生成する。 TF-Convolution Moduleは、マルチスケールの時間的特徴を提供するために使用される。 我々は,MFFをEINV2に組み込み,提案手法をMFF-EINV2と呼ぶ。 2022年と2023年のDCASEチャレンジタスク3データセットの実験結果から,MFF-EINV2の有効性が示された。

Sound Event Localization and Detection (SELD) involves detecting and localizing sound events using multichannel sound recordings. Previously proposed Event-Independent Network V2 (EINV2) has achieved outstanding performance on SELD. However, it still faces challenges in effectively extracting features across spectral, spatial, and temporal domains. This paper proposes a three-stage network structure named Multi-scale Feature Fusion (MFF) module to fully extract multi-scale features across spectral, spatial, and temporal domains. The MFF module utilizes parallel subnetworks architecture to generate multi-scale spectral and spatial features. The TF-Convolution Module is employed to provide multi-scale temporal features. We incorporated MFF into EINV2 and term the proposed method as MFF-EINV2. Experimental results in 2022 and 2023 DCASE challenge task3 datasets show the effectiveness of our MFF-EINV2, which achieves state-of-the-art (SOTA) performance compared to published methods.
翻訳日:2024-06-19 01:41:06 公開日:2024-06-15
# 統計的保証付きデータから時間論理式を学習する

Learning Temporal Logic Predicates from Data with Statistical Guarantees ( http://arxiv.org/abs/2406.10449v1 )

ライセンス: Link先を確認
Emi Soroka, Rohan Sinha, Sanjay Lall, (参考訳) 時間論理規則は、高次元軌跡データの構造化された人間解釈可能な記述を提供するために、制御やロボット工学でしばしば用いられる。 これらのルールには、フォーマルな方法を用いた安全性検証、自律エージェント間の動作計画の制約、データの分類など、数多くの応用がある。 しかし、データから時間論理述語を学習する既存の方法は、結果の述語が正しいかどうかを保証しない。 有限サンプル精度保証データから時間論理の述語を学習する新しい手法を提案する。 提案手法は,表現最適化と共形予測を利用して,ユーザ定義の信頼度の高い軽度仮定の下で,将来の軌跡を正しく記述した述語を学習する。 シミュレーションされた軌跡データセットに対するアプローチの有効性を示す実験結果と,アルゴリズムの各コンポーネントがその性能にどのように貢献するかを理解するためのアブレーション研究を行う。

Temporal logic rules are often used in control and robotics to provide structured, human-interpretable descriptions of high-dimensional trajectory data. These rules have numerous applications including safety validation using formal methods, constraining motion planning among autonomous agents, and classifying data. However, existing methods for learning temporal logic predicates from data provide no assurances about the correctness of the resulting predicate. We present a novel method to learn temporal logic predicates from data with finite-sample correctness guarantees. Our approach leverages expression optimization and conformal prediction to learn predicates that correctly describe future trajectories under mild assumptions with a user-defined confidence level. We provide experimental results showing the performance of our approach on a simulated trajectory dataset and perform ablation studies to understand how each component of our algorithm contributes to its performance.
翻訳日:2024-06-19 00:22:43 公開日:2024-06-15
# TokenRec: LLMに基づくジェネレーティブレコメンデーションのためのトークンIDの学習

TokenRec: Learning to Tokenize ID for LLM-based Generative Recommendation ( http://arxiv.org/abs/2406.10450v1 )

ライセンス: Link先を確認
Haohao Qu, Wenqi Fan, Zihuai Zhao, Qing Li, (参考訳) 大規模言語モデル(LLM)を利用した次世代Recommender Systems(RecSys)の進化への関心が高まっている。 このシナリオでは、LLMとレコメンデーションのシームレスなアライメントを保証するために、ユーザとアイテムのトークン化(インデックス化)が不可欠である。 ユーザやアイテムをテキストの内容や潜在表現で表現する研究はいくつかあるが、LLMと互換性のある個別のトークンに高次協調的な知識を効率よく取得する上での課題は残る。 さらに、既存のトークン化アプローチの大半は、トレーニングコーパスにない新規/未使用のユーザやアイテムに効果的に一般化する上で困難に直面していることが多い。 これらの課題に対処するために,TokenRecという新しいフレームワークを提案する。これは,有効なIDトークン化戦略だけでなく,LLMベースのレコメンデーションのための効率的な検索パラダイムも導入する。 具体的には、トークン化戦略であるMasked Vector-Quantized (MQ) Tokenizerは、協調フィルタリングから学んだマスク付きユーザ/イテム表現を離散トークンに定量化することで、高次協調知識のスムーズな取り込みとLLMベースのRecSysのユーザおよびアイテムの一般化可能なトークン化を実現する。 一方,我々の生成検索パラダイムは,LLMが使用する自動回帰復号法やビーム探索法の必要性を解消し,推論時間を大幅に削減するために,ユーザに対してKドル以上のアイテムを効率的に推奨するように設計されている。 提案手法の有効性を総合的に検証し,TokenRecが従来のレコメンデータシステムとLLMベースのレコメンデータシステムの両方を含む競合ベンチマークより優れていることを示した。

There is a growing interest in utilizing large-scale language models (LLMs) to advance next-generation Recommender Systems (RecSys), driven by their outstanding language understanding and in-context learning capabilities. In this scenario, tokenizing (i.e., indexing) users and items becomes essential for ensuring a seamless alignment of LLMs with recommendations. While several studies have made progress in representing users and items through textual contents or latent representations, challenges remain in efficiently capturing high-order collaborative knowledge into discrete tokens that are compatible with LLMs. Additionally, the majority of existing tokenization approaches often face difficulties in generalizing effectively to new/unseen users or items that were not in the training corpus. To address these challenges, we propose a novel framework called TokenRec, which introduces not only an effective ID tokenization strategy but also an efficient retrieval paradigm for LLM-based recommendations. Specifically, our tokenization strategy, Masked Vector-Quantized (MQ) Tokenizer, involves quantizing the masked user/item representations learned from collaborative filtering into discrete tokens, thus achieving a smooth incorporation of high-order collaborative knowledge and a generalizable tokenization of users and items for LLM-based RecSys. Meanwhile, our generative retrieval paradigm is designed to efficiently recommend top-$K$ items for users to eliminate the need for the time-consuming auto-regressive decoding and beam search processes used by LLMs, thus significantly reducing inference time. Comprehensive experiments validate the effectiveness of the proposed methods, demonstrating that TokenRec outperforms competitive benchmarks, including both traditional recommender systems and emerging LLM-based recommender systems.
翻訳日:2024-06-19 00:22:43 公開日:2024-06-15
# HumanPlus:人間からのシャドウと模倣

HumanPlus: Humanoid Shadowing and Imitation from Humans ( http://arxiv.org/abs/2406.10454v1 )

ライセンス: Link先を確認
Zipeng Fu, Qingqing Zhao, Qi Wu, Gordon Wetzstein, Chelsea Finn, (参考訳) 人間に類似したフォームファクターを持つロボットを構築する上で重要な論点の1つは、巨大な人間のデータをトレーニングに活用できるということだ。 しかし、実際には、ヒューマノイドの知覚と制御の複雑さ、形態学とアクチュエーターにおけるヒューマノイドと人間の物理的なギャップの狭さ、そしてヒューマノイドが自我中心のビジョンから自律的なスキルを学ぶためのデータパイプラインが欠如しているため、難しいままである。 本稿では,ヒューマノイドが人間のデータから動きや自律的なスキルを学ぶためのフルスタックシステムを提案する。 まず、既存の40時間動作データセットを用いて、強化学習によるシミュレーションの低レベルポリシーを訓練する。 このポリシーは現実世界に移行し、人型ロボットがRGBカメラ(シャドーイング)のみを使用して人体と手の動きをリアルタイムで追跡できるようにする。 シャドーイングによって、人間のオペレーターはヒューマノイドを遠隔操作して、現実世界でさまざまなタスクを学習するための全身データを集めることができる。 収集したデータを用いて、教師付き行動クローニングを行い、自我中心のビジョンを用いてスキルポリシーを訓練し、ヒューマノイドは人間のスキルを模倣することで、自律的に異なるタスクを完了させることができる。 このシステムは,靴を履いて立ち上がって歩く,倉庫のラックから物を降ろす,スウェットシャツを折り畳む,オブジェクトを整理する,タイピングする,60-100%の成功率で他のロボットに挨拶する,など,カスタマイズした33-DoF 180cmのヒューマノイド上で,自律的に作業を行う。 プロジェクトウェブサイト: https://humanoid-ai.github.io/

One of the key arguments for building robots that have similar form factors to human beings is that we can leverage the massive human data for training. Yet, doing so has remained challenging in practice due to the complexities in humanoid perception and control, lingering physical gaps between humanoids and humans in morphologies and actuation, and lack of a data pipeline for humanoids to learn autonomous skills from egocentric vision. In this paper, we introduce a full-stack system for humanoids to learn motion and autonomous skills from human data. We first train a low-level policy in simulation via reinforcement learning using existing 40-hour human motion datasets. This policy transfers to the real world and allows humanoid robots to follow human body and hand motion in real time using only a RGB camera, i.e. shadowing. Through shadowing, human operators can teleoperate humanoids to collect whole-body data for learning different tasks in the real world. Using the data collected, we then perform supervised behavior cloning to train skill policies using egocentric vision, allowing humanoids to complete different tasks autonomously by imitating human skills. We demonstrate the system on our customized 33-DoF 180cm humanoid, autonomously completing tasks such as wearing a shoe to stand up and walk, unloading objects from warehouse racks, folding a sweatshirt, rearranging objects, typing, and greeting another robot with 60-100% success rates using up to 40 demonstrations. Project website: https://humanoid-ai.github.io/
翻訳日:2024-06-19 00:22:43 公開日:2024-06-15
# 半補正ポス推論によるAb-initio Cryo-EM再構成の改善

Improving Ab-Initio Cryo-EM Reconstruction with Semi-Amortized Pose Inference ( http://arxiv.org/abs/2406.10455v1 )

ライセンス: Link先を確認
Shayan Shekarforoush, David B. Lindell, Marcus A. Brubaker, David J. Fleet, (参考訳) クライオ・エレクトロン顕微鏡(Cryo-Electron Microscopy, Cryo-EM)は、タンパク質などの高分子複合体の3次元構造を2次元画像に基づいて推定する実験手法として人気が高まっている。 これらの画像は騒々しいことで知られており、各画像の構造のポーズは未知の \textit{a priori} である。 2D画像からの非初期3D再構成では、構造に加えてポーズを推定する必要がある。 本研究では,この問題に対する新しいアプローチを提案する。 まずマルチヘッドアーキテクチャをポーズエンコーダとして採用し、画像ごとの複数の可視的なポーズを償却的に推測する。 提案手法は, 復元初期におけるポーズ空間の探索を奨励することにより, ポーズ推定における高い不確実性を緩和する。 不確実性が減ると、自動デコード方式でポーズを洗練します。 特に、最も可能性の高いポーズを初期化し、確率勾配降下(SGD)を用いて個々の画像に対して反復的に更新する。 提案手法は, 合成データセットの評価により, 償却推論段階において多モードのポーズ分布を処理できることを実証する一方, 後続のより柔軟な直接ポーズ最適化段階は, ベースラインと比較してより高速で正確なポーズ収束を得られることを示した。 最後に,本手法が最先端のCryoAIよりも高速であり,高分解能の再構築を実現することを示す。

Cryo-Electron Microscopy (cryo-EM) is an increasingly popular experimental technique for estimating the 3D structure of macromolecular complexes such as proteins based on 2D images. These images are notoriously noisy, and the pose of the structure in each image is unknown \textit{a priori}. Ab-initio 3D reconstruction from 2D images entails estimating the pose in addition to the structure. In this work, we propose a new approach to this problem. We first adopt a multi-head architecture as a pose encoder to infer multiple plausible poses per-image in an amortized fashion. This approach mitigates the high uncertainty in pose estimation by encouraging exploration of pose space early in reconstruction. Once uncertainty is reduced, we refine poses in an auto-decoding fashion. In particular, we initialize with the most likely pose and iteratively update it for individual images using stochastic gradient descent (SGD). Through evaluation on synthetic datasets, we demonstrate that our method is able to handle multi-modal pose distributions during the amortized inference stage, while the later, more flexible stage of direct pose optimization yields faster and more accurate convergence of poses compared to baselines. Finally, on experimental data, we show that our approach is faster than state-of-the-art cryoAI and achieves higher-resolution reconstruction.
翻訳日:2024-06-19 00:22:43 公開日:2024-06-15
# 超伝導回路における雑音誘起量子同期と最大絡み合った混合状態

Noise-induced quantum synchronization and maximally entangled mixed states in superconducting circuits ( http://arxiv.org/abs/2406.10457v1 )

ライセンス: Link先を確認
Ziyu Tao, Finn Schmolke, Chang-Kang Hu, Wenhui Huang, Yuxuan Zhou, Jiawei Zhang, Ji Chu, Libo Zhang, Xuandong Sun, Zecheng Guo, Jingjing Niu, Wenle Weng, Song Liu, Youpeng Zhong, Dian Tan, Dapeng Yu, Eric Lutz, (参考訳) ランダム揺らぎは複雑なシステムにおいて協調効果をもたらす。 本稿では, 近接相互作用を持つ超伝導トランスモン量子ビットの連鎖におけるノイズ誘起量子同期の実験的観察について報告する。 ガウスホワイトノイズの単一部位への応用は、連鎖全体の同期振動を引き起こす。 2つの同期した終端量子ビットは非ゼロの共起で絡み合っており、最大絡み合わされた混合状態として知られる一般化されたベル状態のクラスに属し、その絡み合わさは任意の大域的ユニタリによって増大できないことを示す。 さらに、対応する一般化されたアーノルド舌図を決定することにより、同期および絡み合いの周波数減衰に対する安定性を示す。 本結果は,量子多体系におけるノイズの構成的影響を強調し,混合状態量子情報科学における同期の潜在的な役割を明らかにするものである。

Random fluctuations can lead to cooperative effects in complex systems. We here report the experimental observation of noise-induced quantum synchronization in a chain of superconducting transmon qubits with nearest-neighbor interactions. The application of Gaussian white noise to a single site leads to synchronous oscillations in the entire chain. We show that the two synchronized end qubits are entangled, with nonzero concurrence, and that they belong to a class of generalized Bell states known as maximally entangled mixed states, whose entanglement cannot be increased by any global unitary. We further demonstrate the stability against frequency detuning of both synchronization and entanglement by determining the corresponding generalized Arnold tongue diagrams. Our results highlight the constructive influence of noise in a quantum many-body system and uncover the potential role of synchronization for mixed-state quantum information science.
翻訳日:2024-06-19 00:22:43 公開日:2024-06-15
# CancerLLM: がん領域における大規模言語モデル

CancerLLM: A Large Language Model in Cancer Domain ( http://arxiv.org/abs/2406.10459v1 )

ライセンス: Link先を確認
Mingchen Li, Anne Blaes, Steven Johnson, Hongfang Liu, Hua Xu, Rui Zhang, (参考訳) 臨床カメラ70BやLlama3-OpenBioLLM70Bのような医療用大言語モデル(LLM)は、様々な医療用NLPタスクにおいて印象的な性能を示してきたが、がん領域に特化した大規模言語モデル(LLM)はいまだに存在しない。 さらに、これらのLSMは、典型的には数十億のパラメータを持ち、医療システムに計算コストがかかるが、本研究では、70億のパラメータとMistralスタイルのアーキテクチャを持つモデルであるCancerLLMを提案し、17のがんタイプをカバーする2,676,642の臨床ノートと515,524の病理報告を事前訓練し、がんの表現型抽出、がん診断、がん治療計画生成を含む3つのがん関連タスクを微調整した。 以上の結果から,ClancLLMは従来のLCMに比べて8.1倍のF1スコア向上率を示した。 さらに、CASELLMは2つの提案された堅牢性テストベッドで他のモデルよりも優れている。 このことは、がんLLMが臨床AIシステムに効果的に適用され、がん分野における臨床研究と医療提供が促進されることを示している。

Medical Large Language Models (LLMs) such as ClinicalCamel 70B, Llama3-OpenBioLLM 70B have demonstrated impressive performance on a wide variety of medical NLP task.However, there still lacks a large language model (LLM) specifically designed for cancer domain. Moreover, these LLMs typically have billions of parameters, making them computationally expensive for healthcare systems.Thus, in this study, we propose CancerLLM, a model with 7 billion parameters and a Mistral-style architecture, pre-trained on 2,676,642 clinical notes and 515,524 pathology reports covering 17 cancer types, followed by fine-tuning on three cancer-relevant tasks, including cancer phenotypes extraction, cancer diagnosis generation, and cancer treatment plan generation. Our evaluation demonstrated that CancerLLM achieves state-of-the-art results compared to other existing LLMs, with an average F1 score improvement of 8.1\%. Additionally, CancerLLM outperforms other models on two proposed robustness testbeds. This illustrates that CancerLLM can be effectively applied to clinical AI systems, enhancing clinical research and healthcare delivery in the field of cancer.
翻訳日:2024-06-19 00:22:43 公開日:2024-06-15
# CoMM:マルチモーダル理解・生成のためのコヒーレントインターリーブ画像テキストデータセット

CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation ( http://arxiv.org/abs/2406.10462v1 )

ライセンス: Link先を確認
Wei Chen, Lin Li, Yongqi Yang, Bin Wen, Fan Yang, Tingting Gao, Yu Wu, Long Chen, (参考訳) インターリーブ画像テキスト生成は、クエリーを与えられたインターリーブ画像とテキストのシーケンスを作成することを目的として、重要なマルチモーダルタスクとして登場した。 最近のマルチモーダル大規模言語モデル(MLLM)の顕著な進歩にもかかわらず、物語の一貫性と実体とスタイルの整合性を示す統合された画像テキストシーケンスを生成することは、トレーニングデータの品質が低いため、依然として困難である。 このギャップに対処するため、我々は、生成したマルチモーダルコンテンツの一貫性、一貫性、アライメントを高めるために、高品質なコヒーレント・コヒーレント・インターリーブド・イメージ・テキスト・マルチモーダル・データセットであるCoMMを紹介した。 当初、CoMMは多様な情報源からの生データを活用し、指導的コンテンツと視覚的ストーリーテリングに焦点をあて、一貫性と一貫性のあるコンテンツの基礎を確立した。 データ品質をさらに改善するため,先進的な事前学習モデルを利用して文の開発,挿入画像の整合性,意味的整合性を確保するマルチパースペクティブフィルタ戦略を考案した。 さまざまな品質評価指標は、フィルタされたデータセットの高品質さを証明するように設計されている。 一方、様々なダウンストリームタスクに対する広範囲な数ショット実験は、MLLMの文脈内学習能力を著しく向上させるCoMMの有効性を示す。 さらに,包括的評価フレームワークを用いてMLLMのインターリーブ世代能力を評価するための4つの新しいタスクを提案する。 我々は、CoMMがより優れたマルチモーダルインコンテキスト学習と理解能力を持つ高度なMLLMのための新たな道を開くと信じている。

Interleaved image-text generation has emerged as a crucial multimodal task, aiming at creating sequences of interleaved visual and textual content given a query. Despite notable advancements in recent multimodal large language models (MLLMs), generating integrated image-text sequences that exhibit narrative coherence and entity and style consistency remains challenging due to poor training data quality. To address this gap, we introduce CoMM, a high-quality Coherent interleaved image-text MultiModal dataset designed to enhance the coherence, consistency, and alignment of generated multimodal content. Initially, CoMM harnesses raw data from diverse sources, focusing on instructional content and visual storytelling, establishing a foundation for coherent and consistent content. To further refine the data quality, we devise a multi-perspective filter strategy that leverages advanced pre-trained models to ensure the development of sentences, consistency of inserted images, and semantic alignment between them. Various quality evaluation metrics are designed to prove the high quality of the filtered dataset. Meanwhile, extensive few-shot experiments on various downstream tasks demonstrate CoMM's effectiveness in significantly enhancing the in-context learning capabilities of MLLMs. Moreover, we propose four new tasks to evaluate MLLMs' interleaved generation abilities, supported by a comprehensive evaluation framework. We believe CoMM opens a new avenue for advanced MLLMs with superior multimodal in-context learning and understanding ability.
翻訳日:2024-06-19 00:22:43 公開日:2024-06-15
# データ拡張アルゴリズム

The data augmentation algorithm ( http://arxiv.org/abs/2406.10464v1 )

ライセンス: Link先を確認
Vivekananda Roy, Kshitij Khare, James P. Hobert, (参考訳) データ拡張(DA)アルゴリズムはマルコフ連鎖モンテカルロ(MCMC)アルゴリズムであり、しばしば難解な確率分布からサンプリングするために使われる。 本稿では,DA MCMCアルゴリズムを包括的に調査し,その理論的基礎,方法論的実装,頻繁な統計学およびベイズ統計学における多様な応用について述べる。 本稿では,DAアルゴリズムの収束特性を研究するためのツールについて述べる。 さらに、DAアルゴリズムの収束速度を加速するための様々な戦略、DAアルゴリズムの異なる拡張、将来の研究に向けた有望な方向性の概要を含む。 本稿では,MCMCアルゴリズムにおけるデータ拡張手法の活用を目指す研究者や実践者のための資料として,最近の研究成果の鍵となる洞察と合成を提供することを目的としている。

The data augmentation (DA) algorithms are popular Markov chain Monte Carlo (MCMC) algorithms often used for sampling from intractable probability distributions. This review article comprehensively surveys DA MCMC algorithms, highlighting their theoretical foundations, methodological implementations, and diverse applications in frequentist and Bayesian statistics. The article discusses tools for studying the convergence properties of DA algorithms. Furthermore, it contains various strategies for accelerating the speed of convergence of the DA algorithms, different extensions of DA algorithms and outlines promising directions for future research. This paper aims to serve as a resource for researchers and practitioners seeking to leverage data augmentation techniques in MCMC algorithms by providing key insights and synthesizing recent developments.
翻訳日:2024-06-19 00:22:43 公開日:2024-06-15
# 相関は損失のないエルゴトロピー輸送を可能にする

Correlations enable lossless ergotropy transport ( http://arxiv.org/abs/2406.10468v1 )

ライセンス: Link先を確認
Rick P. A. Simon, Janet Anders, Karen V. Hovhannisyan, (参考訳) 「電池を駆動する装置」は「電池に蓄えられた作業がデバイスに運ばれている」と読むことができる。 量子電池では、蓄えられた作業の総量はエルゴトロピーによって測定でき、これはユニタリ演算によって抽出できる最大作業である。 輸送エルゴトロピーは、輸送エネルギーとは根本的に異なり、伝達チャネルが厳密にエネルギー保存されている場合でも、エルゴトロピーを得ることができる。 一般に、エルゴトロピー輸送は、2つのシステムが無関係に始まると失われることを示す。 対照的に、多くの相関した初期状態に対して、輸送は有利である。 さらに、単一の相関状態が複数回使用でき、電池容量よりも桁違いに多くの作業が失われることなく輸送することができる。 したがって、相関はエルゴトロピー輸送に有用な資源であり、この資源がゲインフル輸送中にどのように消費されるかを定量化する。

"A battery powers a device" can be read as "work stored in the battery is being transported to the device." In quantum batteries, the total amount of stored work can be measured by ergotropy, which is the maximal work extractable by unitary operations. Transporting ergotropy is fundamentally different from transporting energy, and here we find that ergotropy can be gained even when the transmission channel is strictly energy conserving. We show that, generically, ergotropy transport is lossy whenever the two systems start uncorrelated. In contrast, for a large class of correlated initial states, transport can be gainful. Furthermore, a single correlated state can be used multiple times, allowing to transport without losses an order of magnitude more work than the battery capacity. Correlations are thus a useful resource for ergotropy transport, and we quantify how this resource is consumed during gainful transport.
翻訳日:2024-06-19 00:22:43 公開日:2024-06-15
# オブジェクト属性関係表現に基づくビデオセマンティックコミュニケーション

Object-Attribute-Relation Representation based Video Semantic Communication ( http://arxiv.org/abs/2406.10469v1 )

ライセンス: Link先を確認
Qiyuan Du, Yiping Duan, Qianqian Yang, Xiaoming Tao, Mérouane Debbah, (参考訳) マルチメディアデータボリュームの急速な増加に伴い、バーチャルリアリティや将来のビデオストリーミングサービスといったアプリケーションにおいて、効率的なビデオ伝送の必要性が高まっている。 セマンティック通信は,低帯域幅,高雑音環境において,効率的かつ信頼性の高い伝送を実現するための重要な技術として浮上している。 しかし、現在のほとんどのアプローチは、エンドツーエンドのトレーニングに依存するジョイントソースチャネルコーディング(JSCC)に焦点を当てている。 これらの手法は、しばしば解釈可能な意味表現を欠き、様々な下流タスクへの適応性に苦慮する。 本稿では,低ビットレート符号化を実現するためのセマンティックフレームワークとして,OAR(Object-Atribute-Relation)を導入し,より効率的な映像伝送のためのJSCCプロセスを強化する。 我々は低ビットレート表現と生成ビデオ再構成の両方にOARシーケンスを利用する。 さらに、OARをイメージJSCCモデルに組み込んで、下流タスクにとってより重要な領域の通信資源を優先順位付けする。 トラヒック監視ビデオデータセットに関する実験は,映像伝送性能の観点から,我々のアプローチの有効性を評価した。 その結果,OARに基づくビデオ符号化方式は,低ビットレートでのH.265符号化に勝るだけでなく,JSCCと相乗して堅牢で効率的な映像伝送を実現していることがわかった。

With the rapid growth of multimedia data volume, there is an increasing need for efficient video transmission in applications such as virtual reality and future video streaming services. Semantic communication is emerging as a vital technique for ensuring efficient and reliable transmission in low-bandwidth, high-noise settings. However, most current approaches focus on joint source-channel coding (JSCC) that depends on end-to-end training. These methods often lack an interpretable semantic representation and struggle with adaptability to various downstream tasks. In this paper, we introduce the use of object-attribute-relation (OAR) as a semantic framework for videos to facilitate low bit-rate coding and enhance the JSCC process for more effective video transmission. We utilize OAR sequences for both low bit-rate representation and generative video reconstruction. Additionally, we incorporate OAR into the image JSCC model to prioritize communication resources for areas more critical to downstream tasks. Our experiments on traffic surveillance video datasets assess the effectiveness of our approach in terms of video transmission performance. The empirical findings demonstrate that our OAR-based video coding method not only outperforms H.265 coding at lower bit-rates but also synergizes with JSCC to deliver robust and efficient video transmission.
翻訳日:2024-06-19 00:22:43 公開日:2024-06-15
# パーソナライズされた要素:協調的努力による効率的なパーソナライズされた大規模言語モデル

Personalized Pieces: Efficient Personalized Large Language Models through Collaborative Efforts ( http://arxiv.org/abs/2406.10471v1 )

ライセンス: Link先を確認
Zhaoxuan Tan, Zheyuan Liu, Meng Jiang, (参考訳) パーソナライズされた大規模言語モデル(LLM)は、個々のユーザの好みに合わせてインタラクション、コンテンツ、レコメンデーションをカスタマイズすることを目的としている。 パラメータ効率のよい微調整法(PEFT)は性能と一般化に優れるが、個別に使用する場合、コストがかかり共同利益が制限される。 この目的のために,Personalized Pieces (Per-Pcs) というフレームワークを紹介した。 Per-Pcsは、共有者の選択、PEFTの断片分割、各ピースのトレーニングゲートを含む。 これらのピースはプールに追加され、ターゲットユーザーが履歴データを使用して個人化されたPEFTを選択して組み立てることができる。 このアプローチはプライバシを保護し、過剰なストレージや計算要求を伴わずに、きめ細かいユーザモデリングを可能にする。 実験結果によると、Per-Pcsは個人化やPEFT検索のベースラインよりも優れており、OPPUに匹敵する性能で、6つのタスク間でのリソース使用率が著しく低い。 さらに分析は、共有者数と選択戦略、部品共有率、計算時間とストレージ空間のスケーラビリティに関するPer-Pcsの堅牢性を強調している。 Per-Pcs のモジュラリティは安全な共有を促進し、LLM のパーソナライゼーションをより効率的、効果的、広くアクセスできるようにする。

Personalized large language models (LLMs) aim to tailor interactions, content, and recommendations to individual user preferences. While parameter-efficient fine-tuning (PEFT) methods excel in performance and generalization, they are costly and limit communal benefits when used individually. To this end, we introduce Personalized Pieces (Per-Pcs), a framework that allows users to safely share and assemble personalized PEFT efficiently with collaborative efforts. Per-Pcs involves selecting sharers, breaking their PEFT into pieces, and training gates for each piece. These pieces are added to a pool, from which target users can select and assemble personalized PEFT using their history data. This approach preserves privacy and enables fine-grained user modeling without excessive storage and computation demands. Experimental results show Per-Pcs outperforms non-personalized and PEFT retrieval baselines, offering performance comparable to OPPU with significantly lower resource use across six tasks. Further analysis highlights Per-Pcs's robustness concerning sharer count and selection strategy, pieces sharing ratio, and scalability in computation time and storage space. Per-Pcs's modularity promotes safe sharing, making LLM personalization more efficient, effective, and widely accessible through collaborative efforts.
翻訳日:2024-06-19 00:22:43 公開日:2024-06-15
# 偏差検出のための離散潜在視点学習

Discrete Latent Perspective Learning for Segmentation and Detection ( http://arxiv.org/abs/2406.10475v1 )

ライセンス: Link先を確認
Deyi Ji, Feng Zhao, Lanyun Zhu, Wenwei Jin, Hongtao Lu, Jieping Ye, (参考訳) 本稿では、機械学習とコンピュータビジョンにおけるパースペクティブ不変学習の課題に対処し、ネットワークが様々な視点から画像を理解し、一貫した意味的解釈を達成できるようにする。 標準的なアプローチは,多視点画像の労働集約化や限られたデータ拡張技術に頼っているが,従来の一視点画像を用いた潜在多視点融合学習のための新しいフレームワークであるDLPL(Disdisrete Latent Perspective Learning)を提案する。 DLPLは、パースペクティブ離散分解(PDD)、パースペクティブホモグラフィ変換(PHT)、パースペクティブ不変注意(PIA)の3つの主要なモジュールから構成される。 DLPLは、様々なシナリオやビジョンタスクに適用可能な、普遍的な視点学習フレームワークである。 大規模な実験により、DLPLは、さまざまなシナリオ(日光写真、UAV、自動運転)とタスク(検出、セグメンテーション)にまたがるイメージを描写する能力を大幅に向上することが示された。

In this paper, we address the challenge of Perspective-Invariant Learning in machine learning and computer vision, which involves enabling a network to understand images from varying perspectives to achieve consistent semantic interpretation. While standard approaches rely on the labor-intensive collection of multi-view images or limited data augmentation techniques, we propose a novel framework, Discrete Latent Perspective Learning (DLPL), for latent multi-perspective fusion learning using conventional single-view images. DLPL comprises three main modules: Perspective Discrete Decomposition (PDD), Perspective Homography Transformation (PHT), and Perspective Invariant Attention (PIA), which work together to discretize visual features, transform perspectives, and fuse multi-perspective semantic information, respectively. DLPL is a universal perspective learning framework applicable to a variety of scenarios and vision tasks. Extensive experiments demonstrate that DLPL significantly enhances the network's capacity to depict images across diverse scenarios (daily photos, UAV, auto-driving) and tasks (detection, segmentation).
翻訳日:2024-06-19 00:22:43 公開日:2024-06-15
# 二次量子マスター方程式の完全正と熱緩和

Complete Positivity and Thermal Relaxation in Quadratic Quantum Master Equations ( http://arxiv.org/abs/2406.10477v1 )

ライセンス: Link先を確認
F. Nicacio, T. Koide, (参考訳) このプロジェクトの最終的な目標は、完全に正かつトレース保存(CPTP)マップの要求を満たす量子マスター方程式を導出する体系的な方法を開発することであり、さらに熱緩和過程を記述することである。 本稿では、[Physics Letters A, 494, 129277 (2024)]で提案された一般化ブラウン運動の正準量子化によって量子マスター方程式が得られると仮定する。 少なくとも古典的には、この力学はハミルトニアン系の選択に関係なく熱緩和過程を記述する。 残りの課題は、量子マスター方程式が完全な正の値を満たすことを保証するパラメータを特定することである。 我々は、議論を多体二次ハミルトニアンに限定し、量子マスター方程式のCPTP基準を確立する。 この基準は、量子効果が熱伝導をどう変化させるかを研究するために用いられてきたネットワークモデルのような相互作用を持つモデルに量子マスター方程式を適用するのに有用である。

The ultimate goal of this project is to develop a systematic method for deriving quantum master equations that satisfy the requirements of a completely positive and trace-preserving (CPTP) map, further describing thermal relaxation processes. In this paper, we assume that the quantum master equation is obtained through the canonical quantization of the generalized Brownian motion proposed in [Physics Letters A, 494, 129277 (2024)]. At least classically, this dynamics describes the thermal relaxation process regardless of the choice of the system Hamiltonian. The remaining task is to identify the parameters ensuring that the quantum master equation meets complete positivity. We limit our discussion to many-body quadratic Hamiltonians and establish a CPTP criterion for our quantum master equation. This criterion is useful for applying our quantum master equation to models with interaction such as a network model, which has been used to investigate how quantum effects modify heat conduction.
翻訳日:2024-06-19 00:22:43 公開日:2024-06-15
# 言葉から世界へ:コミュニケーティブLLMエージェントによるワンライン・プロンプトから没入型マルチモーダル・デジタルストーリーへ

From Words to Worlds: Transforming One-line Prompt into Immersive Multi-modal Digital Stories with Communicative LLM Agent ( http://arxiv.org/abs/2406.10478v1 )

ライセンス: Link先を確認
Samuel S. Sohn, Danrui Li, Sen Zhang, Che-Jui Chang, Mubbasir Kapadia, (参考訳) エンターテイメント、教育、マーケティングに不可欠なデジタルストーリーテリングは、プロダクションのスケーラビリティと柔軟性の課題に直面している。 本稿では,大規模言語モデルと生成ツールを用いて,デジタルストーリーテリングの自動化と洗練を行う。 トップダウンのストーリードラフトとボトムアップのアセット生成アプローチを採用して、手動の介入、インタラクティブなシーンオーケストレーション、物語の一貫性といった重要な問題に取り組む。 このフレームワークは、インタラクティブで一貫した物語を複数のモダリティにわたって効率的に作成し、コンテンツの創造を民主化し、エンゲージメントを高める。 提案手法は,参照ビデオを使わずにコヒーレントなデジタルストーリーを作成できることを示し,自動化されたデジタルストーリーテリングの大幅な進歩を示すものである。

Digital storytelling, essential in entertainment, education, and marketing, faces challenges in production scalability and flexibility. The StoryAgent framework, introduced in this paper, utilizes Large Language Models and generative tools to automate and refine digital storytelling. Employing a top-down story drafting and bottom-up asset generation approach, StoryAgent tackles key issues such as manual intervention, interactive scene orchestration, and narrative consistency. This framework enables efficient production of interactive and consistent narratives across multiple modalities, democratizing content creation and enhancing engagement. Our results demonstrate the framework's capability to produce coherent digital stories without reference videos, marking a significant advancement in automated digital storytelling.
翻訳日:2024-06-19 00:12:44 公開日:2024-06-15
# 最大多様性ファインチューニングによる大規模言語モデルのプランニング能力のアンロック

Unlocking Large Language Model's Planning Capabilities with Maximum Diversity Fine-tuning ( http://arxiv.org/abs/2406.10479v1 )

ライセンス: Link先を確認
Wenjun Li, Changyu Chen, Pradeep Varakantham, (参考訳) 大規模言語モデル(LLM)は、技術やシステム設計の推進によって達成された、目覚ましいタスク解決能力を示している。 しかし、しばしば有効な計画を作成するのに苦労するため、計画タスクの熟練度について懸念が持ち上がっている。 本稿では,LLMの計画能力に及ぼす微調整の影響について検討する。 以上の結果から, LLM は詳細な微調整(具体例数件)により, 計画の立案に優れた性能を発揮することが示唆された。 しかし、微調整は経済的、計算的コストに大きく関係している。 この課題に対処するため,計画領域におけるファインチューニングのサンプル効率を改善するために,MDFT(Maximum Diversity Fine-Tuning)戦略を提案する。 具体的には、MDFT-gと呼ばれるアルゴリズムで、計画タスクのインスタンスをグラフ表現でエンコードし、データの多様性を最大化するベクトル空間内のサンプルのサブセットを選択する。 MDFT-gは、複数のベンチマークドメインにわたる様々なスケールにおいて、既存のベースラインを一貫して上回っていることを実証的に実証する。

Large language models (LLMs) have demonstrated impressive task-solving capabilities, achieved through either prompting techniques or system designs. However, concerns have arisen regarding their proficiency in planning tasks, as they often struggle to generate valid plans. This paper investigates the impact of fine-tuning on LLMs' planning capabilities. Our findings indicate that LLMs can achieve good performance in planning through substantial (thousands of specific examples) fine-tuning. However, fine-tuning is associated with significant economic and computational costs. To address this challenge, we propose the Maximum Diversity Fine-Tuning (MDFT) strategy to improve the sample efficiency of fine-tuning in the planning domain. Specifically, our algorithm, referred to as MDFT-g, encodes the planning task instances with their graph representations and selects a subset of samples in the vector space that maximizes data diversity. We empirically demonstrate that MDFT-g consistently outperforms existing baselines at various scales across multiple benchmark domains.
翻訳日:2024-06-19 00:12:44 公開日:2024-06-15
# 大規模因果構造学習のための分散学習法DCDILP

DCDILP: a distributed learning method for large-scale causal structure learning ( http://arxiv.org/abs/2406.10481v1 )

ライセンス: Link先を確認
Shuyu Dong, Michèle Sebag, Kento Uemura, Akito Fujii, Shuang Chang, Yusuke Koyanagi, Koji Maruhashi, (参考訳) 本稿では,分断・対数的枠組みによる因果発見への新たなアプローチを提案する。 マルコフ毛布上に定義されたより小さなサブプロブレムに分解することで、提案したDCDILP法は、これらのサブプロブレムの局所因果グラフを並列に探索する。 しかし、この局所的な発見フェーズは、隠れた共同創設者の存在(マルコフの毛布内の変数は外部変数に影響される可能性がある)によって体系的な課題に遭遇する。 さらに、これらの局所因果グラフを一貫したグローバルグラフに集約することで、大規模な組合せ最適化問題を定義する。 DCDILPは以下の課題に対処する。 一 マルコフ毛布の中央変数にのみ関連する因果関係に限る。 二 整数線形計画法として局所因果グラフの整合を定式化すること。 この手法の利点は、因果発見精度と問題の大きさのスケーラビリティの両方の観点から、実験と最先端技術との比較によって示される。

This paper presents a novel approach to causal discovery through a divide-and-conquer framework. By decomposing the problem into smaller subproblems defined on Markov blankets, the proposed DCDILP method first explores in parallel the local causal graphs of these subproblems. However, this local discovery phase encounters systematic challenges due to the presence of hidden confounders (variables within each Markov blanket may be influenced by external variables). Moreover, aggregating these local causal graphs in a consistent global graph defines a large size combinatorial optimization problem. DCDILP addresses these challenges by: i) restricting the local subgraphs to causal links only related with the central variable of the Markov blanket; ii) formulating the reconciliation of local causal graphs as an integer linear programming method. The merits of the approach, in both terms of causal discovery accuracy and scalability in the size of the problem, are showcased by experiments and comparisons with the state of the art.
翻訳日:2024-06-19 00:12:44 公開日:2024-06-15
# 生ビデオを超えて: 大きなマルチモーダルモデルで編集されたビデオを理解する

Beyond Raw Videos: Understanding Edited Videos with Large Multimodal Model ( http://arxiv.org/abs/2406.10484v1 )

ライセンス: Link先を確認
Lu Xu, Sijie Zhu, Chunyuan Li, Chia-Wen Kuo, Fan Chen, Xinyao Wang, Guang Chen, Dawei Du, Ye Yuan, Longyin Wen, (参考訳) 新たなビデオLMM (Large Multimodal Models) は,VQA (Visual Question Answering) という形で一般的なビデオ理解において,カメラによって生映像をキャプチャする,大幅な改善を実現している。 しかし、現実世界のアプリケーションにおけるビデオの大部分は、編集されたビデオである‘textit{e g } で、ユーザーは通常、ソーシャルメディアプラットフォームに公開する前に、生のビデオにエフェクトや修正を加える。 編集されたビデオは通常、高い視聴数を持つが、既存のビデオLMM、 \textit{i.e.}、ActivityNet-QA、VideoChatGPTベンチマークではカバーされない。 本稿では,人気のショートビデオプラットフォームである‘textit{i.e.},TikTok’の編集ビデオを活用し,エフェクト,面白い,ミーム,ゲームという4つの典型的な編集カテゴリをカバーするビデオVQAベンチマーク(EditVid-QA)を構築する。 ファニービデオとミームビデオは、曖昧な理解と高レベルの推論をベンチマークし、エフェクトとゲームは人工デザインの理解能力を評価する。 オープンソースビデオのLMMのほとんどはEditVid-QAベンチマークでは不十分で、ソーシャルメディア上の編集されたショートビデオと通常の生ビデオの間に大きなドメインギャップがあることを示している。 Panda-70M/WebVid生ビデオとTikTok/CapCut編集ビデオの両方に基づいて,LMMの一般化能力を向上させるため,提案したEditVid-QAベンチマークの性能を高め,高品質なトレーニングデータの有効性を示す。 また, GPT-3.5 判定器を用いた既存の評価プロトコルの深刻な問題,すなわち「sorry」攻撃では, VideoChatGPT 評価プロトコルの正確性スコアが4.3以上で GPT 判定器から極めて高い評価が得られる。 この攻撃を避けるため,GPT-4判定とキーワードフィルタリングによる評価を行った。 データセットは学術目的でのみリリースされる。

The emerging video LMMs (Large Multimodal Models) have achieved significant improvements on generic video understanding in the form of VQA (Visual Question Answering), where the raw videos are captured by cameras. However, a large portion of videos in real-world applications are edited videos, \textit{e.g.}, users usually cut and add effects/modifications to the raw video before publishing it on social media platforms. The edited videos usually have high view counts but they are not covered in existing benchmarks of video LMMs, \textit{i.e.}, ActivityNet-QA, or VideoChatGPT benchmark. In this paper, we leverage the edited videos on a popular short video platform, \textit{i.e.}, TikTok, and build a video VQA benchmark (named EditVid-QA) covering four typical editing categories, i.e., effect, funny, meme, and game. Funny and meme videos benchmark nuanced understanding and high-level reasoning, while effect and game evaluate the understanding capability of artificial design. Most of the open-source video LMMs perform poorly on the EditVid-QA benchmark, indicating a huge domain gap between edited short videos on social media and regular raw videos. To improve the generalization ability of LMMs, we collect a training set for the proposed benchmark based on both Panda-70M/WebVid raw videos and small-scale TikTok/CapCut edited videos, which boosts the performance on the proposed EditVid-QA benchmark, indicating the effectiveness of high-quality training data. We also identified a serious issue in the existing evaluation protocol using the GPT-3.5 judge, namely a "sorry" attack, where a sorry-style naive answer can achieve an extremely high rating from the GPT judge, e.g., over 4.3 for correctness score on VideoChatGPT evaluation protocol. To avoid the "sorry" attacks, we evaluate results with GPT-4 judge and keyword filtering. The datasets will be released for academic purposes only.
翻訳日:2024-06-19 00:12:44 公開日:2024-06-15
# ラベルは、データセットの蒸留で数千枚の画像の価値がある

A Label is Worth a Thousand Images in Dataset Distillation ( http://arxiv.org/abs/2406.10485v1 )

ライセンス: Link先を確認
Tian Qin, Zhiwei Deng, David Alvarez-Melis, (参考訳) データ$\textit{quality}$は、機械学習モデルのパフォーマンスにおいて重要な要素である。この原則は、トレーニングデータセットを、同じようなダウンストリームのパフォーマンスを維持するための、はるかに小さなデータセットに圧縮することで、データセットの蒸留方法を活用する。 データ蒸留法がどのように機能するかを理解することは、これらの方法を改善するだけでなく、「良い」訓練データの基本的特徴を明らかにするためにも不可欠である。 しかし、この目的を達成する上での大きな課題は、高度だがほとんど異なる合成データを生成する方法に依存している蒸留アプローチが互いにほとんど共通点がないという観察である。 本稿では、これらの手法のほとんどに共通するほとんど見過ごされた側面、すなわちソフトな(確率的な)ラベルの使用に焦点を当てる。 一連のアブレーション実験を通じて,軟質ラベルの深部における役割について検討した。 以上の結果から, 最先端蒸留法の性能を説明する主な要因は, 合成データを生成するための特定の技術ではなく, ソフトラベルの利用であることが明らかとなった。 さらに、全てのソフトラベルが等しく作成されるわけではないことを示し、有益な$\textit{structured information}$を含まなければならない。 また,蒸留データセットのイメージ・パー・クラスの関数として,ソフトラベルの有効性を特徴付ける経験的スケーリング法を提供し,データ効率の学習のための経験的パレートフロンティアを確立する。 本研究は, データセット蒸留における従来の知恵に挑戦し, 学習におけるソフトラベルの重要性を浮き彫りにして, 蒸留法の改良に向けた新たな方向性を提案する。 すべての実験のコードはhttps://github.com/sunnytqin/no-distillationで公開されている。

Data $\textit{quality}$ is a crucial factor in the performance of machine learning models, a principle that dataset distillation methods exploit by compressing training datasets into much smaller counterparts that maintain similar downstream performance. Understanding how and why data distillation methods work is vital not only for improving these methods but also for revealing fundamental characteristics of "good" training data. However, a major challenge in achieving this goal is the observation that distillation approaches, which rely on sophisticated but mostly disparate methods to generate synthetic data, have little in common with each other. In this work, we highlight a largely overlooked aspect common to most of these methods: the use of soft (probabilistic) labels. Through a series of ablation experiments, we study the role of soft labels in depth. Our results reveal that the main factor explaining the performance of state-of-the-art distillation methods is not the specific techniques used to generate synthetic data but rather the use of soft labels. Furthermore, we demonstrate that not all soft labels are created equal; they must contain $\textit{structured information}$ to be beneficial. We also provide empirical scaling laws that characterize the effectiveness of soft labels as a function of images-per-class in the distilled dataset and establish an empirical Pareto frontier for data-efficient learning. Combined, our findings challenge conventional wisdom in dataset distillation, underscore the importance of soft labels in learning, and suggest new directions for improving distillation methods. Code for all experiments is available at https://github.com/sunnytqin/no-distillation.
翻訳日:2024-06-19 00:12:44 公開日:2024-06-15
# 人種・民族・ジェンダーに関する雇用決定において、大規模言語モデルは区別されるか?

Do Large Language Models Discriminate in Hiring Decisions on the Basis of Race, Ethnicity, and Gender? ( http://arxiv.org/abs/2406.10486v1 )

ライセンス: Link先を確認
Haozhe An, Christabel Acquaye, Colin Wang, Zongxia Li, Rachel Rudinger, (参考訳) 大規模言語モデル (LLM) が, 社会科学における古典的な発見(Bertrand, Mullainathan, 2004) と同様, 雇用決定における人種と性別に基づく名前の差別を示すか否かを検討する。 我々は、LLMに対して、雇用決定を告げるメールを書くための一連のテンポラティックなプロンプトを設計する。 応募者のファーストネームを操作することで、LLMが受信メールや拒否メールを生成する確率に対する、認識された人種、民族、性別の影響を測定する。 LLMの雇用決定は、ヒスパニック系の応募者よりも白人の応募者の方が好まれる傾向にある。 総じて、最も高い受理率の集団は、それぞれ白人男性名とヒスパニック男性名である。 しかし、グループごとの受容率は、異なる温度条件下で異なるため、LLMの人種感受性と性別感受性は、慣用的かつ即効性である可能性が示唆されている。

We examine whether large language models (LLMs) exhibit race- and gender-based name discrimination in hiring decisions, similar to classic findings in the social sciences (Bertrand and Mullainathan, 2004). We design a series of templatic prompts to LLMs to write an email to a named job applicant informing them of a hiring decision. By manipulating the applicant's first name, we measure the effect of perceived race, ethnicity, and gender on the probability that the LLM generates an acceptance or rejection email. We find that the hiring decisions of LLMs in many settings are more likely to favor White applicants over Hispanic applicants. In aggregate, the groups with the highest and lowest acceptance rates respectively are masculine White names and masculine Hispanic names. However, the comparative acceptance rates by group vary under different templatic settings, suggesting that LLMs' race- and gender-sensitivity may be idiosyncratic and prompt-sensitive.
翻訳日:2024-06-19 00:12:44 公開日:2024-06-15
# アクティブかつ有意なリスク制御予測セット

Active, anytime-valid risk controlling prediction sets ( http://arxiv.org/abs/2406.10490v1 )

ライセンス: Link先を確認
Ziyu Xu, Nikos Karampatziakis, Paul Mineiro, (参考訳) 危険度対策に関するブラックボックス機械学習モデルの安全性を厳格に確立することは、モデル行動に関する保証を提供する上で重要である。 近年、Bates et al (JACM '24) は、機械学習モデルから統計的に低いリスクを保証された予測セットを生成するためのリスク制御予測セット (RCPS) の概念を導入している。 本手法はこの概念を逐次的設定にまで拡張し,データを適応的に収集した場合でも保証を提供し,リスク保証が常に有効であることを保証する。 さらに、アクティブなラベル付けのためのRCPSを構築するためのフレームワーク、すなわち、受信した各データポイントに対して真のラベルを照会するかを選択し、ラベルを照会したデータポイントの期待割合が所定のラベル予算以下であることを保証するラベル付けポリシーを使用できるフレームワークを提案する。 また、予測器(リスク制御保証を提供する機械学習モデル)を用いて、共変量に対する予測リスクを推定することにより、RCPSの有用性をさらに向上させる方法について述べる。 固定ラベル予算下でのラベルポリシーと予測器の最適選択を特徴付けるとともに、最適ラベルポリシーと予測器の推定誤差をRCPSの基盤となる富の過程に関連づけた後悔の結果を示す。 最後に,ラベルポリシーを定式化するための実践的な方法を提案するとともに,ラベルポリシーが,シミュレーションと実データの両方において,単純なベースラインラベリング戦略(例えば,全ての点のラベル付け,ランダムなラベル付け点)よりも有効性を高めるために,ラベルポリシーが少ないことを実証的に示す。

Rigorously establishing the safety of black-box machine learning models concerning critical risk measures is important for providing guarantees about model behavior. Recently, Bates et. al. (JACM '24) introduced the notion of a risk controlling prediction set (RCPS) for producing prediction sets that are statistically guaranteed low risk from machine learning models. Our method extends this notion to the sequential setting, where we provide guarantees even when the data is collected adaptively, and ensures that the risk guarantee is anytime-valid, i.e., simultaneously holds at all time steps. Further, we propose a framework for constructing RCPSes for active labeling, i.e., allowing one to use a labeling policy that chooses whether to query the true label for each received data point and ensures that the expected proportion of data points whose labels are queried are below a predetermined label budget. We also describe how to use predictors (i.e., the machine learning model for which we provide risk control guarantees) to further improve the utility of our RCPSes by estimating the expected risk conditioned on the covariates. We characterize the optimal choices of label policy and predictor under a fixed label budget and show a regret result that relates the estimation error of the optimal labeling policy and predictor to the wealth process that underlies our RCPSes. Lastly, we present practical ways of formulating label policies and empirically show that our label policies use fewer labels to reach higher utility than naive baseline labeling strategies (e.g., labeling all points, randomly labeling points) on both simulations and real data.
翻訳日:2024-06-19 00:12:44 公開日:2024-06-15
# イベントフォアキャスターとしての大規模言語モデル

Large Language Models as Event Forecasters ( http://arxiv.org/abs/2406.10492v1 )

ライセンス: Link先を確認
Libo Zhang, Yue Ning, (参考訳) 人間の出来事の鍵となる要素は、主題、関係、対象、タイムスタンプからなる四重項として抽出される。 この表現は5番目の要素(イベントを簡潔に記述したテキスト概要)を追加することで5番目の要素に拡張することができる。 これらの四重項または四重項は、特定の領域内で組織化されると、時間的知識グラフ(TKG)を形成する。 現在の学習フレームワークは、与えられた対象と関係を予測したり、次の時間ウィンドウで複数の種類の事象(つまり関係)の発生を予測するといった、TKG関連のタスクに焦点をあてている。 通常、中間埋め込みを更新するためにグラフニューラルネットワーク(GNN)やリカレントニューラルネットワーク(RNN)のような複雑な構造的およびシーケンシャルなモデルに依存する。 しかし、これらの手法は、各クインタプルに固有の文脈情報を無視することが多く、簡潔なテキスト記述によって効果的に捉えられる。 本稿では,大規模言語モデル(LLM)が,予測タスクにおける競合精度を維持しつつ,TKG学習フレームワークの設計を合理化する方法について検討する。 我々は,オブジェクト予測(OP)タスクを標準質問応答(QA)タスクとしてフレーム化するための複数のプロンプトテンプレートを開発し,エンコーダ・デコーダ生成LLMを用いて命令の微調整を行う。 マルチイベント予測 (MEF) では,TKG毎の簡易かつ効果的なプロンプトテンプレートを設計する。 この手法は, エンコーダのみのLLMを用いて固定中間埋め込みを生成することにより, GNNとRNNの必要性を排除し, 将来的な関係を予測するための自己認識機構を備えた予測ヘッドで処理する。 様々な評価指標を用いた複数の実世界のデータセットに対する大規模な実験により、我々のアプローチの有効性とロバスト性を検証した。

Key elements of human events are extracted as quadruples that consist of subject, relation, object, and timestamp. This representation can be extended to a quintuple by adding a fifth element: a textual summary that briefly describes the event. These quadruples or quintuples, when organized within a specific domain, form a temporal knowledge graph (TKG). Current learning frameworks focus on a few TKG-related tasks, such as predicting an object given a subject and a relation or forecasting the occurrences of multiple types of events (i.e., relation) in the next time window. They typically rely on complex structural and sequential models like graph neural networks (GNNs) and recurrent neural networks (RNNs) to update intermediate embeddings. However, these methods often neglect the contextual information inherent in each quintuple, which can be effectively captured through concise textual descriptions. In this paper, we investigate how large language models (LLMs) can streamline the design of TKG learning frameworks while maintaining competitive accuracy in prediction and forecasting tasks. We develop multiple prompt templates to frame the object prediction (OP) task as a standard question-answering (QA) task, suitable for instruction fine-tuning with an encoder-decoder generative LLM. For multi-event forecasting (MEF), we design simple yet effective prompt templates for each TKG quintuple. This novel approach removes the need for GNNs and RNNs, instead utilizing an encoder-only LLM to generate fixed intermediate embeddings, which are subsequently processed by a prediction head with a self-attention mechanism to forecast potential future relations. Extensive experiments on multiple real-world datasets using various evaluation metrics validate the effectiveness and robustness of our approach.
翻訳日:2024-06-19 00:12:44 公開日:2024-06-15
# グラフニューラルネットワークのための統一グラフ選択型プロンプト学習

A Unified Graph Selective Prompt Learning for Graph Neural Networks ( http://arxiv.org/abs/2406.10498v1 )

ライセンス: Link先を確認
Bo Jiang, Hao Wu, Ziyan Zhang, Beibei Wang, Jin Tang, (参考訳) 近年,グラフ表現学習のための事前学習モデルの適用において,グラフプロンプト学習/チューニングが注目されている。 グラフプロンプト学習の一種として、グラフプロンプト特徴量(GPF)は、グラフニューラルネットワーク(GNN)の事前学習モデルの適用において顕著な成功を収めた。 事前訓練されたGNNモデルのパラメータを固定することにより、GPFの目的は、グラフノード機能にいくつかの(学習可能な)プロンプトベクトルを追加して、より小さなデータセットの下流タスクとの整合性を高めることで、入力グラフデータを修正することである。 しかし、既存のGPFは一般に2つの大きな制限がある。 まず、GPFはグラフエッジのプロンプトを無視したノードプロンプト学習に重点を置いている。 第二に、既存のGPFは一般に、異なるノードの重要さを捉えるのに失敗し、下流のタスクに合わせると、敏感にw.r.tノイズの多いノードを実行する。 本稿では,GNNファインチューニングのための新しいグラフ選択型プロンプト特徴学習(GSPF)を提案する。 提案したGSPFは,グラフノードとエッジの双方でのプロンプト学習を統合し,グラフデータの統一的なプロンプトモデルを提供する。 さらに、重要なノードとエッジに集中して、ノードとエッジを選択的に学習することで、モデルをより信頼性とコンパクトにする。 多くのベンチマークデータセットに対する実験結果から,提案手法の有効性と利点が示された。

In recent years, graph prompt learning/tuning has garnered increasing attention in adapting pre-trained models for graph representation learning. As a kind of universal graph prompt learning method, Graph Prompt Feature (GPF) has achieved remarkable success in adapting pre-trained models for Graph Neural Networks (GNNs). By fixing the parameters of a pre-trained GNN model, the aim of GPF is to modify the input graph data by adding some (learnable) prompt vectors into graph node features to better align with the downstream tasks on the smaller dataset. However, existing GPFs generally suffer from two main limitations. First, GPFs generally focus on node prompt learning which ignore the prompting for graph edges. Second, existing GPFs generally conduct the prompt learning on all nodes equally which fails to capture the importances of different nodes and may perform sensitively w.r.t noisy nodes in aligning with the downstream tasks. To address these issues, in this paper, we propose a new unified Graph Selective Prompt Feature learning (GSPF) for GNN fine-tuning. The proposed GSPF integrates the prompt learning on both graph node and edge together, which thus provides a unified prompt model for the graph data. Moreover, it conducts prompt learning selectively on nodes and edges by concentrating on the important nodes and edges for prompting which thus make our model be more reliable and compact. Experimental results on many benchmark datasets demonstrate the effectiveness and advantages of the proposed GSPF method.
翻訳日:2024-06-19 00:12:44 公開日:2024-06-15
# グラフ間の測地距離:グラフニューラルネットワークの安定性を評価するスペクトル距離

Geodesic Distance Between Graphs: A Spectral Metric for Assessing the Stability of Graph Neural Networks ( http://arxiv.org/abs/2406.10500v1 )

ライセンス: Link先を確認
Soumen Sikder Shuvo, Ali Aghdaei, Zhuo Feng, (参考訳) 本稿では,グラフ測地距離(GGD)メトリクスを導入することにより,グラフニューラルネットワーク(GNN)の一般化と安定性を評価するためのスペクトルフレームワークを提案する。 同じ数のノードを持つ2つの異なるグラフに対して、我々のフレームワークはスペクトルグラフマッチング手法を利用してノード対応を見つけ、それらの間の測地距離を、ラプラシア行列に関連する一般化固有値問題を解くことによって計算することができる。 異なる大きさのグラフに対して、抵抗ベースのスペクトルグラフ粗化スキームを導入し、元のスペクトル特性を保ちながら、より大きなグラフのサイズを小さくする。 提案手法は,ノード間の有効抵抗,カット,ランダムウォークの混合時間などの重要な構造(スペクトル)特性の違いをカプセル化することにより,二つのグラフ間の相違性を効果的に定量化できることを示す。 最新のTree-Mover's Distance(TMD)測定値など,最先端の計測値と比較した広範な実験を通じて,提案したGGD測定値は,特に部分ノード特性のみの場合に,GNNの安定性評価において著しく向上したことを示す。

This paper presents a spectral framework for assessing the generalization and stability of Graph Neural Networks (GNNs) by introducing a Graph Geodesic Distance (GGD) metric. For two different graphs with the same number of nodes, our framework leverages a spectral graph matching procedure to find node correspondence so that the geodesic distance between them can be subsequently computed by solving a generalized eigenvalue problem associated with their Laplacian matrices. For graphs with different sizes, a resistance-based spectral graph coarsening scheme is introduced to reduce the size of the bigger graph while preserving the original spectral properties. We show that the proposed GGD metric can effectively quantify dissimilarities between two graphs by encapsulating their differences in key structural (spectral) properties, such as effective resistances between nodes, cuts, the mixing time of random walks, etc. Through extensive experiments comparing with the state-of-the-art metrics, such as the latest Tree-Mover's Distance (TMD) metric, the proposed GGD metric shows significantly improved performance for stability evaluation of GNNs especially when only partial node features are available.
翻訳日:2024-06-19 00:12:44 公開日:2024-06-15
# 手話認識のための空間的一貫性を用いた自己教師付き表現学習

Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition ( http://arxiv.org/abs/2406.10501v1 )

ライセンス: Link先を確認
Weichao Zhao, Wengang Zhou, Hezhen Hu, Min Wang, Houqiang Li, (参考訳) 近年,自己指導型学習手法を設計することで手話認識の性能向上に努めている。 しかし、これらの手法は、フレームワイズ学習方式で手話データから限られた情報をキャプチャし、サブ最適解をもたらす。 この目的のために,2つの異なる視点から空間的時間的整合性を通してリッチな文脈を抽出し,手話認識のためのインスタンス識別表現を学習する,シンプルで効果的な自己指導型コントラスト学習フレームワークを提案する。 一方,手話の意味論は細粒度の手と粗粒度トランクの協調によって表現されるため,粒度情報とそれを潜在空間にエンコードする。 手動とトランクの特徴の一貫性は、インスタンスサンプルの一貫性のある表現の学習を促進するために制約される。 一方,動作の相補性や関節モーダル性に着想を得て,手話モデルに一階動作情報を導入する。 さらに、両モードの埋め込み空間間の相互作用をさらに橋渡しし、双方向の知識伝達を容易にし、手話表現を強化する。 提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。 ソースコードはhttps://github.com/sakura/Code.comで公開されている。

Recently, there have been efforts to improve the performance in sign language recognition by designing self-supervised learning methods. However, these methods capture limited information from sign pose data in a frame-wise learning manner, leading to sub-optimal solutions. To this end, we propose a simple yet effective self-supervised contrastive learning framework to excavate rich context via spatial-temporal consistency from two distinct perspectives and learn instance discriminative representation for sign language recognition. On one hand, since the semantics of sign language are expressed by the cooperation of fine-grained hands and coarse-grained trunks, we utilize both granularity information and encode them into latent spaces. The consistency between hand and trunk features is constrained to encourage learning consistent representation of instance samples. On the other hand, inspired by the complementary property of motion and joint modalities, we first introduce first-order motion information into sign language modeling. Additionally, we further bridge the interaction between the embedding spaces of both modalities, facilitating bidirectional knowledge transfer to enhance sign language representation. Our method is evaluated with extensive experiments on four public benchmarks, and achieves new state-of-the-art performance with a notable margin. The source code is publicly available at https://github.com/sakura/Code.
翻訳日:2024-06-19 00:12:44 公開日:2024-06-15
# Candidate Pseudolabel Learning: ラベルなしデータによるプロンプトチューニングによるビジョンランゲージモデルの強化

Candidate Pseudolabel Learning: Enhancing Vision-Language Models by Prompt Tuning with Unlabeled Data ( http://arxiv.org/abs/2406.10502v1 )

ライセンス: Link先を確認
Jiahan Zhang, Qi Wei, Feng Liu, Lei Feng, (参考訳) 近年,ラベルなしデータの多い微調整型視覚言語モデル (VLM) が注目されている。 擬似ラベル方式を利用する既存の方法は、VLMが下流タスクでゼロショット性能が低い場合に、非常に誤ったハードな擬似ラベルに悩まされる。 この問題を軽減するために,CPLと呼ばれるCandidate Pseudolabel Learning法を提案する。 提案手法のコアは疑似ラベルの生成戦略にあり, 未ラベルデータに対する信頼スコア行列に基づいて, イントラ・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・インター・イン・イントラスト・イン・イン・イン・イン・イン この戦略は、真のラベルインクルージョンとクラスバランスのインスタンス選択におけるより良いパフォーマンスをもたらす可能性がある。 このようにして、既存の損失関数を直接適用して、生成された候補 psueudolabel で学習することができる。 3つの学習パラダイムを持つ9つのベンチマークデータセットの大規模な実験により,本手法の有効性が示された。 私たちのコードはhttps://github.com/vanillaer/CPL-ICML2024で確認できます。

Fine-tuning vision-language models (VLMs) with abundant unlabeled data recently has attracted increasing attention. Existing methods that resort to the pseudolabeling strategy would suffer from heavily incorrect hard pseudolabels when VLMs exhibit low zero-shot performance in downstream tasks. To alleviate this issue, we propose a Candidate Pseudolabel Learning method, termed CPL, to fine-tune VLMs with suitable candidate pseudolabels of unlabeled data in downstream tasks. The core of our method lies in the generation strategy of candidate pseudolabels, which progressively generates refined candidate pseudolabels by both intra- and inter-instance label selection, based on a confidence score matrix for all unlabeled data. This strategy can result in better performance in true label inclusion and class-balanced instance selection. In this way, we can directly apply existing loss functions to learn with generated candidate psueudolabels. Extensive experiments on nine benchmark datasets with three learning paradigms demonstrate the effectiveness of our method. Our code can be found at https://github.com/vanillaer/CPL-ICML2024.
翻訳日:2024-06-19 00:12:44 公開日:2024-06-15
# Task Facet Learning: プロンプト最適化のための構造化アプローチ

Task Facet Learning: A Structured Approach to Prompt Optimization ( http://arxiv.org/abs/2406.10504v1 )

ライセンス: Link先を確認
Gurusha Juneja, Nagarajan Natarajan, Hua Li, Jian Jiao, Amit Sharma, (参考訳) 基本記述とその訓練例の形式でタスクを与えられた場合、与えられた情報を大言語モデル(LLM)のためのテキストプロンプトに合成する問題である。 人間は、タスク(例えば、反例、説明、類推)を定義し、それらをプロンプトに含める異なるファセットも考慮して、この問題を解決する。 しかし、与えられたプロンプトを反復的に編集するか、あるいはいくつかのインコンテキストの例を自動的に選択した既存のアルゴリズムアプローチが、複雑なタスクを解くのに必要な複数のファセットをカバーできるかどうかは不明である。 本研究では,一連の学習例からタスクの複数の面を学習する手法として,プロンプト最適化を考察する。 まず、プロンプトが疎結合なセマンティックセクションに分解され、プロンプトのパフォーマンスに比較的独立した効果が与えられることを発見します。次に、入力空間をクラスタ化し、クラスタ化されたバッチを使用して、最適化手順がバッチ間でタスクの異なる側面を学習できるようにします。 結果のアルゴリズムであるUniPromptは、各プロンプトセクションの初期候補を生成する生成モデルと、複数のミニバッチから提案された編集を集約してセクションの概念記述にまとめるフィードバックメカニズムで構成されている。 複数のデータセットと実世界のタスクに関する実証的な評価は、UniPromptを使って生成されたプロンプトが、人間のチューニングしたプロンプトと最先端の手法によるプロンプトよりも高い精度が得られることを示している。 特に,我々のアルゴリズムは,既存の手法では生成できない,長く複雑なプロンプトを生成することができる。 UniPromptのコードは \url{https://aka.ms/uniprompt} で入手できる。

Given a task in the form of a basic description and its training examples, prompt optimization is the problem of synthesizing the given information into a text prompt for a large language model (LLM). Humans solve this problem by also considering the different facets that define a task (e.g., counter-examples, explanations, analogies) and including them in the prompt. However, it is unclear whether existing algorithmic approaches, based on iteratively editing a given prompt or automatically selecting a few in-context examples, can cover the multiple facets required to solve a complex task. In this work, we view prompt optimization as that of learning multiple facets of a task from a set of training examples. We identify and exploit structure in the prompt optimization problem -- first, we find that prompts can be broken down into loosely coupled semantic sections that have a relatively independent effect on the prompt's performance; second, we cluster the input space and use clustered batches so that the optimization procedure can learn the different facets of a task across batches. The resulting algorithm, UniPrompt, consists of a generative model to generate initial candidates for each prompt section; and a feedback mechanism that aggregates suggested edits from multiple mini-batches into a conceptual description for the section. Empirical evaluation on multiple datasets and a real-world task shows that prompts generated using UniPrompt obtain higher accuracy than human-tuned prompts and those from state-of-the-art methods. In particular, our algorithm can generate long, complex prompts that existing methods are unable to generate. Code for UniPrompt will be available at \url{https://aka.ms/uniprompt}.
翻訳日:2024-06-19 00:12:44 公開日:2024-06-15
# CroPrompt: ゼロショット言語理解のためのクロスタスク対話型プロンプト

CroPrompt: Cross-task Interactive Prompting for Zero-shot Spoken Language Understanding ( http://arxiv.org/abs/2406.10505v1 )

ライセンス: Link先を確認
Libo Qin, Fuxuan Wei, Qiguang Chen, Jingxuan Zhou, Shijue Huang, Jiasheng Si, Wenpeng Lu, Wanxiang Che, (参考訳) スロットフィリングとインテント検出は、音声言語理解(SLU)における2つの非常に相関性の高いタスクである。 近年のSLU研究は,データ不足問題を軽減するため,大規模言語モデルのゼロショットプロンプト技術を探究している。 それにもかかわらず、既存のプロンプト処理はSLUのクロスタスクインタラクション情報を無視し、それが準最適性能をもたらす。 この問題を解決するために,SLUにおけるクロスタスク・インタラクティブ・プロンプティング(CroPrompt)の先駆的な取り組みを提案する。 さらに、インテント情報注入によるエラー伝播を軽減するために、マルチタスクの自己整合機構を導入する。 我々は標準SLUベンチマークで広範な実験を行い、CroPromptが既存のプロンプト手法よりも一貫して優れていることを示した。 さらに、マルチタスク自己整合機構は、エラー伝搬問題を効果的に緩和し、性能を向上させることができる。 この研究によって、SLUのためのクロスタスクプロンプトの研究がさらに促進されることを願っている。

Slot filling and intent detection are two highly correlated tasks in spoken language understanding (SLU). Recent SLU research attempts to explore zero-shot prompting techniques in large language models to alleviate the data scarcity problem. Nevertheless, the existing prompting work ignores the cross-task interaction information for SLU, which leads to sub-optimal performance. To solve this problem, we present the pioneering work of Cross-task Interactive Prompting (CroPrompt) for SLU, which enables the model to interactively leverage the information exchange across the correlated tasks in SLU. Additionally, we further introduce a multi-task self-consistency mechanism to mitigate the error propagation caused by the intent information injection. We conduct extensive experiments on the standard SLU benchmark and the results reveal that CroPrompt consistently outperforms the existing prompting approaches. In addition, the multi-task self-consistency mechanism can effectively ease the error propagation issue, thereby enhancing the performance. We hope this work can inspire more research on cross-task prompting for SLU.
翻訳日:2024-06-19 00:12:44 公開日:2024-06-15
# 教員の教育における人工知能受容のための計器の検証

Validating an Instrument for Teachers' Acceptance of Artificial Intelligence in Education ( http://arxiv.org/abs/2406.10506v1 )

ライセンス: Link先を確認
Shuchen Guo, Lehong Shi, Xiaoming Zhai, (参考訳) 人工知能(AI)は、教育において広く注目を集めているため、教員によるAI(TAAI)の受容を調べることが不可欠である。 しかし、既存のTAAI測定機器は信頼性と妥当性の限界を報告し、参加者にAIの情報的定義の欠如など、いくつかの設計課題に直面した。 本研究の目的は,TAAI機器の開発と評価であり,高い心理測定品質を示す十分な証拠を提供することである。 文献から,TAAIの5次元を初めて同定し,有用性,使いやすさ,行動意図,自己効力感,不安感を把握し,各次元を評価する項目を開発した。 本研究は,専門家レビューと思考アレンジによる顔と内容の妥当性の検討である。 改訂した計器を用いて,274人のプレサービス教員の回答を収集し,項目識別を行い,不適切な項目を同定した。 確認因子分析とクロンバッハのαを用いて, 構成妥当性, 収束妥当性, 識別妥当性, 信頼性を検討した。 その結果,5次元に27項目が分散した。 本研究は, TAAIの信頼性と信頼性を実証し, 有効測定器としての有用性を確認した。

As artificial intelligence (AI) receives wider attention in education, examining teachers' acceptance of AI (TAAI) becomes essential. However, existing instruments measuring TAAI reported limited reliability and validity evidence and faced some design challenges, such as missing informed definitions of AI to participants. This study aimed to develop and validate a TAAI instrument, with providing sufficient evidence for high psychometric quality. Based on the literature, we first identified five dimensions of TAAI, including perceived usefulness, perceived ease of use, behavioral intention, self-efficacy, and anxiety, and then developed items to assess each dimension. We examined the face and content validity using expert review and think-aloud with pre-service teachers. Using the revised instrument, we collected responses from 274 pre-service teachers and examined the item discriminations to identify outlier items. We employed the confirmatory factor analysis and Cronbach's alpha to examine the construct validity, convergent validity, discriminant validity, and reliability. Results confirmed the dimensionality of the scale, resulting in 27 items distributed in five dimensions. The study exhibits robust validity and reliability evidence for TAAI, thus affirming its usefulness as a valid measurement instrument.
翻訳日:2024-06-19 00:12:44 公開日:2024-06-15
# 教師付き・自己教師型音声基礎モデルを用いた子どものASRのベンチマーク

Benchmarking Children's ASR with Supervised and Self-supervised Speech Foundation Models ( http://arxiv.org/abs/2406.10507v1 )

ライセンス: Link先を確認
Ruchao Fan, Natarajan Balaji Shankar, Abeer Alwan, (参考訳) 音声基礎モデル(SFM)は、教師付き(例えばWhisper)や自己監督型(eg WavLM)において、様々な音声タスクに対して最先端の結果を得た。 しかし、子どものASRに対するSFMの性能は体系的に研究されていない。 さらに、標準評価による子ASRのベンチマークは存在しないため、新しいアイデアの比較は困難である。 本稿では, 様々なSFM(Whisper, Wav2vec2.0, HuBERT, WavLM)に基づいて, 児童音声データベースの総合ベンチマークを実施し, 提示する。 さらに,様々なデータ拡張法とパラメータ効率の微調整(PEFT)法を比較し,微調整戦略について検討した。 モデルのサイズが大きくなると,これらの手法の挙動が異なることが観察された。 例えば、PEFTは大型モデルではフルファインタニングのパフォーマンスに匹敵するが、小型モデルでは悪い。 拡張データを用いた微調整を安定化するために,正規化として摂動不変微調整(PIF)ロスを提案する。

Speech foundation models (SFMs) have achieved state-of-the-art results for various speech tasks in supervised (e.g. Whisper) or self-supervised systems (e.g. WavLM). However, the performance of SFMs for child ASR has not been systematically studied. In addition, there is no benchmark for child ASR with standard evaluations, making the comparisons of novel ideas difficult. In this paper, we initiate and present a comprehensive benchmark on several child speech databases based on various SFMs (Whisper, Wav2vec2.0, HuBERT, and WavLM). Moreover, we investigate finetuning strategies by comparing various data augmentation and parameter-efficient finetuning (PEFT) methods. We observe that the behaviors of these methods are different when the model size increases. For example, PEFT matches the performance of full finetuning for large models but worse for small models. To stabilize finetuning using augmented data, we propose a perturbation invariant finetuning (PIF) loss as a regularization.
翻訳日:2024-06-19 00:02:59 公開日:2024-06-15
# カプセル内視鏡診断のための基礎モデルDINOv2の学習

Learning to Adapt Foundation Model DINOv2 for Capsule Endoscopy Diagnosis ( http://arxiv.org/abs/2406.10508v1 )

ライセンス: Link先を確認
Bowen Zhang, Ying Chen, Yan Zhao, Jianhua Zhang, Hongliang Ren, (参考訳) ファンデーションモデルはコンピュータビジョンにおいて顕著になり、様々なタスクで顕著な成功を収めている。 しかし、その有効性は、広範囲なデータセットによる事前トレーニングに大きく依存する。 基礎モデルをスクラッチからカプセル内視鏡画像の小さなデータセットに直接適用することは困難である。 幅広い一般的なビジョンデータセットの事前トレーニングは、特定のタスクのためにモデルを微調整するのに不可欠です。 本研究では,カスタマイズを容易にするローランク適応(LoRA)技術を用いたアダプティブ・ファンデーション・モデル(Adapt foundation model)を提案する。 DINOv2ファンデーションモデルにインスパイアされた本手法は,カプセル内視鏡診断を効果的に行うための基礎モデルに低ランク適応学習を適用した。 従来の微調整方法とは異なり、我々は特定の外科領域の知識を吸収するように設計されたLoRAレイヤーを含む。 トレーニングプロセス中、メインモデル(バックボーンエンコーダ)を固定し、LoRA層と疾患分類成分の最適化に集中する。 本手法をカプセル内視鏡疾患分類のための2つの公開データセットで検証した。 その結果、我々のモデルはKvasir-Capsuleデータセットで97.75%、Kvasirv2データセットで98.81%の精度で得られた。 本ソリューションは, 基礎モデルがカプセル内視鏡診断に適応できることを示し, 一般的なコンピュータビジョンタスクからの直感的な微調整や事前訓練によるモデルへの依存が, このような特定の応用には不十分であることを強調した。

Foundation models have become prominent in computer vision, achieving notable success in various tasks. However, their effectiveness largely depends on pre-training with extensive datasets. Applying foundation models directly to small datasets of capsule endoscopy images from scratch is challenging. Pre-training on broad, general vision datasets is crucial for successfully fine-tuning our model for specific tasks. In this work, we introduce a simplified approach called Adapt foundation models with a low-rank adaptation (LoRA) technique for easier customization. Our method, inspired by the DINOv2 foundation model, applies low-rank adaptation learning to tailor foundation models for capsule endoscopy diagnosis effectively. Unlike traditional fine-tuning methods, our strategy includes LoRA layers designed to absorb specific surgical domain knowledge. During the training process, we keep the main model (the backbone encoder) fixed and focus on optimizing the LoRA layers and the disease classification component. We tested our method on two publicly available datasets for capsule endoscopy disease classification. The results were impressive, with our model achieving 97.75% accuracy on the Kvasir-Capsule dataset and 98.81% on the Kvasirv2 dataset. Our solution demonstrates that foundation models can be adeptly adapted for capsule endoscopy diagnosis, highlighting that mere reliance on straightforward fine-tuning or pre-trained models from general computer vision tasks is inadequate for such specific applications.
翻訳日:2024-06-19 00:02:59 公開日:2024-06-15
# 分子のリフティング:後期ユークリッド空間における分子グラフ生成

Lift Your Molecules: Molecular Graph Generation in Latent Euclidean Space ( http://arxiv.org/abs/2406.10513v1 )

ライセンス: Link先を確認
Mohamed Amine Ketata, Nicholas Gao, Johanna Sommer, Tom Wollschläger, Stephan Günnemann, (参考訳) 3次元分子生成モデルを用いた新しい分子グラフ生成フレームワークを提案する。 我々の合成座標埋め込み(SyCo)フレームワークは,分子グラフを合成コンホメータ座標を用いてユークリッド点雲にマッピングし,E(n)-同変グラフニューラルネットワーク(EGNN)を用いて逆写像を学習する。 誘導点雲構造潜在空間は既存の3次元分子生成モデルを適用するのに適している。 このアプローチは、分子フラグメントや自己回帰デコードに頼ることなく、グラフ生成問題を、ノードとエッジの分類タスクに続くポイントクラウド生成問題に単純化する。 さらに,3次元拡散モデルに対する塗装と誘導に基づく新しい類似性制約付き最適化手法を提案する。 本フレームワークの具体的な実装として,EDM(Equivariant Diffusion Model)に基づくEDM-SyCoを開発した。 EDM-SyCoは、分子グラフの分布学習における最先端のパフォーマンスを達成し、ZINC250Kで30%以上、大規模GuacaMolデータセットで16%以上の非自己回帰的手法を上回り、条件生成を最大3.9倍改善する。

We introduce a new framework for molecular graph generation with 3D molecular generative models. Our Synthetic Coordinate Embedding (SyCo) framework maps molecular graphs to Euclidean point clouds via synthetic conformer coordinates and learns the inverse map using an E(n)-Equivariant Graph Neural Network (EGNN). The induced point cloud-structured latent space is well-suited to apply existing 3D molecular generative models. This approach simplifies the graph generation problem - without relying on molecular fragments nor autoregressive decoding - into a point cloud generation problem followed by node and edge classification tasks. Further, we propose a novel similarity-constrained optimization scheme for 3D diffusion models based on inpainting and guidance. As a concrete implementation of our framework, we develop EDM-SyCo based on the E(3) Equivariant Diffusion Model (EDM). EDM-SyCo achieves state-of-the-art performance in distribution learning of molecular graphs, outperforming the best non-autoregressive methods by more than 30% on ZINC250K and 16% on the large-scale GuacaMol dataset while improving conditional generation by up to 3.9 times.
翻訳日:2024-06-19 00:02:58 公開日:2024-06-15
# 調音音声をインフォームドした可制御表現音声合成

Articulatory Phonetics Informed Controllable Expressive Speech Synthesis ( http://arxiv.org/abs/2406.10514v1 )

ライセンス: Link先を確認
Zehua Kcriss Li, Meiying Melissa Chen, Yi Zhong, Pinxin Liu, Zhiyao Duan, (参考訳) 表現的音声合成は、感情や調音を含む幅広いパラ言語的特徴を捉えた音声を生成することを目的としている。 そこで本研究では,音韻のレンズによる表現的音声合成について検討する。 具体的には,声質化,テンスネス,共鳴(GTR)という3次元の枠組みを定義し,音声合成の指導を行う。 GTR-Voiceという高品質な音声データセットを記録し、125種類のGTRの組み合わせで、プロの音声アクターが20の中国語文を合成する。 フレームワークとGTRアノテーションを自動分類および聴取テストにより検証し、2つの微調整表現型TSモデル上でGTR次元に沿って正確な制御性を示す。 データセットとTSモデルをオープンソースにしています。

Expressive speech synthesis aims to generate speech that captures a wide range of para-linguistic features, including emotion and articulation, though current research primarily emphasizes emotional aspects over the nuanced articulatory features mastered by professional voice actors. Inspired by this, we explore expressive speech synthesis through the lens of articulatory phonetics. Specifically, we define a framework with three dimensions: Glottalization, Tenseness, and Resonance (GTR), to guide the synthesis at the voice production level. With this framework, we record a high-quality speech dataset named GTR-Voice, featuring 20 Chinese sentences articulated by a professional voice actor across 125 distinct GTR combinations. We verify the framework and GTR annotations through automatic classification and listening tests, and demonstrate precise controllability along the GTR dimensions on two fine-tuned expressive TTS models. We open-source the dataset and TTS models.
翻訳日:2024-06-19 00:02:58 公開日:2024-06-15
# 原子炉Mk.1の性能:MMLU、HumanEval、BBHテスト結果

Reactor Mk.1 performances: MMLU, HumanEval and BBH test results ( http://arxiv.org/abs/2406.10515v1 )

ライセンス: Link先を確認
TJ Dunham, Henry Syahputra, (参考訳) 本稿では,ARCのフラッグシップとなる大規模言語モデルであるReactor Mk.1のベンチマークプロセス解析による性能評価について述べる。 このモデルはLychee AIエンジンを使用し、1000億以上のパラメータを持ち、効率性と有効性の組み合わせをもたらす。 Reactor Mk.1はGPT-4o、Claude Opus、Llama 3といったモデルよりも優れており、MMLUデータセットで92%、HumanEvalデータセットで91%、BBHデータセットで88%のスコアを得た。 困難な仕事の管理と推論の両方に優れており、現在の最先端のAI技術において、目立ったAIソリューションとして確立されている。

The paper presents the performance results of Reactor Mk.1, ARCs flagship large language model, through a benchmarking process analysis. The model utilizes the Lychee AI engine and possesses less than 100 billion parameters, resulting in a combination of efficiency and potency. The Reactor Mk.1 outperformed models such as GPT-4o, Claude Opus, and Llama 3, with achieved scores of 92% on the MMLU dataset, 91% on HumanEval dataset, and 88% on BBH dataset. It excels in both managing difficult jobs and reasoning, establishing as a prominent AI solution in the present cutting-edge AI technology.
翻訳日:2024-06-19 00:02:58 公開日:2024-06-15
# ADSNet:広告におけるアダプティブ・シームズ・ネットワークを用いたクロスドメインLTV予測

ADSNet: Cross-Domain LTV Prediction with an Adaptive Siamese Network in Advertising ( http://arxiv.org/abs/2406.10517v1 )

ライセンス: Link先を確認
Ruize Wang, Hui Xu, Ying Cheng, Qi He, Xing Zhou, Rui Feng, Wei Xu, Lei Huang, Jie Jiang, (参考訳) 広告プラットフォームは、広告主の真のパフォーマンス指標との整合性を高めるために、ライフタイムバリュー(LTV)を推定するために進化してきた。 しかし、実世界のLTVデータの空間性は、LTV予測モデル(pLTV)に重大な課題をもたらし、その能力を著しく制限する。 そこで本稿では,広告プラットフォームの内部データに加えて,購入サンプルのサイズを拡大し,広告プラットフォームのLTV予測モデルを強化するために,外部データを活用することを提案する。 内部プラットフォームと外部プラットフォーム間のデータ分散シフトの問題に対処するために,ドメイン間転送学習を用いて負の転送を防止するAdaptive Difference Siamese Network(ADSNet)を導入する。 具体的には、ADSNetはターゲットドメインに有益な情報を学ぶように設計されている。 本稿では,情報ゲインを計算するためのゲイン評価戦略を導入し,対象領域の有用な情報を学習する上でモデルを支援するとともに,ノイズのあるサンプルを拒否する機能を提供し,負の転送を避ける。 さらに、異なるドメインを接続し、それらの間の分散距離を減らし、表現空間分布の整合性を高めるためのブリッジとして、ドメイン適応モジュールを設計する。 実際の広告プラットフォーム上で、大規模なオフライン実験とオンラインA/Bテストを実施します。 提案手法は他の手法よりも優れ,GINIを2$\%$で改善する。 Ablation study is highlights the importance of the gain evaluation strategy in negative gain sample rejection and improve model performance。 さらに、ADSNetはロングテール予測を大幅に改善する。 オンラインA/BテストはADSNetの有効性を確認し、オンラインLTVは3.47$\%$、GMVは3.89$\%$になった。

Advertising platforms have evolved in estimating Lifetime Value (LTV) to better align with advertisers' true performance metric. However, the sparsity of real-world LTV data presents a significant challenge to LTV predictive model(i.e., pLTV), severely limiting the their capabilities. Therefore, we propose to utilize external data, in addition to the internal data of advertising platform, to expand the size of purchase samples and enhance the LTV prediction model of the advertising platform. To tackle the issue of data distribution shift between internal and external platforms, we introduce an Adaptive Difference Siamese Network (ADSNet), which employs cross-domain transfer learning to prevent negative transfer. Specifically, ADSNet is designed to learn information that is beneficial to the target domain. We introduce a gain evaluation strategy to calculate information gain, aiding the model in learning helpful information for the target domain and providing the ability to reject noisy samples, thus avoiding negative transfer. Additionally, we also design a Domain Adaptation Module as a bridge to connect different domains, reduce the distribution distance between them, and enhance the consistency of representation space distribution. We conduct extensive offline experiments and online A/B tests on a real advertising platform. Our proposed ADSNet method outperforms other methods, improving GINI by 2$\%$. The ablation study highlights the importance of the gain evaluation strategy in negative gain sample rejection and improving model performance. Additionally, ADSNet significantly improves long-tail prediction. The online A/B tests confirm ADSNet's efficacy, increasing online LTV by 3.47$\%$ and GMV by 3.89$\%$.
翻訳日:2024-06-19 00:02:58 公開日:2024-06-15
# 3次元医用画像セグメンテーションのためのトポロジーと空間性を考慮したマスケードオートエンコーダによる自己事前学習

Self Pre-training with Topology- and Spatiality-aware Masked Autoencoders for 3D Medical Image Segmentation ( http://arxiv.org/abs/2406.10519v1 )

ライセンス: Link先を確認
Pengfei Gu, Yejia Zhang, Huimin Li, Hongxiao Wang, Yizhe Zhang, Chaoli Wang, Danny Z. Chen, (参考訳) Masked Autoencoders (MAEs) は、自然および医学的な画像解析問題に対する事前訓練型ビジョントランスフォーマー (ViTs) に有効であることが示されている。 見えないピクセル/ボクセル情報を可視パッチで再構築することにより、ViTエンコーダは下流タスクのコンテキスト情報を集約することができる。 しかし、ViTアーキテクチャで特別に開発された既存のMAE事前学習手法では、医用画像分割作業において重要な幾何学的形状や空間情報をキャプチャする能力が欠如している。 本稿では、3次元医用画像セグメンテーションのための自己事前トレーニング(すなわち、同じターゲットデータセット上で事前トレーニングされたモデル)のための既知のMAEの新たな拡張を提案する。 1) 入力および再構成ボリュームのトポロジ的シグネチャを計算し, 幾何学的形状情報を学習することで, 幾何学的形状情報を保存する新しいトポロジ的損失を提案する。 2)3次元作物の中心と8つの角の位置を予測し,空間情報を収集するプリテキストタスクを導入する。 (3) 医用画像分割アーキテクチャ(SOTA)にMAE事前訓練戦略を拡張し,ViTと併用して事前訓練を行う。 (4) 学習済みのVTエンコーダと学習済みのSOTAモデルを補完することにより,下流のセグメンテーションタスクの微調整モデルを開発する。 5つのパブリックな3次元セグメンテーションデータセットに対する大規模な実験は、我々の新しいアプローチの有効性を示している。

Masked Autoencoders (MAEs) have been shown to be effective in pre-training Vision Transformers (ViTs) for natural and medical image analysis problems. By reconstructing missing pixel/voxel information in visible patches, a ViT encoder can aggregate contextual information for downstream tasks. But, existing MAE pre-training methods, which were specifically developed with the ViT architecture, lack the ability to capture geometric shape and spatial information, which is critical for medical image segmentation tasks. In this paper, we propose a novel extension of known MAEs for self pre-training (i.e., models pre-trained on the same target dataset) for 3D medical image segmentation. (1) We propose a new topological loss to preserve geometric shape information by computing topological signatures of both the input and reconstructed volumes, learning geometric shape information. (2) We introduce a pre-text task that predicts the positions of the centers and eight corners of 3D crops, enabling the MAE to aggregate spatial information. (3) We extend the MAE pre-training strategy to a hybrid state-of-the-art (SOTA) medical image segmentation architecture and co-pretrain it alongside the ViT. (4) We develop a fine-tuned model for downstream segmentation tasks by complementing the pre-trained ViT encoder with our pre-trained SOTA model. Extensive experiments on five public 3D segmentation datasets show the effectiveness of our new approach.
翻訳日:2024-06-19 00:02:58 公開日:2024-06-15
# サポートベクトル回帰を用いた全基準点雲質評価

Full reference point cloud quality assessment using support vector regression ( http://arxiv.org/abs/2406.10520v1 )

ライセンス: Link先を確認
Ryosuke Watanabe, Shashank N. Sridhara, Haoran Hong, Eduardo Pavez, Keisuke Nonaka, Tatsuya Kobayashi, Antonio Ortega, (参考訳) ポイントクラウドは、多様な3Dアプリケーションで現実的な3Dオブジェクトを表現する一般的なフォーマットである。 ポイントクラウドはデータサイズが大きいため、効率的なポイントクラウド圧縮手法の開発が不可欠である。 しかし、過剰な圧縮は様々な歪みを引き起こすため、エンドユーザが認識する点雲の品質は低下する。 したがって、効率的な圧縮手法を開発するためのベンチマークとして、信頼性ポイントクラウド品質評価(PCQA)手法の確立が不可欠である。 本稿では, 圧縮歪み, ガウスノイズ, ダウンサンプリングなどの各種劣化に対して, サポートベクター回帰(FRSVR)を用いたフルリファレンス品質評価(FR-PCQA)手法を提案する。 提案手法は, サポートベクトル回帰(SVR)を用いて, 様々な種類の誤差(例えば, 幾何学的歪み, 色歪み, 点数)をカバーする5つのFRベースの測定値を統合することにより, 正確なPCQAを示す。 さらに,提案手法は,これらの5つの単純なメトリクスの計算と,高速な予測が可能なSVRのみを含むため,精度と計算速度のトレードオフが優れている。 3種類のオープンデータセットによる実験結果から,提案手法は従来のFR-PCQA法よりも精度が高いことがわかった。 また,提案手法は,曲率やマルチスケールといった複雑な特徴を利用する最先端手法よりも高速である。 提案手法は,PCQAの精度と処理速度において優れた性能を提供する。 本手法は, https://github.com/STAC-USC/FRSVR-PCQAから利用可能である。

Point clouds are a general format for representing realistic 3D objects in diverse 3D applications. Since point clouds have large data sizes, developing efficient point cloud compression methods is crucial. However, excessive compression leads to various distortions, which deteriorates the point cloud quality perceived by end users. Thus, establishing reliable point cloud quality assessment (PCQA) methods is essential as a benchmark to develop efficient compression methods. This paper presents an accurate full-reference point cloud quality assessment (FR-PCQA) method called full-reference quality assessment using support vector regression (FRSVR) for various types of degradations such as compression distortion, Gaussian noise, and down-sampling. The proposed method demonstrates accurate PCQA by integrating five FR-based metrics covering various types of errors (e.g., considering geometric distortion, color distortion, and point count) using support vector regression (SVR). Moreover, the proposed method achieves a superior trade-off between accuracy and calculation speed because it includes only the calculation of these five simple metrics and SVR, which can perform fast prediction. Experimental results with three types of open datasets show that the proposed method is more accurate than conventional FR-PCQA methods. In addition, the proposed method is faster than state-of-the-art methods that utilize complicated features such as curvature and multi-scale features. Thus, the proposed method provides excellent performance in terms of the accuracy of PCQA and processing speed. Our method is available from https://github.com/STAC-USC/FRSVR-PCQA.
翻訳日:2024-06-19 00:02:58 公開日:2024-06-15
# MALLM-GAN:多言語大言語モデル

MALLM-GAN: Multi-Agent Large Language Model as Generative Adversarial Network for Synthesizing Tabular Data ( http://arxiv.org/abs/2406.10521v1 )

ライセンス: Link先を確認
Yaobin Ling, Xiaoqian Jiang, Yejin Kim, (参考訳) ビッグデータの時代において、豊富なデータへのアクセスは研究を進める上で非常に重要です。 しかし、プライバシー上の懸念や高コストのため、特に医療領域では、そのようなデータはアクセスできないことが多い。 合成(タブラル)データの生成はこれに対処できるが、既存のモデルでは、データ不足を解決するという私たちの目的に反して、効果的にトレーニングするために大量のデータを必要とするのが普通である。 この課題に対処するために,GAN(Generative Adversarial Network)のアーキテクチャをエミュレートする大規模言語モデル(LLM)を利用した合成表データを生成する新しいフレームワークを提案する。 筆者らは,データ生成プロセスを文脈情報として取り入れ,LLMを最適化手法として活用することにより,サンプルサイズが小さい一般的なシナリオにおいて,合成データ生成の品質を著しく向上させる。 公開およびプライベートデータセットに対する実験結果から,実データのプライバシーを維持しつつ,下流タスクのための高品質な合成データの生成に関して,我々のモデルがいくつかの最先端モデルより優れていることが示された。

In the era of big data, access to abundant data is crucial for driving research forward. However, such data is often inaccessible due to privacy concerns or high costs, particularly in healthcare domain. Generating synthetic (tabular) data can address this, but existing models typically require substantial amounts of data to train effectively, contradicting our objective to solve data scarcity. To address this challenge, we propose a novel framework to generate synthetic tabular data, powered by large language models (LLMs) that emulates the architecture of a Generative Adversarial Network (GAN). By incorporating data generation process as contextual information and utilizing LLM as the optimizer, our approach significantly enhance the quality of synthetic data generation in common scenarios with small sample sizes. Our experimental results on public and private datasets demonstrate that our model outperforms several state-of-art models regarding generating higher quality synthetic data for downstream tasks while keeping privacy of the real data.
翻訳日:2024-06-19 00:02:58 公開日:2024-06-15
# AIの噂 - 大規模なクラウドソースの選好とカートゥーンキャプションのベンチマーク

Humor in AI: Massive Scale Crowd-Sourced Preferences and Benchmarks for Cartoon Captioning ( http://arxiv.org/abs/2406.10522v1 )

ライセンス: Link先を確認
Jifan Zhang, Lalit Jain, Yang Guo, Jiayi Chen, Kuan Lok Zhou, Siddharth Suresh, Andrew Wagenmaker, Scott Sievert, Timothy Rogers, Kevin Jamieson, Robert Mankoff, Robert Nowak, (参考訳) 我々は、過去8年間にThe New Yorkerの週刊漫画キャプションコンテストのクラウドソーシングによる評価データから、220万のキャプションに2億5000万以上の人間格付けからなる、クリエイティブなタスクのための新しいマルチモーダルな選好データセットを提示する。 このユニークなデータセットは、ユーモラスキャプション生成のためのマルチモーダルな大規模言語モデルと嗜好に基づく微調整アルゴリズムの開発と評価を支援する。 モデル生成キャプションの品質を判定するための新しいベンチマークを提案し、GPT4と人的判断の両方を利用してランキングベースの評価戦略を確立する。 本稿では,RLHF や DPO などの既存の微調整手法の限界を創造的タスクに適用した場合に強調する。 さらに、GPT4やClaudeのような最先端のモデルでさえ、ユーモラスなキャプションを生成する上で、現在トップヒューマンコンテストの成績が低いことを実証した。 この広範なデータ収集の取り組みを締めくくると、私たちは研究コミュニティに選好データセットを公開し、AIユーモアの生成と評価のさらなる進歩を促進します。

We present a novel multimodal preference dataset for creative tasks, consisting of over 250 million human ratings on more than 2.2 million captions, collected through crowdsourcing rating data for The New Yorker's weekly cartoon caption contest over the past eight years. This unique dataset supports the development and evaluation of multimodal large language models and preference-based fine-tuning algorithms for humorous caption generation. We propose novel benchmarks for judging the quality of model-generated captions, utilizing both GPT4 and human judgments to establish ranking-based evaluation strategies. Our experimental results highlight the limitations of current fine-tuning methods, such as RLHF and DPO, when applied to creative tasks. Furthermore, we demonstrate that even state-of-the-art models like GPT4 and Claude currently underperform top human contestants in generating humorous captions. As we conclude this extensive data collection effort, we release the entire preference dataset to the research community, fostering further advancements in AI humor generation and evaluation.
翻訳日:2024-06-19 00:02:58 公開日:2024-06-15
# Panoptic-FlashOcc: インスタンスセンター経由のPanopticによるセマンティックアクシデンシーの効率の良いベースライン

Panoptic-FlashOcc: An Efficient Baseline to Marry Semantic Occupancy with Panoptic via Instance Center ( http://arxiv.org/abs/2406.10527v1 )

ライセンス: Link先を確認
Zichen Yu, Changyong Shu, Qianpu Sun, Junjie Linghu, Xiaobao Wei, Jiangyong Yu, Zongdai Liu, Dawei Yang, Hui Li, Yan Chen, (参考訳) パノプティクスの占有は、インスタンスの占有とセマンティックの占有を統一されたフレームワークに統合することを目的として、新しい課題を提起する。 しかしながら、パン光学の占有に対する効率的な解決策がまだ存在しない。 本稿では,Panoptic-FlashOccを提案する。 提案手法は,FlashOccの軽量な設計に基づいて,単一ネットワークにおけるセマンティック占有とクラス認識インスタンスクラスタリングを同時に学習する。 このアプローチは、3次元のボクセルレベルの表現に関連する高メモリと計算要求の欠点を効果的に解決する。 Panoptic-FlashOccは、簡単なデプロイを容易にするシンプルで効率的な設計で、パン光学の占有率予測における顕著な成果を誇示している。 Occ3D-nuScenesベンチマークでは、38.5 RayIoUと29.1 mIoUで、43.9 FPSで動作している。 さらに、パノプティクスの占有率は16.0 RayPQで、高速な推論速度は30.2 FPSである。 これらの結果は、速度と精度の両方の観点から、既存の方法論の性能を上回っている。 ソースコードとトレーニングされたモデルは、以下のgithubリポジトリで見ることができる。

Panoptic occupancy poses a novel challenge by aiming to integrate instance occupancy and semantic occupancy within a unified framework. However, there is still a lack of efficient solutions for panoptic occupancy. In this paper, we propose Panoptic-FlashOcc, a straightforward yet robust 2D feature framework that enables realtime panoptic occupancy. Building upon the lightweight design of FlashOcc, our approach simultaneously learns semantic occupancy and class-aware instance clustering in a single network, these outputs are jointly incorporated through panoptic occupancy procession for panoptic occupancy. This approach effectively addresses the drawbacks of high memory and computation requirements associated with three-dimensional voxel-level representations. With its straightforward and efficient design that facilitates easy deployment, Panoptic-FlashOcc demonstrates remarkable achievements in panoptic occupancy prediction. On the Occ3D-nuScenes benchmark, it achieves exceptional performance, with 38.5 RayIoU and 29.1 mIoU for semantic occupancy, operating at a rapid speed of 43.9 FPS. Furthermore, it attains a notable score of 16.0 RayPQ for panoptic occupancy, accompanied by a fast inference speed of 30.2 FPS. These results surpass the performance of existing methodologies in terms of both speed and accuracy. The source code and trained models can be found at the following github repository: https://github.com/Yzichen/FlashOCC.
翻訳日:2024-06-19 00:02:58 公開日:2024-06-15
# 活性化スパース量子化深部ニューラルネットワークにおける記憶障害:シャープネス学習を用いた解析と緩和

Memory Faults in Activation-sparse Quantized Deep Neural Networks: Analysis and Mitigation using Sharpness-aware Training ( http://arxiv.org/abs/2406.10528v1 )

ライセンス: Link先を確認
Akul Malhotra, Sumeet Kumar Gupta, (参考訳) 量子化や空間拡張といった技術でディープニューラルネットワーク(DNN)アクセラレーターのハードウェア効率を向上させることは、非常に有望である。 しかし,非理想的実世界の環境での推論精度(ハードウェア故障の有無など)は,まだ体系的に分析されていない。 本研究では,メモリ障害がアクティベーションスパース量子化DNN(AS QDNN)に与える影響について検討する。 As QDNNは標準QDNNよりも11.13%低い精度を示す。 劣化した精度はAS QDNNの損失ランドスケープにおいてよりシャープな最小値と相関し, 断層による重み値の摂動に敏感であることを示す。 この観測に基づいて、記憶障害の影響を軽減するため、シャープネス対応量子化(SAQ)トレーニングを実践する。 SAQで訓練されたASと標準QDNNは、従来の訓練された等価値と比較して、それぞれ19.50%と15.82%高い推論精度を持つ。 さらに,SAQトレーニングされたASQDNNは,従来トレーニングされていた標準QDNNよりも,障害設定の精度が高いことを示す。 このように、シャープネスを意識したトレーニングは、フォールトトレランスを損なうことなく、スパーシティ関連レイテンシのメリットを達成するのに役立てることができる。

Improving the hardware efficiency of deep neural network (DNN) accelerators with techniques such as quantization and sparsity enhancement have shown an immense promise. However, their inference accuracy in non-ideal real-world settings (such as in the presence of hardware faults) is yet to be systematically analyzed. In this work, we investigate the impact of memory faults on activation-sparse quantized DNNs (AS QDNNs). We show that a high level of activation sparsity comes at the cost of larger vulnerability to faults, with AS QDNNs exhibiting up to 11.13% lower accuracy than the standard QDNNs. We establish that the degraded accuracy correlates with a sharper minima in the loss landscape for AS QDNNs, which makes them more sensitive to perturbations in the weight values due to faults. Based on this observation, we employ sharpness-aware quantization (SAQ) training to mitigate the impact of memory faults. The AS and standard QDNNs trained with SAQ have up to 19.50% and 15.82% higher inference accuracy, respectively compared to their conventionally trained equivalents. Moreover, we show that SAQ-trained AS QDNNs show higher accuracy in faulty settings than standard QDNNs trained conventionally. Thus, sharpness-aware training can be instrumental in achieving sparsity-related latency benefits without compromising on fault tolerance.
翻訳日:2024-06-19 00:02:58 公開日:2024-06-15
# 解釈可能な近似の理論

A Theory of Interpretable Approximations ( http://arxiv.org/abs/2406.10529v1 )

ライセンス: Link先を確認
Marco Bressan, Nicolò Cesa-Bianchi, Emmanuel Esposito, Yishay Mansour, Shay Moran, Maximilian Thiessen, (参考訳) ディープニューラルネットワークは、単純な特徴に基づいて、小さな決定木によって近似できるだろうか? この質問とその変種は、人間によって*解釈可能な*機械学習モデルの需要が高まっている背景にある。 In this work, we study such question by introduced *interpretable approximations*, a concept that captures the idea of Approximating a target concept $c$ by a small aggregate of concept from some base class $\mathcal{H}$。 特に、単純なクラス $\mathcal{H}$ (e g , of bounded VC dimension) に基づいて、決定木による二進概念 $c$ の近似を考え、その木深さを複雑性の尺度として使う。 私たちの主な貢献は、以下の顕著な三分割である。 $\mathcal{H}$ と $c$ の任意のペアに対して、これらのケースのちょうど1つが成り立つ。 (i)$c$を任意の精度で$\mathcal{H}$で近似することはできない。 (ii)$c$は任意の精度で$\mathcal{H}$で近似できるが、精度の関数として近似の複雑さを束縛する普遍レートは存在しない。 (iii)$\mathcal{H}$と$c$のみに依存する定数$\kappa$が存在し、*any*データ分布と *any* 所望の精度レベルに対して$c$は$\mathcal{H}$で近似できる。 この分類学は、教師付き分類の風景とは対照的に、分布自由で普遍的に学習可能なシナリオの複雑な配列を提供する。 解釈可能な近似の場合、近似の複雑さに関するわずかに非自明なa-priori保証でさえ、一定の(分布自由かつ精度自由な)複雑さを伴う近似を意味することを示す。 我々は、非有界VC次元のクラス $\mathcal{H}$ に三分法を拡張し、$\mathcal{H}$ によって生成される代数に基づく解釈可能性の特性を与える。

Can a deep neural network be approximated by a small decision tree based on simple features? This question and its variants are behind the growing demand for machine learning models that are *interpretable* by humans. In this work we study such questions by introducing *interpretable approximations*, a notion that captures the idea of approximating a target concept $c$ by a small aggregation of concepts from some base class $\mathcal{H}$. In particular, we consider the approximation of a binary concept $c$ by decision trees based on a simple class $\mathcal{H}$ (e.g., of bounded VC dimension), and use the tree depth as a measure of complexity. Our primary contribution is the following remarkable trichotomy. For any given pair of $\mathcal{H}$ and $c$, exactly one of these cases holds: (i) $c$ cannot be approximated by $\mathcal{H}$ with arbitrary accuracy; (ii) $c$ can be approximated by $\mathcal{H}$ with arbitrary accuracy, but there exists no universal rate that bounds the complexity of the approximations as a function of the accuracy; or (iii) there exists a constant $\kappa$ that depends only on $\mathcal{H}$ and $c$ such that, for *any* data distribution and *any* desired accuracy level, $c$ can be approximated by $\mathcal{H}$ with a complexity not exceeding $\kappa$. This taxonomy stands in stark contrast to the landscape of supervised classification, which offers a complex array of distribution-free and universally learnable scenarios. We show that, in the case of interpretable approximations, even a slightly nontrivial a-priori guarantee on the complexity of approximations implies approximations with constant (distribution-free and accuracy-free) complexity. We extend our trichotomy to classes $\mathcal{H}$ of unbounded VC dimension and give characterizations of interpretability based on the algebra generated by $\mathcal{H}$.
翻訳日:2024-06-19 00:02:58 公開日:2024-06-15
# PIG:夜間のシーン解析のための画像ガイド

PIG: Prompt Images Guidance for Night-Time Scene Parsing ( http://arxiv.org/abs/2406.10531v1 )

ライセンス: Link先を確認
Zhifeng Xie, Rui Qiu, Sen Wang, Xin Tan, Yuan Xie, Lizhuang Ma, (参考訳) 夜間シーン解析は、夜間画像中の画素レベルの意味情報を抽出し、シーンオブジェクトの分布を理解するための下流タスクを支援することを目的としている。 ラベル付き夜間画像データセットが限られているため、非教師なし領域適応(UDA)が夜景の研究の主流となっている。 UDAは通常、適応をガイドするために2つの日夜のイメージペアを使用するが、このアプローチは、データセットの構築を邪魔し、異なるデータセットのナイトシーンにおける一般化を制限する。 さらに、UDAはネットワークアーキテクチャとトレーニング戦略に重点を置いており、ドメインの類似性が少ないクラスを扱うのに困難に直面している。 本稿では、PIG(Prompt Images Guidance)を利用して、夜間の補助的な知識でUDAを強化する。 そこで我々はNFNet(Night-Focused Network)を提案する。 高品質な擬似ラベルを生成するために,FDSG(Domain similarity Guidance)を用いた擬似ラベル融合を提案する。 ドメイン類似度の少ないクラスは、夜間特徴のパースに優れるNFNetによって予測され、さらにドメイン類似度の低いクラスは、リッチなラベル付きセマンティクスを持つUDAによって予測される。 さらに,Pmpt Mixture Strategy (PMS) とAlternate Mask Strategy (AMS) の2つのデータ拡張戦略を提案する。 NightCity、NightCity+、Dark Zurich、ACDCの4つのナイトタイムデータセットに対して広範な実験を行った。 その結果,PIGの活用により,UDAのパーシング精度が向上することが示唆された。

Night-time scene parsing aims to extract pixel-level semantic information in night images, aiding downstream tasks in understanding scene object distribution. Due to limited labeled night image datasets, unsupervised domain adaptation (UDA) has become the predominant method for studying night scenes. UDA typically relies on paired day-night image pairs to guide adaptation, but this approach hampers dataset construction and restricts generalization across night scenes in different datasets. Moreover, UDA, focusing on network architecture and training strategies, faces difficulties in handling classes with few domain similarities. In this paper, we leverage Prompt Images Guidance (PIG) to enhance UDA with supplementary night knowledge. We propose a Night-Focused Network (NFNet) to learn night-specific features from both target domain images and prompt images. To generate high-quality pseudo-labels, we propose Pseudo-label Fusion via Domain Similarity Guidance (FDSG). Classes with fewer domain similarities are predicted by NFNet, which excels in parsing night features, while classes with more domain similarities are predicted by UDA, which has rich labeled semantics. Additionally, we propose two data augmentation strategies: the Prompt Mixture Strategy (PMS) and the Alternate Mask Strategy (AMS), aimed at mitigating the overfitting of the NFNet to a few prompt images. We conduct extensive experiments on four night-time datasets: NightCity, NightCity+, Dark Zurich, and ACDC. The results indicate that utilizing PIG can enhance the parsing accuracy of UDA.
翻訳日:2024-06-19 00:02:58 公開日:2024-06-15
# キルメータの長射角量子ノイズレーダ

Long-Range Entangled Quantum Noise Radar Over Order of Kilometer ( http://arxiv.org/abs/2406.10533v1 )

ライセンス: Link先を確認
H. Allahverdi, Ali Motazedifard, (参考訳) 本稿では,マイクロ波の2モード圧縮真空状態を用いた量子2モード圧縮(QTMS)レーダの最大検出範囲の明示的表現を,その量子特性とレーダパラメータの両面から導出した。 この式を従来のレーダと比較することにより,QTMSレーダを閾値信号-雑音比の低減した従来のレーダとみなすことができることを示す。 現状の限界について議論することで、同時量子優位性と相当なレーダ範囲を同時に達成するための臨界パラメータが、量子絡み合ったソースで生成された出力信号の帯域幅を増大させることが示されている。 現在実現可能なシステムパラメータを考慮すれば,都市部における小型無人航空機の認識に適した最大検出距離2kmのQTMSレーダを実装可能であることが実証されている。 さらに、誤報率に基づいて、早期警報と追跡QTMSレーダの2つのクラスを導入する。 このアプローチは、電気オプトメカニカルソースなどの異なるタイプの量子源を持つ他の量子レーダーに一般化することができ、遠距離超感光性無接触バイタルサイン検出や反ドロン技術などの実用用途のために量子レーダシステムの研究に新たな光を当てる可能性がある。 最後に,工学的観点から現実的な量子絡み合ったレーダシステムの改良と開発に向けた展望について論じる。

In this paper, for the first time to our knowledge, an explicit expression for the maximum detection range of an entangled quantum two-mode squeezed (QTMS) radar, in which a two-mode squeezed vacuum state of microwave electromagnetic fields is used, has been derived by considering both the quantum properties of the entangled microwave fields and radar parameters. By comparing this equation with that of traditional radars, we show that one can view a QTMS radar as a traditional radar with a reduced threshold signal-to-noise ratio. By discussing the current limitations, it has been shown that the critical parameter to achieve both simultaneous quantum advantage and substantial radar range is increasing the bandwidth of the generated output signal in the quantum entangled source. It has been demonstrated that, by considering the current feasible system parameters, it is possible to implement a QTMS radar with a maximum detection range of up to 2km, which is suitable for recognizing small unmanned aerial vehicles at urban distances. Moreover, based on the false alarm rate, we introduce two classes of early alarm and track QTMS radars. This approach can be generalized to other quantum radars with different types of quantum sources, such as electro-opto-mechanical sources, and may shed new light on investigating quantum radar systems for practical applications, such as far-distance ultrasensitive contactless vital sign detection and counter-Drone technology. Finally, we discuss potential outlooks to improve and develop quantum entangled radar systems to be practical from an engineering point of view.
翻訳日:2024-06-19 00:02:58 公開日:2024-06-15
# ブロック構造格子上の定常非圧縮性流れを解くための有限差分インフォームドグラフネットワーク

A Finite Difference Informed Graph Network for Solving Steady-State Incompressible Flows on Block-Structured Grids ( http://arxiv.org/abs/2406.10534v1 )

ライセンス: Link先を確認
Yiye Zou, Tianyu Li, Shufan Zou, Jingyu Wang, Laiping Zhang, Xiaogang Deng, (参考訳) 近年、ディープラーニングの進歩により、物理情報ニューラルネットワーク(PINN)は偏微分方程式(PDE)を解くことができるようになった。 有限差分法 (FD) を用いた数値微分 (ND) は, 物理制約設計, パラメータ化設定においても, 複雑な流れの場合において, ボディフィットブロック構造格子を用いる場合が多い。 しかし、有限差分に対するCNNの畳み込み演算子は、通常は単一ブロックグリッドに限られる。 これを解決するために、グラフとグラフネットワーク(GN)を使用して、マルチブロック構造グリッド間のフロー表現を学習する。 グラフ畳み込みに基づく有限差分法(GC-FDM)を提案する。 我々のゴールは、マルチブロック構造格子を用いて、後ろ向きのステップ、円形のシリンダー、二重シリンダー周辺の流れに対するパラメトリックな非圧縮性ナビエ・ストークス方程式を解くことである。 本手法を各種境界条件下でのCFDソルバと比較し, トレーニング効率と精度の向上, 速度場予測における10^{-3}$の最小相対誤差, PINNと比較してトレーニングコストの20%削減を実現した。

Recently, advancements in deep learning have enabled physics-informed neural networks (PINNs) to solve partial differential equations (PDEs). Numerical differentiation (ND) using the finite difference (FD) method is efficient in physics-constrained designs, even in parameterized settings, often employing body-fitted block-structured grids for complex flow cases. However, convolution operators in CNNs for finite differences are typically limited to single-block grids. To address this, we use graphs and graph networks (GNs) to learn flow representations across multi-block structured grids. We propose a graph convolution-based finite difference method (GC-FDM) to train GNs in a physics-constrained manner, enabling differentiable finite difference operations on graph unstructured outputs. Our goal is to solve parametric steady incompressible Navier-Stokes equations for flows around a backward-facing step, a circular cylinder, and double cylinders, using multi-block structured grids. Comparing our method to a CFD solver under various boundary conditions, we demonstrate improved training efficiency and accuracy, achieving a minimum relative error of $10^{-3}$ in velocity field prediction and a 20\% reduction in training cost compared to PINNs.
翻訳日:2024-06-18 23:53:14 公開日:2024-06-15
# Skeleton Posterior を用いたLatent Confounders の存在下でのスケーラブルな微分因果発見(拡張版)

Scalable Differentiable Causal Discovery in the Presence of Latent Confounders with Skeleton Posterior (Extended Version) ( http://arxiv.org/abs/2406.10537v1 )

ライセンス: Link先を確認
Pingchuan Ma, Rui Ding, Qiang Fu, Jiaru Zhang, Shuai Wang, Shi Han, Dongmei Zhang, (参考訳) 異なる因果発見は、有向非巡回グラフの学習に大きな進歩をもたらした。 しかし、その実世界のデータセットへの応用は、潜在的共同創設者の多様さと、最大祖先グラフ(MAG)の学習の必要性により、依然として制限されている。 これまで、既存の差別化可能なMAG学習アルゴリズムは小さなデータセットに限られており、より大きなデータセット(例えば50変数以上)にスケールできなかった。 本稿では, 因果グラフの非方向バージョンである因果骨格が, 精度を向上し, 最適化手順の探索空間を縮小し, 因果探索性能を向上させる可能性を秘めている。 そこで,本研究では,潜伏する共同設立者の存在下での因果的発見に因果的骨格の可能性を活用するための2つの課題について考察する:(1)スケーラブルで正確な骨格推定,(2)異果的因果的発見による因果的推定の普遍的統合。 そこで本稿では, 骨格後頭骨を用いた2相フレームワークであるSPOT(Skeleton Posterior-Guided OpTimization)を提案する。 `point-estimation''とは対照的に、SPOTはデータセットが与えられた骨格の後方分布を推定しようと試みている。 まず、後部推論を、償却推論問題の一例として定式化し、骨格後部を推定するために、教師付き因果学習(SCL)対応のソリューションと併用する。 骨格後部を異なる因果発見に組み込むため、SPOTはMAGの最適化を導くために骨格後部誘導確率最適化手順を特徴とする。 訳語 長さ制限;長さ制限;長さ制限;長さ制限

Differentiable causal discovery has made significant advancements in the learning of directed acyclic graphs. However, its application to real-world datasets remains restricted due to the ubiquity of latent confounders and the requirement to learn maximal ancestral graphs (MAGs). To date, existing differentiable MAG learning algorithms have been limited to small datasets and failed to scale to larger ones (e.g., with more than 50 variables). The key insight in this paper is that the causal skeleton, which is the undirected version of the causal graph, has potential for improving accuracy and reducing the search space of the optimization procedure, thereby enhancing the performance of differentiable causal discovery. Therefore, we seek to address a two-fold challenge to harness the potential of the causal skeleton for differentiable causal discovery in the presence of latent confounders: (1) scalable and accurate estimation of skeleton and (2) universal integration of skeleton estimation with differentiable causal discovery. To this end, we propose SPOT (Skeleton Posterior-guided OpTimization), a two-phase framework that harnesses skeleton posterior for differentiable causal discovery in the presence of latent confounders. On the contrary to a ``point-estimation'', SPOT seeks to estimate the posterior distribution of skeletons given the dataset. It first formulates the posterior inference as an instance of amortized inference problem and concretizes it with a supervised causal learning (SCL)-enabled solution to estimate the skeleton posterior. To incorporate the skeleton posterior with differentiable causal discovery, SPOT then features a skeleton posterior-guided stochastic optimization procedure to guide the optimization of MAGs. [abridged due to length limit]
翻訳日:2024-06-18 23:53:14 公開日:2024-06-15
# EDAにおける3次元フロアプランニングのための大規模推論モデル:不完全性から学ぶ

Large Reasoning Models for 3D Floorplanning in EDA: Learning from Imperfections ( http://arxiv.org/abs/2406.10538v1 )

ライセンス: Link先を確認
Fin Amin, Nirjhor Rouf, Tse-Han Pan, Md Kamal Ibn Shafi, Paul D. Franzon, (参考訳) 本稿では,大推論モデル (LRM) として知られる自己回帰型意思決定モデルに属するDreamweaverを紹介する。 Dreamweaverは、電子設計自動化(EDA)における3Dフロアプランニングを改善するために設計されている。 提案手法の顕著な利点は,床計画における種々の機能ブロックに対する多数の潜在的位置を扱う上で不可欠な,大きな離散的な作用空間を効果的に推論できることである。 さらに、ドリームウィーバーは完全にランダムな軌跡で訓練された場合でも強い性能を示し、その結果を高めるために準最適または非熟練の軌跡を活用する能力を示している。 この革新的なアプローチは、集積回路(IC)設計フローの合理化と、フロアプランニングに関連する高い計算コストの削減に寄与する。 我々はその性能を現在の最先端手法と比較して評価し、顕著な改善点を浮き彫りにした。

In this paper, we introduce Dreamweaver, which belongs to a new class of auto-regressive decision-making models known as large reasoning models (LRMs). Dreamweaver is designed to improve 3D floorplanning in electronic design automation (EDA) via an architecture that melds advancements in sequence-to-sequence reinforcement learning algorithms. A significant advantage of our approach is its ability to effectively reason over large discrete action spaces, which is essential for handling the numerous potential positions for various functional blocks in floorplanning. Additionally, Dreamweaver demonstrates strong performance even when trained on entirely random trajectories, showcasing its capacity to leverage sub-optimal or non-expert trajectories to enhance its results. This innovative approach contributes to streamlining the integrated circuit (IC) design flow and reducing the high computational costs typically associated with floorplanning. We evaluate its performance against a current state-of-the-art method, highlighting notable improvements.
翻訳日:2024-06-18 23:53:14 公開日:2024-06-15
# 拡張仮想衣服試着用自己監督型視覚変換器

Self-Supervised Vision Transformer for Enhanced Virtual Clothes Try-On ( http://arxiv.org/abs/2406.10539v1 )

ライセンス: Link先を確認
Lingxiao Lu, Shengyi Wu, Haoxuan Sun, Junhong Gou, Jianlou Si, Chen Qian, Jianfu Zhang, Liqing Zhang, (参考訳) 仮想衣料品試着は、オンラインショッピングにおいて重要な機能として登場し、消費者が衣料品がどうフィットするかを視覚化する重要なツールを提供している。 本研究では,仮想衣料試着において,自己監督型視覚変換器(ViT)と拡散モデルを組み合わせた革新的な手法を提案する。 提案手法は,ViTが生成するローカル衣料品のイメージ埋め込みとグローバルな衣料品との対比により,ディテールの強調を強調する。 条件付きガイダンスやキー領域へのフォーカスといった手法が,我々のアプローチに組み込まれている。 これらの組み合わせ戦略により、拡散モデルは、明快さとリアリズムを増し、衣服の詳細を再現する。 実験結果は、仮想試行体験における現実性と詳細の精度が、既存の技術の能力をはるかに上回っていることを示す。

Virtual clothes try-on has emerged as a vital feature in online shopping, offering consumers a critical tool to visualize how clothing fits. In our research, we introduce an innovative approach for virtual clothes try-on, utilizing a self-supervised Vision Transformer (ViT) coupled with a diffusion model. Our method emphasizes detail enhancement by contrasting local clothing image embeddings, generated by ViT, with their global counterparts. Techniques such as conditional guidance and focus on key regions have been integrated into our approach. These combined strategies empower the diffusion model to reproduce clothing details with increased clarity and realism. The experimental results showcase substantial advancements in the realism and precision of details in virtual try-on experiences, significantly surpassing the capabilities of existing technologies.
翻訳日:2024-06-18 23:53:14 公開日:2024-06-15
# 大規模言語モデルを用いた高速道路走行のための逆関数の生成と発展

Generating and Evolving Reward Functions for Highway Driving with Large Language Models ( http://arxiv.org/abs/2406.10540v1 )

ライセンス: Link先を確認
Xu Han, Qiannan Yang, Xianda Chen, Xiaowen Chu, Meixin Zhu, (参考訳) 強化学習(Reinforcement Learning, RL)は、最適政策を達成するために報酬関数を最大化し、自律運転技術の進歩において重要な役割を担っている。 しかしながら、これらの報酬関数を作成することは、多くのプラクティスにおいて、複雑で手動のプロセスである。 この複雑さを軽減するために,大規模言語モデル(LLM)をRLと統合し,自律運転における報酬関数設計を改善する新しいフレームワークを提案する。 このフレームワークは、他の分野で証明されたLLMのコーディング機能を利用して、ハイウェイシナリオの報酬関数を生成し、進化させる。 フレームワークは、駆動環境とタスク記述に基づいて、初期報酬関数コードを作成するようにLLMに指示することから始まる。 このコードは、RLトレーニングとLLMのリフレクションを含む反復サイクルによって洗練され、出力をレビューし改善する能力の恩恵を受ける。 また、複雑な運転シミュレーションに対するLCMの理解を改善するための特別なプロンプトテンプレートを開発し、有効かつエラーのないコードを生成することを保証する。 高速道路走行シミュレータを用いた実験により,提案手法は熟練手作り報酬関数を超越し,平均成功率22%を達成できた。 これは安全な運転を示すだけでなく、開発生産性も大幅に向上することを示している。

Reinforcement Learning (RL) plays a crucial role in advancing autonomous driving technologies by maximizing reward functions to achieve the optimal policy. However, crafting these reward functions has been a complex, manual process in many practices. To reduce this complexity, we introduce a novel framework that integrates Large Language Models (LLMs) with RL to improve reward function design in autonomous driving. This framework utilizes the coding capabilities of LLMs, proven in other areas, to generate and evolve reward functions for highway scenarios. The framework starts with instructing LLMs to create an initial reward function code based on the driving environment and task descriptions. This code is then refined through iterative cycles involving RL training and LLMs' reflection, which benefits from their ability to review and improve the output. We have also developed a specific prompt template to improve LLMs' understanding of complex driving simulations, ensuring the generation of effective and error-free code. Our experiments in a highway driving simulator across three traffic configurations show that our method surpasses expert handcrafted reward functions, achieving a 22% higher average success rate. This not only indicates safer driving but also suggests significant gains in development productivity.
翻訳日:2024-06-18 23:53:14 公開日:2024-06-15
# オープン・ガバメント・データポータルにおける高価値データセットの自動識別

Automating the Identification of High-Value Datasets in Open Government Data Portals ( http://arxiv.org/abs/2406.10541v1 )

ライセンス: Link先を確認
Alfonso Quarati, Anastasija Nikiforova, (参考訳) イノベーションと透明性の育成、経済成長の推進、公共サービスの向上、研究の支援、市民の強化、環境の持続可能性の向上など、ハイバリューデータセット(HVD)はオープン・ガバメント・データ(OGD)運動において重要な役割を担っている。 しかし、HVDの同定は、データ値の微妙な性質のため、リソース集約的で複雑な課題である。 本提案は,データ利用統計から得られたユーザ関心の詳細な分析に基づく定量的アプローチを用いて,OGDポータル上でのHVDの識別を自動化することを目的としている。 提案手法は、ダウンロードデータを抽出し、メトリクスを分析して高価値カテゴリを特定し、異なるポータル間でHVDデータセットを比較する。 この自動化プロセスは、市民のニーズと嗜好を反映して、データセット使用のトレンドに関する貴重な洞察を提供する。 提案手法の有効性を米国OGD市ポータルのサンプルに応用して実証した。 本研究の実際的意味は、地域レベルと国家レベルでのHVDの理解に寄与することである。 我々は,HVDを体系的かつ効率的な識別手段を提供することにより,オープンガバナンスのイニシアチブや実践を通知し,OGDポータル管理者や公共機関がデータの普及と活用を最適化する取り組みを支援することを目的とする。

Recognized for fostering innovation and transparency, driving economic growth, enhancing public services, supporting research, empowering citizens, and promoting environmental sustainability, High-Value Datasets (HVD) play a crucial role in the broader Open Government Data (OGD) movement. However, identifying HVD presents a resource-intensive and complex challenge due to the nuanced nature of data value. Our proposal aims to automate the identification of HVDs on OGD portals using a quantitative approach based on a detailed analysis of user interest derived from data usage statistics, thereby minimizing the need for human intervention. The proposed method involves extracting download data, analyzing metrics to identify high-value categories, and comparing HVD datasets across different portals. This automated process provides valuable insights into trends in dataset usage, reflecting citizens' needs and preferences. The effectiveness of our approach is demonstrated through its application to a sample of US OGD city portals. The practical implications of this study include contributing to the understanding of HVD at both local and national levels. By providing a systematic and efficient means of identifying HVD, our approach aims to inform open governance initiatives and practices, aiding OGD portal managers and public authorities in their efforts to optimize data dissemination and utilization.
翻訳日:2024-06-18 23:53:14 公開日:2024-06-15
# NeRFデフォルマ:3次元シーンフローによる単一視点からのNeRF変換

NeRFDeformer: NeRF Transformation from a Single View via 3D Scene Flows ( http://arxiv.org/abs/2406.10543v1 )

ライセンス: Link先を確認
Zhenggang Tang, Zhongzheng Ren, Xiaoming Zhao, Bowen Wen, Jonathan Tremblay, Stan Birchfield, Alexander Schwing, (参考訳) 本研究では,オリジナルシーンの非剛性変換バージョンを単一観測し,NeRF表現を自動的に修正する手法を提案する。 本手法は3次元流れ,特に現場表面で定義される3次元アンカー点の剛性変換の重み付き線形ブレンディングとして変換を定義する。 アンカーポイントを特定するために、まずRGBベースのペアにマッチする新しい対応アルゴリズムを導入し、次に複数ビュー情報と3D再投影を利用して2ステップで偽陽性を頑健にフィルタリングする。 また,単一観測によるNeRFシーンの修正問題を探索するための新しいデータセットも導入した。 私たちのデータセット(https://github.com/nerfdeformer/nerfdeformer )には、47の3Dアセットを活用する113の合成シーンが含まれています。 提案手法は,NeRF編集法と拡散法とを比較検討し,対応をフィルタリングする異なる手法についても検討した。

We present a method for automatically modifying a NeRF representation based on a single observation of a non-rigid transformed version of the original scene. Our method defines the transformation as a 3D flow, specifically as a weighted linear blending of rigid transformations of 3D anchor points that are defined on the surface of the scene. In order to identify anchor points, we introduce a novel correspondence algorithm that first matches RGB-based pairs, then leverages multi-view information and 3D reprojection to robustly filter false positives in two steps. We also introduce a new dataset for exploring the problem of modifying a NeRF scene through a single observation. Our dataset ( https://github.com/nerfdeformer/nerfdeformer ) contains 113 synthetic scenes leveraging 47 3D assets. We show that our proposed method outperforms NeRF editing methods as well as diffusion-based methods, and we also explore different methods for filtering correspondences.
翻訳日:2024-06-18 23:53:14 公開日:2024-06-15
# 2時間2次相関関数

Two-time second-order correlation function ( http://arxiv.org/abs/2406.10546v1 )

ライセンス: Link先を確認
Sintayehu Tesfa, (参考訳) 確率微分方程式、コヒーレント状態プロパゲータ、準統計分布関数などによる2次相関関数の導出について述べる。 このプロセスでは、コヒーレント状態プロパゲータと、検討中の量子系を表す$Q$関数が異なる時間パラメータで表現されるトレース演算を用いて、演算子の時間依存性を密度演算子に転送する。 結果として得られる積分の数は大きいが、これに付随する実装は、関連する$c$-数値関数が本質的にガウス函数であるという観点からは単純であることが判明した。 一方のアプローチの結果を他方の観点で書き換える可能性について、提示された導出は、量子的相関を明らかにするために展開できる様々な時間における様々なモーメントの相関を計算するための有効な技術の基礎となることが期待されている。

Derivation of two-time second-order correlation function by following approaches such as stochastic differential equation, coherent-state propagator, and quasi-statistical distribution function is presented. In the process, the time dependence of the operators is transferred to the density operator by making use of trace operation in which the coherent state propagator and $Q$-function that represent the quantum system under consideration are expressed in terms of different time parameters. Even though the number of resulting integrations are found to be large, the accompanying implementation turns out to be straightforward in view that the associated $c$-number functions are Gaussian by nature. In relation to the asserted possibility of rewriting the result of one of the approaches in terms of the other, the presented derivation is expected to lay a strong foundation for viable technique of calculating correlations of various moments at different times that can be deployed in revealing quantum correlations.
翻訳日:2024-06-18 23:53:14 公開日:2024-06-15
# 長文音声翻訳のための軽量音声セグメンテーション

Lightweight Audio Segmentation for Long-form Speech Translation ( http://arxiv.org/abs/2406.10549v1 )

ライセンス: Link先を確認
Jaesong Lee, Soyoon Kim, Hanbyul Kim, Joon Son Chung, (参考訳) 音声セグメンテーションは、現実のシナリオにおける音声翻訳(ST)システムにおいて不可欠な部分である。 ほとんどのSTモデルは音声セグメントを処理するように設計されているため、長文音声は翻訳の前に短いセグメントに分割する必要がある。 近年,音声分割タスクに対するデータ駆動型アプローチが開発されている。 アプローチは全体的な翻訳品質を改善するが、モデルとSTシステムのミスマッチによる性能差が存在する。 さらに、先行研究は、膨大な計算資源を消費する大規模な自己教師型音声モデルを必要とする。 そこで本研究では,少ないモデルサイズでより優れた音声翻訳品質を実現するセグメンテーションモデルを提案する。 セグメンテーションモデルのための効果的な事前学習戦略として、ASR-with-punctuationタスクを提案する。 また,音声分割モデルの基盤となるSTシステムへの適切な統合は,推論時の全体的な翻訳品質の向上に不可欠であることを示す。

Speech segmentation is an essential part of speech translation (ST) systems in real-world scenarios. Since most ST models are designed to process speech segments, long-form audio must be partitioned into shorter segments before translation. Recently, data-driven approaches for the speech segmentation task have been developed. Although the approaches improve overall translation quality, a performance gap exists due to a mismatch between the models and ST systems. In addition, the prior works require large self-supervised speech models, which consume significant computational resources. In this work, we propose a segmentation model that achieves better speech translation quality with a small model size. We propose an ASR-with-punctuation task as an effective pre-training strategy for the segmentation model. We also show that proper integration of the speech segmentation model into the underlying ST system is critical to improve overall translation quality at inference time.
翻訳日:2024-06-18 23:53:14 公開日:2024-06-15
# ニュースイベント検出のための大規模言語モデル強化クラスタリング

Large Language Model Enhanced Clustering for News Event Detection ( http://arxiv.org/abs/2406.10552v1 )

ライセンス: Link先を確認
Adane Nega Tarekegn, Fazle Rabbi, Bjørnar Tessem, (参考訳) ニュースの世界は継続的に進化し続けており、世界中の情報が増え続けている。 この巨大なデータリポジトリ内のイベントの自動検出は、さまざまなプラットフォーム間で重要なニュースを監視、識別、分類するために不可欠である。 本稿では,大規模言語モデル(LLM)とクラスタリング分析を組み合わせて,GDELT(Global Database of Events, Language, and Tone)からニュースイベントを検出するイベント検出フレームワークを提案する。 このフレームワークは、イベント検出タスク(キーワード抽出とテキスト埋め込み)と後検出タスク(イベント要約とトピックラベリング)の両方を通じてイベントクラスタリングを強化する。 また、各種テキスト埋め込みがクラスタリング結果の質に及ぼす影響を評価し、ロバストなニュース分類を確実にする。 さらに,クラスタリング結果の有効性とロバスト性を評価するために,新しいクラスタ安定性評価指標(CSAI)を導入する。 CSAIは遅延特徴ベクトルを用いてクラスタリングの品質を計測する新しい方法を提供する。 実験の結果,LCMの埋め込みとクラスタリングアルゴリズムを組み合わせることで,CSAIスコアがより堅牢であることを示す。 さらに、イベント検出タスクは意味のある洞察を生成し、イベントクラスタリング結果の効果的な解釈を容易にする。 実験結果から,提案フレームワークは貴重な洞察を与え,ニュースレポートの精度と深度を向上する可能性が示唆された。

The news landscape is continuously evolving, with an ever-increasing volume of information from around the world. Automated event detection within this vast data repository is essential for monitoring, identifying, and categorizing significant news occurrences across diverse platforms. This paper presents an event detection framework that leverages Large Language Models (LLMs) combined with clustering analysis to detect news events from the Global Database of Events, Language, and Tone (GDELT). The framework enhances event clustering through both pre-event detection tasks (keyword extraction and text embedding) and post-event detection tasks (event summarization and topic labeling). We also evaluate the impact of various textual embeddings on the quality of clustering outcomes, ensuring robust news categorization. Additionally, we introduce a novel Cluster Stability Assessment Index (CSAI) to assess the validity and robustness of clustering results. CSAI utilizes latent feature vectors to provide a new way of measuring clustering quality. Our experiments indicate that combining LLM embeddings with clustering algorithms yields the best results, demonstrating greater robustness in terms of CSAI scores. Moreover, post-event detection tasks generate meaningful insights, facilitating effective interpretation of event clustering results. Overall, our experimental results indicate that the proposed framework offers valuable insights and could enhance the accuracy and depth of news reporting.
翻訳日:2024-06-18 23:53:14 公開日:2024-06-15
# トーキングヘッド合成の包括的分類法と分析:画像生成, 運転機構, 編集のための技術

A Comprehensive Taxonomy and Analysis of Talking Head Synthesis: Techniques for Portrait Generation, Driving Mechanisms, and Editing ( http://arxiv.org/abs/2406.10553v1 )

ライセンス: Link先を確認
Ming Meng, Yufei Zhao, Bo Zhang, Yonggui Zhu, Weimin Shi, Maxwell Wen, Zhaoxin Fan, (参考訳) 特定のコンテンツによって駆動される静止画からポートレートビデオを生成する高度な方法であるトーキングヘッド合成は、仮想現実、拡張現実、ゲーム制作において広く注目を集めている。 近年,変圧器や拡散モデルといった新しいモデルの導入によって大きなブレークスルーがおこなわれている。 現在のメソッドは、新しいコンテンツを生成するだけでなく、生成された素材を編集することもできます。 本調査は,3つの重要な領域 – ポートレート生成,駆動機構,編集技術 – に分類し,その技術を体系的にレビューする。 マイルストーン研究を要約し、各ドメインにおけるイノベーションと欠点を批判的に分析します。 さらに、データセットの広範な収集を組織し、様々な評価指標に基づいて、現在の方法論の徹底的なパフォーマンス分析を提供し、将来の研究に明確なフレームワークと堅牢なデータサポートを提供することを目指しています。 最後に,音声音声合成の応用シナリオについて検討し,特定の事例で説明し,今後の方向性について検討する。

Talking head synthesis, an advanced method for generating portrait videos from a still image driven by specific content, has garnered widespread attention in virtual reality, augmented reality and game production. Recently, significant breakthroughs have been made with the introduction of novel models such as the transformer and the diffusion model. Current methods can not only generate new content but also edit the generated material. This survey systematically reviews the technology, categorizing it into three pivotal domains: portrait generation, driven mechanisms, and editing techniques. We summarize milestone studies and critically analyze their innovations and shortcomings within each domain. Additionally, we organize an extensive collection of datasets and provide a thorough performance analysis of current methodologies based on various evaluation metrics, aiming to furnish a clear framework and robust data support for future research. Finally, we explore application scenarios of talking head synthesis, illustrate them with specific cases, and examine potential future directions.
翻訳日:2024-06-18 23:53:14 公開日:2024-06-15
# ダウングレードブロードキャストチャンネル上でのセマンティック通信のためのマルチユーザセマンティックフュージョン

Multi-User Semantic Fusion for Semantic Communications over Degraded Broadcast Channels ( http://arxiv.org/abs/2406.10556v1 )

ライセンス: Link先を確認
Tong Wu, Zhiyong Chen, Meixia Tao, Bin Xia, Wenjun Zhang, (参考訳) ダウングレード・ブロードキャスト・チャンネル(DBC)は典型的なマルチユーザ通信のシナリオであり、DBC上のセマンティック通信は深い研究を欠いている。 本稿では,DBC上の無線画像伝送のためのマルチユーザセマンティックフュージョンに基づくセマンティック・コミュニケーション・アプローチを設計する。 提案手法では,送信者が2人のユーザに対して個別に意味的特徴を抽出する。 そして、意味的類似性を利用して、これらの意味的特徴を効果的にブロードキャストに融合する。 従来の時間、電力、帯域幅の割り当てとは異なり、セマンティックフュージョンスキームは2人のユーザの意味的特徴の重みを動的に制御し、2人のユーザ間のパフォーマンスのバランスをとることができる。 DBC上の両方のユーザの異なるチャネル状態情報(CSI)を考慮すると、DBC-Aware法は、両方のユーザのCSIをジョイントソースチャネル符号化エンコーダとフュージョンモジュールに埋め込んでチャネルに適応させる。 実験の結果,提案方式は従来の放送方式よりも優れていた。

Degraded broadcast channels (DBC) are a typical multiuser communication scenario, Semantic communications over DBC still lack in-depth research. In this paper, we design a semantic communications approach based on multi-user semantic fusion for wireless image transmission over DBC. In the proposed method, the transmitter extracts semantic features for two users separately. It then effectively fuses these semantic features for broadcasting by leveraging semantic similarity. Unlike traditional allocation of time, power, or bandwidth, the semantic fusion scheme can dynamically control the weight of the semantic features of the two users to balance the performance between the two users. Considering the different channel state information (CSI) of both users over DBC, a DBC-Aware method is developed that embeds the CSI of both users into the joint source-channel coding encoder and fusion module to adapt to the channel. Experimental results show that the proposed system outperforms the traditional broadcasting schemes.
翻訳日:2024-06-18 23:53:14 公開日:2024-06-15
# 科学研究のためのブラックボックスの解説:生成人工知能時代における科学的手法の再考

Explain the Black Box for the Sake of Science: Revisiting the Scientific Method in the Era of Generative Artificial Intelligence ( http://arxiv.org/abs/2406.10557v1 )

ライセンス: Link先を確認
Gianmarco Mengaldo, (参考訳) 科学的手法は、人間の身体の理解から宇宙の仕組みの説明に至るまで、自然科学と応用科学のすべての分野における人間の進歩の基盤となっている。 科学的手法は、実験的な証拠を通じて検証できる再現可能な方法で興味の現象を記述する体系的な規則や原則を識別することに基づいている。 人工知能(AI)の時代、AIシステムが新しい知識を発見する方法について議論がある。 我々は、人工知能の出現以前には、科学的発見のための人間の複雑な推論が重要な存在であると主張している。 しかし、AIは説明可能なAIを介して科学的発見に活用することができる。 具体的には、決定に使用するデータAIシステムを知ることは、ドメインの専門家や科学者との接触点になり得る。 ダイバージェントな見解は、新たな科学的知識に繋がるさらなる科学的調査を引き起こす可能性がある。 収束的な見方は、AIシステムが人間にとって妥当と判断された境界内で動いていることを再確認するかもしれない。 後者のポイントは、医学などの応用科学において重要な応用に欠かせない信頼性要件に対処する。

The scientific method is the cornerstone of human progress across all branches of the natural and applied sciences, from understanding the human body to explaining how the universe works. The scientific method is based on identifying systematic rules or principles that describe the phenomenon of interest in a reproducible way that can be validated through experimental evidence. In the era of artificial intelligence (AI), there are discussions on how AI systems may discover new knowledge. We argue that, before the advent of artificial general intelligence, human complex reasoning for scientific discovery remains of vital importance. Yet, AI can be leveraged for scientific discovery via explainable AI. More specifically, knowing what data AI systems used to make decisions can be a point of contact with domain experts and scientists, that can lead to divergent or convergent views on a given scientific problem. Divergent views may spark further scientific investigations leading to new scientific knowledge. Convergent views may instead reassure that the AI system is operating within bounds deemed reasonable to humans. The latter point addresses the trustworthiness requirement that is indispensable for critical applications in the applied sciences, such as medicine.
翻訳日:2024-06-18 23:53:14 公開日:2024-06-15
# Grad-Instructor:メタラーニングとオートMLのための説明可能な評価ニューラルネットワークによるユニバーサルバックプロパゲーション

Grad-Instructor: Universal Backpropagation with Explainable Evaluation Neural Networks for Meta-learning and AutoML ( http://arxiv.org/abs/2406.10559v1 )

ライセンス: Link先を確認
Ryohei Ino, (参考訳) 本稿では,ディープニューラルネットワークトレーニングを自律的に強化する新しい手法を提案する。 私のアプローチでは、ターゲットネットワークの性能を予測するために、深い強化学習を通じてトレーニングされた評価ニューラルネットワーク(ENN)を使用します。 ENNは、バックプロパゲーション中に追加評価機能として機能する。 MLP(Multi-Layer Perceptrons)を用いた計算実験により,本手法の有効性が示された。 入力データを元の0.15^2の解像度で処理することで、ENNは効率的な推論を可能にした。 その結果,提案手法でトレーニングしたMPPは,従来のバックプロパゲーション法やL1正則化法に比べて平均93.02%の精度で2.8%高い値を示した。 提案手法のテスト精度は,Heの初期化で初期化したネットワークに匹敵するが,テストエラーとトレーニングエラーの差は小さくなる。 これらの改善はエポックの数を増やすことなく達成され、過度に適合するリスクを避ける。 さらに,本手法はトレーニング段階に応じて動的に勾配の等級を調整する。 MLPの強化のための最適EMNは予測可能であり、最適トレーニング手法の探索に要する時間を短縮することができる。 評価ベースを視覚化し、Strong Lottery Ticket仮説をサポートする能力を示す。

This paper presents a novel method for autonomously enhancing deep neural network training. My approach employs an Evaluation Neural Network (ENN) trained via deep reinforcement learning to predict the performance of the target network. The ENN then works as an additional evaluation function during backpropagation. Computational experiments with Multi-Layer Perceptrons (MLPs) demonstrate the method's effectiveness. By processing input data at 0.15^2 times its original resolution, the ENNs facilitated efficient inference. Results indicate that MLPs trained with the proposed method achieved a mean test accuracy of 93.02%, which is 2.8% higher than those trained solely with conventional backpropagation or with L1 regularization. The proposed method's test accuracy is comparable to networks initialized with He initialization while reducing the difference between test and training errors. These improvements are achieved without increasing the number of epochs, thus avoiding the risk of overfitting. Additionally, the proposed method dynamically adjusts gradient magnitudes according to the training stage. The optimal ENN for enhancing MLPs can be predicted, reducing the time spent exploring optimal training methodologies. The explainability of ENNs is also analyzed using Grad-CAM, demonstrating their ability to visualize evaluation bases and supporting the Strong Lottery Ticket hypothesis.
翻訳日:2024-06-18 23:53:14 公開日:2024-06-15
# Facts-and-Feelings:表-テキスト生成における客観性と主観性の両方をキャプチャする

Facts-and-Feelings: Capturing both Objectivity and Subjectivity in Table-to-Text Generation ( http://arxiv.org/abs/2406.10560v1 )

ライセンス: Link先を確認
Tathagata Dey, Pushpak Bhattacharyya, (参考訳) 自然言語生成における長年の課題であるテーブル・ツー・テキスト生成は、主観性のレンズを通して探索されていない。 ここでの主観性は、対象データだけでは説明できない表から得られる情報の理解を含んでいる。 既存のデータセットがないため、3849のデータインスタンスを持つTa2TSデータセットを導入します。 本稿では,線形化テーブル上でのシーケンス・ツー・シーケンスの微調整と,一般的な大言語モデルへのプロンプトを行う。 我々は、主観性と事実整合性の獲得を確実にするために、定量的かつ質的な視点から結果を分析する。 この分析は、微調整されたLMが誘導されたLSMに近い性能を発揮できることを示している。 どちらのモデルも表データのキャプチャが可能で、85.15%のBERTScoreと26.28%のMeteorスコアでテキストを生成する。 我々の知る限り、我々は複数のジャンルと主観性を含むテーブル上の第一種データセットを提供し、このタスクにおける様々なLLMパフォーマンスの包括的分析と比較を行った。

Table-to-text generation, a long-standing challenge in natural language generation, has remained unexplored through the lens of subjectivity. Subjectivity here encompasses the comprehension of information derived from the table that cannot be described solely by objective data. Given the absence of pre-existing datasets, we introduce the Ta2TS dataset with 3849 data instances. We perform the task of fine-tuning sequence-to-sequence models on the linearized tables and prompting on popular large language models. We analyze the results from a quantitative and qualitative perspective to ensure the capture of subjectivity and factual consistency. The analysis shows the fine-tuned LMs can perform close to the prompted LLMs. Both the models can capture the tabular data, generating texts with 85.15% BERTScore and 26.28% Meteor score. To the best of our knowledge, we provide the first-of-its-kind dataset on tables with multiple genres and subjectivity included and present the first comprehensive analysis and comparison of different LLM performances on this task.
翻訳日:2024-06-18 23:53:14 公開日:2024-06-15
# We Care:マルチモーダル・デプレッション検出と知識注入によるメンタルヘルス・セラピー・レスポンス生成

We Care: Multimodal Depression Detection and Knowledge Infused Mental Health Therapeutic Response Generation ( http://arxiv.org/abs/2406.10561v1 )

ライセンス: Link先を確認
Palash Moon, Pushpak Bhattacharyya, (参考訳) 非言語的手がかりによる抑うつの検出は注目されている。 それまでの研究は主に、制御された実験室の環境の中でうつ病を識別することに集中しており、心理学者やカウンセラーの監督が中心であった。 残念ながら、このような制御された設定で生成されたデータセットは、現実の状況における個々の振る舞いを判断するのに苦労する可能性がある。 この制限に対応するために、1,261のYouTube vlogのコレクションを含む拡張D-vlogデータセットを提示する。 さらに、GPT3.5やGPT4のような大きな言語モデル(LLM)が出現し、メンタルヘルスの専門家のように振る舞う可能性への関心が高まっている。 しかし、これらのLLMモデルの実際の設定で使用する準備が整っていることは、ユーザを傷つける可能性のある間違ったレスポンスを与えることができるため、依然として懸念事項である。 本稿では,認知行動療法(Cognitive Behavioral Therapy, CBT)をベースとした, メンタルヘルス患者の初期接触として機能する仮想エージェントについて紹介する。 コア関数は2つある。 1.個人におけるうつ病の特定、及び CBTに基づく治療反応の提供 私たちのMistralモデルは歪み評価と分類で70.1%、30.9%、ベルトスコア88.7%を達成しました。 さらに、Multimodal Extended D-vlog Dataset上でのTVLTモデルの利用は、F1スコア67.8%の優れた結果を得た。

The detection of depression through non-verbal cues has gained significant attention. Previous research predominantly centred on identifying depression within the confines of controlled laboratory environments, often with the supervision of psychologists or counsellors. Unfortunately, datasets generated in such controlled settings may struggle to account for individual behaviours in real-life situations. In response to this limitation, we present the Extended D-vlog dataset, encompassing a collection of 1, 261 YouTube vlogs. Additionally, the emergence of large language models (LLMs) like GPT3.5, and GPT4 has sparked interest in their potential they can act like mental health professionals. Yet, the readiness of these LLM models to be used in real-life settings is still a concern as they can give wrong responses that can harm the users. We introduce a virtual agent serving as an initial contact for mental health patients, offering Cognitive Behavioral Therapy (CBT)-based responses. It comprises two core functions: 1. Identifying depression in individuals, and 2. Delivering CBT-based therapeutic responses. Our Mistral model achieved impressive scores of 70.1% and 30.9% for distortion assessment and classification, along with a Bert score of 88.7%. Moreover, utilizing the TVLT model on our Multimodal Extended D-vlog Dataset yielded outstanding results, with an impressive F1-score of 67.8%
翻訳日:2024-06-18 23:43:29 公開日:2024-06-15
# 知的医療データのためのプライバシー保護不均一学習

Privacy-Preserving Heterogeneous Federated Learning for Sensitive Healthcare Data ( http://arxiv.org/abs/2406.10563v1 )

ライセンス: Link先を確認
Yukai Xu, Jingfeng Zhang, Yujie Gu, (参考訳) 分散化された施設が一般的である医療の世界では、機械学習はデータとモデルの保護に関する2つの大きな課題に直面している。 データレベルの課題は、機密性の高い個人情報でデータを集中化する際のデータプライバシの漏洩に関するものだ。 モデルレベルの課題は、ローカルモデルの異質性から生じるが、知的財産権の懸念に対処するためには、機密性を確保しながら協調的に訓練する必要がある。 これらの課題に対処するために、データプライバシを同時に保護しつつ、異種ローカルモデルを協調的かつ機密的にトレーニングできる、AAFV(Abstention-Aware Federated Voting)と呼ばれる新しいフレームワークを提案する。 これは、新しい棄権対応投票機構と差分プライバシー機構をローカルモデルの予測に組み込むことによって達成される。 特に,提案手法では,不均一な局所モデルから高信頼度投票を選択するために,しきい値に基づく棄権方式を利用して,学習ユーティリティの向上だけでなく,モデルの機密性を保護している。 さらに,AAFVは糖尿病と院内患者死亡の2つの実用的な予測課題に実装した。 実験では、精度とプライバシー保護の検査におけるAFVの有効性と機密性を実証した。

In the realm of healthcare where decentralized facilities are prevalent, machine learning faces two major challenges concerning the protection of data and models. The data-level challenge concerns the data privacy leakage when centralizing data with sensitive personal information. While the model-level challenge arises from the heterogeneity of local models, which need to be collaboratively trained while ensuring their confidentiality to address intellectual property concerns. To tackle these challenges, we propose a new framework termed Abstention-Aware Federated Voting (AAFV) that can collaboratively and confidentially train heterogeneous local models while simultaneously protecting the data privacy. This is achieved by integrating a novel abstention-aware voting mechanism and a differential privacy mechanism onto local models' predictions. In particular, the proposed abstention-aware voting mechanism exploits a threshold-based abstention method to select high-confidence votes from heterogeneous local models, which not only enhances the learning utility but also protects model confidentiality. Furthermore, we implement AAFV on two practical prediction tasks of diabetes and in-hospital patient mortality. The experiments demonstrate the effectiveness and confidentiality of AAFV in testing accuracy and privacy protection.
翻訳日:2024-06-18 23:43:29 公開日:2024-06-15
# フォトニックスピンホール効果のゲインアシスタント制御

Gain assistant control of photonic spin Hall effect ( http://arxiv.org/abs/2406.10565v1 )

ライセンス: Link先を確認
Muhammad Waseem, Muzamil Shah, Gao Xianlong, (参考訳) 横シフト(transverse shift)とも呼ばれるフォトニックスピンホール効果(SHE)では、光のスピン軌道相互作用により、反対スピンの入射光が横方向に空間的に分離される。 本稿では、反射型プローブ光におけるSHEを制御するためのゲインアシストモデルを提案する。 このモデルでは、原子と制御場の間の相互作用が2光子ラマン遷移に続く3レベルの希薄ガス状原子媒体を含むキャビティにプローブ光が入射する。 我々は,光子スピン蓄積の方向を,異常と通常の分散状態の両方において,ブリュースター角の正と負の値に切り替えることができることを示した。 同じ大きさの制御磁場に対して、光性SHEのピーク値は、通常の分散状態と比較して異常分散領域において高い。 さらに、ブリュースター角付近の角度範囲は、異常分散領域よりも通常の分散状態において広い。 さらに、光性SHEのピーク値と角域は、制御フィールドのRabi周波数とプローブフィールドのデチューニングを変化させて制御可能である。 ゲインアシストに基づくフォトニックSHEの測定は、光センシングのようなスピン関連の応用を可能にする可能性がある。

In the photonic spin Hall effect (SHE), also known as transverse shift, incident light photons with opposite spins are spatially separated in the transverse direction due to the spin-orbit interaction of light. Here, we propose a gain-assisted model to control the SHE in the reflected probe light. In this model, a probe light is incident on a cavity containing a three-level dilute gaseous atomic medium, where the interaction between the atom and the control field follows two-photon Raman transitions. We show that the direction of photonic spin accumulations can be switched between positive and negative values across the Brewster angle in both the anomalous and normal dispersion regimes. For the same magnitude of control fields, the peak value of the photonic SHE is higher in the anomalous dispersion region compared to the normal dispersion regime. Additionally, the angular range around the Brewster angle is wider in the normal dispersion regime than in the anomalous dispersion region. Furthermore, the peak value of the photonic SHE and the angular range is controllable by changing the Rabi frequencies of the control fields and the probe field detuning. The measurement of photonic SHE based on gain assistance may enable spin-related applications such as optical sensing.
翻訳日:2024-06-18 23:43:29 公開日:2024-06-15
# MDA: モーダリティと固有雑音を欠く多モード核融合

MDA: An Interpretable Multi-Modal Fusion with Missing Modalities and Intrinsic Noise ( http://arxiv.org/abs/2406.10569v1 )

ライセンス: Link先を確認
Lin Fan, Yafei Ou, Cenyang Zheng, Pengyu Dai, Tamotsu Kamishima, Masayuki Ikebe, Kenji Suzuki, Xun Gong, (参考訳) マルチモーダル融合は医療データ研究において重要であり、様々なモダリティを組み合わせることで、疾患の包括的理解と診断性能の向上を可能にする。 しかし、マルチモーダル融合は、モダリティ間の相互作用のキャプチャ、欠落したモダリティへの対処、誤ったモダリティ情報の処理、解釈可能性の確保など、課題に直面している。 既存の研究者の多くは、これらの問題に対して異なる解決策を設計する傾向があり、しばしばそれらの共通点を見下ろしている。 本稿では,モーダル・ドメイン・アテンション(MDA)を導入して,各モーダルの重みに対する適応調整を実現する,新しいマルチモーダル・フュージョン・フレームワークを提案する。 本研究の目的は、欠落したモダリティや固有のノイズを取り入れつつ、マルチモーダル情報の融合を容易にし、マルチモーダルデータの表現を向上させることである。 我々は,モーダル融合の過程を観察することにより,精度変化とMDA重みの可視化を行い,その解釈可能性に関する包括的分析を行う。 各種消化管疾患ベンチマークの広範囲な実験により,本提案のMDAは,モダリティの欠如や内因性雑音の存在下においても高い精度を維持している。 特筆すべき点は、MDAの可視化は、様々な疾患の様々なモードへの依存に関する既存の臨床研究の結論と非常に一致している点である。 コードとデータセットが利用可能になる。

Multi-modal fusion is crucial in medical data research, enabling a comprehensive understanding of diseases and improving diagnostic performance by combining diverse modalities. However, multi-modal fusion faces challenges, including capturing interactions between modalities, addressing missing modalities, handling erroneous modal information, and ensuring interpretability. Many existing researchers tend to design different solutions for these problems, often overlooking the commonalities among them. This paper proposes a novel multi-modal fusion framework that achieves adaptive adjustment over the weights of each modality by introducing the Modal-Domain Attention (MDA). It aims to facilitate the fusion of multi-modal information while allowing for the inclusion of missing modalities or intrinsic noise, thereby enhancing the representation of multi-modal data. We provide visualizations of accuracy changes and MDA weights by observing the process of modal fusion, offering a comprehensive analysis of its interpretability. Extensive experiments on various gastrointestinal disease benchmarks, the proposed MDA maintains high accuracy even in the presence of missing modalities and intrinsic noise. One thing worth mentioning is that the visualization of MDA is highly consistent with the conclusions of existing clinical studies on the dependence of different diseases on various modalities. Code and dataset will be made available.
翻訳日:2024-06-18 23:43:29 公開日:2024-06-15
# ポスト量子ステアリングの活性化

Activation of post-quantum steering ( http://arxiv.org/abs/2406.10570v1 )

ライセンス: Link先を確認
Ana Belén Sainz, Paul Skrzypczyk, Matty J. Hoban, (参考訳) ベルの不等式により大きな違反を与える物理理論は、対応するティレルソン境界(英語版)(Tsirelson bound)、すなわち量子後非局所性(英語版)(post-quantum non-locality)と呼ばれるものよりも大きい可能性がある。 このような理論は特殊相対性理論に反するものではなく、特定の情報処理タスクにおいて有利である可能性がある。 エンタングル量子状態が非古典的な現象を示す別の方法として、アインシュタイン=ポドルスキー=ローゼン(EPR)ステアリングがある。 術後のERPステアリングはより複雑であるが,従来のベル試験では必ずしも非局所性を示すものではないことが示されている。 本研究では,量子後非局所性を個別に示さない大規模ネットワークにおいて資源を分配する方法を示す。 すなわち,ベルシナリオにおいて,量子後相関として確認できるように,量子後ステアリングを活性化する方法を示す。 独立した研究の1つの要素は、量子後資源を仮定してさえも、ネットワーク内の二部量子集合を自己テストする方法を示すことである。

There are possible physical theories that give greater violations of Bell's inequalities than the corresponding Tsirelson bound, termed post-quantum non-locality. Such theories do not violate special relativity, but could give an advantage in certain information processing tasks. There is another way in which entangled quantum states exhibit non-classical phenomena, with one notable example being Einstein-Podolsky-Rosen (EPR) steering; a violation of a bipartite Bell inequality implies EPR steering, but the converse is not necessarily true. The study of post-quantum EPR steering is more intricate, but it has been shown that it does not always imply post-quantum non-locality in a conventional Bell test. In this work we show how to distribute resources in a larger network that individually do not demonstrate post-quantum non-locality but violate a Tsirelson bound for the network. That is, we show how to activate post-quantum steering so that it can now be witnessed as post-quantum correlations in a Bell scenario. One element of our work that may be of independent interest is we show how to self-test a bipartite quantum assemblage in a network, even assuming post-quantum resources.
翻訳日:2024-06-18 23:43:29 公開日:2024-06-15
# グラフニューラルバックドア:基礎,方法論,応用,今後の方向性

Graph Neural Backdoor: Fundamentals, Methodologies, Applications, and Future Directions ( http://arxiv.org/abs/2406.10573v1 )

ライセンス: Link先を確認
Xiao Yang, Gaolei Li, Jianhua Li, (参考訳) グラフニューラルネットワーク(GNN)は、リコメンダシステム、分子構造予測、ソーシャルメディア分析など、さまざまなダウンストリームグラフ関連タスクを大幅に進歩させてきた。 GNNの強化にもかかわらず、最近の研究は、バックドア攻撃の潜在的な脆弱性を実証的に証明し、敵は毒の入力サンプルにトリガーを使用、GNNを敵が治療した悪意のあるアウトプットに誘導する。 これは典型的には、制御されたトレーニングプロセスや、サードパーティサービスへのモデルトレーニングの委譲、外部トレーニングセットの活用、オンラインソースからの事前トレーニングモデルの採用など、信頼できないモデルのデプロイによるものである。 GNNバックドアの研究は進行中ですが、この分野に関する包括的な調査は不十分です。 このギャップを埋めるため、GNNバックドアに関する最初の調査を提案する。 まず、GNNの基本的定義の概要と、その技術的特徴と応用シナリオに基づいて、現在のGNNバックドア攻撃と防御の詳細な要約と分類を行う。 その後、GNNバックドアの適用性および使用事例の分析を行う。 最後に,GNNバックドアの潜在的研究方向性について述べる。 この調査は、グラフバックドアの原則を探求し、ディフェンダーに洞察を提供し、将来のセキュリティ研究を促進することを目的としている。

Graph Neural Networks (GNNs) have significantly advanced various downstream graph-relevant tasks, encompassing recommender systems, molecular structure prediction, social media analysis, etc. Despite the boosts of GNN, recent research has empirically demonstrated its potential vulnerability to backdoor attacks, wherein adversaries employ triggers to poison input samples, inducing GNN to adversary-premeditated malicious outputs. This is typically due to the controlled training process, or the deployment of untrusted models, such as delegating model training to third-party service, leveraging external training sets, and employing pre-trained models from online sources. Although there's an ongoing increase in research on GNN backdoors, comprehensive investigation into this field is lacking. To bridge this gap, we propose the first survey dedicated to GNN backdoors. We begin by outlining the fundamental definition of GNN, followed by the detailed summarization and categorization of current GNN backdoor attacks and defenses based on their technical characteristics and application scenarios. Subsequently, the analysis of the applicability and use cases of GNN backdoors is undertaken. Finally, the exploration of potential research directions of GNN backdoors is presented. This survey aims to explore the principles of graph backdoors, provide insights to defenders, and promote future security research.
翻訳日:2024-06-18 23:43:29 公開日:2024-06-15
# 混合戦略ナッシュ均衡ゲームで遊ぶ大規模言語モデル

Large Language Models Playing Mixed Strategy Nash Equilibrium Games ( http://arxiv.org/abs/2406.10574v1 )

ライセンス: Link先を確認
Alonso Silva, (参考訳) ジェネレーティブ人工知能(ジェネレーティブAI)、特にLarge Language Models(LLM)は、研究者や産業コミュニティの間で大きな人気を集め、ロボティクス、テレコム、ヘルスケアなど、さまざまな分野にLLMを統合する道を開いた。 本稿では,混合戦略ナッシュ均衡と純粋な戦略ナッシュ均衡(混合戦略ナッシュ均衡ゲームを示す)を持たないゲームにおいて,ナッシュ均衡を求めるLLMの能力に着目し,ゲーム理論と生成人工知能の交わりについて検討する。 この研究は、LLMがコードを実行する可能性を備えており、それをインセンティブにするための特定のプロンプトが提供される場合に、LLMのパフォーマンスが大幅に向上することを明らかにする。 しかし,本研究は,ゲームにおけるランダム化戦略が容易に推論できない場合のLLMの限界も強調する。 LLMは、よく知られた標準ゲームにおいて顕著な熟練度を示すが、その性能は、同じゲームのわずかな変更に直面した時に低下する。 本稿では,LLMの強みと弱みに関する貴重な洞察を提供しつつ,ゲーム理論と生成人工知能の交差に関する知識の育成に寄与することを目的とする。 また、LSMの限界を克服するためのさらなる研究の必要性、特にその潜在能力を最大限に活用するためには、さらに複雑なシナリオを扱う必要があることも示している。

Generative artificial intelligence (Generative AI), and in particular Large Language Models (LLMs) have gained significant popularity among researchers and industrial communities, paving the way for integrating LLMs in different domains, such as robotics, telecom, and healthcare. In this paper, we study the intersection of game theory and generative artificial intelligence, focusing on the capabilities of LLMs to find the Nash equilibrium in games with a mixed strategy Nash equilibrium and no pure strategy Nash equilibrium (that we denote mixed strategy Nash equilibrium games). The study reveals a significant enhancement in the performance of LLMs when they are equipped with the possibility to run code and are provided with a specific prompt to incentivize them to do so. However, our research also highlights the limitations of LLMs when the randomization strategy of the game is not easy to deduce. It is evident that while LLMs exhibit remarkable proficiency in well-known standard games, their performance dwindles when faced with slight modifications of the same games. This paper aims to contribute to the growing body of knowledge on the intersection of game theory and generative artificial intelligence while providing valuable insights into LLMs strengths and weaknesses. It also underscores the need for further research to overcome the limitations of LLMs, particularly in dealing with even slightly more complex scenarios, to harness their full potential.
翻訳日:2024-06-18 23:43:29 公開日:2024-06-15
# バックプロパゲーションのない大規模言語モデルの最適化に基づく構造解析

Optimization-based Structural Pruning for Large Language Models without Back-Propagation ( http://arxiv.org/abs/2406.10576v1 )

ライセンス: Link先を確認
Yuan Gao, Zujing Liu, Weizhong Zhang, Bo Du, Gui-Song Xia, (参考訳) ニューラルネットワークモデルの適度なサイズと比較して、LLM(Large-Language Models)の構造的プルーニングは、LLMの重い計算/メモリ要求のため、プルーニングアルゴリズムの効率に新たな課題を課している。 近年の効率的なLCMプルーニング法は、高価な重量微調整を伴わずに訓練後の段階で動作しているが、そのプルーニング基準は、しばしばヒューリスティックに設計されたメトリクスに依存しており、最適以下の性能をもたらす可能性がある。 そこで本研究では, 確率空間におけるプルーニングマスクを直接学習し, プルーニングモデルの損失を最適化することで, 新たな最適化に基づく構造的プルーニングを提案する。 効率を維持するため、我々の方法 1)ポストトレーニングフェーズで作業し、 2) 最適化中(すなわち、LLMの前方通過のみ)にLLMを経由するバックプロパゲーションを除去する。 本研究では,Bernolli分布の基底を二値分岐マスクのサンプルとして学習し,LLM損失からBernolliパラメータを分離することにより,バックプロパゲーションのないポリシ勾配推定器による効率的な最適化を実現する。 その結果、我々の方法では、 1)チャネル,ヘッド,レイヤの構造的な粒度で動作する。 2)グローバルおよびヘテロジニアスプルーニング(すなわち,各レイヤの異なる冗長性を自動的に決定する手法)をサポートし, 3) 任意に(ベルヌーイ分布の)初期化としてメートル法を用いる。 C4およびWikiText2データセットを用いたLLaMA,LLaMA-2,Vicunaの大規模な実験により,1つのA100 GPU上での13Bモデルに対して,約35GBのメモリで2.7時間動作し,解析結果が得られた。 コードはリリースされる。

Compared to the moderate size of neural network models, structural weight pruning on the Large-Language Models (LLMs) imposes a novel challenge on the efficiency of the pruning algorithms, due to the heavy computation/memory demands of the LLMs. Recent efficient LLM pruning methods typically operate at the post-training phase without the expensive weight finetuning, however, their pruning criteria often rely on heuristically designed metrics, potentially leading to suboptimal performance. We instead propose a novel optimization-based structural pruning that learns the pruning masks in a probabilistic space directly by optimizing the loss of the pruned model. To preserve the efficiency, our method 1) works at post-training phase} and 2) eliminates the back-propagation through the LLM per se during the optimization (i.e., only requires the forward pass of the LLM). We achieve this by learning an underlying Bernoulli distribution to sample binary pruning masks, where we decouple the Bernoulli parameters from the LLM loss, thus facilitating an efficient optimization via a policy gradient estimator without back-propagation. As a result, our method is able to 1) operate at structural granularities of channels, heads, and layers, 2) support global and heterogeneous pruning (i.e., our method automatically determines different redundancy for different layers), and 3) optionally use a metric-based method as initialization (of our Bernoulli distributions). Extensive experiments on LLaMA, LLaMA-2, and Vicuna using the C4 and WikiText2 datasets demonstrate that our method operates for 2.7 hours with around 35GB memory for the 13B models on a single A100 GPU, and our pruned models outperform the state-of-the-arts w.r.t. perplexity. Codes will be released.
翻訳日:2024-06-18 23:43:29 公開日:2024-06-15
# ニューラルネットワークにおけるトラクタを用いた分布外および対向サンプルの存在下でのロバスト画像分類

Robust Image Classification in the Presence of Out-of-Distribution and Adversarial Samples Using Attractors in Neural Networks ( http://arxiv.org/abs/2406.10579v1 )

ライセンス: Link先を確認
Nasrin Alipour, Seyyed Ali SeyyedSalehi, (参考訳) ディープ分類器におけるオフ・オブ・ディストリビューション(OOD)サンプルの適切な処理は、ディープニューラルネットワークの安全クリティカルシステムにおける適合性を確保する上で重要な問題である。 敵攻撃の存在下での強いOOD検出のために開発された既存のアプローチは、摂動レベルを増大させることで性能を低下させる。 本研究は,OOD試料の存在下でのロバストな分類法と高い摂動レベルを有する敵攻撃について提案する。 提案手法では、トレーニングサンプルをアトラクタとして使用するようにトレーニングされた、完全に接続されたニューラルネットワークを活用し、堅牢性を高める。 このネットワークは入力を分類し、OODサンプルを識別する機能も備えている。 この手法を評価するために、ネットワークはMNISTデータセットに基づいてトレーニングされ、その性能は敵の例で検証される。 その結果、高い摂動MNISTテストデータを扱う場合、敵の例を分類してもネットワークは性能を保ち、精度は87.13%であることがわかった。 さらに、ファッションMNISTとCIFAR-10-bwをOODサンプルとして使用することにより、これらのサンプルを98.84%、99.28%の精度でMNISTサンプルと区別することができる。 激しい敵対攻撃が存在する場合、これらの対策は98.48%と98.88%にわずかに減少し、提案手法の堅牢性を示している。

The proper handling of out-of-distribution (OOD) samples in deep classifiers is a critical concern for ensuring the suitability of deep neural networks in safety-critical systems. Existing approaches developed for robust OOD detection in the presence of adversarial attacks lose their performance by increasing the perturbation levels. This study proposes a method for robust classification in the presence of OOD samples and adversarial attacks with high perturbation levels. The proposed approach utilizes a fully connected neural network that is trained to use training samples as its attractors, enhancing its robustness. This network has the ability to classify inputs and identify OOD samples as well. To evaluate this method, the network is trained on the MNIST dataset, and its performance is tested on adversarial examples. The results indicate that the network maintains its performance even when classifying adversarial examples, achieving 87.13% accuracy when dealing with highly perturbed MNIST test data. Furthermore, by using fashion-MNIST and CIFAR-10-bw as OOD samples, the network can distinguish these samples from MNIST samples with an accuracy of 98.84% and 99.28%, respectively. In the presence of severe adversarial attacks, these measures decrease slightly to 98.48% and 98.88%, indicating the robustness of the proposed method.
翻訳日:2024-06-18 23:43:29 公開日:2024-06-15
# IMDL-BenCo:画像操作検出と位置検出のための総合ベンチマークとコードベース

IMDL-BenCo: A Comprehensive Benchmark and Codebase for Image Manipulation Detection & Localization ( http://arxiv.org/abs/2406.10580v1 )

ライセンス: Link先を確認
Xiaochen Ma, Xuekang Zhu, Lei Su, Bo Du, Zhuohang Jiang, Bingkui Tong, Zeyu Lei, Xinyu Yang, Chi-Man Pun, Jiancheng Lv, Jizhe Zhou, (参考訳) Image Manipulation Detection \& Localization (IMDL)フィールドに包括的なベンチマークがまだ確立されていない。 このようなベンチマークがなければ、モデル評価が不十分で誤解を招くことになり、この分野の開発を著しく損なうことになる。 しかし、オープンソースのベースラインモデルと一貫性のないトレーニングと評価プロトコルの不足は、厳密な実験とIMDLモデルの忠実な比較を困難にしている。 これらの課題に対処するために、最初の包括的なIMDLベンチマークとモジュール化されたコードベースであるIMDL-BenCoを紹介します。 IMDL-BenCo:~\textbf{i)} はIMDLフレームワークを標準化された再利用可能なコンポーネントに分解し、モデル構築パイプラインを改訂し、コーディング効率とカスタマイズの柔軟性を改善します。 具体的には、IMDL-BenCoは、共通処理アルゴリズム、8つの最先端IMDLモデル(うち1つはスクラッチから再現されている)、2つの標準トレーニングおよび評価プロトコル、15のGPUアクセラレーション評価メトリクス、および3種類の堅牢性評価を含む。 このベンチマークとコードベースは、IMDLフィールドの現在の進捗を校正し、将来のブレークスルーを刺激する上で、大きな前進を示している。 コードは、https://github.com/scu-zjz/IMDLBenCoで入手できる。

A comprehensive benchmark is yet to be established in the Image Manipulation Detection \& Localization (IMDL) field. The absence of such a benchmark leads to insufficient and misleading model evaluations, severely undermining the development of this field. However, the scarcity of open-sourced baseline models and inconsistent training and evaluation protocols make conducting rigorous experiments and faithful comparisons among IMDL models challenging. To address these challenges, we introduce IMDL-BenCo, the first comprehensive IMDL benchmark and modular codebase. IMDL-BenCo:~\textbf{i)} decomposes the IMDL framework into standardized, reusable components and revises the model construction pipeline, improving coding efficiency and customization flexibility;~\textbf{ii)} fully implements or incorporates training code for state-of-the-art models to establish a comprehensive IMDL benchmark; and~\textbf{iii)} conducts deep analysis based on the established benchmark and codebase, offering new insights into IMDL model architecture, dataset characteristics, and evaluation standards. Specifically, IMDL-BenCo includes common processing algorithms, 8 state-of-the-art IMDL models (1 of which are reproduced from scratch), 2 sets of standard training and evaluation protocols, 15 GPU-accelerated evaluation metrics, and 3 kinds of robustness evaluation. This benchmark and codebase represent a significant leap forward in calibrating the current progress in the IMDL field and inspiring future breakthroughs. Code is available at: https://github.com/scu-zjz/IMDLBenCo
翻訳日:2024-06-18 23:43:29 公開日:2024-06-15
# CrossFuse: 赤外線と可視画像融合による新しいクロスアテンション機構

CrossFuse: A Novel Cross Attention Mechanism based Infrared and Visible Image Fusion Approach ( http://arxiv.org/abs/2406.10581v1 )

ライセンス: Link先を確認
Hui Li, Xiao-Jun Wu, (参考訳) マルチモーダル視覚情報融合は、より補完的な情報とより冗長な特徴を含む単一の画像にマルチセンサデータを統合することを目的としている。 しかし、これらの2つのモード間の大きな類似性ギャップを含む赤外線および可視画像については、補完情報は抽出が困難である。 一般的なクロスアテンションモジュールは、画像融合タスクは相補性(非相関性)にのみ焦点をあてる。 そこで本稿では,補完情報を強化するために,新しいクロスアテンション機構(CAM)を提案する。 さらに、融合画像を生成するために、2段階のトレーニング戦略に基づく融合スキームを提案する。 最初の段階では、同じアーキテクチャを持つ2つのオートエンコーダネットワークが、各モダリティのために訓練されている。 そして、固定エンコーダにより、第2段階でCAMとデコーダを訓練する。 トレーニングされたCAMでは、2つのモダリティから抽出された特徴を1つの融合特徴に統合し、補完情報が強化され、冗長な特徴が低減される。 最後に、融合画像をトレーニングされたデコーダで生成することができる。 実験の結果,提案手法は既存の核融合ネットワークと比較してSOTA核融合性能が得られることがわかった。 コードはhttps://github.com/hli1221/CrossFuseで入手できる。

Multimodal visual information fusion aims to integrate the multi-sensor data into a single image which contains more complementary information and less redundant features. However the complementary information is hard to extract, especially for infrared and visible images which contain big similarity gap between these two modalities. The common cross attention modules only consider the correlation, on the contrary, image fusion tasks need focus on complementarity (uncorrelation). Hence, in this paper, a novel cross attention mechanism (CAM) is proposed to enhance the complementary information. Furthermore, a two-stage training strategy based fusion scheme is presented to generate the fused images. For the first stage, two auto-encoder networks with same architecture are trained for each modality. Then, with the fixed encoders, the CAM and a decoder are trained in the second stage. With the trained CAM, features extracted from two modalities are integrated into one fused feature in which the complementary information is enhanced and the redundant features are reduced. Finally, the fused image can be generated by the trained decoder. The experimental results illustrate that our proposed fusion method obtains the SOTA fusion performance compared with the existing fusion networks. The codes are available at https://github.com/hli1221/CrossFuse
翻訳日:2024-06-18 23:43:29 公開日:2024-06-15
# 集中型注意:言語モデルに対するドメイン一般化型プロンプト最適化を目指して

Concentrate Attention: Towards Domain-Generalizable Prompt Optimization for Language Models ( http://arxiv.org/abs/2406.10584v1 )

ライセンス: Link先を確認
Chengzhengxu Li, Xiaoming Liu, Zhaohan Zhang, Yichen Wang, Chen Liu, Yu Lan, Chao Shen, (参考訳) 近年のプロンプト最適化の進歩により、下流タスクにおける事前学習言語モデル(PLM)の性能が向上している。 しかし、ドメイン一般化における最適化されたプロンプトの可能性は、まだ解明されていない。 未知の領域に対する迅速な一般化の性質を探るため、パイロット実験を行い、それを見つける。 一 PLM の深層からより注目されるプロンプトはより一般化可能であること。 (II) PLMの深層におけるより安定した注意分布を持つプロンプトはより一般化可能である。 そこで我々は,現在デコードトークンからプロンプトトークンへの"振り返り"の注意を表す"集中"というドメイン一般化可能なプロンプト最適化に向けて,新たな目標を提案し,プロンプトに対する注意力を高め,注意分布の変動を低減する。 我々は,この新たな目的を,それぞれ一般的なソフトプロンプトとハードプロンプトの最適化手法に適用する。 拡張実験により,提案手法は,ソフトプロンプトの一般化において1.42%,マルチソース領域の一般化設定においてハードプロンプトの一般化において2.16%向上し,ドメイン内性能の満足度を維持しつつ比較プロンプトの最適化手法の改善を図っている。 提案したプロンプト最適化手法の有効性を検証し,ドメイン一般化可能なプロンプトに対する重要な洞察を提供する。

Recent advances in prompt optimization have notably enhanced the performance of pre-trained language models (PLMs) on downstream tasks. However, the potential of optimized prompts on domain generalization has been under-explored. To explore the nature of prompt generalization on unknown domains, we conduct pilot experiments and find that (i) Prompts gaining more attention weight from PLMs' deep layers are more generalizable and (ii) Prompts with more stable attention distributions in PLMs' deep layers are more generalizable. Thus, we offer a fresh objective towards domain-generalizable prompts optimization named "Concentration", which represents the "lookback" attention from the current decoding token to the prompt tokens, to increase the attention strength on prompts and reduce the fluctuation of attention distribution. We adapt this new objective to popular soft prompt and hard prompt optimization methods, respectively. Extensive experiments demonstrate that our idea improves comparison prompt optimization methods by 1.42% for soft prompt generalization and 2.16% for hard prompt generalization in accuracy on the multi-source domain generalization setting, while maintaining satisfying in-domain performance. The promising results validate the effectiveness of our proposed prompt optimization objective and provide key insights into domain-generalizable prompts.
翻訳日:2024-06-18 23:43:29 公開日:2024-06-15
# MINT:フォリーオーディオコンテンツプランニングと生成のためのマルチモーダル画像およびナラティブテキストダビングデータセット

MINT: a Multi-modal Image and Narrative Text Dubbing Dataset for Foley Audio Content Planning and Generation ( http://arxiv.org/abs/2406.10591v1 )

ライセンス: Link先を確認
Ruibo Fu, Shuchen Shi, Hongming Guo, Tao Wang, Chunyu Qiang, Zhengqi Wen, Jianhua Tao, Xin Qi, Yi Lu, Xiaopeng Wang, Zhiyong Wang, Yukun Liu, Xuefei Liu, Shuai Zhang, Guanjun Li, (参考訳) マルチメディアコンテンツにおける没入感を高めるために重要なフォーリーオーディオは、AIGC(AI- generated Content)ランドスケープにおいて大きな課題に直面している。 テキストと画像生成のためのAIGC技術の進歩にもかかわらず、クロスモーダルなシーンマッチングとコンテンツ相関が難しいため、フォリーオーディオダビングは未熟である。 現在のテキスト・トゥ・オーディオ技術は、詳細で音響的に関係のあるテキスト記述に依存しているが、実際的なビデオダビングでは不十分である。 AudioSet、AudioCaps、Clotho、Sound-of-Story、WavCapsといった既存のデータセットは、実際のフォリーオーディオダビングタスクの要件を完全に満たしていない。 そこで本稿では,MINT(Multi-modal Image and Narrative Text Dubbing Dataset)を提案する。 さらに、複雑なプロンプトの理解と計画における既存のTTA技術の限界に対処するため、複雑なマルチモーダルプロンプトに対する大規模言語モデルを活用するコンテンツ計画モジュールを含む、Foley Audio Content Planning, Generation, and Alignment (CPGA)フレームワークが提案されている。 さらに、このトレーニングプロセスは、近似ポリシー最適化に基づく強化学習を用いて最適化され、生成されたフォリーオーディオのアライメントと聴覚リアリズムを大幅に改善する。 実験により,本手法は,マルチモーダルダビングの課題に対するロバストな解決策として,フォリーオーディオダビングの分野を著しく進歩させることが示された。 比較的軽量なGPT-2モデルを利用しても、LLaVA、DeepSeek-VL、Moondream2といったオープンソースのマルチモーダル大モデルよりも優れています。 データセットはhttps://github.com/borisfrb/MINT で公開されている。

Foley audio, critical for enhancing the immersive experience in multimedia content, faces significant challenges in the AI-generated content (AIGC) landscape. Despite advancements in AIGC technologies for text and image generation, the foley audio dubbing remains rudimentary due to difficulties in cross-modal scene matching and content correlation. Current text-to-audio technology, which relies on detailed and acoustically relevant textual descriptions, falls short in practical video dubbing applications. Existing datasets like AudioSet, AudioCaps, Clotho, Sound-of-Story, and WavCaps do not fully meet the requirements for real-world foley audio dubbing task. To address this, we introduce the Multi-modal Image and Narrative Text Dubbing Dataset (MINT), designed to enhance mainstream dubbing tasks such as literary story audiobooks dubbing, image/silent video dubbing. Besides, to address the limitations of existing TTA technology in understanding and planning complex prompts, a Foley Audio Content Planning, Generation, and Alignment (CPGA) framework is proposed, which includes a content planning module leveraging large language models for complex multi-modal prompts comprehension. Additionally, the training process is optimized using Proximal Policy Optimization based reinforcement learning, significantly improving the alignment and auditory realism of generated foley audio. Experimental results demonstrate that our approach significantly advances the field of foley audio dubbing, providing robust solutions for the challenges of multi-modal dubbing. Even when utilizing the relatively lightweight GPT-2 model, our framework outperforms open-source multimodal large models such as LLaVA, DeepSeek-VL, and Moondream2. The dataset is available at https://github.com/borisfrb/MINT .
翻訳日:2024-06-18 23:43:29 公開日:2024-06-15
# QDA-SQL: マルチターンテキストからSQLへの対話強化に関する質問

QDA-SQL: Questions Enhanced Dialogue Augmentation for Multi-Turn Text-to-SQL ( http://arxiv.org/abs/2406.10593v1 )

ライセンス: Link先を確認
Yinggang Sun, Ziming Guo, Haining Yu, Chuanyi Liu, Xiang Li, Bingxuan Wang, Xiangzhan Yu, Tiancheng Zhao, (参考訳) 特定のドメインタスクのための微調整された大きな言語モデル(LLM)は、Text-to-SQLタスクで大きな成功を収めた。 しかし、これらの微調整されたモデルは、曖昧な質問や解決不可能な質問によって引き起こされるマルチターンのテキスト-SQLタスクの課題に直面することが多い。 マルチターンテキスト-SQLタスクにおいて、複数のタイプの質問を処理するためにLLMを強化することが望まれる。 そこで本研究では,LLMを用いて複数種類のマルチターンQ\&Aペアを生成するQDA-SQLという新しいデータ拡張手法を提案する。 QDA-SQLでは、複雑なマルチターンテキスト-SQLタスクの処理にバリデーションと修正機構を組み込んだ新しいデータ拡張手法を提案する。 実験により、QDA-SQLは、微調整されたモデルでSQLステートメントの精度が向上し、マルチターンテキスト・トゥ・SQLタスクにおいて、複雑で不可解な質問を処理する能力が向上することを示した。 生成スクリプトとテストセットはhttps://github.com/mcxiaoxiao/QDA-SQLでリリースされる。

Fine-tuning large language models (LLMs) for specific domain tasks has achieved great success in Text-to-SQL tasks. However, these fine-tuned models often face challenges with multi-turn Text-to-SQL tasks caused by ambiguous or unanswerable questions. It is desired to enhance LLMs to handle multiple types of questions in multi-turn Text-to-SQL tasks. To address this, we propose a novel data augmentation method, called QDA-SQL, which generates multiple types of multi-turn Q\&A pairs by using LLMs. In QDA-SQL, we introduce a novel data augmentation method incorporating validation and correction mechanisms to handle complex multi-turn Text-to-SQL tasks. Experimental results demonstrate that QDA-SQL enables fine-tuned models to exhibit higher performance on SQL statement accuracy and enhances their ability to handle complex, unanswerable questions in multi-turn Text-to-SQL tasks. The generation script and test set are released at https://github.com/mcxiaoxiao/QDA-SQL.
翻訳日:2024-06-18 23:43:29 公開日:2024-06-15
# BlockPruner: 大規模言語モデルのためのきめ細かいプルーニング

BlockPruner: Fine-grained Pruning for Large Language Models ( http://arxiv.org/abs/2406.10594v1 )

ライセンス: Link先を確認
Longguang Zhong, Fanqi Wan, Ruijun Chen, Xiaojun Quan, Liangzhi Li, (参考訳) 大規模言語モデル(LLM)のサイズと複雑さの急速な増加に伴い、トレーニングや推論に伴うコストは大幅に増大した。 LLMの特定の層は、かなりの冗長性を持ち、これらの層を刈り取ることは、全体的なパフォーマンスに最小限の影響を与える。 この知見に基づいて様々な層刈り法が開発されているが、一般的には層自体の微細な冗長性を見落としている。 本稿では,LLMのアーキテクチャを深く掘り下げ,マルチヘッドアテンション(MHA)およびマルチ層パーセプトロン(MLP)ブロックにおける冗長性を目標にすることで,よりきめ細かなプルーニングを実現することを実証する。 そこで我々は,BlockPrunerと呼ばれる新しい,トレーニング不要な構造化プルーニング手法を提案する。 既存の層プルーニング法とは異なり、BlockPrunerは各トランスフォーマー層をMHAとMLPブロックに分割する。 次に、これらのブロックの重要性をパープレキシティ尺度を用いて評価し、反復的なプルーニングにヒューリスティックな探索を適用した。 我々はBlockPrunerを様々なサイズとアーキテクチャのLLMに適用し、その性能を幅広い下流タスクで検証した。 実験結果から,BlockPrunerは最先端のベースラインに比べて粒度と有効プルーニングを実現していることがわかった。

With the rapid growth in the size and complexity of large language models (LLMs), the costs associated with their training and inference have escalated significantly. Research indicates that certain layers in LLMs harbor substantial redundancy, and pruning these layers has minimal impact on the overall performance. While various layer pruning methods have been developed based on this insight, they generally overlook the finer-grained redundancies within the layers themselves. In this paper, we delve deeper into the architecture of LLMs and demonstrate that finer-grained pruning can be achieved by targeting redundancies in multi-head attention (MHA) and multi-layer perceptron (MLP) blocks. We propose a novel, training-free structured pruning approach called BlockPruner. Unlike existing layer pruning methods, BlockPruner segments each Transformer layer into MHA and MLP blocks. It then assesses the importance of these blocks using perplexity measures and applies a heuristic search for iterative pruning. We applied BlockPruner to LLMs of various sizes and architectures and validated its performance across a wide range of downstream tasks. Experimental results show that BlockPruner achieves more granular and effective pruning compared to state-of-the-art baselines.
翻訳日:2024-06-18 23:43:29 公開日:2024-06-15
# 光子数分布のその場制御によるオンチップマイクロ波コヒーレント光源

On-chip microwave coherent source with in-situ control of the photon number distribution ( http://arxiv.org/abs/2406.10597v1 )

ライセンス: Link先を確認
Pasquale Mastrovito, Halima Giovanna Ahmad, Martina Esposito, Davide Massarotti, Francesco Tafuri, (参考訳) コヒーレント光子源は、量子センシングから量子コンピューティングまで、様々な応用において重要な要素である。 回路量子力学の文脈では、光子のコヒーレントな源についての複数の提案があるが、十分に確立された候補がいまだに欠けている。 人工原子のように動く超伝導回路の設計と工学の可能性は、マイクロ波光子生成を含む量子光学プロトコルの実現を支えている。 本稿では,チップ上で直接光子注入が可能な新しい設計を提案し,理論的に検討する。 このスキームは、1つまたは複数のターゲット共振器の光子源として働く超伝導回路の集団反転を開始することに基づいている。 提案手法の主な特徴は、電源とターゲットキャビティ間の通常の容量リンクを調整可能なカプラで置き換えることと、注入された定常光子をオンデマンドで制御できることである。 本研究では, 外部フラックススレッディングにより生成したコヒーレント状態の動的制御を検証するとともに, 複数のボソニック貯水池の状況においても, この方式が適用可能である可能性について議論する。

Coherent photon sources are key elements in different applications, ranging from quantum sensing to quantum computing. In the context of circuit quantum electrodynamics, there have been multiple proposals for potential coherent sources of photons, but a well established candidate is still missing. The possibility of designing and engineering superconducting circuits behaving like artificial atoms supports the realization of quantum optics protocols, including microwave photons generation. Here we propose and theoretically investigate a new design that allows a tunable photon injection directly on-chip. The scheme is based on initiating a population inversion in a superconducting circuit that will act as the photon source of one or multiple target resonators. The key novelty of the proposed layout consists in replacing the usual capacitive link between the source and the target cavity with a tunable coupler, with the advantage of having on-demand control on the injected steady-state photons. We validate the dynamical control of the generated coherent states under the effect of an external flux threading the tunable coupler and discuss the possibility of employing this scheme also in the context of multiple bosonic reservoirs.
翻訳日:2024-06-18 23:33:44 公開日:2024-06-15
# SparseRadNet:サブサンプルレーダデータに基づくスパース知覚ニューラルネットワーク

SparseRadNet: Sparse Perception Neural Network on Subsampled Radar Data ( http://arxiv.org/abs/2406.10600v1 )

ライセンス: Link先を確認
Jialong Wu, Mirko Meuter, Markus Schoeler, Matthias Rottmann, (参考訳) レーダーに基づく認識は自律走行において注目を集めているが、レーダーの空間性は課題を生じさせている。 レーダー生データは、しばしば過剰なノイズを含むが、レーダー点雲は限られた情報しか保持しない。 本研究では,レーダ信号のグローバルおよびローカルな依存関係を発見するために,空間パターンを利用した適応型サブサンプリング手法と,適応型ネットワークアーキテクチャを導入することで,レーダデータの疎結合性を均質に扱う。 我々のサブサンプリングモジュールは、下流の知覚タスクに最も寄与するレンジドップラー(RD)スペクトルから画素のサブセットを選択する。 スパースサブサンプリングデータの特徴抽出を改善するために,レーダデータにグラフニューラルネットワークを適用する新しい手法を提案する。 両方のブランチの機能を組み合わせるために、注意深い融合モジュールが適用される。 RADIalデータセットを用いた実験により,SparseRadNetはオブジェクト検出における最先端(SOTA)性能を超え,空間分割におけるSOTA精度に近づき,スパースサブサンプル入力データを用いた。

Radar-based perception has gained increasing attention in autonomous driving, yet the inherent sparsity of radars poses challenges. Radar raw data often contains excessive noise, whereas radar point clouds retain only limited information. In this work, we holistically treat the sparse nature of radar data by introducing an adaptive subsampling method together with a tailored network architecture that exploits the sparsity patterns to discover global and local dependencies in the radar signal. Our subsampling module selects a subset of pixels from range-doppler (RD) spectra that contribute most to the downstream perception tasks. To improve the feature extraction on sparse subsampled data, we propose a new way of applying graph neural networks on radar data and design a novel two-branch backbone to capture both global and local neighbor information. An attentive fusion module is applied to combine features from both branches. Experiments on the RADIal dataset show that our SparseRadNet exceeds state-of-the-art (SOTA) performance in object detection and achieves close to SOTA accuracy in freespace segmentation, meanwhile using sparse subsampled input data.
翻訳日:2024-06-18 23:33:44 公開日:2024-06-15
# The Devil is in the details: StyleFeatureEditor for Detail-Rich StyleGAN Inversion and High Quality Image Editing

The Devil is in the Details: StyleFeatureEditor for Detail-Rich StyleGAN Inversion and High Quality Image Editing ( http://arxiv.org/abs/2406.10601v1 )

ライセンス: Link先を確認
Denis Bobkov, Vadim Titov, Aibek Alanov, Dmitry Vetrov, (参考訳) StyleGANの逆変換による実像特性の操作の課題は広く研究されている。 このプロセスでは、よく訓練されたStyleGANジェネレータから潜伏変数を検索し、実際の画像を合成し、これらの潜伏変数を修正し、所望の編集で画像を合成する。 復元の質と編集能力の間にバランスを取らなければならない。 従来の研究では、低次元のW空間を潜伏探索に利用しており、効率的な編集を容易にするが、複雑な詳細の再構築に苦慮していた。 より最近の研究は、入力画像の逆転に成功した高次元特徴空間 F に向けられているが、編集中に多くの詳細が失われている。 本稿では,w-latentとF-latentの両方で編集できる新しい方法であるStyleFeatureEditorを紹介する。 この技術は、画像の細部を再構築するだけでなく、編集中の保存を確実にする。 また、Fレイテンシーを正確に編集するためのモデルをトレーニングするために特別に設計された新しいトレーニングパイプラインも提示する。 提案手法は最先端の符号化手法と比較し,モデルが再現性に優れ,ドメイン外サンプルの編集も可能であることを示した。 コードはhttps://github.com/AIRI-Institute/StyleFeatureEditorで入手できる。

The task of manipulating real image attributes through StyleGAN inversion has been extensively researched. This process involves searching latent variables from a well-trained StyleGAN generator that can synthesize a real image, modifying these latent variables, and then synthesizing an image with the desired edits. A balance must be struck between the quality of the reconstruction and the ability to edit. Earlier studies utilized the low-dimensional W-space for latent search, which facilitated effective editing but struggled with reconstructing intricate details. More recent research has turned to the high-dimensional feature space F, which successfully inverses the input image but loses much of the detail during editing. In this paper, we introduce StyleFeatureEditor -- a novel method that enables editing in both w-latents and F-latents. This technique not only allows for the reconstruction of finer image details but also ensures their preservation during editing. We also present a new training pipeline specifically designed to train our model to accurately edit F-latents. Our method is compared with state-of-the-art encoding approaches, demonstrating that our model excels in terms of reconstruction quality and is capable of editing even challenging out-of-domain examples. Code is available at https://github.com/AIRI-Institute/StyleFeatureEditor.
翻訳日:2024-06-18 23:33:44 公開日:2024-06-15
# 多言語大言語モデルと多言語性の曲線

Multilingual Large Language Models and Curse of Multilinguality ( http://arxiv.org/abs/2406.10602v1 )

ライセンス: Link先を確認
Daniil Gurgurov, Tanja Bäumel, Tatiana Anikina, (参考訳) 多言語大言語モデル(LLM)は自然言語処理(NLP)の研究者や実践者の間で広く普及している。 これらのモデルは、巨大なデータセットに基づいて訓練され、様々な言語にまたがる習熟度を示し、多くの下流タスクで効果を示す。 本稿では,多言語LLMの展望を概観し,その技術的側面について概観する。 基礎となるアーキテクチャ、客観的関数、事前トレーニングされたデータソース、トークン化メソッドを説明します。 この研究では、エンコーダのみ(mBERT, XLM-R)、デコーダのみ(XGLM, PALM, BLOOM, GPT-3)、エンコーダ-デコーダモデル(mT5, mBART)など、さまざまなモデルタイプのユニークな機能について検討する。 さらに、多言語LLM(マルチ言語性の呪い)の重要な制限の1つに対処し、それを克服しようとする現在の試みについて議論する。

Multilingual Large Language Models (LLMs) have gained large popularity among Natural Language Processing (NLP) researchers and practitioners. These models, trained on huge datasets, show proficiency across various languages and demonstrate effectiveness in numerous downstream tasks. This paper navigates the landscape of multilingual LLMs, providing an introductory overview of their technical aspects. It explains underlying architectures, objective functions, pre-training data sources, and tokenization methods. This work explores the unique features of different model types: encoder-only (mBERT, XLM-R), decoder-only (XGLM, PALM, BLOOM, GPT-3), and encoder-decoder models (mT5, mBART). Additionally, it addresses one of the significant limitations of multilingual LLMs - the curse of multilinguality - and discusses current attempts to overcome it.
翻訳日:2024-06-18 23:33:44 公開日:2024-06-15
# 制限された周期ゲームにおける外段階と最適点のLast-iterate Convergence分離

Last-iterate Convergence Separation between Extra-gradient and Optimism in Constrained Periodic Games ( http://arxiv.org/abs/2406.10605v1 )

ライセンス: Link先を確認
Yi Feng, Ping Li, Ioannis Panageas, Xiao Wang, (参考訳) 繰り返し2人プレイのゼロサムゲームにおける学習アルゴリズムの最終的な動作は、機械学習や関連するタスクに広く応用されているため、広く研究されている。 最後の点収束性を示す典型的なアルゴリズムには、楽観的および外段階的な方法がある。 しかし、既存の結果のほとんどは、ゲームが時間に依存しないという仮定の下でこれらの性質を確立する。 近年, (Feng et al, 2023) は, 時間的変化のあるペイオフ行列を持つゲームにおいて, 楽観的および外段階的手法の最後の定位挙動を研究し, 楽観的手法が分岐しながら, 非制約周期ゲームにおいて, 外段階的手法が平衡に収束することを証明した。 この発見は、これらの2つの方法が時間に依存しないゲームと同じように振る舞うことが期待されているという従来の知恵に挑戦する。 しかし、制約のないゲームと比較して、現実的および理論的研究において制約のあるゲームの方が一般的である。 本稿では,制約付き周期ゲームにおける楽観的および非定常的手法の終局的挙動について検討し,この設定において最終段階収束に対する同様の分離結果が成立することを示した。

Last-iterate behaviors of learning algorithms in repeated two-player zero-sum games have been extensively studied due to their wide applications in machine learning and related tasks. Typical algorithms that exhibit the last-iterate convergence property include optimistic and extra-gradient methods. However, most existing results establish these properties under the assumption that the game is time-independent. Recently, (Feng et al, 2023) studied the last-iterate behaviors of optimistic and extra-gradient methods in games with a time-varying payoff matrix, and proved that in an unconstrained periodic game, extra-gradient method converges to the equilibrium while optimistic method diverges. This finding challenges the conventional wisdom that these two methods are expected to behave similarly as they do in time-independent games. However, compared to unconstrained games, games with constrains are more common both in practical and theoretical studies. In this paper, we investigate the last-iterate behaviors of optimistic and extra-gradient methods in the constrained periodic games, demonstrating that similar separation results for last-iterate convergence also hold in this setting.
翻訳日:2024-06-18 23:33:44 公開日:2024-06-15
# 量子磁石におけるリンドブラディアン散逸からのランダウ・リフシッツ減衰

Landau-Lifshitz damping from Lindbladian dissipation in quantum magnets ( http://arxiv.org/abs/2406.10613v1 )

ライセンス: Link先を確認
Götz S. Uhrig, (参考訳) 現在、磁気秩序の現象論的古典的ランダウ・リフシッツ(LL)減衰は、リンドブレディアン・マスター方程式に基づく散逸の確立された量子理論とは関係がない。 これは磁気力学の急激な研究にとって不満足な概念的注意点である。 ここでは、LL力学はリンドブラディアン力学から体系的に導出できることが示されている。 これにより、成功したLLアプローチは一般にしっかりとした量子ベースで設定される。 鍵となる側面は、リンドブラディアン緩和は時間依存非平衡系における各時点におけるハミルトンの$H(t)$に適応しなければならないことである。 このアイデアは、磁気力学の減衰をはるかに超えていると推測されている。

As of now, the phenomenological classical Landau-Lifshitz (LL) damping of magnetic order is not linked to the established quantum theory of dissipation based on the Lindbladian master equation. This is an unsatisfactory conceptual caveat for the booming research on magnetic dynamics. Here, it is shown that LL dynamics can be systematically derived from Lindbladian dynamics. Thereby, the successful LL approach is set generally on a firm quantum basis. The key aspect is that the Lindbladian relaxation must be adapted to the Hamiltonian $H(t)$ at each instant of time in time-dependent non-equilibrium systems. It is conjectured that this idea holds true well beyond the damping of magnetic dynamics.
翻訳日:2024-06-18 23:33:44 公開日:2024-06-15
# ロボットマニピュレーションにおける局所性を活用したサンプル効率の向上

Leveraging Locality to Boost Sample Efficiency in Robotic Manipulation ( http://arxiv.org/abs/2406.10615v1 )

ライセンス: Link先を確認
Tong Zhang, Yingdong Hu, Jiacheng You, Yang Gao, (参考訳) 実世界でロボットデータを収集するコストが高いことを考えると、サンプリング効率はロボット工学において一貫して魅力的なものとなっている。 本稿では,視覚と行動の表現を改善することで,サンプル効率を向上させる模倣学習フレームワークであるSGRv2を紹介する。 SGRv2の設計の中心は、ロボットの動作がターゲットオブジェクトとその局所環境との相互作用に主に影響されることを示唆する、臨界誘導的バイアス-作用局所性の導入である。 シミュレーションと実世界の両方の環境での大規模な実験は、アクションの局所性がサンプル効率を高めるのに不可欠であることを示した。 SGRv2は、キーフレーム制御によるRLBenchタスクを5つのデモで上回り、26タスク中23タスクでRVTベースラインを超えている。 さらに、高密度制御によるManiSkill2とMimicGenの評価では、SGRv2の成功率はSGRの2.54倍である。 実世界の環境では、8つのデモしか行わず、SGRv2はベースラインモデルよりも著しく高い成功率で様々なタスクを実行できる。 プロジェクトウェブサイト: http://sgrv2-robot.github.io

Given the high cost of collecting robotic data in the real world, sample efficiency is a consistently compelling pursuit in robotics. In this paper, we introduce SGRv2, an imitation learning framework that enhances sample efficiency through improved visual and action representations. Central to the design of SGRv2 is the incorporation of a critical inductive bias-action locality, which posits that robot's actions are predominantly influenced by the target object and its interactions with the local environment. Extensive experiments in both simulated and real-world settings demonstrate that action locality is essential for boosting sample efficiency. SGRv2 excels in RLBench tasks with keyframe control using merely 5 demonstrations and surpasses the RVT baseline in 23 of 26 tasks. Furthermore, when evaluated on ManiSkill2 and MimicGen using dense control, SGRv2's success rate is 2.54 times that of SGR. In real-world environments, with only eight demonstrations, SGRv2 can perform a variety of tasks at a markedly higher success rate compared to baseline models. Project website: http://sgrv2-robot.github.io
翻訳日:2024-06-18 23:33:44 公開日:2024-06-15
# HiFGL: クロスサイロなクロスデバイスフェデレーショングラフ学習のための階層的フレームワーク

HiFGL: A Hierarchical Framework for Cross-silo Cross-device Federated Graph Learning ( http://arxiv.org/abs/2406.10616v1 )

ライセンス: Link先を確認
Zhuoning Guo, Duanyi Yao, Qiang Yang, Hao Liu, (参考訳) Federated Graph Learning(FGL)は、分散グラフデータから高品質な表現をプライバシ保護によって学習する、有望な方法として登場した。 FGLはクロスデバイスあるいはクロスサイロのパラダイムの下でかなりの努力がなされているが、より複雑なクロスサイロのクロスデバイス環境でグラフ知識を効果的に捉える方法は未解決の問題のままである。 しかし、このタスクは、分散化されたクライアントの固有の階層構造と不均一性、異なるクライアントにおけるプライバシー制約の多様化、クライアント間のグラフ整合性要件のために難しい。 そこで本研究では,クロスデバイスFGLのための階層型フェデレーショングラフ学習(HiFGL)フレームワークを提案する。 具体的には、グラフ整合性を確保しつつ、不均一なクライアント上でのフェデレーション付きGNNトレーニングを保護するために、統一階層アーキテクチャを考案する。 さらに,サブグラフレベルおよびノードレベルの機密情報への不正アクセスを同時に保護するSecMP方式を提案する。 理論的解析により、HiFGLは複雑性を保証するマルチレベルプライバシ保護を実現することが証明される。 実世界のデータセットに関する大規模な実験は、提案したフレームワークのいくつかのベースラインに対する優位性を検証する。 さらに、HiFGLの汎用性は、クロスサイロまたはクロスデバイス設定にのみ適用可能であり、実世界のFGLアプリケーションにおいてその実用性をさらに拡張する。

Federated Graph Learning (FGL) has emerged as a promising way to learn high-quality representations from distributed graph data with privacy preservation. Despite considerable efforts have been made for FGL under either cross-device or cross-silo paradigm, how to effectively capture graph knowledge in a more complicated cross-silo cross-device environment remains an under-explored problem. However, this task is challenging because of the inherent hierarchy and heterogeneity of decentralized clients, diversified privacy constraints in different clients, and the cross-client graph integrity requirement. To this end, in this paper, we propose a Hierarchical Federated Graph Learning (HiFGL) framework for cross-silo cross-device FGL. Specifically, we devise a unified hierarchical architecture to safeguard federated GNN training on heterogeneous clients while ensuring graph integrity. Moreover, we propose a Secret Message Passing (SecMP) scheme to shield unauthorized access to subgraph-level and node-level sensitive information simultaneously. Theoretical analysis proves that HiFGL achieves multi-level privacy preservation with complexity guarantees. Extensive experiments on real-world datasets validate the superiority of the proposed framework against several baselines. Furthermore, HiFGL's versatile nature allows for its application in either solely cross-silo or cross-device settings, further broadening its utility in real-world FGL applications.
翻訳日:2024-06-18 23:33:44 公開日:2024-06-15
# 知識露出による異常検出一般化の促進:拡張による二重効果

Enhancing Anomaly Detection Generalization through Knowledge Exposure: The Dual Effects of Augmentation ( http://arxiv.org/abs/2406.10617v1 )

ライセンス: Link先を確認
Mohammad Akhavan Anvari, Rojina Kashefi, Vahid Reza Khazaie, Mohammad Khalooei, Mohammad Sabokrou, (参考訳) 異常検出では、標準から逸脱し、頻繁に発生するデータセット内のインスタンスを識別する。 現在のベンチマークでは、実際のシナリオと一致しない通常のデータの多様性の低い方法を好む傾向にある。 これらのベンチマークの進歩にもかかわらず、現代の異常検出手法は、特にテスト中に微妙な変換を伴うサンプルの分類において、分布外一般化に苦慮することが多い。 これらの方法は通常、テスト期間中の通常のサンプルはトレーニングセットのサンプルと非常によく似た分布を持つが、異常はもっと遠くに分散していると仮定する。 しかしながら、実世界のテストサンプルは、セマンティック一貫性を維持しながら、様々なレベルの分散シフトを示すことが多い。 したがって、意味保存変換を施したサンプルに効果的に一般化すると同時に、意味的意味が異常として変換後に変化した正常なサンプルを正確に検出することは、モデルの信頼性と信頼性に不可欠である。 例えば、回転は異常検出の文脈で車の意味を変えるが、鳥の意味を保っていることは明らかであるが、現在の手法はどちらも異常として検出される可能性が高い。 この複雑さは、外乱の本質的な概念に根ざした動的学習手順の必要性を浮き彫りにしている。 そこで本研究では,概念のダイナミクスを理解するために外部知識を統合し,セマンティックシフトを誘発する変換を区別する,新たなテストプロトコルとKE(Knowledge Exposure)を提案する。 このアプローチは、事前訓練されたCLIPモデルからの洞察を活用して一般化を促進し、各概念における異常の重要性を評価する。 新しいプロトコルによるCIFAR-10, CIFAR-100, SVHNの評価は, 従来の手法に比べて優れた性能を示した。

Anomaly detection involves identifying instances within a dataset that deviate from the norm and occur infrequently. Current benchmarks tend to favor methods biased towards low diversity in normal data, which does not align with real-world scenarios. Despite advancements in these benchmarks, contemporary anomaly detection methods often struggle with out-of-distribution generalization, particularly in classifying samples with subtle transformations during testing. These methods typically assume that normal samples during test time have distributions very similar to those in the training set, while anomalies are distributed much further away. However, real-world test samples often exhibit various levels of distribution shift while maintaining semantic consistency. Therefore, effectively generalizing to samples that have undergone semantic-preserving transformations, while accurately detecting normal samples whose semantic meaning has changed after transformation as anomalies, is crucial for the trustworthiness and reliability of a model. For example, although it is clear that rotation shifts the meaning for a car in the context of anomaly detection but preserves the meaning for a bird, current methods are likely to detect both as abnormal. This complexity underscores the necessity for dynamic learning procedures rooted in the intrinsic concept of outliers. To address this issue, we propose new testing protocols and a novel method called Knowledge Exposure (KE), which integrates external knowledge to comprehend concept dynamics and differentiate transformations that induce semantic shifts. This approach enhances generalization by utilizing insights from a pre-trained CLIP model to evaluate the significance of anomalies for each concept. Evaluation on CIFAR-10, CIFAR-100, and SVHN with the new protocols demonstrates superior performance compared to previous methods.
翻訳日:2024-06-18 23:33:44 公開日:2024-06-15
# StructBench: 構造化リッチテキスト理解における大規模言語モデルの能力評価のための自動生成ベンチマーク

StructBench: An Autogenerated Benchmark for Evaluating Large Language Model's Ability in Structure-Rich Text Understanding ( http://arxiv.org/abs/2406.10621v1 )

ライセンス: Link先を確認
Zhouhong Gu, Haoning Ye, Zeyang Zhou, Hongwei Feng, Yanghua Xiao, (参考訳) 多くの企業が保持する大量の構造化データを考えると、Large Language Models(LLM)は構造化されていない形式で構造化されたテキストを直接理解できるようになり、様々なビジネスシナリオにおけるそれらの能力を大幅に向上させることができる。 そこで本研究では,手作業による質問テンプレートと生成規則に基づいて,制御可能な複雑性の構造化データを生成する構造化リッチテキストの理解能力を評価するための評価データ生成手法を提案する。 この生成方法に基づいて,8言語にまたがる6,032の質問と29の特定のタスクからなるベンチマークであるStructBenchを紹介する。 さらに,ルールベースタスクにおける人間の習熟度を考慮し,LLMと人的パフォーマンスのギャップをより深く調べるための3,016の質問を含むStructBench-Hardを提示する。 結果は、現在最高の性能のLCMはStructBench-Hardで65.0\%、人間の精度は95.7\%に達することを示唆している。 さらに、StructBenchを使った微調整により、既存のLLMのすべての構造化言語に対する理解が向上するが、すべてのタスクタイプでパフォーマンスが向上するとは限らない。 ベンチマークと生成コードはhttps://github.com/MikeGu721/StructBenchで公開されている。

Given the substantial volumes of structured data held by many companies, enabling Large Language Models (LLMs) to directly understand structured text in non-structured forms could significantly enhance their capabilities across various business scenarios. To this end, we propose evaluation data generation method for assessing LLM's ability in understanding the structure-rich text, which generates structured data of controllable complexity based on manually crafted question templates and generation rules. Building on this generation method, we introduce StructBench, a benchmark comprising 6,032 questions across 8 different structured languages and 29 specific tasks. Furthermore, considering human proficiency in rule-based tasks, we also present StructBench-Hard, which includes 3,016 questions designed to further examine the gap between LLMs and human performance. Results indicate that the best-performing LLM currently achieve an accuracy of 65.0\% on StructBench-Hard, while human accuracy reaches up to 95.7\%. Moreover, while fine-tuning using StructBench can enhance existing LLMs' understanding of all structured languages, it does not necessarily improve performance across all task types. The benchmark and generation codes are open sourced in https://github.com/MikeGu721/StructBench
翻訳日:2024-06-18 23:33:44 公開日:2024-06-15
# 大規模言語モデルにおける忠実連鎖推論の硬さについて

On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models ( http://arxiv.org/abs/2406.10625v1 )

ライセンス: Link先を確認
Sree Harsha Tanneru, Dan Ley, Chirag Agarwal, Himabindu Lakkaraju, (参考訳) 大きな言語モデル(LLM)は、医療などの重要な領域における現実世界のアプリケーションにますます採用されているため、これらのモデルによって生成されるチェーン・オブ・ソート(CoT)推論が、その基盤となる振る舞いを忠実に捉えていることを保証することが重要である。 LLMは、人間にアピールするCoT推論を生成することが知られているが、以前の研究では、これらの説明は、基礎となるLCMの実際の振る舞いを正確に反映していないことが示されている。 本研究では,LLM が生成する CoT 推論の忠実性を高めるため,LLM の動作を制御し,文脈学習,微調整,アクティベーション編集という,広義の3つのアプローチの約束について検討する。 具体的には,CoT推論の忠実度向上を目的とした,文脈内学習,微調整,アクティベーション編集のための新しい手法を提案する。 次に、複数のベンチマークデータセットを用いて広範な実験分析を行い、これらの戦略の可能性を探求する。 分析の結果,これらの戦略はCoT推論の忠実性向上に限定的な成功をもたらし,制御シナリオにおける性能向上はわずかであることがわかった。 アクティベーションの編集は、最小限の成功を示し、微調整と文脈学習は、様々な推論と真正な質問答えベンチマークで一般化できなかった限界的な改善を達成した。 まとめると、我々の研究は、LLMから忠実なCoT推論を引き出すのに固有の困難さを浮き彫りにして、現在の一連のアプローチがこの複雑な課題に対処するには不十分かもしれないことを示唆している。

As Large Language Models (LLMs) are increasingly being employed in real-world applications in critical domains such as healthcare, it is important to ensure that the Chain-of-Thought (CoT) reasoning generated by these models faithfully captures their underlying behavior. While LLMs are known to generate CoT reasoning that is appealing to humans, prior studies have shown that these explanations do not accurately reflect the actual behavior of the underlying LLMs. In this work, we explore the promise of three broad approaches commonly employed to steer the behavior of LLMs to enhance the faithfulness of the CoT reasoning generated by LLMs: in-context learning, fine-tuning, and activation editing. Specifically, we introduce novel strategies for in-context learning, fine-tuning, and activation editing aimed at improving the faithfulness of the CoT reasoning. We then carry out extensive empirical analyses with multiple benchmark datasets to explore the promise of these strategies. Our analyses indicate that these strategies offer limited success in improving the faithfulness of the CoT reasoning, with only slight performance enhancements in controlled scenarios. Activation editing demonstrated minimal success, while fine-tuning and in-context learning achieved marginal improvements that failed to generalize across diverse reasoning and truthful question-answering benchmarks. In summary, our work underscores the inherent difficulty in eliciting faithful CoT reasoning from LLMs, suggesting that the current array of approaches may not be sufficient to address this complex challenge.
翻訳日:2024-06-18 23:33:44 公開日:2024-06-15
# 精密家畜飼育のためのコンピュータビジョンデータセットの体系的調査

Public Computer Vision Datasets for Precision Livestock Farming: A Systematic Survey ( http://arxiv.org/abs/2406.10628v1 )

ライセンス: Link先を確認
Anil Bhujel, Yibin Wang, Yuzhen Lu, Daniel Morris, Mukesh Dangol, (参考訳) 技術主導の精密家畜農業(PLF)は、動物の成長と健康状態を監視し分析し、生産性と福祉を向上させる。 コンピュータビジョン(CV)は、カメラとコンピュータアルゴリズムを使用して家畜のデータ取得のための手動作業を補うか、または補うことで、PLFにおいて不可欠である。 データ可用性は、人工知能ベースの技術による革新的なモニタリングと分析システムの開発に不可欠である。 しかし、データキュレーションプロセスは退屈で、時間がかかり、リソースが集中的です。 本研究は,一般公開された家畜CVデータセット(https://github.com/Anil-Bhujel/Public-Computer-Vision-Dataset-A-Systematic-Survey)に関する最初の体系的な調査である。 58の公的なデータセットが特定され分析され、異なる種類の家畜を包含するが、そのほぼ半分は牛用で、続いて豚、鶏、その他の動物が続く。 個人の動物検出とカラーイメージングは、家畜にとって主要な応用であり、画像のモダリティである。 これらのデータセットの特徴と基礎的応用について論じ,動物福祉擁護者への影響を強調した。 家畜のCVデータセットの開発にさらなる取り組みを促すために、課題と機会も議論されている。 この研究は、さまざまな環境、動物、アプリケーションから収集された高品質なアノテートデータセットの限られた量、文脈メタデータの欠如が、PLFの真のボトルネックであることを強調している。

Technology-driven precision livestock farming (PLF) empowers practitioners to monitor and analyze animal growth and health conditions for improved productivity and welfare. Computer vision (CV) is indispensable in PLF by using cameras and computer algorithms to supplement or supersede manual efforts for livestock data acquisition. Data availability is crucial for developing innovative monitoring and analysis systems through artificial intelligence-based techniques. However, data curation processes are tedious, time-consuming, and resource intensive. This study presents the first systematic survey of publicly available livestock CV datasets (https://github.com/Anil-Bhujel/Public-Computer-Vision-Dataset-A-Systematic-Survey). Among 58 public datasets identified and analyzed, encompassing different species of livestock, almost half of them are for cattle, followed by swine, poultry, and other animals. Individual animal detection and color imaging are the dominant application and imaging modality for livestock. The characteristics and baseline applications of the datasets are discussed, emphasizing the implications for animal welfare advocates. Challenges and opportunities are also discussed to inspire further efforts in developing livestock CV datasets. This study highlights that the limited quantity of high-quality annotated datasets collected from diverse environments, animals, and applications, the absence of contextual metadata, are a real bottleneck in PLF.
翻訳日:2024-06-18 23:33:44 公開日:2024-06-15
# 直交配列による混合アルファベット上のm-QMDS符号

m-QMDS codes over mixed alphabets via orthogonal arrays ( http://arxiv.org/abs/2406.10629v1 )

ライセンス: Link先を確認
Shanqi Pang, Mengqian Chen, Rong Yan, Yan Zhu, (参考訳) 良いパラメータを持つ量子誤り訂正符号(QECC)の構築は、量子情報と量子コンピューティングの領域におけるホットトピックである。 量子最大距離分離(QMDS)符号は、与えられた長さと符号サイズに対して最小距離を改善できないため、最適である。 混合アルファベット上のQMDS符号は、少なくとも3つ以上の距離を持つ混合アルファベット上のQECCの存在と構成が未解決の問題であるとしても、ほとんど知られていない。 本稿では、混合アルファベット上の$m$-QMDS符号を定義し、QMDS符号の一般化を行う。 混合アルファベット上の$m$-QMDS符号と直交分割を持つ非対称直交配列(OAs)の関係を確立する。 この関係を用いて,$m$-QMDS符号を構成する一般的な手法を提案する。 この手法の適用例として、混合アルファベット上の$m$-QMDS符号の無限個の族を明示的に構成することができる。 既存のコードと比較して、構築されたコードは、アルファベットのサイズ、長さ、エンコード状態の寸法など、パラメータの選択に柔軟性がある。

The construction of quantum error-correcting codes (QECCs) with good parameters is a hot topic in the area of quantum information and quantum computing. Quantum maximum distance separable (QMDS) codes are optimal because the minimum distance cannot be improved for a given length and code size. The QMDS codes over mixed alphabets are rarely known even if the existence and construction of QECCs over mixed alphabets with minimum distance more than or equal to three are still an open question. In this paper, we define an $m$-QMDS code over mixed alphabets, which is a generalization of QMDS codes. We establish a relation between $m$-QMDS codes over mixed alphabets and asymmetrical orthogonal arrays (OAs) with orthogonal partitions. Using this relation, we propose a general method to construct $m$-QMDS codes. As applications of this method, numerous infinite families of $m$-QMDS codes over mixed alphabets can be constructed explicitly. Compared with existing codes, the constructed codes have more flexibility in the choice of parameters, such as the alphabet sizes, length and dimension of the encoding state.
翻訳日:2024-06-18 23:33:44 公開日:2024-06-15
# 大規模言語モデルのフェデレーション・インストラクション・チューニングにおける新たな安全攻撃と防御

Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models ( http://arxiv.org/abs/2406.10630v1 )

ライセンス: Link先を確認
Rui Ye, Jingyi Chai, Xiangrui Liu, Yaodong Yang, Yanfeng Wang, Siheng Chen, (参考訳) フェデレートラーニング(FL)は、複数のパーティが直接データ共有を必要とせずに、共同で大きな言語モデル(LLM)を微調整することを可能にする。 理想的には、人間の嗜好や安全性の原則に沿う分散データをトレーニングすることで、連合型指導チューニングは、便利で安全な振る舞いをするLLMを生み出すことができる。 本稿では,FedITにおける安全アライメントの脆弱性を,シンプルでステルスで効果的な安全攻撃法を提案することで,初めて明らかにする。 具体的には、悪意のあるクライアントは手動で手動で攻撃データを自動的に生成し、そのような攻撃データに基づいてローカルLLMをトレーニングすることで、FedITシステムを攻撃することができる。 残念ながら、この提案された安全攻撃は、FedITを介して訓練されたLLMの安全性アライメントを損なうだけでなく、既存の多くのFL防御手法によって効果的に防御することはできない。 これをターゲットにして,防衛データの生成とLLMのさらなる微調整という,完全自動化されたパイプラインに依存するポストホックディフェンス法を提案する。 大規模実験により, LLMの安全性アライメント(例えば, 安全性率を70 %削減)を著しく損なうことができ, 既存の防御手法では効果的に防御できない(最大4 % % の絶対改善)一方で, 攻撃されたLLMの安全性アライメント(最大69 % の絶対改善)を著しく向上させることができることがわかった。

Federated learning (FL) enables multiple parties to collaboratively fine-tune an large language model (LLM) without the need of direct data sharing. Ideally, by training on decentralized data that is aligned with human preferences and safety principles, federated instruction tuning can result in an LLM that could behave in a helpful and safe manner. In this paper, we for the first time reveal the vulnerability of safety alignment in FedIT by proposing a simple, stealthy, yet effective safety attack method. Specifically, the malicious clients could automatically generate attack data without involving manual efforts and attack the FedIT system by training their local LLMs on such attack data. Unfortunately, this proposed safety attack not only can compromise the safety alignment of LLM trained via FedIT, but also can not be effectively defended against by many existing FL defense methods. Targeting this, we further propose a post-hoc defense method, which could rely on a fully automated pipeline: generation of defense data and further fine-tuning of the LLM. Extensive experiments show that our safety attack method can significantly compromise the LLM's safety alignment (e.g., reduce safety rate by 70\%), which can not be effectively defended by existing defense methods (at most 4\% absolute improvement), while our safety defense method can significantly enhance the attacked LLM's safety alignment (at most 69\% absolute improvement).
翻訳日:2024-06-18 23:33:44 公開日:2024-06-15
# ゲームにおける学習の最終段階の高速収束には、忘れられたアルゴリズムが必要である

Fast Last-Iterate Convergence of Learning in Games Requires Forgetful Algorithms ( http://arxiv.org/abs/2406.10631v1 )

ライセンス: Link先を確認
Yang Cai, Gabriele Farina, Julien Grand-Clément, Christian Kroer, Chung-Wei Lee, Haipeng Luo, Weiqiang Zheng, (参考訳) オンライン学習によるセルフプレイは、理論と実践の両方において、大規模な2プレイヤーゼロサムゲームを解くための重要な方法の1つである。 特に一般的なアルゴリズムには、楽観的乗法重み更新 (OMWU) と楽観的勾配降下 (OGDA) がある。 どちらのアルゴリズムも、2つのプレイヤーゼロサムゲームにおけるナッシュ均衡へのエルゴード収束を$O(1/T)$ ergodic convergence としているが、OMWUは、ペイオフ行列のサイズに対する対数依存や、一般サムゲームにおいても粗相関平衡への$\widetilde{O}(1/T)$ convergence などの利点がある。 しかし、この領域でますます人気が高まっている2つのプレイヤーゼロサムゲームにおいて、OGDAは双対性ギャップが$O(1/\sqrt{T})$で縮まることを保証している。 この潜在的に遅い最終段階の収束は、OMWUの固有の不利なのか、それとも現在の分析があまりに緩いのか? 驚くべきことに、私たちは前者が真実であることを示します。 より一般に、過去を早く忘れない幅広いアルゴリズムのクラスは、すべて同じ問題に悩まされていることを証明している:任意の任意に小さい$\delta>0$に対して、そのアルゴリズムが1/\delta$ラウンドの後にも一定の双対性ギャップを許容する2.2\times 2$行列ゲームが存在する。 このアルゴリズムには、OMWUや他の標準的な楽観的追従型リーダーアルゴリズムが含まれる。

Self-play via online learning is one of the premier ways to solve large-scale two-player zero-sum games, both in theory and practice. Particularly popular algorithms include optimistic multiplicative weights update (OMWU) and optimistic gradient-descent-ascent (OGDA). While both algorithms enjoy $O(1/T)$ ergodic convergence to Nash equilibrium in two-player zero-sum games, OMWU offers several advantages including logarithmic dependence on the size of the payoff matrix and $\widetilde{O}(1/T)$ convergence to coarse correlated equilibria even in general-sum games. However, in terms of last-iterate convergence in two-player zero-sum games, an increasingly popular topic in this area, OGDA guarantees that the duality gap shrinks at a rate of $O(1/\sqrt{T})$, while the best existing last-iterate convergence for OMWU depends on some game-dependent constant that could be arbitrarily large. This begs the question: is this potentially slow last-iterate convergence an inherent disadvantage of OMWU, or is the current analysis too loose? Somewhat surprisingly, we show that the former is true. More generally, we prove that a broad class of algorithms that do not forget the past quickly all suffer the same issue: for any arbitrarily small $\delta>0$, there exists a $2\times 2$ matrix game such that the algorithm admits a constant duality gap even after $1/\delta$ rounds. This class of algorithms includes OMWU and other standard optimistic follow-the-regularized-leader algorithms.
翻訳日:2024-06-18 23:33:44 公開日:2024-06-15
# 医療におけるジェネレーティブAIの応用--アルゴリズム的・倫理的・法的・社会的考察

Applications of Generative AI in Healthcare: algorithmic, ethical, legal and societal considerations ( http://arxiv.org/abs/2406.10632v1 )

ライセンス: Link先を確認
Onyekachukwu R. Okonji, Kamol Yunusov, Bonnie Gordon, (参考訳) ジェネレーティブAIは、医療画像とテキスト分析を急速に変革し、診断とパーソナライズされたケアを増強する大きな可能性を秘めている。 しかし、この変革的技術は重要な倫理的、社会的、法的問題を引き起こす。 本稿では、医療画像およびテキストへの生成AIの適用状況における、正確性、インフォームドコンセント、データプライバシ、アルゴリズム的制限の問題について検討する。 我々は、堅牢な規制フレームワークの必要性を強調し、責任と説明責任を取り巻く法的状況について検討する。 さらに、データバイアス、モデル制限、ワークフロー統合など、アルゴリズム上の課題も識別します。 これらの課題を批判的に分析し、責任ある解決策を提案することによって、医療における生成AIの倫理的かつ責任ある実装のロードマップを育むことを目指しており、その変革的なポテンシャルは、最大限の注意と正確さで人間に役立ちます。

Generative AI is rapidly transforming medical imaging and text analysis, offering immense potential for enhanced diagnosis and personalized care. However, this transformative technology raises crucial ethical, societal, and legal questions. This paper delves into these complexities, examining issues of accuracy, informed consent, data privacy, and algorithmic limitations in the context of generative AI's application to medical imaging and text. We explore the legal landscape surrounding liability and accountability, emphasizing the need for robust regulatory frameworks. Furthermore, we dissect the algorithmic challenges, including data biases, model limitations, and workflow integration. By critically analyzing these challenges and proposing responsible solutions, we aim to foster a roadmap for ethical and responsible implementation of generative AI in healthcare, ensuring its transformative potential serves humanity with utmost care and precision.
翻訳日:2024-06-18 23:23:59 公開日:2024-06-15
# fNeRF:実用的なカメラによる高品質の放射界

fNeRF: High Quality Radiance Fields from Practical Cameras ( http://arxiv.org/abs/2406.10633v1 )

ライセンス: Link先を確認
Yi Hua, Christoph Lassner, Carsten Stoll, Iain Matthews, (参考訳) 近年、ニューラル・レージアンス・フィールズの開発により、マルチビューカメラデータからシーンやオブジェクトを写実的に再現する手法が開発されている。 しかし、従来の手法では、過剰に単純化されたピンホールカメラモデルを使用して、デフォーカスブラーを再構成された放射場に“焼”する。 本稿では,レンズの光学的特性を活用し,デフォーカスブラーの存在下でのシーン再構成を向上するレイキャスティングの改良を提案する。 これにより、有限開口の実用的なカメラの測定から、放射界再構成の品質を向上させることができる。 提案モデルは、ピンホールモデルと他のデフォーカスブラーモデル、特に部分閉塞の存在下での実際のカメラのデフォーカスブラー挙動とよく一致していることを示す。 これにより、よりシャープな再構成が実現でき、最大3dBの合成データセットと実データセットの両方で、オールインフォーカス画像の検証のPSNRを改善することができる。

In recent years, the development of Neural Radiance Fields has enabled a previously unseen level of photo-realistic 3D reconstruction of scenes and objects from multi-view camera data. However, previous methods use an oversimplified pinhole camera model resulting in defocus blur being `baked' into the reconstructed radiance field. We propose a modification to the ray casting that leverages the optics of lenses to enhance scene reconstruction in the presence of defocus blur. This allows us to improve the quality of radiance field reconstructions from the measurements of a practical camera with finite aperture. We show that the proposed model matches the defocus blur behavior of practical cameras more closely than pinhole models and other approximations of defocus blur models, particularly in the presence of partial occlusions. This allows us to achieve sharper reconstructions, improving the PSNR on validation of all-in-focus images, on both synthetic and real datasets, by up to 3 dB.
翻訳日:2024-06-18 23:23:59 公開日:2024-06-15
# MLLMの評価のためのマルチモーダルロバストネスベンチマーク

Seeing Clearly, Answering Incorrectly: A Multimodal Robustness Benchmark for Evaluating MLLMs on Leading Questions ( http://arxiv.org/abs/2406.10638v1 )

ライセンス: Link先を確認
Yexin Liu, Zhengyang Liang, Yueze Wang, Muyang He, Jian Li, Bo Zhao, (参考訳) MLLM(Multimodal Large Language Models)は、視覚的理解と推論において印象的な能力を示し、画像記述のような目に見える合理的な答えを提供している。 これはMLLMの評価に関する広範な研究を刺激している。 ほとんどの評価ベンチマークは、誤った答えは視覚的内容の理解の欠如を示していると仮定している。 しかし, MLLMでは, 視覚内容が正しく理解されているにもかかわらず, 多くの場合, 誤った回答が得られていることが明らかとなった。 このことは、誤った答えは必ずしも理解の欠如を示唆するものではなく、むしろ主要な質問に対する堅牢性の欠如に起因する可能性があることを示唆している。 MLLMの理解能力を総合的に評価するために,MultiModal Robustnessベンチマーク(MMR)を導入する。 MMRには12のカテゴリーにまたがって正と負の2つの質問が含まれており、人間によって正確に注釈付けされている。 MMBベンチマークで18個のMLLMを評価したところ,MLLMは視覚的内容を理解しつつも,先進的な問題に対する脆弱さに悩まされていることがわかった。 MLLMの理解能力とロバスト性を高めるため,対の正と負の視覚的質問応答サンプルを用いたトレーニングセットを提案する。 実験により、MLLMsの堅牢性は、この新しいトレーニングセットをチューニングすることで著しく向上できることが確認された。 ベンチマーク、トレーニングセット、コードはhttps://github.com/BAAI-DCAI/Multimodal-Robustness-Benchmarkで見ることができる。

Multimodal Large Language Models (MLLMs) have exhibited impressive capabilities in visual understanding and reasoning, providing sightly reasonable answers, such as image descriptions. This has spurred extensive research on the evaluation of MLLMs. Most evaluation benchmarks assume that incorrect answers indicate a lack of understanding of the visual content. However, our findings reveal that, in many cases, MLLMs answer questions incorrectly despite correctly understanding the visual content. This suggests that incorrect answers do not necessarily imply a lack of comprehension but may instead result from lacking robustness to leading questions. To comprehensively measure MLLMs' understanding capability and robustness to leading questions, we introduce a MultiModal Robustness benchmark (MMR). MMR contains paired positive and negative questions across 12 categories, meticulously annotated by humans. We evaluate 18 leading MLLMs on the MMB benchmark, revealing that MLLMs suffer from fragility to leading questions despite understanding the visual content. To enhance MLLMs' understanding capability and robustness, we further present a training set with paired positive and negative visual question-answer samples. Experiments verify that MLLMs' robustness can be significantly enhanced by tuning on this new training set. The benchmark, training set, and code can be found at https://github.com/BAAI-DCAI/Multimodal-Robustness-Benchmark.
翻訳日:2024-06-18 23:23:59 公開日:2024-06-15
# 格子上の反応拡散系のディジタル量子シミュレーション

Digital Quantum Simulation of Reaction-Diffusion Systems on Lattice ( http://arxiv.org/abs/2406.10645v1 )

ライセンス: Link先を確認
Louie Hong Yao, (参考訳) 量子コンピュータは物理系、特に量子系のような指数関数的に大きな状態空間を持つ系のシミュレーションにおいて大きな利点をもたらす。 確率的反応拡散系は、その確率的性質を特徴とし、状態空間の次元の指数関数的な成長を示し、確率分布レベルでのシミュレーションの課題を提起する。 本稿では,デジタル量子コンピュータ上での確率的反応拡散系の量子シミュレーションについて検討する。 システムのスピン表現を利用して、確率分布を直接シミュレートするために、トロタライズと確率的想像時間進化(PITE)を用いる。 このアプローチは,単純な単一格子サイト生成消滅プロセスから,能動吸収相転移を特徴とするシステムまで,4つの多種多様な例を通して説明する。

The quantum computer offers significant advantages in simulating physical systems, particularly those with exponentially large state spaces, such as quantum systems. Stochastic reaction-diffusion systems, characterized by their stochastic nature, also exhibit exponential growth in the dimension of the state space, posing challenges for simulation at a probability distribution level. We explore the quantum simulation of stochastic reaction-diffusion systems on a digital quantum computer, directly simulating the system at the master equation level. Leveraging a spin representation of the system, we employ Trotterization and probabilistic imaginary time evolution (PITE) to simulate the probability distribution directly. We illustrate this approach through four diverse examples, ranging from simple single-lattice site generation-annihilation processes to a system featuring active-absorbing phase transition.
翻訳日:2024-06-18 23:23:59 公開日:2024-06-15
# 分離可能なデータに関するAdamの暗黙のバイアス

The Implicit Bias of Adam on Separable Data ( http://arxiv.org/abs/2406.10650v1 )

ライセンス: Link先を確認
Chenyang Zhang, Difan Zou, Yuan Cao, (参考訳) Adam氏は、ディープラーニング問題において最も好まれる最適化者の1人になった。 実際に成功したにもかかわらず、理論的な理解については多くの謎が続いている。 本稿では,線形ロジスティック回帰におけるAdamの暗黙バイアスについて検討する。 具体的には、トレーニングデータが線形分離可能であるとき、Adamは最大$\ell_\infty$-marginを達成する線形分類器へ収束することを示す。 特に、学習率が減少する一般的なクラスでは、この収束は多項式時間内に起こる。 この結果から,Adamと(確率的)勾配勾配の差を理論的観点から明らかにした。

Adam has become one of the most favored optimizers in deep learning problems. Despite its success in practice, numerous mysteries persist regarding its theoretical understanding. In this paper, we study the implicit bias of Adam in linear logistic regression. Specifically, we show that when the training data are linearly separable, Adam converges towards a linear classifier that achieves the maximum $\ell_\infty$-margin. Notably, for a general class of diminishing learning rates, this convergence occurs within polynomial time. Our result shed light on the difference between Adam and (stochastic) gradient descent from a theoretical perspective.
翻訳日:2024-06-18 23:23:59 公開日:2024-06-15
# MDeRainNet: マクロピクセル画像からの降雨ストリーク除去のための効率的なニューラルネットワーク

MDeRainNet: An Efficient Neural Network for Rain Streak Removal from Macro-pixel Images ( http://arxiv.org/abs/2406.10652v1 )

ライセンス: Link先を確認
Tao Yan, Weijiang He, Chenglong Wang, Xiangjie Zhu, Yinghui Wang, Rynson W. H. Lau, (参考訳) 雨天は常に画質を低下させ、ほとんどのコンピュータビジョンベースのインテリジェントシステムに重大な課題をもたらすため、画像のデライニングはホットな研究トピックとなっている。 幸いなことに、雨天地(LF)画像では、他のサブビューでは雨天の背景が見え、暗黙の深度情報と記録された4D構造情報は雨天の検出と除去に有用である。 しかし,既存のLF画像の降雨除去手法では,4次元LFデータの大域的相関を十分に活用していないか,部分的なサブビューしか利用していないため,降雨性能は最適化されていない。 本稿では,LF画像からの降雨ストリーク除去のために,MDeRainNetと呼ばれる効率的なネットワークを提案する。 提案するネットワークはマルチスケールエンコーダデコーダアーキテクチャを採用し, 直接マクロピクセル画像(MPI)を用いて降雨除去性能を向上する。 空間情報と角情報とのグローバルな相関関係をモデル化するために,拡張空間角相互作用 (ESAI) モジュールをマージし,よりシンプルで効果的なトランスフォーマーベース空間角相互作用 (SAIA) ブロックも提案し,長距離幾何学的相関をモデル化し,角情報を完全に活用する。 さらに,実世界の降雨場面におけるネットワークの一般化性能を向上させるために,MDeRainNet のための新しい半教師付き学習フレームワークを提案する。 合成LFIと実世界のLFIを用いた大規模実験により,本手法は定量的,定性的に,最先端の手法よりも優れた性能を示した。

Since rainy weather always degrades image quality and poses significant challenges to most computer vision-based intelligent systems, image de-raining has been a hot research topic. Fortunately, in a rainy light field (LF) image, background obscured by rain streaks in one sub-view may be visible in the other sub-views, and implicit depth information and recorded 4D structural information may benefit rain streak detection and removal. However, existing LF image rain removal methods either do not fully exploit the global correlations of 4D LF data or only utilize partial sub-views, resulting in sub-optimal rain removal performance and no-equally good quality for all de-rained sub-views. In this paper, we propose an efficient network, called MDeRainNet, for rain streak removal from LF images. The proposed network adopts a multi-scale encoder-decoder architecture, which directly works on Macro-pixel images (MPIs) to improve the rain removal performance. To fully model the global correlation between the spatial and the angular information, we propose an Extended Spatial-Angular Interaction (ESAI) module to merge them, in which a simple and effective Transformer-based Spatial-Angular Interaction Attention (SAIA) block is also proposed for modeling long-range geometric correlations and making full use of the angular information. Furthermore, to improve the generalization performance of our network on real-world rainy scenes, we propose a novel semi-supervised learning framework for our MDeRainNet, which utilizes multi-level KL loss to bridge the domain gap between features of synthetic and real-world rain streaks and introduces colored-residue image guided contrastive regularization to reconstruct rain-free images. Extensive experiments conducted on synthetic and real-world LFIs demonstrate that our method outperforms the state-of-the-art methods both quantitatively and qualitatively.
翻訳日:2024-06-18 23:23:59 公開日:2024-06-15
# アフリカにおける医療人工知能の正義

Justice in Healthcare Artificial Intelligence in Africa ( http://arxiv.org/abs/2406.10653v1 )

ライセンス: Link先を確認
Aloysius Ochasi, Abdoul Jalil Djiberou Mahamadou, Russ B. Altman, (参考訳) 人工知能(AI)のメリットとリスクのバランスに関する議論が進行中である。 このような改善は、アフリカのような適切な医療サービスにアクセスできない数百万の資源制限された環境において必要不可欠である。 このような状況下でAIは、医療サービスの効率性、効率、アクセシビリティを向上させる可能性がある。 それでも、AI駆動型医療システムの開発と利用は多くの倫理的、法的、社会経済的問題を提起している。 正義は、社会的不平等の増幅に影響を及ぼすAIにおける主要な関心事である。 本稿では, 連帯性, 共通善, サステナビリティ, AIバイアス, 公平性など, これらの意味と関連する正義概念について論じる。 アフリカがAIの恩恵を効果的に受けられるためには、これらの原則は、リスクのバランスを保ちながら、ローカルコンテキストと整合するべきである。 正義に関する主流の倫理的議論と比較すると、この視点はアフリカにおける公平な医療AI開発に対する文脈特異的な考察を提供する。

There is an ongoing debate on balancing the benefits and risks of artificial intelligence (AI) as AI is becoming critical to improving healthcare delivery and patient outcomes. Such improvements are essential in resource-constrained settings where millions lack access to adequate healthcare services, such as in Africa. AI in such a context can potentially improve the effectiveness, efficiency, and accessibility of healthcare services. Nevertheless, the development and use of AI-driven healthcare systems raise numerous ethical, legal, and socio-economic issues. Justice is a major concern in AI that has implications for amplifying social inequities. This paper discusses these implications and related justice concepts such as solidarity, Common Good, sustainability, AI bias, and fairness. For Africa to effectively benefit from AI, these principles should align with the local context while balancing the risks. Compared to mainstream ethical debates on justice, this perspective offers context-specific considerations for equitable healthcare AI development in Africa.
翻訳日:2024-06-18 23:23:59 公開日:2024-06-15
# E-SAGE: グラフニューラルネットワーク上でのバックドア攻撃に対する説明可能性に基づく防御

E-SAGE: Explainability-based Defense Against Backdoor Attacks on Graph Neural Networks ( http://arxiv.org/abs/2406.10655v1 )

ライセンス: Link先を確認
Dingqiang Yuan, Xiaohua Xu, Lei Yu, Tongchang Han, Rongchang Li, Meng Han, (参考訳) グラフニューラルネットワーク(GNN)は、最近、複数のドメインで広く採用されている。 しかし、敵の攻撃やバックドア攻撃には特に脆弱である。 特に、サブグラフ挿入に基づくバックドア攻撃は、ステルス性を持ちながらグラフ分類作業に有効であることが示され、既存の防御手法の回避に成功している。 本稿では,説明可能性に基づくGNNバックドア攻撃の防御手法であるE-SAGEを提案する。 その結果、悪意のあるエッジと良性エッジは、説明可能性評価において重要なスコアに有意な差があることが判明した。 従って、E-SAGEは、エッジスコアに基づいて、グラフに反復的エッジプルーニング処理を適応的に適用する。 本研究では,E-SAGEのバックドア攻撃に対する有効性を示す。 また,敵攻撃に対するE-SAGEの有効性についても検討した。

Graph Neural Networks (GNNs) have recently been widely adopted in multiple domains. Yet, they are notably vulnerable to adversarial and backdoor attacks. In particular, backdoor attacks based on subgraph insertion have been shown to be effective in graph classification tasks while being stealthy, successfully circumventing various existing defense methods. In this paper, we propose E-SAGE, a novel approach to defending GNN backdoor attacks based on explainability. We find that the malicious edges and benign edges have significant differences in the importance scores for explainability evaluation. Accordingly, E-SAGE adaptively applies an iterative edge pruning process on the graph based on the edge scores. Through extensive experiments, we demonstrate the effectiveness of E-SAGE against state-of-the-art graph backdoor attacks in different attack settings. In addition, we investigate the effectiveness of E-SAGE against adversarial attacks.
翻訳日:2024-06-18 23:23:59 公開日:2024-06-15
# DIEKAE:大規模言語モデルの効率的な知識向上と編集のための差分注入

DIEKAE: Difference Injection for Efficient Knowledge Augmentation and Editing of Large Language Models ( http://arxiv.org/abs/2406.10660v1 )

ライセンス: Link先を確認
Alessio Galatolo, Meriem Beloucif, Katie Winkle, (参考訳) 事前訓練された言語モデル(PLM)は、その重みの中に豊富な知識を格納し、膨大な量の情報を記憶することができる。 しかし、このパラメトリック知識に依存すると、古い情報やトレーニングデータのギャップといった制限が生じる。 この研究は、知識編集と知識増強という2つの異なる解を区別することで、これらの問題に対処する。 本稿では,PLM (LLaMA2-7B) から知識処理を分離する新しい手法であるDIEK\AE(DIEK\AE)を提案する。 これらのエンコーダは外部知識を処理し、PLM層に注入し、計算コストを大幅に削減し、PLMの性能を向上させる。 本研究では,これらのエンコーダに対して,PLMによるバックプロパゲーションを必要としない新たなトレーニング手法を提案する。 本研究は,学習と推論の双方において,知識向上と編集の複数のベースラインと比較して,我々の手法がより速く,より効率的であることを示すものである。 コードとデータはhttps://github.com/alessioGalatolo/DIEKAEで公開しています。

Pretrained Language Models (PLMs) store extensive knowledge within their weights, enabling them to recall vast amount of information. However, relying on this parametric knowledge brings some limitations such as outdated information or gaps in the training data. This work addresses these problems by distinguish between two separate solutions: knowledge editing and knowledge augmentation. We introduce Difference Injection for Efficient Knowledge Augmentation and Editing (DIEK\AE), a new method that decouples knowledge processing from the PLM (LLaMA2-7B, in particular) by adopting a series of encoders. These encoders handle external knowledge and inject it into the PLM layers, significantly reducing computational costs and improving performance of the PLM. We propose a novel training technique for these encoders that does not require back-propagation through the PLM, thus greatly reducing the memory and time required to train them. Our findings demonstrate how our method is faster and more efficient compared to multiple baselines in knowledge augmentation and editing during both training and inference. We have released our code and data at https://github.com/alessioGalatolo/DIEKAE.
翻訳日:2024-06-18 23:23:59 公開日:2024-06-15
# 交通システム最適化ベンチマークのためのGPU高速化大規模シミュレータ

A GPU-accelerated Large-scale Simulator for Transportation System Optimization Benchmarking ( http://arxiv.org/abs/2406.10661v1 )

ライセンス: Link先を確認
Jun Zhang, Wenxuan Ao, Junbo Yan, Depeng Jin, Yong Li, (参考訳) 人工知能技術の発展に伴い、輸送システムの最適化は、専門家の経験に基づく従来の手法から、シミュレーションや学習に基づく意思決定の最適化手法へと進化している。 学習に基づく最適化手法は、最適化のために非常に現実的な交通シミュレータとの広範囲な相互作用を必要とする。 しかし,既存の微視的交通シミュレータは大規模シナリオでは計算効率が悪く,最適化アルゴリズムのデータサンプリングの効率が著しく低下する。 さらに,既存のシミュレータがサポートする最適化シナリオは,主に信号制御に重点を置いている。 これらの課題と限界に対処するために,我々は,トランスポートシステムシミュレーションのための,最初のオープンソースGPU加速型大規模顕微鏡シミュレータを提案する。 このシミュレータは84.09Hzで反復可能であり、最高のベースラインに比べて100万台以上の車両で大規模シナリオで88.92倍の計算加速を達成している。 シミュレーターに基づいて、一般的な輸送システムの最適化シナリオをサポートするために、顕微鏡的およびマクロ的な制御可能なオブジェクトとメトリクスのセットを実装した。 これらのコントロール可能なオブジェクトとメトリクスはすべて、Python APIによって簡単に使用するために提供されている。 5つの重要かつ代表的な交通システム最適化シナリオと、古典的なルールベースのアルゴリズムのベンチマーク、強化学習、ブラックボックス最適化を4つの都市で選択する。 コードはMITライセンスで \url{https://github.com/tsinghua-fib-lab/moss-benchmark} で入手できる。

With the development of artificial intelligence techniques, transportation system optimization is evolving from traditional methods relying on expert experience to simulation and learning-based decision optimization methods. Learning-based optimization methods require extensive interaction with highly realistic microscopic traffic simulators for optimization. However, existing microscopic traffic simulators are computationally inefficient in large-scale scenarios and therefore significantly reduce the efficiency of the data sampling process of optimization algorithms. In addition, the optimization scenarios supported by existing simulators are limited, mainly focusing on the traffic signal control. To address these challenges and limitations, we propose the first open-source GPU-accelerated large-scale microscopic simulator for transportation system simulation. The simulator is able to iterate at 84.09Hz, which achieves 88.92 times computational acceleration in the large-scale scenario with more than a million vehicles compared to the best baseline. Based on the simulator, we implement a set of microscopic and macroscopic controllable objects and metrics to support most typical transportation system optimization scenarios. These controllable objects and metrics are all provided by Python API for ease of use. We choose five important and representative transportation system optimization scenarios and benchmark classical rule-based algorithms, reinforcement learning, and black-box optimization in four cities. The codes are available at \url{https://github.com/tsinghua-fib-lab/moss-benchmark} with the MIT License.
翻訳日:2024-06-18 23:23:59 公開日:2024-06-15
# Greenberger-Horne-Zeilinger-classfidelityによるエンタングルメント分類と 'emph{non-k}-セパビリティ認定

Entanglement classification and \emph{non-k}-separability certification via Greenberger-Horne-Zeilinger-class fidelity ( http://arxiv.org/abs/2406.10662v1 )

ライセンス: Link先を確認
Marcin Płodzień, Jan Chwedeńczuk, Maciej Lewenstein, Grzegorz Rajchel-Mieldzioć, (参考訳) 多体量子系は \emph{k}-分離性と絡み合い深さの概念を用いて特徴づけることができる。 量子状態が \emph{k}-分離可能(英語版)であるとは、それが \emph{k} の絡み合った部分系の混合として表すことができ、その絡み合った深さが最大の絡み合った部分系のサイズによって与えられることである。 本稿では,以下の基準を満たす多角的絡み合い尺度を提案する。 (i)純粋な状態と混合状態の両方で使用することができる。 (ii)密度行列の1つの要素に符号化されているため、密度行列の全スペクトルの知識は必要ない。 三 大規模システムに適用することができること、及び (四)実験的に検証することができる。 提案手法は、与えられた量子状態の 'emph{non-k}-分離性' の証明を可能にする。 提案手法は,3ビット系を確率的局所演算と古典的通信(SLOCC)クラス,すなわちbipartite, \mbox{W-,}, GHZ型の絡み合いに分類する。 さらに、4量子状態の既知の9つのSLOCCクラスにおける \emph{non-k}-分離性(英語版)を特徴付ける。

Many-body quantum systems can be characterised using the notions of \emph{k}-separability and entanglement depth. A quantum state is \emph{k}-separable if it can be expressed as a mixture of \emph{k} entangled subsystems, and its entanglement depth is given by the size of the largest entangled subsystem. In this paper we propose a multipartite entanglement measure that satisfies the following criteria: (i) it can be used with both pure and mixed states; (ii) it is encoded in a single element of the density matrix, so it does not require knowledge of the full spectrum of the density matrix; (iii) it can be applied to large systems; and (iv) it can be experimentally verified. The proposed method allows the certification of \emph{non-k}-separability of a given quantum state. We show that the proposed method successfully classifies three-qubit systems into known stochastic local operations and classical communication (SLOCC) classes, namely bipartite, \mbox{W-,} and GHZ-type entanglement. Furthermore, we characterise the \emph{non-k}-separability in known nine SLOCC classes of four-qubit states, absolutely maximally entangled states for five and six qubits and for arbitrary size qubit Dicke states.
翻訳日:2024-06-18 23:23:59 公開日:2024-06-15
# ソコバンレベル生成による多目的進化アルゴリズムの解釈

Interpreting Multi-objective Evolutionary Algorithms via Sokoban Level Generation ( http://arxiv.org/abs/2406.10663v1 )

ライセンス: Link先を確認
Qingquan Zhang, Yuchen Li, Yuhang Lin, Handing Wang, Jialin Liu, (参考訳) 本稿では,多目的進化アルゴリズムを解釈する対話型プラットフォームを提案する。 プロシージャコンテンツ生成において広く利用されているショーケースとして、ソコバンレベル生成が選択される。 ソコバンレベルの空さと空間的多様性のバランスをとることにより、改良された2階層型アルゴリズムであるTwo_Arch2が、よく知られた多目的進化アルゴリズムであることを示す。 当社のWebプラットフォームでは,Two_Arch2を視覚的かつインタラクティブに進化過程をリアルタイムで示すインターフェースに統合しています。 理論最適化戦略を実用的なゲーム生成アプリケーションにブリッジするために設計されたこのインタフェースは、研究者と初心者の両方が多目的進化アルゴリズムやウェブサイト上の手続き的コンテンツ生成にアクセスできる。 ダイナミックな視覚化とインタラクティブなゲームプレイデモを通じて、このウェブベースのプラットフォームは教育ツールとしても可能性を持っている。

This paper presents an interactive platform to interpret multi-objective evolutionary algorithms. Sokoban level generation is selected as a showcase for its widespread use in procedural content generation. By balancing the emptiness and spatial diversity of Sokoban levels, we illustrate the improved two-archive algorithm, Two_Arch2, a well-known multi-objective evolutionary algorithm. Our web-based platform integrates Two_Arch2 into an interface that visually and interactively demonstrates the evolutionary process in real-time. Designed to bridge theoretical optimisation strategies with practical game generation applications, the interface is also accessible to both researchers and beginners to multi-objective evolutionary algorithms or procedural content generation on a website. Through dynamic visualisations and interactive gameplay demonstrations, this web-based platform also has potential as an educational tool.
翻訳日:2024-06-18 23:23:59 公開日:2024-06-15
# UniZero: スケーラブルな潜在世界モデルによる汎用的で効率的な計画

UniZero: Generalized and Efficient Planning with Scalable Latent World Models ( http://arxiv.org/abs/2406.10667v1 )

ライセンス: Link先を確認
Yuan Pu, Yazhe Niu, Jiyuan Ren, Zhenjie Yang, Hongsheng Li, Yu Liu, (参考訳) 予測的世界モデル学習は,強化学習エージェントの計画能力向上に不可欠である。 特に,値等価原理とモンテカルロ木探索(MCTS)に基づくMuZero型アルゴリズムは,様々な領域で超人的性能を実現している。 しかし、長期依存関係の取得を必要とする環境では、MuZeroのパフォーマンスは急速に低下する。 これは部分的には、過去の情報を含む潜在表現の「textit{entanglement}」によるものであり、補助的な自己監督状態正規化とは相容れないことが原因である。 この制限を克服するために、変換器をベースとした潜伏世界モデルを用いて、暗黙の潜伏歴史から潜伏状態を示す新しいアプローチである \textit{UniZero} を提示する。 UniZeroは、学習した潜時履歴に規定された潜時ダイナミクスと意思決定指向量とを同時に予測することにより、長距離世界モデルとポリシーの協調最適化を可能にし、潜時空間におけるより広範囲で効率的な計画を容易にする。 我々は,UniZeroがシングルフレーム入力であっても,Atari 100kベンチマーク上での MuZero スタイルのアルゴリズムの性能と一致または上回っていることを示す。 さらに、長期メモリを必要とするベンチマークにおいて、以前のベースラインを大幅に上回る。 最後に、広範囲なアブレーション研究、視覚分析、マルチタスク学習の結果を通じて、設計選択の有効性とスケーラビリティを検証する。 コードは \textcolor{magenta}{https://github.com/opendilab/LightZero} で公開されている。

Learning predictive world models is essential for enhancing the planning capabilities of reinforcement learning agents. Notably, the MuZero-style algorithms, based on the value equivalence principle and Monte Carlo Tree Search (MCTS), have achieved superhuman performance in various domains. However, in environments that require capturing long-term dependencies, MuZero's performance deteriorates rapidly. We identify that this is partially due to the \textit{entanglement} of latent representations with historical information, which results in incompatibility with the auxiliary self-supervised state regularization. To overcome this limitation, we present \textit{UniZero}, a novel approach that \textit{disentangles} latent states from implicit latent history using a transformer-based latent world model. By concurrently predicting latent dynamics and decision-oriented quantities conditioned on the learned latent history, UniZero enables joint optimization of the long-horizon world model and policy, facilitating broader and more efficient planning in latent space. We demonstrate that UniZero, even with single-frame inputs, matches or surpasses the performance of MuZero-style algorithms on the Atari 100k benchmark. Furthermore, it significantly outperforms prior baselines in benchmarks that require long-term memory. Lastly, we validate the effectiveness and scalability of our design choices through extensive ablation studies, visual analyses, and multi-task learning results. The code is available at \textcolor{magenta}{https://github.com/opendilab/LightZero}.
翻訳日:2024-06-18 23:23:59 公開日:2024-06-15
# CoLoRフィルタ:目標言語モデル事前学習のための条件付き損失除去フィルタ

CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training ( http://arxiv.org/abs/2406.10670v1 )

ライセンス: Link先を確認
David Brandfonbrener, Hanlin Zhang, Andreas Kirsch, Jonathan Richard Schwarz, Sham Kakade, (参考訳) 事前学習のための高品質なデータの選択は、言語モデルの下流タスク性能を形成する上で不可欠である。 最大の課題は、この最適部分集合を同定することであり、これは一般に難解であると考えられており、スケーラブルで効果的なヒューリスティックスを必要とする。 本研究では,2つの補助モデルの相対損失値に基づいて,ベイズに着想を得たデータ選択手法であるCoLoR-Filter(Conditional Loss Reduction Filtering)を提案する。 モデリングの理論的根拠に加えて,1) 書籍の評価に対するドメイン適応のためのC4からのデータ選択,2) 下流の複数の質問応答タスクのためのC4からのデータ選択という2つの言語モデリングタスクに対して,CoLoR-Filterを実証的に評価する。 我々は、より積極的にサブセレクトし、小さな補助モデルを用いて大きなターゲットモデルのためのデータを選択することにより、より良好なスケーリングを示す。 1つの見出し結果として、1組の150mパラメータ補助モデルを用いて選択されたCoLoR-Filterデータが1.2bパラメータターゲットモデルにトレーニングされ、ランダムに選択された25bトークン上でトレーニングされた1.2bパラメータモデルに一致し、書籍のデータは25倍少なく、下流タスクのデータは11倍少ない。 コード: https://github.com/davidbrandfonbrener/color-filter-olmo Filtered data: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4

Selecting high-quality data for pre-training is crucial in shaping the downstream task performance of language models. A major challenge lies in identifying this optimal subset, a problem generally considered intractable, thus necessitating scalable and effective heuristics. In this work, we propose a data selection method, CoLoR-Filter (Conditional Loss Reduction Filtering), which leverages an empirical Bayes-inspired approach to derive a simple and computationally efficient selection criterion based on the relative loss values of two auxiliary models. In addition to the modeling rationale, we evaluate CoLoR-Filter empirically on two language modeling tasks: (1) selecting data from C4 for domain adaptation to evaluation on Books and (2) selecting data from C4 for a suite of downstream multiple-choice question answering tasks. We demonstrate favorable scaling both as we subselect more aggressively and using small auxiliary models to select data for large target models. As one headline result, CoLoR-Filter data selected using a pair of 150m parameter auxiliary models can train a 1.2b parameter target model to match a 1.2b parameter model trained on 25b randomly selected tokens with 25x less data for Books and 11x less data for the downstream tasks. Code: https://github.com/davidbrandfonbrener/color-filter-olmo Filtered data: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4
翻訳日:2024-06-18 23:23:59 公開日:2024-06-15
# 一般ドメインリソースを用いた生物医学的名前付きエンティティ認識の強化

Augmenting Biomedical Named Entity Recognition with General-domain Resources ( http://arxiv.org/abs/2406.10671v1 )

ライセンス: Link先を確認
Yu Yin, Hyunjae Kim, Xiao Xiao, Chih Hsuan Wei, Jaewoo Kang, Zhiyong Lu, Hua Xu, Meng Fang, Qingyu Chen, (参考訳) ニューラルネットワークに基づくバイオメディカル名前付きエンティティ認識(BioNER)モデルのトレーニングは通常、広範囲でコストのかかる人的アノテーションを必要とする。 いくつかの研究では、複数のBioNERデータセットによるマルチタスク学習を用いて人的労力を削減しているが、この手法は一貫して性能改善をもたらしておらず、異なるバイオメディカルコーパスにラベルの曖昧さを導入する可能性がある。 我々は、バイオメディカルデータセットと重複する概念が少なく、容易にアクセス可能なリソースから移行学習することで、これらの課題に取り組むことを目指している。 本稿では,一般領域のNERデータセットをトレーニングに利用した,簡易なyet- Effective法であるGERBERAを提案する。 具体的には,対象のBioNERデータセットと一般ドメインデータセットの両方を用いて,トレーニング済みのバイオメディカル言語モデルをトレーニングするために,マルチタスク学習を行った。 その後、BioNERデータセット専用のモデルを微調整した。 我々は,81,410インスタンスからなる8つのエンティティタイプの5つのデータセットに対して,GERBERAを体系的に評価した。 バイオメディカルリソースは少ないが,BioNERデータセットを複数追加してトレーニングしたベースラインモデルに比べて優れた性能を示した。 具体的には,8つのエンティティタイプのうち6つのベースラインを一貫して上回り,5つの異なるコーパスから得られた8つのバイオメディカルエンティティタイプに対して,最高のベースライン性能よりも平均0.9%向上した。 JNLPBA-RNAデータセットではF1スコアが4.7%向上し,BioNERデータセットの性能向上に特に有効であった。

Training a neural network-based biomedical named entity recognition (BioNER) model usually requires extensive and costly human annotations. While several studies have employed multi-task learning with multiple BioNER datasets to reduce human effort, this approach does not consistently yield performance improvements and may introduce label ambiguity in different biomedical corpora. We aim to tackle those challenges through transfer learning from easily accessible resources with fewer concept overlaps with biomedical datasets. In this paper, we proposed GERBERA, a simple-yet-effective method that utilized a general-domain NER dataset for training. Specifically, we performed multi-task learning to train a pre-trained biomedical language model with both the target BioNER dataset and the general-domain dataset. Subsequently, we fine-tuned the models specifically for the BioNER dataset. We systematically evaluated GERBERA on five datasets of eight entity types, collectively consisting of 81,410 instances. Despite using fewer biomedical resources, our models demonstrated superior performance compared to baseline models trained with multiple additional BioNER datasets. Specifically, our models consistently outperformed the baselines in six out of eight entity types, achieving an average improvement of 0.9% over the best baseline performance across eight biomedical entity types sourced from five different corpora. Our method was especially effective in amplifying performance on BioNER datasets characterized by limited data, with a 4.7% improvement in F1 scores on the JNLPBA-RNA dataset.
翻訳日:2024-06-18 23:23:59 公開日:2024-06-15
# セマンティックMIM:一般的な視覚表現のためのセマンティック圧縮を用いたマズード画像モデリング

SemanticMIM: Marring Masked Image Modeling with Semantics Compression for General Visual Representation ( http://arxiv.org/abs/2406.10673v1 )

ライセンス: Link先を確認
Yike Yuan, Huanzhang Dou, Fengjun Guo, Xi Li, (参考訳) 本稿では,汎用視覚表現のためのマスク画像モデリング(MIM)とコントラスト学習(CL)の利点を統合するための,セマンティックMIM(SemanticMIM)という巧妙で効果的なフレームワークを示す。 我々はCLとMIMの徹底的な比較分析を行い、それらの相補的優位性は基本的に2つの異なる位相、すなわち圧縮と再構成に由来することを明らかにした。 具体的には、SemanticMIMは、画像とマスクトークン間のインタラクションをカスタマイズするプロキシアーキテクチャを活用し、これら2つのフェーズをブリッジして、豊富な意味的および位置的認識の特性による一般的な視覚的表現を実現する。 本研究では,SemanticMIMがCLとMIMの利点を効果的に満たし,性能と特徴線形分離性を大幅に向上させることを示す。 SemanticMIMはまた、注意応答の可視化を通じて顕著な解釈性を提供する。 コードはhttps://github.com/yyk-wew/SemanticMIM.comで公開されている。

This paper represents a neat yet effective framework, named SemanticMIM, to integrate the advantages of masked image modeling (MIM) and contrastive learning (CL) for general visual representation. We conduct a thorough comparative analysis between CL and MIM, revealing that their complementary advantages fundamentally stem from two distinct phases, i.e., compression and reconstruction. Specifically, SemanticMIM leverages a proxy architecture that customizes interaction between image and mask tokens, bridging these two phases to achieve general visual representation with the property of abundant semantic and positional awareness. Through extensive qualitative and quantitative evaluations, we demonstrate that SemanticMIM effectively amalgamates the benefits of CL and MIM, leading to significant enhancement of performance and feature linear separability. SemanticMIM also offers notable interpretability through attention response visualization. Codes are available at https://github.com/yyk-wew/SemanticMIM.
翻訳日:2024-06-18 23:14:08 公開日:2024-06-15
# 進化的アルゴリズムにおける代理モデルとしての大規模言語モデル:予備的検討

Large Language Models as Surrogate Models in Evolutionary Algorithms: A Preliminary Study ( http://arxiv.org/abs/2406.10675v1 )

ライセンス: Link先を確認
Hao Hao, Xiaoqun Zhang, Aimin Zhou, (参考訳) 大規模言語モデル(LLM)は様々な分野において大きな進歩を遂げており、新しいソリューションの生成やアルゴリズム設計の自動化など、進化的計算に強い可能性を示している。 サロゲートアシスト選択は、真の評価数を減らして高価な最適化問題を解決する進化アルゴリズムの中核的なステップである。 伝統的に、これは従来の機械学習手法に依存しており、過去の評価を利用して新しいソリューションの性能を予測する。 本研究では,LLM推論機能に基づいた新しいサロゲートモデルを提案する。 具体的には, LLMを用いたモデル支援選択を分類・回帰問題として定式化し, 過去のデータに基づいて新しい解の質を直接評価する。 これは、ソリューションが良いか悪いかを予測すること、あるいはその価値を近似することを含む。 このアプローチは、LLM支援EA(LAEA)と呼ばれる進化的アルゴリズムに統合される。 詳細な実験では、9つのLLMの2次元データの可視化結果と最適化問題の性能を比較した。 実験の結果,LLMは進化計算における代理モデルとして有意な可能性を示し,従来の代理モデルに匹敵する性能を得ることができた。 この研究は、進化計算におけるLLMの適用に関する新たな洞察を提供する。 コードは、https://github.com/hhyqhh/LAEA.gitで入手できる。

Large Language Models (LLMs) have achieved significant progress across various fields and have exhibited strong potential in evolutionary computation, such as generating new solutions and automating algorithm design. Surrogate-assisted selection is a core step in evolutionary algorithms to solve expensive optimization problems by reducing the number of real evaluations. Traditionally, this has relied on conventional machine learning methods, leveraging historical evaluated evaluations to predict the performance of new solutions. In this work, we propose a novel surrogate model based purely on LLM inference capabilities, eliminating the need for training. Specifically, we formulate model-assisted selection as a classification and regression problem, utilizing LLMs to directly evaluate the quality of new solutions based on historical data. This involves predicting whether a solution is good or bad, or approximating its value. This approach is then integrated into evolutionary algorithms, termed LLM-assisted EA (LAEA). Detailed experiments compared the visualization results of 2D data from 9 mainstream LLMs, as well as their performance on optimization problems. The experimental results demonstrate that LLMs have significant potential as surrogate models in evolutionary computation, achieving performance comparable to traditional surrogate models only using inference. This work offers new insights into the application of LLMs in evolutionary computation. Code is available at: https://github.com/hhyqhh/LAEA.git
翻訳日:2024-06-18 23:14:08 公開日:2024-06-15
# 意味的変化検出のための遅発性バイテンポラル特徴フュージョンネットワーク

A Late-Stage Bitemporal Feature Fusion Network for Semantic Change Detection ( http://arxiv.org/abs/2406.10678v1 )

ライセンス: Link先を確認
Chenyao Zhou, Haotian Zhang, Han Guo, Zhengxia Zou, Zhenwei Shi, (参考訳) セマンティックな変化検出は地球科学と地球観測において重要な課題である。 時相毎に意味変化マップを作成することにより、土地利用土地被覆カテゴリーと変化情報の両方を解釈することができる。 近年,タスクをセマンティックセグメンテーションとバイナリチェンジ検出サブタスクに分解するために,マルチタスク学習に基づく意味変化検出手法が提案されている。 しかし、以前の作品は三分枝を絡み合った形で構成しており、これは最適ではなく基礎モデルを採用するのが難しいかもしれない。 さらに、核融合時の両眼的特徴の明示的な改善が欠如すると、精度が低下する可能性がある。 そこで本論文では,この問題に対処する新たな双方向機能融合ネットワークを提案する。 具体的には,特徴融合を強化するため,局所的グローバルアテンショナルアグリゲーションモジュールを提案し,重要なセマンティクスを強調するために,局所的グローバルなコンテキスト拡張モジュールを提案する。 総合的な実験はSECONDとLandsat-SCDを含む2つの公開データセットで実施されている。 定量的および定性的な結果から,提案モデルが両データセットの新たな最先端性能を実現することを示す。

Semantic change detection is an important task in geoscience and earth observation. By producing a semantic change map for each temporal phase, both the land use land cover categories and change information can be interpreted. Recently some multi-task learning based semantic change detection methods have been proposed to decompose the task into semantic segmentation and binary change detection subtasks. However, previous works comprise triple branches in an entangled manner, which may not be optimal and hard to adopt foundation models. Besides, lacking explicit refinement of bitemporal features during fusion may cause low accuracy. In this letter, we propose a novel late-stage bitemporal feature fusion network to address the issue. Specifically, we propose local global attentional aggregation module to strengthen feature fusion, and propose local global context enhancement module to highlight pivotal semantics. Comprehensive experiments are conducted on two public datasets, including SECOND and Landsat-SCD. Quantitative and qualitative results show that our proposed model achieves new state-of-the-art performance on both datasets.
翻訳日:2024-06-18 23:14:08 公開日:2024-06-15
# 低ランクデコンボリューションによる高速非教師なしテンソル修復

Fast Unsupervised Tensor Restoration via Low-rank Deconvolution ( http://arxiv.org/abs/2406.10679v1 )

ライセンス: Link先を確認
David Reixach, Josep Ramon Morros, (参考訳) 低ランクデコンボリューション(LRD)は、重要な効率性と柔軟性を持つ新しい多次元表現モデルとして現れている。 本研究では、この分析モデルが、Deep Image Prior (DIP) や Blind-Spot Networks (BSN) といった、信号復元のタスクにおいて、Deep Learning (DL) フレームワークと競合できるかどうかを自問する。 具体的には、微分正則化によるRDDの拡張を提案する。 提案手法は,画像のデノゲーションや映像の強調といった信号復元作業において,その計算コストの削減と,信号復元作業の大幅な性能向上に寄与する,全変分(TV)と積分を,定式化に先立って容易に組み込むことを可能にする。

Low-rank Deconvolution (LRD) has appeared as a new multi-dimensional representation model that enjoys important efficiency and flexibility properties. In this work we ask ourselves if this analytical model can compete against Deep Learning (DL) frameworks like Deep Image Prior (DIP) or Blind-Spot Networks (BSN) and other classical methods in the task of signal restoration. More specifically, we propose to extend LRD with differential regularization. This approach allows us to easily incorporate Total Variation (TV) and integral priors to the formulation leading to considerable performance tested on signal restoration tasks such image denoising and video enhancement, and at the same time benefiting from its small computational cost.
翻訳日:2024-06-18 23:14:08 公開日:2024-06-15
# 単一・二重・三重励起を用いた量子運動方程式法

Quantum Equation-of-Motion Method with Single, Double, and Triple Excitations ( http://arxiv.org/abs/2406.10680v1 )

ライセンス: Link先を確認
Yuhan Zheng, Jie Liu, Zhenyu Li, Jinlong Yang, (参考訳) シングルとダブルの量子方程式(qEOM)法は、二重励起が支配する励起エネルギーを予測するのに失敗しながら、電子的に励起された状態を研究することが提案されている。 そこで本研究では,QEOM法を単一,二重,三重の励起で効率的に実装する。 計算複雑性を低減するために、点群対称性と摂動理論を用いて三重励起演算子をスクリーニングし、スケーリングを$N_o^6N_v^6$から$N_o^5N_v^5$に削減する。 さらに、無視された三重励起演算子の効果を考慮した励振エネルギーの摂動補正を導入する。 本手法を適用し,qEOM-SD法では2$^1\Delta$励起状態が$\rm{CH}^+$,2$^1\Sigma$状態が$\rm{H}_8$分子などの大きな誤差を示す。 我々の新しい手法は0.18eV未満のエネルギー誤差をもたらす。

The quantum equation-of-motion (qEOM) method with singles and doubles has been suggested to study electronically excited states while it fails to predict the excitation energies dominated by double excitations. In this work, we present an efficient implementation of the qEOM method with single, double and triple excitations. In order to reduce the computational complexity, we utilize the point group symmetry and perturbation theory to screen triple excitation operators, and the scaling is reduced from $N_o^6N_v^6$ to $N_o^5N_v^5$. Furthermore, we introduce a perturbation correction to the excitation energy to account for the effect of ignored triple excitation operators. We apply this method to study challenging cases, for which the qEOM-SD method exhibits large errors, such as the 2 $^1\Delta$ excited state of $\rm{CH}^+$ and the 2 $^1\Sigma$ state of $\rm{H}_8$ molecule. Our new method yields the energy errors less than 0.18 eV.
翻訳日:2024-06-18 23:14:08 公開日:2024-06-15
# スケール同変グラフメタネット

Scale Equivariant Graph Metanetworks ( http://arxiv.org/abs/2406.10685v1 )

ライセンス: Link先を確認
Ioannis Kalogeropoulos, Giorgos Bouritsas, Yannis Panagakis, (参考訳) 本稿では,高次関数の学習,すなわち入力が関数自身である関数の学習,特にこれらの入力がニューラルネットワーク(NN)$である場合の$\textit{particularlyについて述べる。 NNを処理するアーキテクチャへの関心が高まり、繰り返し行われる設計原則は、NNのコネクショナリスト構造から生じる置換対称性に固執する分野に浸透した。 しかし、これらはNNパラメータ化に唯一存在する対称性なのだろうか? 最も実用的なアクティベーション関数(例えば、sine, ReLU, tanh)にズームすると、この疑問に否定的な答えが得られ、新しい対称性がもたらされ、これは集合的に $\textit{scaling symmetries}$、すなわち、非ゼロスカラー乗法と重みと偏りの分割である。 本稿では,スケーリング対称性を取り入れたグラフメタネットワーク(メッセージパッシング)パラダイムを適用したフレームワークである$\textit{Scale Equivariant Graph MetaNetworks - ScaleGMNs}$を提案する。 個別のスカラー乗算器や製品に対して等分散や不変性を許容し,ScaleGMNのすべてのコンポーネントで使用することができる,独立した技術的関心を持つ新規なビルディングブロックを導入する。 さらに、ある表現性条件下では、ScaleGMNは入力フィードフォワードニューラルネットワークの前方および後方通過をシミュレートできることを示す。 実験により,提案手法はいくつかのデータセットとアクティベーション関数の最先端性能を向上し,NN処理の帰納バイアスとして対称性のスケーリングのパワーを強調した。

This paper pertains to an emerging machine learning paradigm: learning higher-order functions, i.e. functions whose inputs are functions themselves, $\textit{particularly when these inputs are Neural Networks (NNs)}$. With the growing interest in architectures that process NNs, a recurring design principle has permeated the field: adhering to the permutation symmetries arising from the connectionist structure of NNs. $\textit{However, are these the sole symmetries present in NN parameterizations}$? Zooming into most practical activation functions (e.g. sine, ReLU, tanh) answers this question negatively and gives rise to intriguing new symmetries, which we collectively refer to as $\textit{scaling symmetries}$, that is, non-zero scalar multiplications and divisions of weights and biases. In this work, we propose $\textit{Scale Equivariant Graph MetaNetworks - ScaleGMNs}$, a framework that adapts the Graph Metanetwork (message-passing) paradigm by incorporating scaling symmetries and thus rendering neuron and edge representations equivariant to valid scalings. We introduce novel building blocks, of independent technical interest, that allow for equivariance or invariance with respect to individual scalar multipliers or their product and use them in all components of ScaleGMN. Furthermore, we prove that, under certain expressivity conditions, ScaleGMN can simulate the forward and backward pass of any input feedforward neural network. Experimental results demonstrate that our method advances the state-of-the-art performance for several datasets and activation functions, highlighting the power of scaling symmetries as an inductive bias for NN processing.
翻訳日:2024-06-18 23:14:08 公開日:2024-06-15
# グラフニューラルトンプソンサンプリング

Graph Neural Thompson Sampling ( http://arxiv.org/abs/2406.10686v1 )

ライセンス: Link先を確認
Shuang Wu, Arash A. Amini, (参考訳) グラフ構造データ上に定義された報酬関数を持つオンライン意思決定問題を考える。 我々はこの問題をグラフアクションバンディットの例として公式に定式化する。 次に,グラフニューラルネットワーク(GNN)を用いたトンプソンサンプリング(TS)アルゴリズムである‘texttt{GNN-TS}を提案する。 報酬関数上の一定の有界性仮定の下で、GNN-TS は(1)次数 $\tilde{\mathcal{O}}((\tilde{d} T)^{1/2})$ における相互作用のラウンド数、$T$ および有効次元 $\tilde{d}$ の概念、(2) グラフノードの数に独立な、最先端の後悔境界を達成することを証明している。 実験結果から,提案手法が競合性能を示し,グラフアクションのバンドイット問題に優れていたことが確認された。

We consider an online decision-making problem with a reward function defined over graph-structured data. We formally formulate the problem as an instance of graph action bandit. We then propose \texttt{GNN-TS}, a Graph Neural Network (GNN) powered Thompson Sampling (TS) algorithm which employs a GNN approximator for estimating the mean reward function and the graph neural tangent features for uncertainty estimation. We prove that, under certain boundness assumptions on the reward function, GNN-TS achieves a state-of-the-art regret bound which is (1) sub-linear of order $\tilde{\mathcal{O}}((\tilde{d} T)^{1/2})$ in the number of interaction rounds, $T$, and a notion of effective dimension $\tilde{d}$, and (2) independent of the number of graph nodes. Empirical results validate that our proposed \texttt{GNN-TS} exhibits competitive performance and scales well on graph action bandit problems.
翻訳日:2024-06-18 23:14:08 公開日:2024-06-15
# Nurgle:MPT操作によるブロックチェーン状態ストレージのリソース消費の増大

Nurgle: Exacerbating Resource Consumption in Blockchain State Storage via MPT Manipulation ( http://arxiv.org/abs/2406.10687v1 )

ライセンス: Link先を確認
Zheyuan He, Zihao Li, Ao Qiao, Xiapu Luo, Xiaosong Zhang, Ting Chen, Shuwei Song, Dijun Liu, Weina Niu, (参考訳) 複雑なアーキテクチャを持つブロックチェーンには、コンセンサスネットワーク、スマートコントラクト、分散アプリケーション、補助サービスなど、さまざまなコンポーネントが含まれている。 さまざまなアドバンテージを提供する一方で、これらのコンポーネントはさまざまなアタックサーフェスを公開し、ブロックチェーンに対する深刻な脅威につながります。 本研究では,ブロックチェーンに新たな攻撃面,すなわち状態記憶機能を示す。 Merkle Patricia Trieをベースとしたステートストレージは、ブロックチェーン状態を維持する上で重要な役割を果たす。 さらに、状態ストレージをターゲットにした最初のDoN攻撃であるNurgleを設計する。 状態ストレージ内の中間ノードを増大させることで、Nurgleはブロックチェーンに、状態のメンテナンスと検証に関する追加リソースを浪費させ、パフォーマンスを損なう。 我々は、Nurgleを包括的かつ体系的に評価し、その影響する要因、ブロックチェーンへの影響、財務コスト、そして、結果としてブロックチェーンに損傷を実際に示す。 Nurgleがもたらす影響は、ブロックチェーンのパフォーマンス低下を超えて、信頼性と暗号通貨の価値を低下させる可能性がある。 さらに、Nurgleに対する3つの可能な緩和についても論じる。 この記事の執筆時点で、Nurgleが悪用した脆弱性は6つの主流ブロックチェーンによって確認されている。

Blockchains, with intricate architectures, encompass various components, e.g., consensus network, smart contracts, decentralized applications, and auxiliary services. While offering numerous advantages, these components expose various attack surfaces, leading to severe threats to blockchains. In this study, we unveil a novel attack surface, i.e., the state storage, in blockchains. The state storage, based on the Merkle Patricia Trie, plays a crucial role in maintaining blockchain state. Besides, we design Nurgle, the first Denial-of-Service attack targeting the state storage. By proliferating intermediate nodes within the state storage, Nurgle forces blockchains to expend additional resources on state maintenance and verification, impairing their performance. We conduct a comprehensive and systematic evaluation of Nurgle, including the factors affecting it, its impact on blockchains, its financial cost, and practically demonstrating the resulting damage to blockchains. The implications of Nurgle extend beyond the performance degradation of blockchains, potentially reducing trust in them and the value of their cryptocurrencies. Additionally, we further discuss three feasible mitigations against Nurgle. At the time of writing, the vulnerability exploited by Nurgle has been confirmed by six mainstream blockchains, and we received thousands of USD bounty from them.
翻訳日:2024-06-18 23:14:08 公開日:2024-06-15
# プログラム型回折とディジタルニューラルネットワークの統合

Integration of Programmable Diffraction with Digital Neural Networks ( http://arxiv.org/abs/2406.10688v1 )

ライセンス: Link先を確認
Md Sadman Sakib Rahman, Aydogan Ozcan, (参考訳) 回折素子に基づく光学イメージングとセンシングシステムは、過去数十年間で大きな進歩を遂げてきた。 初期の微分光学プロセッサは、一般に、人間の視覚や知覚によって主に駆動される、個別に最適化された独立したシステムに情報を提供するように設計されていた。 ディープラーニングとデジタルニューラルネットワークの最近の進歩により、バックエンドとして機能するデジタルニューラルネットワークと共同最適化された回折プロセッサの確立が試みられている。 これらの共同最適化されたハイブリッド(光学+デジタル)プロセッサは、アナログ情報を運ぶ入力電磁波と、バックエンドでデジタル情報を処理するニューラルネットワークの間に新しい「拡散言語」を確立する。 このようなハイブリッド設計は、空間的かつ時間的に整合性、部分的整合性、あるいは不整合性入力波を処理でき、デジタルニューラルネットワークと協調して実行される与えられたタスクに最適化できる任意の空間的に変化する点拡散関数の集合に対して普遍的なカバレッジを提供する。 本稿では、様々なアプリケーションに対して、エンジニアリングとプログラムされた回折とデジタルニューラルネットワークのこのエキサイティングなコラボレーションの有用性を強調します。 アナログウェーブプロセッシングとデジタルニューラルネットワークのプッシュプル関係によって実現された、いくつかの大きなイノベーションについて調査し、これら2つの相補的パラダイム間の相補的相乗効果によって得られる大きなメリットについても取り上げる。

Optical imaging and sensing systems based on diffractive elements have seen massive advances over the last several decades. Earlier generations of diffractive optical processors were, in general, designed to deliver information to an independent system that was separately optimized, primarily driven by human vision or perception. With the recent advances in deep learning and digital neural networks, there have been efforts to establish diffractive processors that are jointly optimized with digital neural networks serving as their back-end. These jointly optimized hybrid (optical+digital) processors establish a new "diffractive language" between input electromagnetic waves that carry analog information and neural networks that process the digitized information at the back-end, providing the best of both worlds. Such hybrid designs can process spatially and temporally coherent, partially coherent, or incoherent input waves, providing universal coverage for any spatially varying set of point spread functions that can be optimized for a given task, executed in collaboration with digital neural networks. In this article, we highlight the utility of this exciting collaboration between engineered and programmed diffraction and digital neural networks for a diverse range of applications. We survey some of the major innovations enabled by the push-pull relationship between analog wave processing and digital neural networks, also covering the significant benefits that could be reaped through the synergy between these two complementary paradigms.
翻訳日:2024-06-18 23:14:08 公開日:2024-06-15
# 医薬品安全データ分析におけるギャップのブリッジ:SQLクエリ生成のための大規模言語モデル

Bridging the Gap in Drug Safety Data Analysis: Large Language Models for SQL Query Generation ( http://arxiv.org/abs/2406.10690v1 )

ライセンス: Link先を確認
Jeffery L. Painter, Venkateswara Rao Chalamalasetti, Raymond Kassekert, Andrew Bate, (参考訳) 薬剤の安全性にはPV(Pharmacovigilance)が不可欠であり、主に有害事象のモニタリングに重点を置いている。 伝統的に、安全データにアクセスするにはデータベースの専門知識が必要であり、より広範な使用を制限する。 本稿では,非技術的ユーザを対象としたデータベースアクセスの民主化に,LLM(Large Language Models)の新たな応用を提案する。 OpenAIのGPT-4を利用して、自然言語から構造化クエリ言語(SQL)クエリを生成し、ドメイン知識と技術的要件のギャップを埋めるチャットボットを開発した。 提案アプリケーションは、より包括的で効率的なデータアクセスを目標とし、医薬品の安全性における意思決定を強化する。 専門知識の平易な言語要約をLLMに提供することにより,データベーススキーマのみに依存する手法よりも,クエリの精度が大幅に向上する。 この文脈におけるLSMの応用は、PVデータ分析を最適化し、タイムリーかつ正確な薬物安全報告を確実にするだけでなく、より安全な薬理学の実践と様々なデータ集約的な分野における情報決定を促進する。

Pharmacovigilance (PV) is essential for drug safety, primarily focusing on adverse event monitoring. Traditionally, accessing safety data required database expertise, limiting broader use. This paper introduces a novel application of Large Language Models (LLMs) to democratize database access for non-technical users. Utilizing OpenAI's GPT-4, we developed a chatbot that generates structured query language (SQL) queries from natural language, bridging the gap between domain knowledge and technical requirements. The proposed application aims for more inclusive and efficient data access, enhancing decision making in drug safety. By providing LLMs with plain language summaries of expert knowledge, our approach significantly improves query accuracy over methods relying solely on database schemas. The application of LLMs in this context not only optimizes PV data analysis, ensuring timely and precise drug safety reporting -- a crucial component in adverse drug reaction monitoring -- but also promotes safer pharmacological practices and informed decision making across various data intensive fields.
翻訳日:2024-06-18 23:14:08 公開日:2024-06-15
# 米国株式市場におけるグラフクラスタリングアルゴリズムに基づくマルチペア取引戦略の統計的仲裁

Statistical arbitrage in multi-pair trading strategy based on graph clustering algorithms in US equities market ( http://arxiv.org/abs/2406.10695v1 )

ライセンス: Link先を確認
Adam Korniejczuk, Robert Ślepaczuk, (参考訳) 本研究は,グラフクラスタリングアルゴリズムに基づく統計仲裁の新しい枠組みに基づく効果的な戦略の開発を目指す。 リスク調整されたリターンを改善し、既存のアプローチよりもトランザクションコストに対する免疫を高めるために、Kelly criterionや機械学習分類器のアンサンブルを含む量的および機械学習手法の融合が使用されている。 この研究は、最適な信号検出とリスク管理のための統合的なアプローチを提供することを目指している。 このアプローチの一環として、日々の頻度取引戦略において、利益の最適化と損失関数の停止という革新的な方法が提案され、テストされている。 テスト対象のアプローチはすべて、適切なベンチマークを上回りました。 テクニックとパラメータの最良の組み合わせは、関連するベンチマークよりもはるかに優れたパフォーマンス指標を示しました。 結果は現実的な取引コストを前提として得られたが、いくつかの重要なパラメータの変化に敏感である。

The study seeks to develop an effective strategy based on the novel framework of statistical arbitrage based on graph clustering algorithms. Amalgamation of quantitative and machine learning methods, including the Kelly criterion, and an ensemble of machine learning classifiers have been used to improve risk-adjusted returns and increase immunity to transaction costs over existing approaches. The study seeks to provide an integrated approach to optimal signal detection and risk management. As a part of this approach, innovative ways of optimizing take profit and stop loss functions for daily frequency trading strategies have been proposed and tested. All of the tested approaches outperformed appropriate benchmarks. The best combinations of the techniques and parameters demonstrated significantly better performance metrics than the relevant benchmarks. The results have been obtained under the assumption of realistic transaction costs, but are sensitive to changes in some key parameters.
翻訳日:2024-06-18 23:14:08 公開日:2024-06-15
# バイパーティライト一般化EPRシナリオにおける後量子性の活性化

Activation of post-quantumness in bipartite generalised EPR scenarios ( http://arxiv.org/abs/2406.10697v1 )

ライセンス: Link先を確認
Beata Zjawin, Matty J. Hoban, Paul Skrzypczyk, Ana Belén Sainz, (参考訳) 一般化されたアインシュタイン・ポドルスキー・ローゼン(EPR)のシナリオで生成された相関は、量子後挙動を示す非シグナリングなバイパルタイト資源の例である。 量子後資源であるにもかかわらず、バイパーティイトベル型シナリオにおいて量子相関しか生成できないアセンブリが存在する。 本稿では、Bob-with-input, Measurement-device-independent, channel EPR シナリオにおける後量子性の活性化のためのプロトコルを提案する。 大規模なネットワークにアセンブリを分散するプロトコルを設計することにより、この新しいセットアップにおいて、それらの量子境界を超えて違反する可能性のある、調整済みのベルの不等式を導出する。

Correlations generated in generalised Einstein-Podolsky-Rosen (EPR) scenarios are examples of non-signalling bipartite resources that can exhibit post-quantum behavior. There exist assemblages that, despite being post-quantum resources, can only generate quantum correlations in bipartite Bell-type scenarios. Here, we present a protocol for activation of post-quantumness in bipartite Bob-with-input, measurement-device-independent and channel EPR scenarios. By designing a protocol that involves distributing the assemblages in a larger network, we derive tailored Bell inequalities which can be violated beyond their quantum bound in this new set-up.
翻訳日:2024-06-18 23:14:08 公開日:2024-06-15
# 無限次元位相空間における量子ランダムウォークと量子オシレータ

Quantum Random Walks and Quantum Oscillator in an Infinite-Dimensional Phase Space ( http://arxiv.org/abs/2406.10699v1 )

ライセンス: Link先を確認
Vladimir Busovikov, Alexander Pechen, Vsevolod Sakbaev, (参考訳) ヒルベルト空間上の函数空間における座標と運動量作用素のワイル表現を用いた無限次元位相空間における量子ランダムウォークを考える。 位相空間におけるシフト作用素のユニタリ群とガウスベクトルによるそのようなシフトの平均化について研究し、これは自己随伴収縮の半群を形成する。 それらの性質における重要な相違により、これらの圧縮半群のユニタリ同値性を実装するユニタリ変換としてフーリエ変換が存在しないことを示すことができる。 次に、非有限ベクトルにシフトする滑らかな函数の特定の特別な部分集合に対するテイラーの公式を証明する。 これにより、拡散過程の進化に対する座標表現における量子ランダムウォークの収束を証明できるだけでなく、座標および運動量表現における量子ランダムウォークの収束を無限次元位相空間における量子発振器の進化半群に証明することができる。 位置および運動量表現におけるランダムシフト作用素の平均化に起因した半群の生成体の特別な必須共通領域を求める。 この共通領域の両半群に対する不変性は、両方のジェネレータの凸結合の性質を確立することができる。 この凸結合は無限次元量子振動子のハミルトン多様体である。 したがって、無限次元位相空間におけるランダムウォークのワイル表現は、生成元が無限次元調和振動子のハミルトニアンである自己随伴収縮の半群を記述する。

We consider quantum random walks in an infinite-dimensional phase space constructed using Weyl representation of the coordinate and momentum operators in the space of functions on a Hilbert space which are square integrable with respect to a shift-invariant measure. We study unitary groups of shift operators in the phase space and averaging of such shifts by Gaussian vectors, which form semigroups of self-adjoint contractions: we find conditions for their strong continuity and establish properties of their generators. Significant differences in their properties allow us to show the absence of the Fourier transform as a unitary transformation that implements the unitary equivalence of these compressive semigroups. Next, we prove the Taylor formula for a certain special subset of smooth functions for shifting to a non-finite vector. It allows us to prove convergence of quantum random walks in the coordinate representation to the evolution of a diffusion process, as well as convergence of quantum random walks in both coordinate and momentum representations to the evolution semigroup of a quantum oscillator in an infinite-dimensional phase space. We find the special essential common domain of generators of semigroups arising in averaging of random shift operators both in position and momentum representations. The invariance of this common domain with respect to both semigroups allows to establish properties of a convex combination of both generators. That convex combination are Hamiltonians of infinite-dimentional quantum oscillators. Thus, we obtain that a Weyl representation of a random walk in an infinite dimensional phase space describes the semigroup of self-adjoint contractions whose generator is the Hamiltonian of an infinite dimensional harmonic oscillator.
翻訳日:2024-06-18 23:14:08 公開日:2024-06-15
# Voxel Mamba:Point Cloudによる3Dオブジェクト検出のためのグループフリーな状態空間モデル

Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection ( http://arxiv.org/abs/2406.10700v1 )

ライセンス: Link先を確認
Guowen Zhang, Lue Fan, Chenhang He, Zhen Lei, Zhaoxiang Zhang, Lei Zhang, (参考訳) 3Dボクセルをシリアライズして複数のシーケンスにグループ化し、トランスフォーマーに入力するシリアライズベースの手法は、3Dオブジェクト検出においてその効果を実証している。 しかし、3Dボクセルを1D配列にシリアライズすることは、必然的にボクセルの空間的近接を犠牲にする。 このような問題は、機能サイズを持つトランスフォーマーの2次複雑さのため、既存のシリアライズベースのメソッドでグループサイズを拡大するのは難しい。 状態空間モデル(SSM)の最近の進歩に触発されて、Voxel Mambaと呼ばれるVoxel SSMを提示する。 SSMの線形複雑性はグループフリーな設計を奨励し、ボクセルの空間的近接の損失を軽減する。 空間的近接性をさらに高めるため, 2次元SSMブロックを用いて階層構造を構築することで, 1次元直列化曲線における受容場を大きくし, 3次元空間におけるより完全な局所領域を実現する。 さらに、位置符号化によりグループフリーなフレームワークにウィンドウ分割を暗黙的に適用し、ボクセル位置情報を符号化することで空間的近接性を高める。 Waymo Open Dataset と nuScenes データセットを用いた実験により,Voxel Mamba は最先端の手法よりも高い精度を達成できるだけでなく,計算効率において大きな優位性を示す。

Serialization-based methods, which serialize the 3D voxels and group them into multiple sequences before inputting to Transformers, have demonstrated their effectiveness in 3D object detection. However, serializing 3D voxels into 1D sequences will inevitably sacrifice the voxel spatial proximity. Such an issue is hard to be addressed by enlarging the group size with existing serialization-based methods due to the quadratic complexity of Transformers with feature sizes. Inspired by the recent advances of state space models (SSMs), we present a Voxel SSM, termed as Voxel Mamba, which employs a group-free strategy to serialize the whole space of voxels into a single sequence. The linear complexity of SSMs encourages our group-free design, alleviating the loss of spatial proximity of voxels. To further enhance the spatial proximity, we propose a Dual-scale SSM Block to establish a hierarchical structure, enabling a larger receptive field in the 1D serialization curve, as well as more complete local regions in 3D space. Moreover, we implicitly apply window partition under the group-free framework by positional encoding, which further enhances spatial proximity by encoding voxel positional information. Our experiments on Waymo Open Dataset and nuScenes dataset show that Voxel Mamba not only achieves higher accuracy than state-of-the-art methods, but also demonstrates significant advantages in computational efficiency.
翻訳日:2024-06-18 23:14:08 公開日:2024-06-15
# MIND:Eコマース購入理解のための大規模視覚言語モデルからのマルチモーダルショッピング意図蒸留

MIND: Multimodal Shopping Intention Distillation from Large Vision-language Models for E-commerce Purchase Understanding ( http://arxiv.org/abs/2406.10701v1 )

ライセンス: Link先を確認
Baixuan Xu, Weiqi Wang, Haochen Shi, Wenxuan Ding, Huihao Jing, Tianqing Fang, Jiaxin Bai, Long Chen, Yangqiu Song, (参考訳) Eコマースプラットフォームにおけるユーザエクスペリエンスの向上とパーソナライズされた検索結果の提供は,購入意図の理解に大きく依存している。 しかし,大規模な意図獲得のための既存の手法は,人間のアノテーションを付加した大規模言語モデルの蒸留に有効である。 このようなアプローチは、製品中心の意図を生成し、製品イメージから価値のある視覚情報を見落とし、スケーラビリティのために高いコストを発生させる傾向があります。 これらの問題に対処するために、MINDは、LVLM(Large Vision-Language Models)がマルチモーダル製品メタデータから購入意図を推測し、人間中心のものを優先順位付けすることを可能にするマルチモーダルフレームワークである。 Amazon Reviewのデータを用いて、MINDを適用し、1264,441万の意図を含むマルチモーダルな意図的知識ベースを作成します。 広範囲な人的評価は, 得られた意図の妥当性と典型性を示し, 蒸留の枠組みとろ過機構の有効性を検証した。 追加実験により,2つの意図的理解タスクにおいて,得られた意図が大規模言語モデルを大幅に向上することが確認された。

Improving user experience and providing personalized search results in E-commerce platforms heavily rely on understanding purchase intention. However, existing methods for acquiring large-scale intentions bank on distilling large language models with human annotation for verification. Such an approach tends to generate product-centric intentions, overlook valuable visual information from product images, and incurs high costs for scalability. To address these issues, we introduce MIND, a multimodal framework that allows Large Vision-Language Models (LVLMs) to infer purchase intentions from multimodal product metadata and prioritize human-centric ones. Using Amazon Review data, we apply MIND and create a multimodal intention knowledge base, which contains 1,264,441 million intentions derived from 126,142 co-buy shopping records across 107,215 products. Extensive human evaluations demonstrate the high plausibility and typicality of our obtained intentions and validate the effectiveness of our distillation framework and filtering mechanism. Additional experiments reveal that our obtained intentions significantly enhance large language models in two intention comprehension tasks.
翻訳日:2024-06-18 23:14:08 公開日:2024-06-15
# 予測問題における最適縮約によるニューラルネットワークのパラメータの校正

Calibrating Neural Networks' parameters through Optimal Contraction in a Prediction Problem ( http://arxiv.org/abs/2406.10703v1 )

ライセンス: Link先を確認
Valdes Gonzalo, (参考訳) 本研究では,ニューラルネットワークにおける最適パラメータの存在と特異性を保証する新しいアプローチを提案する。 論文では、リカレントニューラルネットワーク(RNN)を、パラメータが線形な領域の収縮に変換する方法について詳述する。 次に、損失関数の特定の正規化項を持つRNNによってモデル化された予測問題は、その一階条件を解析的に表現できることを示した。 この方程式体系は、部分的に解けるシルベスター方程式を含む2つの行列方程式に還元される。 一定の条件が満たされた場合、最適なパラメータが存在し、一意であり、任意の所望の精度で簡単なアルゴリズムで見つけることができる。 また、ニューロンの数が増えるにつれて、収束の条件が満たされやすくなる。 フィードフォワードニューラルネットワーク(FNN)もパラメータに線形制約を加えることで検討されている。 我々のモデルによれば、ループ(固定あるいは可変重み付き)を組み込むことで、反復法が収束する領域の存在を保証するため、訓練を容易にする損失関数が生成される。

This study introduces a novel approach to ensure the existence and uniqueness of optimal parameters in neural networks. The paper details how a recurrent neural networks (RNN) can be transformed into a contraction in a domain where its parameters are linear. It then demonstrates that a prediction problem modeled through an RNN, with a specific regularization term in the loss function, can have its first-order conditions expressed analytically. This system of equations is reduced to two matrix equations involving Sylvester equations, which can be partially solved. We establish that, if certain conditions are met, optimal parameters exist, are unique, and can be found through a straightforward algorithm to any desired precision. Also, as the number of neurons grows the conditions of convergence become easier to fulfill. Feedforward neural networks (FNNs) are also explored by including linear constraints on parameters. According to our model, incorporating loops (with fixed or variable weights) will produce loss functions that train easier, because it assures the existence of a region where an iterative method converges.
翻訳日:2024-06-18 23:04:22 公開日:2024-06-15
# DataStates-LLM:大規模言語モデルの遅延非同期チェックポイント

DataStates-LLM: Lazy Asynchronous Checkpointing for Large Language Models ( http://arxiv.org/abs/2406.10707v1 )

ライセンス: Link先を確認
Avinash Maurya, Robert Underwood, M. Mustafa Rafique, Franck Cappello, Bogdan Nicolae, (参考訳) LLMはすべての領域で急速に採用されている。 それらは、ハイエンドなハイパフォーマンスコンピューティング(HPC)のインフラで訓練され、大量の入力データを取り込みます。 当然ながら、このような大規模なイベント(コンポーネントの障害、ソフトウェアの不安定性、望ましくない学習パターンなど)は頻繁に行われ、通常、ネガティブな方法でトレーニングに影響を与えます。 したがって、LSMを頻繁にチェックポイントし、安定した状態に戻し、その後微調整できるようにする必要がある。 しかし、LLMの規模が大きいことを考えると、モデルパラメータを直接記述し、永続的なストレージ(例えば並列ファイルシステム)にオプティマイザ状態を最適化する簡単なチェックポイントソリューションは、重大なI/Oオーバーヘッドを発生させる。 そこで本研究では,高速かつスケーラブルなLDMチェックポイントを実現するためのI/Oオーバーヘッドを,トレーニングプロセスに大きな影響を与えることなく,高頻度(個別イテレーションの粒度まで)で適用可能な方法について検討する。 具体的には、モデルのテンソルとオプティマイザ状態シャードを構成するテンソルが長期にわたって不変であることを利用して、遅延非同期マルチレベルアプローチを導入し、トレーニングプロセス中に最小限の干渉でコンテンツをバックグラウンドでコピーできるようにする。 我々は,異なるモデルサイズ,並列性設定,チェックポインティング周波数を用いて,最大180GPUのスケールでのアプローチを評価する。 その結果、48$\times$ チェックポイントの高速化と2.2$\times$ エンドツーエンドのトレーニングランタイムの高速化が、最先端のチェックポイントのアプローチと比較できる。

LLMs have seen rapid adoption in all domains. They need to be trained on high-end high-performance computing (HPC) infrastructures and ingest massive amounts of input data. Unsurprisingly, at such a large scale, unexpected events (e.g., failures of components, instability of the software, undesirable learning patterns, etc.), are frequent and typically impact the training in a negative fashion. Thus, LLMs need to be checkpointed frequently so that they can be rolled back to a stable state and subsequently fine-tuned. However, given the large sizes of LLMs, a straightforward checkpointing solution that directly writes the model parameters and optimizer state to persistent storage (e.g., a parallel file system), incurs significant I/O overheads. To address this challenge, in this paper we study how to reduce the I/O overheads for enabling fast and scalable checkpointing for LLMs that can be applied at high frequency (up to the granularity of individual iterations) without significant impact on the training process. Specifically, we introduce a lazy asynchronous multi-level approach that takes advantage of the fact that the tensors making up the model and optimizer state shards remain immutable for extended periods of time, which makes it possible to copy their content in the background with minimal interference during the training process. We evaluate our approach at scales of up to 180 GPUs using different model sizes, parallelism settings, and checkpointing frequencies. The results show up to 48$\times$ faster checkpointing and 2.2$\times$ faster end-to-end training runtime compared with the state-of-art checkpointing approaches.
翻訳日:2024-06-18 23:04:22 公開日:2024-06-15
# MMVR:ミリ波マルチビューレーダデータセットと屋内知覚のためのベンチマーク

MMVR: Millimeter-wave Multi-View Radar Dataset and Benchmark for Indoor Perception ( http://arxiv.org/abs/2406.10708v1 )

ライセンス: Link先を確認
M. Mahbubur Rahman, Ryoma Yataka, Sorachi Kato, Pu Perry Wang, Peizhao Li, Adriano Cardace, Petros Boufounos, (参考訳) 自律走行をサポートする自動車レーダデータセットの広範なリストと比較すると、屋内レーダデータセットは低解像度レーダポイントクラウドの形式では小さく、通常はオープンスペースの単一ルーム設定の下では不十分である。 本稿では,マルチ日,マルチルーム,マルチオブジェクト設定におけるマルチビュー高分解能レーダヒートマップを用いた屋内レーダデータ収集を,環境と対象の多様性に着目してスケールアップする。 ミリ波マルチビューレーダ(MMVR)データセットとして参照され、異なる部屋から25ドルの被験者から収集された345ドルのマルチビューレーダフレームと、446ドルの注釈付きバウンディングボックス/セグメンテーションインスタンスと、オブジェクト検出、ポーズ推定、インスタンスセグメンテーションの3つの主要な認識タスクをサポートする7.59ドルの注釈付きキーポイントで構成されている。 各タスクに対して、オープンスペースの1つの被験者と、乱数分割とクロス環境分割の2つのデータ分割を持つ複数の乱雑な部屋の複数の被験者の2つのプロトコルによるパフォーマンスベンチマークを報告する。 我々はMMVRが屋内車両(ロボット/ヒューマノイド)航法、建築エネルギー管理、高齢者介護のための屋内レーダ認識開発を促進し、効率、ユーザエクスペリエンス、安全性の向上を期待する。

Compared with an extensive list of automotive radar datasets that support autonomous driving, indoor radar datasets are scarce at a smaller scale in the format of low-resolution radar point clouds and usually under an open-space single-room setting. In this paper, we scale up indoor radar data collection using multi-view high-resolution radar heatmap in a multi-day, multi-room, and multi-subject setting, with an emphasis on the diversity of environment and subjects. Referred to as the millimeter-wave multi-view radar (MMVR) dataset, it consists of $345$K multi-view radar frames collected from $25$ human subjects over $6$ different rooms, $446$K annotated bounding boxes/segmentation instances, and $7.59$ million annotated keypoints to support three major perception tasks of object detection, pose estimation, and instance segmentation, respectively. For each task, we report performance benchmarks under two protocols: a single subject in an open space and multiple subjects in several cluttered rooms with two data splits: random split and cross-environment split over $395$ 1-min data segments. We anticipate that MMVR facilitates indoor radar perception development for indoor vehicle (robot/humanoid) navigation, building energy management, and elderly care for better efficiency, user experience, and safety.
翻訳日:2024-06-18 23:04:22 公開日:2024-06-15
# SyntheT2C:Text2Cypherタスクを用いた大規模言語モデルのための合成データ生成

SyntheT2C: Generating Synthetic Data for Fine-Tuning Large Language Models on the Text2Cypher Task ( http://arxiv.org/abs/2406.10710v1 )

ライセンス: Link先を確認
Ziije Zhong, Linqing Zhong, Zhaoze Sun, Qingyun Jin, Zengchang Qin, Xiaofan Zhang, (参考訳) LLM(Large Language Models)と既存のKG(Knowledge Graph)データベースの統合は、LLMの有効性を高め、その"幻覚"を緩和するための有望な道を示す。 ほとんどのKGが特殊なクエリ言語(例えばCypher)を通してのみアクセス可能なグラフデータベースに存在していることを考えると、自然言語のCypherクエリへの変換を自動化することで、LLMとKGデータベースの分割を橋渡しする必要がある(一般的には"Text2Cypher"タスクと呼ばれる)。 それまでの努力は、スーパーバイザード・ファインチューニング(Supervised Fine-Tuning)を通じて、LCMのCypher生成能力を高めようとした。 しかしながら、これらの探索はQuery-Cypherペアのアノテートデータセットの欠如によって妨げられている。 本研究では,(1)LLMベースのプロンプトと(2)テンプレート充填という2つの異なるパイプラインからなる合成クエリ-暗号ペアデータセットを構築する手法であるSyntheT2Cを提案する。 SyntheT2Cは、基礎となるNeo4jグラフデータベースからサンプリングされた値を持つ、広範囲なクエリ-暗号ペアの生成を容易にする。 その後、SyntheT2Cは2つの医療データベースに適用され、合成データセットMedT2Cが生成される。 総合実験により、MedT2Cデータセットは、Text2Cypherタスク上でのバックボーンLLMのパフォーマンスを効果的に向上することを示した。 SyntheT2CコードベースとMedT2Cデータセットの両方が近くリリースされる。

Integrating Large Language Models (LLMs) with existing Knowledge Graph (KG) databases presents a promising avenue for enhancing LLMs' efficacy and mitigating their "hallucinations". Given that most KGs reside in graph databases accessible solely through specialized query languages (e.g., Cypher), there exists a critical need to bridge the divide between LLMs and KG databases by automating the translation of natural language into Cypher queries (commonly termed the "Text2Cypher" task). Prior efforts tried to bolster LLMs' proficiency in Cypher generation through Supervised Fine-Tuning. However, these explorations are hindered by the lack of annotated datasets of Query-Cypher pairs, resulting from the labor-intensive and domain-specific nature of annotating such datasets. In this study, we propose SyntheT2C, a methodology for constructing a synthetic Query-Cypher pair dataset, comprising two distinct pipelines: (1) LLM-based prompting and (2) template-filling. SyntheT2C facilitates the generation of extensive Query-Cypher pairs with values sampled from an underlying Neo4j graph database. Subsequently, SyntheT2C is applied to two medical databases, culminating in the creation of a synthetic dataset, MedT2C. Comprehensive experiments demonstrate that the MedT2C dataset effectively enhances the performance of backbone LLMs on the Text2Cypher task. Both the SyntheT2C codebase and the MedT2C dataset will be released soon.
翻訳日:2024-06-18 23:04:22 公開日:2024-06-15
# 対称性駆動による双曲空間におけるネットワークの埋め込み

Symmetry-driven embedding of networks in hyperbolic space ( http://arxiv.org/abs/2406.10711v1 )

ライセンス: Link先を確認
Simon Lizotte, Jean-Gabriel Young, Antoine Allard, (参考訳) 双曲モデルでは、経験的ネットワークの重み付き次数分布、高いクラスタリング、階層構造を再現することができる。 しかし、ネットワークの双曲座標を見つけるための現在のアルゴリズムは、推論された座標の不確かさを定量化しない。 本稿では,マルコフ連鎖モンテカルロ(MCMC)アルゴリズムであるBIGUEについて述べる。 ランダムウォークとランダムなクラスタ変換を組み合わせることで、一般的に使われているおよび最先端の動的ハミルトニアンモンテカルロアルゴリズムと比較して、ミキシングが大幅に改善されることを示す。 また, このアルゴリズムを用いて, 多変量正規分布で後続分布を近似できないことを示すとともに, 推定パラメータの不確かさの定量化にMCMCを用いることを正当化する。

Hyperbolic models can reproduce the heavy-tailed degree distribution, high clustering, and hierarchical structure of empirical networks. Current algorithms for finding the hyperbolic coordinates of networks, however, do not quantify uncertainty in the inferred coordinates. We present BIGUE, a Markov chain Monte Carlo (MCMC) algorithm that samples the posterior distribution of a Bayesian hyperbolic random graph model. We show that combining random walk and random cluster transformations significantly improves mixing compared to the commonly used and state-of-the-art dynamic Hamiltonian Monte Carlo algorithm. Using this algorithm, we also provide evidence that the posterior distribution cannot be approximated by a multivariate normal distribution, thereby justifying the use of MCMC to quantify the uncertainty of the inferred parameters.
翻訳日:2024-06-18 23:04:22 公開日:2024-06-15
# 指向性ウィンドウラーニング・ヴィジョン変換器を用いた物体検出:道路アセット認識

Object Detection using Oriented Window Learning Vi-sion Transformer: Roadway Assets Recognition ( http://arxiv.org/abs/2406.10712v1 )

ライセンス: Link先を確認
Taqwa Alhadidi, Ahmed Jaber, Shadi Jaradat, Huthaifa I Ashqar, Mohammed Elhenawy, (参考訳) オブジェクト検出は、特に自動運転、交通監視、インフラ整備などのアプリケーションにおいて、交通システムにおいて重要なコンポーネントである。 従来のオブジェクト検出手法は、オブジェクトの外観における限られたデータと可変性に苦しむことが多い。 The Oriented Window Learning Vision Transformer (OWL-ViT)は、オブジェクトの形状と存在に窓の向きを適応させることによって、多様な道路資産を検出するのに非常に適している、新しいアプローチを提供する。 本研究では、OWL-ViTをワンショット学習フレームワークで活用し、交通標識、ポール、舗装、ひび割れなどの交通インフラコンポーネントを認識する。 本研究では,OWL-ViTを用いた道路資産検出手法を提案する。 我々は,検出一貫性,意味的柔軟性,視覚的コンテキスト適応性,解像度の堅牢性,非最大抑制の影響の観点から,モデルの性能を評価する一連の実験を行った。 その結果、OWL-ViTの高効率性と信頼性が様々なシナリオで示され、インテリジェント輸送システムの安全性と効率を高める可能性を示している。

Object detection is a critical component of transportation systems, particularly for applications such as autonomous driving, traffic monitoring, and infrastructure maintenance. Traditional object detection methods often struggle with limited data and variability in object appearance. The Oriented Window Learning Vision Transformer (OWL-ViT) offers a novel approach by adapting window orientations to the geometry and existence of objects, making it highly suitable for detecting diverse roadway assets. This study leverages OWL-ViT within a one-shot learning framework to recognize transportation infrastructure components, such as traffic signs, poles, pavement, and cracks. This study presents a novel method for roadway asset detection using OWL-ViT. We conducted a series of experiments to evaluate the performance of the model in terms of detection consistency, semantic flexibility, visual context adaptability, resolution robustness, and impact of non-max suppression. The results demonstrate the high efficiency and reliability of the OWL-ViT across various scenarios, underscoring its potential to enhance the safety and efficiency of intelligent transportation systems.
翻訳日:2024-06-18 23:04:22 公開日:2024-06-15
# 自律運転のための適応的世界モデルによる計画

Planning with Adaptive World Models for Autonomous Driving ( http://arxiv.org/abs/2406.10714v1 )

ライセンス: Link先を確認
Arun Balajee Vasudevan, Neehar Peri, Jeff Schneider, Deva Ramanan, (参考訳) 複雑な都市環境での安全な航行には運動計画が不可欠である。 歴史的に、運動プランナー(MP)はCARLAのような手続き的に生成されたシミュレータで評価されてきた。 しかし、このような合成ベンチマークは実世界のマルチエージェント相互作用を捉えない。 最近リリースされたMPベンチマークであるnuPlanは、クローズドループシミュレーションロジックで現実世界の運転ログを拡大することで、この制限に対処し、固定データセットをリアクティブシミュレータに効果的に変換する。 我々は、nuPlanの記録ログの特徴を分析し、各都市が独自の運転行動を持っていることを発見し、ロバストなプランナーが異なる環境に適応する必要があることを示唆した。 グラフ畳み込みニューラルネットワーク(GCNN)でこのようなユニークな振る舞いをモデル化することを学び、最近観測されたエージェント履歴から派生した特徴を用いて反応性エージェントの挙動を予測する。 このような現象をモデル化するために、BehaviorNetは時空軌道を予測するのではなく、エージェントのモーションコントローラのパラメータを予測する(ほとんどの予測者はそうしている)。 最後に,モデル予測制御(MPC)ベースのプランナであるAdaptiveDriverを紹介する。 我々の広範な実験により、AdaptiveDriverはnuPlanクローズドループ計画ベンチマークで最先端の結果を達成し、これまで見たことのない都市でもテストエラーを6.4%から4.6%に削減した。

Motion planning is crucial for safe navigation in complex urban environments. Historically, motion planners (MPs) have been evaluated with procedurally-generated simulators like CARLA. However, such synthetic benchmarks do not capture real-world multi-agent interactions. nuPlan, a recently released MP benchmark, addresses this limitation by augmenting real-world driving logs with closed-loop simulation logic, effectively turning the fixed dataset into a reactive simulator. We analyze the characteristics of nuPlan's recorded logs and find that each city has its own unique driving behaviors, suggesting that robust planners must adapt to different environments. We learn to model such unique behaviors with BehaviorNet, a graph convolutional neural network (GCNN) that predicts reactive agent behaviors using features derived from recently-observed agent histories; intuitively, some aggressive agents may tailgate lead vehicles, while others may not. To model such phenomena, BehaviorNet predicts parameters of an agent's motion controller rather than predicting its spacetime trajectory (as most forecasters do). Finally, we present AdaptiveDriver, a model-predictive control (MPC) based planner that unrolls different world models conditioned on BehaviorNet's predictions. Our extensive experiments demonstrate that AdaptiveDriver achieves state-of-the-art results on the nuPlan closed-loop planning benchmark, reducing test error from 6.4% to 4.6%, even when applied to never-before-seen cities.
翻訳日:2024-06-18 23:04:22 公開日:2024-06-15
# 60モード連続可変クラスター状態のチップスケール生成

Chip-scale generation of 60-mode continuous-variable cluster states ( http://arxiv.org/abs/2406.10715v1 )

ライセンス: Link先を確認
Ze Wang, Kangkang Li, Yue Wang, Xin Zhou, Yinke Cheng, Boxuan Jing, Fengxiao Sun, Jincheng Li, Zhilin Li, Qihuang Gong, Qiongyi He, Bei-Bei Li, Qi-Fan Yang, (参考訳) エンタングルされたエンティティの数を増やすことは、指数計算の高速化とセキュアな量子ネットワークを達成するために不可欠である。 連続可変(CV)クラスタ状態による大規模絡み合いの生成は近年進展しているが、これらの技術をフォトニックチップに変換することはデコヒーレンスによって妨げられ、絡み合ったエンティティの数は8に制限されている。 ここでは、色レーザーで励起されたチップベースの光マイクロ共振器において、60モードのCVcluster状態を示す。 共鳴的に強化された4波長混合プロセスは、等価なスペクトル量子モード(qumodes)間の絡み合いを確立し、光周波数コムの量子アナログを形成する。 デコヒーレンスは、チップから前例のない2モードの生のスクイーズ(>3dB)を達成するために最小化される。 バイクロマチックおよびトリクロマチックポンプレーザーを用いて,最大60量子モードの1次元および2次元クラスター状態を実現する。 我々の研究は、大規模に絡み合った量子資源を構築するためのコンパクトでスケーラブルなプラットフォームを提供する。

Increasing the number of entangled entities is crucial for achieving exponential computational speedups and secure quantum networks. Despite recent progress in generating large-scale entanglement through continuous-variable (CV) cluster states, translating these technologies to photonic chips has been hindered by decoherence, limiting the number of entangled entities to 8. Here, we demonstrate 60-mode CVcluster states in a chip-based optical microresonator pumped by chromatic lasers. Resonantly-enhanced four-wave mixing processes establish entanglement between equidistant spectral quantum modes (qumodes), forming a quantum analogue of optical frequency combs. Decoherence is minimized to achieve unprecedented two-mode raw squeezing (>3 dB) from a chip. Using bichromatic and trichromatic pump lasers, we realize one- and two-dimensional cluster states with up to 60 qumodes. Our work provides a compact and scalable platform for constructing large-scale entangled quantum resources, which are appealing for performing computational and communicational tasks with quantum advantages.
翻訳日:2024-06-18 23:04:22 公開日:2024-06-15
# 確率的短期負荷予測のためのスタック化

Stacking for Probabilistic Short-term Load Forecasting ( http://arxiv.org/abs/2406.10718v1 )

ライセンス: Link先を確認
Grzegorz Dudek, (参考訳) 本研究では,メタラーニングの領域を探索し,確率的短期電力需要予測のためのポイントベース予測を組み合わせる。 提案手法は, 残留シミュレーションによる分数次線形回帰, 分数次回帰林の利用, および後処理技術を用いて, 分数次予測を生成する。 さらに,メタラーニングのグローバル版とローカル版の両方を導入する。 局所学習モードでは、クエリパターンに最もよく似たパターンを用いてメタモデルを訓練し、35の予測シナリオと16のベース予測モデルを用いた広範な実験結果から、競合相手よりも量子回帰林の方が優れていることが示された。

In this study, we delve into the realm of meta-learning to combine point base forecasts for probabilistic short-term electricity demand forecasting. Our approach encompasses the utilization of quantile linear regression, quantile regression forest, and post-processing techniques involving residual simulation to generate quantile forecasts. Furthermore, we introduce both global and local variants of meta-learning. In the local-learning mode, the meta-model is trained using patterns most similar to the query pattern.Through extensive experimental studies across 35 forecasting scenarios and employing 16 base forecasting models, our findings underscored the superiority of quantile regression forest over its competitors
翻訳日:2024-06-18 23:04:22 公開日:2024-06-15
# トレーディング・デビル:確率的投資モデルとベイズ的アプローチによるロバストなバックドア攻撃

Trading Devil: Robust backdoor attack via Stochastic investment models and Bayesian approach ( http://arxiv.org/abs/2406.10719v1 )

ライセンス: Link先を確認
Orson Mengara, (参考訳) 音声アクティベーションシステムや音声認識技術の利用の増加に伴い、音声データに対するバックドア攻撃の危険性は大幅に増大している。 本研究では、確率的投資に基づくバックドア攻撃(MarketBack)と呼ばれる特定の種類の攻撃について検討する。 マシンラーニングモデルのセキュリティと整合性は、オーディオアプリケーションやシステムの信頼性を維持するために、バックドア攻撃によって深刻な脅威を受けています。 実験結果から,MarketBackは,トレーニングデータの1%未満を中毒した場合の7つのモデルにおいて,平均攻撃成功率を100%近く達成できることが示された。

With the growing use of voice-activated systems and speech recognition technologies, the danger of backdoor attacks on audio data has grown significantly. This research looks at a specific type of attack, known as a Stochastic investment-based backdoor attack (MarketBack), in which adversaries strategically manipulate the stylistic properties of audio to fool speech recognition systems. The security and integrity of machine learning models are seriously threatened by backdoor attacks, in order to maintain the reliability of audio applications and systems, the identification of such attacks becomes crucial in the context of audio data. Experimental results demonstrated that MarketBack is feasible to achieve an average attack success rate close to 100% in seven victim models when poisoning less than 1% of the training data.
翻訳日:2024-06-18 23:04:22 公開日:2024-06-15
# RoboPoint: ロボットの空間精度予測のためのビジョンランゲージモデル

RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics ( http://arxiv.org/abs/2406.10721v1 )

ライセンス: Link先を確認
Wentao Yuan, Jiafei Duan, Valts Blukis, Wilbert Pumacay, Ranjay Krishna, Adithyavairavan Murali, Arsalan Mousavian, Dieter Fox, (参考訳) テーブル上にオブジェクトを並べ替えるから、食料品を棚に入れるまで、ロボットは正確なアクションポイントを計画し、正確に確実にタスクを実行する必要がある。 近年、ロボットの動作を制御する視覚言語モデル(VLM)が採用されているが、VLMは言語を用いてロボットの動きを正確に表現するのに苦労している。 ロボット領域とニーズに対してVLMを命令チューニングする自動合成データ生成パイプラインを導入する。 パイプラインを使用して、与えられた言語命令に対する画像キーポイントの価格を予測するVLMであるRoboPointを訓練する。 代替手法と比較して,本手法では実世界のデータ収集や人間による実演は必要とせず,多様な環境や視点に対してはるかにスケーラブルである。 さらに、RoboPointは、ロボットナビゲーション、操作、拡張現実(AR)アシストなど、いくつかの下流アプリケーションを可能にする一般的なモデルである。 実験の結果,RoboPointは現状のVLM(GPT-4o)と視覚刺激技術(PIVOT)を21.8%,下流タスクの成功率30.5%で上回っていることがわかった。 プロジェクトウェブサイト: https://robo-point.github.io

From rearranging objects on a table to putting groceries into shelves, robots must plan precise action points to perform tasks accurately and reliably. In spite of the recent adoption of vision language models (VLMs) to control robot behavior, VLMs struggle to precisely articulate robot actions using language. We introduce an automatic synthetic data generation pipeline that instruction-tunes VLMs to robotic domains and needs. Using the pipeline, we train RoboPoint, a VLM that predicts image keypoint affordances given language instructions. Compared to alternative approaches, our method requires no real-world data collection or human demonstration, making it much more scalable to diverse environments and viewpoints. In addition, RoboPoint is a general model that enables several downstream applications such as robot navigation, manipulation, and augmented reality (AR) assistance. Our experiments demonstrate that RoboPoint outperforms state-of-the-art VLMs (GPT-4o) and visual prompting techniques (PIVOT) by 21.8% in the accuracy of predicting spatial affordance and by 30.5% in the success rate of downstream tasks. Project website: https://robo-point.github.io.
翻訳日:2024-06-18 23:04:22 公開日:2024-06-15
# GenMM:ビデオとLiDARのための幾何学的かつ時間的に一貫性のあるマルチモーダルデータ生成

GenMM: Geometrically and Temporally Consistent Multimodal Data Generation for Video and LiDAR ( http://arxiv.org/abs/2406.10722v1 )

ライセンス: Link先を確認
Bharat Singh, Viveka Kulharia, Luyu Yang, Avinash Ravichandran, Ambrish Tyagi, Ashish Shrivastava, (参考訳) マルチモーダル合成データ生成は、自律運転、ロボット工学、拡張現実、仮想現実、小売といった分野において重要である。 時間的および幾何学的に整合した3Dオブジェクトを挿入することにより、RGBビデオとLiDARスキャンを共同で編集するGenMMを提案する。 提案手法では,対象映像に新たなオブジェクトをシームレスに挿入し,ブレンドするために,参照画像と3Dバウンディングボックスを用いる。 拡散型ビデオインペインティングモデルを用いて,関心の2D領域(3Dボックスと共存)を塗布した。 次に、オブジェクトのセマンティック境界を計算し、最先端のセマンティックセグメンテーションと単眼深度推定技術を用いて表面深度を推定する。 その後、形状に基づく最適化アルゴリズムを用いて物体表面の3次元形状を復元し、3次元境界ボックス内に正確に収まるようにした。 最後に、新しい物体表面と交差するLiDAR線は、その形状と一貫した深さを反映するように更新される。 我々は,映像とLiDARモダリティにまたがって様々な3Dオブジェクトを挿入するGenMMの有効性を実証した。

Multimodal synthetic data generation is crucial in domains such as autonomous driving, robotics, augmented/virtual reality, and retail. We propose a novel approach, GenMM, for jointly editing RGB videos and LiDAR scans by inserting temporally and geometrically consistent 3D objects. Our method uses a reference image and 3D bounding boxes to seamlessly insert and blend new objects into target videos. We inpaint the 2D Regions of Interest (consistent with 3D boxes) using a diffusion-based video inpainting model. We then compute semantic boundaries of the object and estimate it's surface depth using state-of-the-art semantic segmentation and monocular depth estimation techniques. Subsequently, we employ a geometry-based optimization algorithm to recover the 3D shape of the object's surface, ensuring it fits precisely within the 3D bounding box. Finally, LiDAR rays intersecting with the new object surface are updated to reflect consistent depths with its geometry. Our experiments demonstrate the effectiveness of GenMM in inserting various 3D objects across video and LiDAR modalities.
翻訳日:2024-06-18 23:04:22 公開日:2024-06-15
# 空の目:衛星画像を用いたレンガキルンの検出とコンプライアンスモニタリング

Eye in the Sky: Detection and Compliance Monitoring of Brick Kilns using Satellite Imagery ( http://arxiv.org/abs/2406.10723v1 )

ライセンス: Link先を確認
Rishabh Mondal, Shataxi Dubey, Vannsh Jani, Shrimay Shah, Suraj Jaiswal, Zeel B Patel, Nipun Batra, (参考訳) 大気汚染は年間700万人が死亡している。 レンガ製造産業は人口密度の高いインド・ガンゲティック平野の大気汚染の8%-14%を占めている。 レンガのキルンが組織化されていないため、ヒトの生息地に近いような政策違反の検出は依然として困難である。 従来の研究では、衛星画像からのブロックキルン検出にコンピュータビジョンベースの機械学習手法を使用していたが、プロプライエタリな衛星データを利用しており、政府のポリシーに準拠することはめったにない。 本研究では,ブロックキルン検出と自動コンプライアンス監視のためのスケーラブルなフレームワークを提案する。 Google Maps Static APIを使って衛星画像をダウンロードし、YOLOv8xモデルで検出します。 印欧平野の9つの州にまたがる19579個の新しいれんがを同定し,手作業で検証した。 さらに,ヒトの生息地,河川,病院に影響を及ぼす政策の遵守を自動化し,検証する。 以上の結果から,かなりの数のレンガキルンがコンプライアンス要件を満たしていないことが示唆された。 我々の枠組みは、世界中の政府にとって、ブロックキルンに関する政策規制を自動化し、実施するための貴重なツールを提供し、重要な環境と公衆衛生の懸念に対処する。

Air pollution kills 7 million people annually. The brick manufacturing industry accounts for 8%-14% of air pollution in the densely populated Indo-Gangetic plain. Due to the unorganized nature of brick kilns, policy violation detection, such as proximity to human habitats, remains challenging. While previous studies have utilized computer vision-based machine learning methods for brick kiln detection from satellite imagery, they utilize proprietary satellite data and rarely focus on compliance with government policies. In this research, we introduce a scalable framework for brick kiln detection and automatic compliance monitoring. We use Google Maps Static API to download the satellite imagery followed by the YOLOv8x model for detection. We identified and hand-verified 19579 new brick kilns across 9 states within the Indo-Gangetic plain. Furthermore, we automate and test the compliance to the policies affecting human habitats, rivers and hospitals. Our results show that a substantial number of brick kilns do not meet the compliance requirements. Our framework offers a valuable tool for governments worldwide to automate and enforce policy regulations for brick kilns, addressing critical environmental and public health concerns.
翻訳日:2024-06-18 23:04:22 公開日:2024-06-15
# 可視性を超えて:FINCH宇宙船のためのHSI拡散による分光・空間次元の同時観測

Beyond the Visible: Jointly Attending to Spectral and Spatial Dimensions with HSI-Diffusion for the FINCH Spacecraft ( http://arxiv.org/abs/2406.10724v1 )

ライセンス: Link先を確認
Ian Vyse, Rishit Dagli, Dav Vrat Chadha, John P. Ma, Hector Chen, Isha Ruparelia, Prithvi Seran, Matthew Xie, Eesa Aamer, Aidan Armstrong, Naveen Black, Ben Borstein, Kevin Caldwell, Orrin Dahanaggamaarachchi, Joe Dai, Abeer Fatima, Stephanie Lu, Maxime Michet, Anoushka Paul, Carrie Ann Po, Shivesh Prakash, Noa Prosser, Riddhiman Roy, Mirai Shinjo, Iliya Shofman, Coby Silayan, Reid Sox-Harris, Shuhan Zheng, Khang Nguyen, (参考訳) 衛星リモートセンシングミッションは、定期的に広い土地をカバーできるため、過去15年間で人気を博し、環境トレンドのモニタリングに最適である。 FINCHミッションは、ハイパースペクトルカメラを備えた3U+CubeSatで、農地の作物の残留物を監視することを目的としている。 ハイパースペクトルイメージングは、スペクトル情報と空間情報の両方をキャプチャするが、ランダムノイズ、ストライプノイズ、デッドピクセルなど、様々な種類のノイズに傾向がある。 これらの画像の効果的な復調は下流の科学的タスクに不可欠である。 強い先行を符号化する手作りの技法、異なるスペクトル帯域で適用された2次元画像復調法、バンドで独立に適用された拡散生成モデルなどの伝統的な手法は、しばしばスペクトル帯域で異なるノイズ強度に悩まされ、大きなスペクトル歪みをもたらす。 本稿では,空間情報とスペクトル情報を統合した潜時拡散モデルを用いたハイパースペクトル画像のデノナイズ手法を提案する。 特に、3次元拡散モデルを構築し、実および合成されたデータセットに対して3段階のトレーニングアプローチを示す。 提案手法はノイズを低減しながら画像構造を保存する。 FINCHミッションの一般的な超スペクトル分解データセットと合成合成データセットの評価は、このアプローチの有効性を実証している。

Satellite remote sensing missions have gained popularity over the past fifteen years due to their ability to cover large swaths of land at regular intervals, making them ideal for monitoring environmental trends. The FINCH mission, a 3U+ CubeSat equipped with a hyperspectral camera, aims to monitor crop residue cover in agricultural fields. Although hyperspectral imaging captures both spectral and spatial information, it is prone to various types of noise, including random noise, stripe noise, and dead pixels. Effective denoising of these images is crucial for downstream scientific tasks. Traditional methods, including hand-crafted techniques encoding strong priors, learned 2D image denoising methods applied across different hyperspectral bands, or diffusion generative models applied independently on bands, often struggle with varying noise strengths across spectral bands, leading to significant spectral distortion. This paper presents a novel approach to hyperspectral image denoising using latent diffusion models that integrate spatial and spectral information. We particularly do so by building a 3D diffusion model and presenting a 3-stage training approach on real and synthetically crafted datasets. The proposed method preserves image structure while reducing noise. Evaluations on both popular hyperspectral denoising datasets and synthetically crafted datasets for the FINCH mission demonstrate the effectiveness of this approach.
翻訳日:2024-06-18 23:04:22 公開日:2024-06-15
# テキストスペースグラフ基礎モデル - ベンチマークと新たな洞察

Text-space Graph Foundation Models: Comprehensive Benchmarks and New Insights ( http://arxiv.org/abs/2406.10727v1 )

ライセンス: Link先を確認
Zhikai Chen, Haitao Mao, Jingzhe Liu, Yu Song, Bingheng Li, Wei Jin, Bahare Fatemi, Anton Tsitsulin, Bryan Perozzi, Hui Liu, Jiliang Tang, (参考訳) グラフデータとその様々な領域におけるアプリケーションの普及を考えると、グラフ基盤モデル(GFM)の構築は、異なるグラフやタスクを統一されたバックボーンでうまく動作させることができる。 この目標を達成するための大きな障害は、異なるドメインのグラフが多彩なノードの特徴を示すことに起因する。 異なるモダリティと自然言語を整合させるマルチモーダルモデルに触発されたこのテキストは、近年、多様なグラフに統一された特徴空間を提供するために採用されている。 これらのテキスト空間 GFM の大きな可能性にもかかわらず、この分野での現在の研究は2つの問題によって妨げられている。 第一に、統一された問題設定を伴う包括的なベンチマークがないことは、異なるテキスト空間のGFMの比較の有効性と実用的価値を明確に理解することを妨げる。 第二に、メソッドの潜在能力を徹底的に探求し、さまざまな設定で有効性を検証するのに十分なデータセットが不足している。 これらの問題に対処するため、我々は、新しいテキスト空間データセットと統一された問題設定下での包括的な評価を提供する包括的なベンチマークを実施している。 実験結果は新たな洞察を与え、将来の研究の方向性を刺激する。 私たちのコードとデータは、 \url{https://github.com/CurryTang/TSGFM}から公開されています。

Given the ubiquity of graph data and its applications in diverse domains, building a Graph Foundation Model (GFM) that can work well across different graphs and tasks with a unified backbone has recently garnered significant interests. A major obstacle to achieving this goal stems from the fact that graphs from different domains often exhibit diverse node features. Inspired by multi-modal models that align different modalities with natural language, the text has recently been adopted to provide a unified feature space for diverse graphs. Despite the great potential of these text-space GFMs, current research in this field is hampered by two problems. First, the absence of a comprehensive benchmark with unified problem settings hinders a clear understanding of the comparative effectiveness and practical value of different text-space GFMs. Second, there is a lack of sufficient datasets to thoroughly explore the methods' full potential and verify their effectiveness across diverse settings. To address these issues, we conduct a comprehensive benchmark providing novel text-space datasets and comprehensive evaluation under unified problem settings. Empirical results provide new insights and inspire future research directions. Our code and data are publicly available from \url{https://github.com/CurryTang/TSGFM}.
翻訳日:2024-06-18 23:04:22 公開日:2024-06-15
# 医学の基礎モデルに関する総合的研究

A Comprehensive Survey of Foundation Models in Medicine ( http://arxiv.org/abs/2406.10729v1 )

ライセンス: Link先を確認
Wasif Khan, Seowung Leem, Kyle B. See, Joshua K. Wong, Shaoting Zhang, Ruogu Fang, (参考訳) ファンデーションモデル(FM)は、自己教師技術を用いて広範囲のデータセットでトレーニングされた大規模なディープラーニングモデルである。 これらのモデルは、医療を含むさまざまな下流業務の基盤として機能する。 FMは、自然言語処理(NLP)、コンピュータビジョン、グラフ学習、生物学、オミクスなど、医療分野において大きな成功を収めている。 既存の医療ベースの調査では、これらのドメインがすべて含まれていない。 そこで本調査では,医療におけるFMの概要について概観する。 私たちは、FMの歴史、学習戦略、フラッグシップモデル、アプリケーション、課題に重点を置いています。 我々は,臨床大言語モデル,医用画像解析,オミクスデータなどの医療領域を,BERT や GPT などのFMがどのように再構築しているかを考察する。 さらに,臨床用NLP,医療用コンピュータビジョン,グラフ学習,その他の生物学関連タスクなど,FMによる医療応用の詳細な分類について述べる。 FMがもたらす有望な機会にもかかわらず、それらにもいくつかの課題があり、詳細は説明されている。 我々はまた、医療におけるFMの可能性と限界に関する洞察を研究者や実践者が提供し、その展開を前進させ、関連するリスクを軽減するための将来的な方向性を概説する。

Foundation models (FMs) are large-scale deep-learning models trained on extensive datasets using self-supervised techniques. These models serve as a base for various downstream tasks, including healthcare. FMs have been adopted with great success across various domains within healthcare, including natural language processing (NLP), computer vision, graph learning, biology, and omics. Existing healthcare-based surveys have not yet included all of these domains. Therefore, this survey provides a comprehensive overview of FMs in healthcare. We focus on the history, learning strategies, flagship models, applications, and challenges of FMs. We explore how FMs such as the BERT and GPT families are reshaping various healthcare domains, including clinical large language models, medical image analysis, and omics data. Furthermore, we provide a detailed taxonomy of healthcare applications facilitated by FMs, such as clinical NLP, medical computer vision, graph learning, and other biology-related tasks. Despite the promising opportunities FMs provide, they also have several associated challenges, which are explained in detail. We also outline potential future directions to provide researchers and practitioners with insights into the potential and limitations of FMs in healthcare to advance their deployment and mitigate associated risks.
翻訳日:2024-06-18 21:01:13 公開日:2024-06-15
# 意思決定のための順序理論モデル:学習、最適化、複雑性、計算

Order-theoretic models for decision-making: Learning, optimization, complexity and computation ( http://arxiv.org/abs/2406.10730v1 )

ライセンス: Link先を確認
Pedro Hack, (参考訳) インテリジェントシステムの研究は、経済合理性の観点から行動を説明する。 これにより、関数やユーティリティを含む最適化原則が実現され、最大ユーティリティの設定が達成されるまでシステムは進化する。 近年、この理論には制約が組み込まれており、すなわち、情報処理の制約を尊重しながらユーティリティを最大化するときに最適が達成されている。 これは熱力学系を連想させる。 そのため、インテリジェントシステムの研究は熱力学のツールの恩恵を受けている。 この論文の第一の目的は、インテリジェントシステムの研究におけるこれらの結果の適用性を明らかにすることである。 熱力学やインテリジェントシステムにおける局所的な遷移ステップは、不確実性によって駆動されると考えることができる。 実際、両方の系における遷移は、偏化の観点で説明できる。 したがって、シャノンエントロピーのような実価値の高い不確実性対策は、単により関連する行動のプロキシである。 より一般に、実数値関数は、経済、熱力学、量子力学を含むいくつかのトピックに対する順序理論的アプローチにおける最適化と複雑性を研究するために基礎となる。 この論文の第二の目的は、この分類を改善することである。 熱力学とインテリジェントシステムの基本的な類似性は、事前順序で表される不確実性の概念に基づいている。 また、計算プロセスのステップにおける遷移を意思決定手順として考えることもできる。 実際、考慮された順序構造にいくつかの要件を加えることで、計算可能性、すなわち有限個の命令を従えば構築できる対象を区別できる不確実性還元の抽象モデルを構築することができる。 この論文の第3の目的は、そのようなフレームワークを可能にする順序構造に関する要件を明確にすることである。

The study of intelligent systems explains behaviour in terms of economic rationality. This results in an optimization principle involving a function or utility, which states that the system will evolve until the configuration of maximum utility is achieved. Recently, this theory has incorporated constraints, i.e., the optimum is achieved when the utility is maximized while respecting some information-processing constraints. This is reminiscent of thermodynamic systems. As such, the study of intelligent systems has benefited from the tools of thermodynamics. The first aim of this thesis is to clarify the applicability of these results in the study of intelligent systems. We can think of the local transition steps in thermodynamic or intelligent systems as being driven by uncertainty. In fact, the transitions in both systems can be described in terms of majorization. Hence, real-valued uncertainty measures like Shannon entropy are simply a proxy for their more involved behaviour. More in general, real-valued functions are fundamental to study optimization and complexity in the order-theoretic approach to several topics, including economics, thermodynamics, and quantum mechanics. The second aim of this thesis is to improve on this classification. The basic similarity between thermodynamic and intelligent systems is based on an uncertainty notion expressed by a preorder. We can also think of the transitions in the steps of a computational process as a decision-making procedure. In fact, by adding some requirements on the considered order structures, we can build an abstract model of uncertainty reduction that allows to incorporate computability, that is, to distinguish the objects that can be constructed by following a finite set of instructions from those that cannot. The third aim of this thesis is to clarify the requirements on the order structure that allow such a framework.
翻訳日:2024-06-18 21:01:13 公開日:2024-06-15
# 自己監督型モデルから離散音声トークンを抽出する方法

How Should We Extract Discrete Audio Tokens from Self-Supervised Models? ( http://arxiv.org/abs/2406.10735v1 )

ライセンス: Link先を確認
Pooneh Mousavi, Jarod Duret, Salah Zaiem, Luca Della Libera, Artem Ploujnikov, Cem Subakan, Mirco Ravanelli, (参考訳) 離散音声トークンは、音声処理と言語処理のギャップを埋める可能性について最近注目を集めている。 理想的なオーディオトークンは、コンテンツ、パラ言語的要素、話者アイデンティティ、その他多くのオーディオの詳細を保存する必要がある。 現在の音声トークン化手法は,自己監視学習(SSL)モデルの量子化によって得られたセマンティックトークンと,ニューラル圧縮に基づくトークン(コーデック)の2つのカテゴリに分類される。 以前の研究では、最適な構成を特定するためにコーデックモデルをベンチマークしているが、事前訓練されたSSLモデルを定量化するための理想的な設定は不明確である。 本稿では,識別的および生成的タスクにまたがるセマンティックトークンの最適構成について検討する。 複数のSSL層にまたがるユニバーサルヴォコーダをトレーニングするためのスケーラブルなソリューションを提案する。 さらに、タスク固有の影響層を識別し、多様なオーディオアプリケーションにおけるセマンティックトークンの適応性と性能を高めるために、アテンションメカニズムを用いる。

Discrete audio tokens have recently gained attention for their potential to bridge the gap between audio and language processing. Ideal audio tokens must preserve content, paralinguistic elements, speaker identity, and many other audio details. Current audio tokenization methods fall into two categories: Semantic tokens, acquired through quantization of Self-Supervised Learning (SSL) models, and Neural compression-based tokens (codecs). Although previous studies have benchmarked codec models to identify optimal configurations, the ideal setup for quantizing pretrained SSL models remains unclear. This paper explores the optimal configuration of semantic tokens across discriminative and generative tasks. We propose a scalable solution to train a universal vocoder across multiple SSL layers. Furthermore, an attention mechanism is employed to identify task-specific influential layers, enhancing the adaptability and performance of semantic tokens in diverse audio applications.
翻訳日:2024-06-18 21:01:13 公開日:2024-06-15
# 動的ドメイン、動的ソリューション: 連続的なテスト時間適応のためのDPCore

Dynamic Domains, Dynamic Solutions: DPCore for Continual Test-Time Adaptation ( http://arxiv.org/abs/2406.10737v1 )

ライセンス: Link先を確認
Yunbei Zhang, Akshay Mehra, Jihun Hamm, (参考訳) Continual Test-Time Adaptation (TTA)は、ソース事前トレーニングされたモデルを、継続的な変更、ラベルなしのターゲットドメインに適応させようとする。 既存のTTAメソッドは、ドメインの変更が徐々に発生し、よりダイナミックなシナリオで苦労する環境向けに設計されている。 オンラインK-Meansの原則に触発されて,視覚的プロンプトによるTTAの継続的アプローチを提案する。 我々は、これまで訪れたドメインからの知識を保存できるだけでなく、新しい潜在的ドメインからの学習も可能とするDynamic Prompt Coresetを提案する。 これは、コアセットが現在および関連性を維持し続けることを保証する距離ベースの重み更新機構によって補完される。 提案手法では,コアセットに付随する固定モデルアーキテクチャと,破滅的な忘れ込みやエラー蓄積といった課題を効果的に軽減する革新的な更新システムを採用している。 ImageNet-C, CIFAR100-C, CIFAR10-C-demonstrates, CIFAR10-C-C-Demonstrates など, さまざまなベンチマークの広範なテストにより, 動的に変化する環境において, 我々の手法が常に最先端のSOTA(State-of-the-art)代替よりも優れていることが確認された。

Continual Test-Time Adaptation (TTA) seeks to adapt a source pre-trained model to continually changing, unlabeled target domains. Existing TTA methods are typically designed for environments where domain changes occur gradually and can struggle in more dynamic scenarios. Inspired by the principles of online K-Means, this paper introduces a novel approach to continual TTA through visual prompting. We propose a Dynamic Prompt Coreset that not only preserves knowledge from previously visited domains but also accommodates learning from new potential domains. This is complemented by a distance-based weight updating mechanism that ensures the coreset remains current and relevant. Our approach employs a fixed model architecture alongside the coreset and an innovative updating system to effectively mitigate challenges such as catastrophic forgetting and error accumulation. Extensive testing across various benchmarks-including ImageNet-C, CIFAR100-C, and CIFAR10-C-demonstrates that our method consistently outperforms state-of-the-art (SOTA) alternatives, particularly excelling in dynamically changing environments.
翻訳日:2024-06-18 21:01:13 公開日:2024-06-15
# 実験できないときの適応実験

Adaptive Experimentation When You Can't Experiment ( http://arxiv.org/abs/2406.10738v1 )

ライセンス: Link先を確認
Yao Zhao, Kwang-Sung Jun, Tanner Fiez, Lalit Jain, (参考訳) 本稿では, 純探索線形バンドイット (\texttt{CPET-LB}) 問題を紹介する。 モチベーションの例として、オンラインサービスは、しばしば、ビジネスまたは実践上の理由から、ユーザーを特定のコントロールや治療経験に直接割り当てることができない。 これらの設定では、自己選択によって引き起こされる治療群と対照群を鼻で比較すると、基礎となる治療効果の偏りが生じる可能性がある。 代わりに、オンラインサービスは、ユーザーが特定の治療にインセンティブを与える、適切にランダム化された励ましを利用することができる。 提案手法は, オンラインサービスに適応的な実験設計手法を提供することで, このような「textit{encouragement design}」の最適処理を学習する。 我々は、線形構造方程式によって得られたより一般的な基礎モデルを考え、この設定で純粋探索線形帯域を定式化する。 純粋探索は標準適応型実験設計設定において広範囲に研究されてきたが、ノイズが結合された環境を考える上でこれが最初のものであると我々は信じている。 実験的な設計手法と機器変数スタイル推定器上の新しい有限時間信頼区間を組み合わせた除去型アルゴリズムを,ミニマックス下界にほぼ一致するような複雑な上界をサンプルとして提示する。 最後に,本手法の有効性を示す実験を行った。

This paper introduces the \emph{confounded pure exploration transductive linear bandit} (\texttt{CPET-LB}) problem. As a motivating example, often online services cannot directly assign users to specific control or treatment experiences either for business or practical reasons. In these settings, naively comparing treatment and control groups that may result from self-selection can lead to biased estimates of underlying treatment effects. Instead, online services can employ a properly randomized encouragement that incentivizes users toward a specific treatment. Our methodology provides online services with an adaptive experimental design approach for learning the best-performing treatment for such \textit{encouragement designs}. We consider a more general underlying model captured by a linear structural equation and formulate pure exploration linear bandits in this setting. Though pure exploration has been extensively studied in standard adaptive experimental design settings, we believe this is the first work considering a setting where noise is confounded. Elimination-style algorithms using experimental design methods in combination with a novel finite-time confidence interval on an instrumental variable style estimator are presented with sample complexity upper bounds nearly matching a minimax lower bound. Finally, experiments are conducted that demonstrate the efficacy of our approach.
翻訳日:2024-06-18 21:01:13 公開日:2024-06-15
# FreeMotion: MoCap-free Human Motion Synthesis with Multimodal Large Language Models

FreeMotion: MoCap-Free Human Motion Synthesis with Multimodal Large Language Models ( http://arxiv.org/abs/2406.10740v1 )

ライセンス: Link先を確認
Zhikai Zhang, Yitang Li, Haofeng Huang, Mingxian Lin, Li Yi, (参考訳) 人間の動き合成はコンピュータアニメーションの基本的な課題である。 ディープラーニングとモーションキャプチャーデータを利用したこの分野の最近の進歩にもかかわらず、既存の手法は常に特定の動作カテゴリ、環境、スタイルに限られている。 この貧弱な一般化性は、大規模かつ高品質なモーションデータ収集の困難さと費用によって部分的に説明できる。 同時に、インターネット規模の画像とテキストデータで訓練された基礎モデルは、様々な下流タスクに対する驚くべき世界の知識と推論能力を示している。 これらの基礎モデルを利用すると、人間の動きの合成に役立つかもしれない。 しかし、これらの手法は、このタスクに対する基礎モデルの可能性を十分に明らかにせず、いくつかの単純なアクションと環境しかサポートしていない。 本稿では,動作データなしで,自然言語命令をMLLMに基づくユーザ制御信号として使用したオープンセットの人間の動作合成を,任意の動作タスクや環境に対して初めて検討する。 私たちのフレームワークは2つの段階に分けられます。 1) MLLMをキーフレームデザイナ及びアニメーターとして活用したシーケンシャルなキーフレーム生成 2【補間・追従によるキーフレーム間の動作充足】 本手法は,多くの下流タスクにおいて,一般的な人間の動作合成を実現することができる。 有望な結果は、MLLMが支援するモキャップフリーなヒトの運動合成の価値を示し、将来の研究の道を開くものである。

Human motion synthesis is a fundamental task in computer animation. Despite recent progress in this field utilizing deep learning and motion capture data, existing methods are always limited to specific motion categories, environments, and styles. This poor generalizability can be partially attributed to the difficulty and expense of collecting large-scale and high-quality motion data. At the same time, foundation models trained with internet-scale image and text data have demonstrated surprising world knowledge and reasoning ability for various downstream tasks. Utilizing these foundation models may help with human motion synthesis, which some recent works have superficially explored. However, these methods didn't fully unveil the foundation models' potential for this task and only support several simple actions and environments. In this paper, we for the first time, without any motion data, explore open-set human motion synthesis using natural language instructions as user control signals based on MLLMs across any motion task and environment. Our framework can be split into two stages: 1) sequential keyframe generation by utilizing MLLMs as a keyframe designer and animator; 2) motion filling between keyframes through interpolation and motion tracking. Our method can achieve general human motion synthesis for many downstream tasks. The promising results demonstrate the worth of mocap-free human motion synthesis aided by MLLMs and pave the way for future research.
翻訳日:2024-06-18 21:01:13 公開日:2024-06-15
# デジタル医療におけるCNNを用いた音声感情認識とその活用例

Speech Emotion Recognition Using CNN and Its Use Case in Digital Healthcare ( http://arxiv.org/abs/2406.10741v1 )

ライセンス: Link先を確認
Nishargo Nigar, (参考訳) 人間の感情と感情状態を音声から識別するプロセスは、音声感情認識(SER)として知られている。 これは、声のトーンとピッチが、下層の感情を頻繁に伝達する、という観察に基づいている。 音声認識には感情を認識する能力が含まれており、それはますます人気を増し、需要も高まっている。 データにある適切な要因(モダリティ、感情、強度、繰り返しなど)の助けを借りて、私の研究は、畳み込みニューラルネットワーク(CNN)を用いて、音声録音と感情を区別し、異なる感情の範囲に応じてラベル付けすることを目指している。 私は、機械学習手法を用いて、供給された音声ファイルから感情を識別する機械学習モデルを開発した。 評価は主に、一般的な機械学習メトリクスである精度、リコール、F1スコアに焦点を当てている。 機械学習フレームワークを適切にセットアップし、トレーニングするために、主な目的は、全ての入力パラメータと出力パラメータの影響と相互関係を調べることである。 コミュニケーションのキー条件である意図を認識する能力を向上させるために、私は、音声による特殊な機械学習アルゴリズムを用いて、人間と人工知能(AI)のギャップを埋め、デジタルヘルスケアの助けを借りて、音声からの感情状態に対処する感情を評価しました。

The process of identifying human emotion and affective states from speech is known as speech emotion recognition (SER). This is based on the observation that tone and pitch in the voice frequently convey underlying emotion. Speech recognition includes the ability to recognize emotions, which is becoming increasingly popular and in high demand. With the help of appropriate factors (such modalities, emotions, intensities, repetitions, etc.) found in the data, my research seeks to use the Convolutional Neural Network (CNN) to distinguish emotions from audio recordings and label them in accordance with the range of different emotions. I have developed a machine learning model to identify emotions from supplied audio files with the aid of machine learning methods. The evaluation is mostly focused on precision, recall, and F1 score, which are common machine learning metrics. To properly set up and train the machine learning framework, the main objective is to investigate the influence and cross-relation of all input and output parameters. To improve the ability to recognize intentions, a key condition for communication, I have evaluated emotions using my specialized machine learning algorithm via voice that would address the emotional state from voice with the help of digital healthcare, bridging the gap between human and artificial intelligence (AI).
翻訳日:2024-06-18 21:01:13 公開日:2024-06-15
# ロバスト分類器学習のためのすっきりとしたメタラーニング

Spuriousness-Aware Meta-Learning for Learning Robust Classifiers ( http://arxiv.org/abs/2406.10742v1 )

ライセンス: Link先を確認
Guangtao Zheng, Wenqian Ye, Aidong Zhang, (参考訳) Spurious correlations is brittle associations between certain attribute of inputs and target variables, such as the correlation between a image background and an object class。 深部画像分類器はしばしばそれらを予測に利用し、相関が持たないデータの一般化が不十分になる。 素早い相関の影響を緩和することは、ロバストなモデル一般化に不可欠であるが、実際は強い仮定であるデータの素早い相関のアノテーションを必要とすることが多い。 本稿では,SPUME-SPUriousness-aware MEta-learningと呼ばれるメタラーニングに基づく新しい学習フレームワークを提案する。 分類器が過度に予測に頼っている突発的相関を反復的に検出・緩和する枠組みを設計する。 そこで我々はまず,事前学習した視覚言語モデルを用いて画像からテキスト形式の属性を抽出する手法を提案する。 これらの属性により、様々なクラス属性相関でデータをキュレートすることができ、これらの相関の突発性の度合いを測定するために新しい計量を定式化する。 そこで本研究では,突発的相関への依存を軽減するために,タスクにおけるサポート(トレーニング)セットとクエリ(テスト)セットを,突発的相関の度合いの高い異なる相補的相関でキュレートするメタラーニング戦略を提案する。 これらの突発性を考慮したメタラーニングタスクで分類器をメタトレーニングすることにより、分類器は突発性相関に不変であることを学習することができる。 提案手法は, 先行性を知ることなく, 相関関係に頑健であり, 頑健性の異なる5つのベンチマークデータセットにおいて, 最良を達成できることを実証する。

Spurious correlations are brittle associations between certain attributes of inputs and target variables, such as the correlation between an image background and an object class. Deep image classifiers often leverage them for predictions, leading to poor generalization on the data where the correlations do not hold. Mitigating the impact of spurious correlations is crucial towards robust model generalization, but it often requires annotations of the spurious correlations in data -- a strong assumption in practice. In this paper, we propose a novel learning framework based on meta-learning, termed SPUME -- SPUriousness-aware MEta-learning, to train an image classifier to be robust to spurious correlations. We design the framework to iteratively detect and mitigate the spurious correlations that the classifier excessively relies on for predictions. To achieve this, we first propose to utilize a pre-trained vision-language model to extract text-format attributes from images. These attributes enable us to curate data with various class-attribute correlations, and we formulate a novel metric to measure the degree of these correlations' spuriousness. Then, to mitigate the reliance on spurious correlations, we propose a meta-learning strategy in which the support (training) sets and query (test) sets in tasks are curated with different spurious correlations that have high degrees of spuriousness. By meta-training the classifier on these spuriousness-aware meta-learning tasks, our classifier can learn to be invariant to the spurious correlations. We demonstrate that our method is robust to spurious correlations without knowing them a priori and achieves the best on five benchmark datasets with different robustness measures.
翻訳日:2024-06-18 21:01:13 公開日:2024-06-15
# Occam's Razor for Self Supervised Learning: What is Sufficient to Learn Good Representations?

Occam's Razor for Self Supervised Learning: What is Sufficient to Learn Good Representations? ( http://arxiv.org/abs/2406.10743v1 )

ライセンス: Link先を確認
Mark Ibrahim, David Klindt, Randall Balestriero, (参考訳) ディープラーニングは、データアーキテクチャロスのトリオとして描かれることが多い。 しかし、最近のセルフ監視学習(SSL)ソリューションでは、プロジェクタネットワーク、ポジティブビュー、教師-学生ネットワークなど、多くの設計選択が導入されている。 これらの追加は2つの課題をもたらす。 まず、これらの相互に絡み合った設計を組み込むのに失敗する理論研究の影響を制限する。 次に、多くのハイパーパラメータを慎重に調整する必要があるため、SSLメソッドの新たなドメインへのデプロイを遅くする。 本研究では、少なくとも数十万のサンプルの事前トレーニングデータセットに対して、SSLによって導入された追加設計は、学習された表現の品質に寄与しない、という驚くべき観察を前進させる。 この発見は、既存の理論的研究に正当性を提供するだけでなく、多くの小規模および中規模環境でSSLデプロイメントへの実践者の道筋を単純化する。 SSLで遭遇したトレーニング設定やハイパーパラメータに対する経験豊富な感度は、教師付きガイダンスが欠如しているというよりも、彼らの設計によるものです。

Deep Learning is often depicted as a trio of data-architecture-loss. Yet, recent Self Supervised Learning (SSL) solutions have introduced numerous additional design choices, e.g., a projector network, positive views, or teacher-student networks. These additions pose two challenges. First, they limit the impact of theoretical studies that often fail to incorporate all those intertwined designs. Second, they slow-down the deployment of SSL methods to new domains as numerous hyper-parameters need to be carefully tuned. In this study, we bring forward the surprising observation that--at least for pretraining datasets of up to a few hundred thousands samples--the additional designs introduced by SSL do not contribute to the quality of the learned representations. That finding not only provides legitimacy to existing theoretical studies, but also simplifies the practitioner's path to SSL deployment in numerous small and medium scale settings. Our finding answers a long-lasting question: the often-experienced sensitivity to training settings and hyper-parameters encountered in SSL come from their design, rather than the absence of supervised guidance.
翻訳日:2024-06-18 21:01:13 公開日:2024-06-15
# CVPR 2024 PBDLチャレンジの実施報告

Technique Report of CVPR 2024 PBDL Challenges ( http://arxiv.org/abs/2406.10744v1 )

ライセンス: Link先を確認
Ying Fu, Yu Li, Shaodi You, Boxin Shi, Jose Alvarez, Coert van Gemeren, Linwei Chen, Yunhao Zou, Zichun Wang, Yichen Li, Yuze Han, Yingkai Zhang, Jianan Wang, Qinglin Liu, Wei Yu, Xiaoqian Lv, Jianing Li, Shengping Zhang, Xiangyang Ji, Yuanpei Chen, Yuhan Zhang, Weihang Peng, Liwen Zhang, Zhe Xu, Dingyong Gou, Cong Li, Senyan Xu, Yunkang Zhang, Siyuan Jiang, Xiaoqiang Lu, Licheng Jiao, Fang Liu, Xu Liu, Lingling Li, Wenping Ma, Shuyuan Yang, Haiyang Xie, Jian Zhao, Shihuang Huang, Peng Cheng, Xi Shen, Zheng Wang, Shuai An, Caizhi Zhu, Xuelong Li, Tao Zhang, Liang Li, Yu Liu, Chenggang Yan, Gengchen Zhang, Linyan Jiang, Bingyi Song, Zhuoyu An, Haibo Lei, Qing Luo, Jie Song, Yuan Liu, Qihang Li, Haoyuan Zhang, Lingfeng Wang, Wei Chen, Aling Luo, Cheng Li, Jun Cao, Shu Chen, Zifei Dou, Xinyu Liu, Jing Zhang, Kexin Zhang, Yuting Yang, Xuejian Gou, Qinliang Wang, Yang Liu, Shizhan Zhao, Yanzhao Zhang, Libo Yan, Yuwei Guo, Guoxin Li, Qiong Gao, Chenyue Che, Long Sun, Xiang Chen, Hao Li, Jinshan Pan, Chuanlong Xie, Hongming Chen, Mingrui Li, Tianchen Deng, Jingwei Huang, Yufeng Li, Fei Wan, Bingxin Xu, Jian Cheng, Hongzhe Liu, Cheng Xu, Yuxiang Zou, Weiguo Pan, Songyin Dai, Sen Jia, Junpei Zhang, Puhua Chen, Qihang Li, (参考訳) 物理に基づくビジョンとディープラーニングの交わりは、コンピュータビジョン技術の進歩にエキサイティングなフロンティアをもたらす。 物理の原理を活用して、深層学習モデルの情報提供と強化を行うことで、より堅牢で正確な視覚システムを開発することができる。 物理に基づくビジョンは、画像から形状、反射率、光の分布、中性などのシーン特性を復元する過程を反転させることを目的としている。 近年、ディープラーニングは様々な視覚タスクに有望な改善を示しており、物理に基づく視覚と組み合わせることで、これらのアプローチは視覚システムの堅牢性と精度を高めることができる。 CVPR 2024ワークショップで行われたPBDL 2024チャレンジの結果を要約する。 課題は8つのトラックで構成され、低光強調と検出、ハイダイナミックレンジ(HDR)イメージングに焦点を当てた。 本報告では,各トラックの目的,方法論,成果を詳述し,最高性能のソリューションとその革新的なアプローチについて述べる。

The intersection of physics-based vision and deep learning presents an exciting frontier for advancing computer vision technologies. By leveraging the principles of physics to inform and enhance deep learning models, we can develop more robust and accurate vision systems. Physics-based vision aims to invert the processes to recover scene properties such as shape, reflectance, light distribution, and medium properties from images. In recent years, deep learning has shown promising improvements for various vision tasks, and when combined with physics-based vision, these approaches can enhance the robustness and accuracy of vision systems. This technical report summarizes the outcomes of the Physics-Based Vision Meets Deep Learning (PBDL) 2024 challenge, held in CVPR 2024 workshop. The challenge consisted of eight tracks, focusing on Low-Light Enhancement and Detection as well as High Dynamic Range (HDR) Imaging. This report details the objectives, methodologies, and results of each track, highlighting the top-performing solutions and their innovative approaches.
翻訳日:2024-06-18 21:01:13 公開日:2024-06-15
# SparseCL: コントラクション検索のためのスパースコントラスト学習

SparseCL: Sparse Contrastive Learning for Contradiction Retrieval ( http://arxiv.org/abs/2406.10746v1 )

ライセンス: Link先を確認
Haike Xu, Zongyu Lin, Yizhou Sun, Kai-Wei Chang, Piotr Indyk, (参考訳) コントラディション検索(Contradiction Search)とは、事実チェックやデータのクリーニングなど、多くの下流アプリケーションにとって重要なクエリの内容に明示的に異を唱える文書を識別し、抽出することである。 大規模文書コーパスからクエリに対する矛盾する引数を抽出するために、類似性探索やクロスエンコーダモデルのような既存の手法では、大きな制限がある。 前者は類似性を好む本質的な性質から矛盾の本質を捉えるのに苦労するが、後者は計算の非効率性に悩まされ、特にコーパスのサイズが大きければなおさらである。 文間の微妙で矛盾のあるニュアンスを保存するために特別に訓練された文埋め込みを活用する。 提案手法は,コサイン類似度とスパーシティ関数を組み合わせたメトリクスを用いて,与えられたクエリに矛盾する文書を効率よく識別し,検索する。 このアプローチは、単純なベクトル計算と比較して、徹底的な文書比較の必要性を減らし、矛盾検出の速度を劇的に向上させる。 GPT-4 を用いて MSMARCO と HotpotQA のデータセットから生成した合成矛盾に加えて, 矛盾検索に特化したベンチマークデータセットである Arguana を用いてモデルを検証した。 本実験は,MSMARCOとHotpotQAの精度を30%以上向上した矛盾検索だけでなく,劣化したコーパスをクリーニングして高品質なQA検索を復元するアプリケーションにも有効であることを示した。 本稿では,大規模テキストコーパスにおける矛盾検索の精度と効率を向上させるための有望な方向性を概説する。

Contradiction retrieval refers to identifying and extracting documents that explicitly disagree with or refute the content of a query, which is important to many downstream applications like fact checking and data cleaning. To retrieve contradiction argument to the query from large document corpora, existing methods such as similarity search and crossencoder models exhibit significant limitations. The former struggles to capture the essence of contradiction due to its inherent nature of favoring similarity, while the latter suffers from computational inefficiency, especially when the size of corpora is large. To address these challenges, we introduce a novel approach: SparseCL that leverages specially trained sentence embeddings designed to preserve subtle, contradictory nuances between sentences. Our method utilizes a combined metric of cosine similarity and a sparsity function to efficiently identify and retrieve documents that contradict a given query. This approach dramatically enhances the speed of contradiction detection by reducing the need for exhaustive document comparisons to simple vector calculations. We validate our model using the Arguana dataset, a benchmark dataset specifically geared towards contradiction retrieval, as well as synthetic contradictions generated from the MSMARCO and HotpotQA datasets using GPT-4. Our experiments demonstrate the efficacy of our approach not only in contradiction retrieval with more than 30% accuracy improvements on MSMARCO and HotpotQA across different model architectures but also in applications such as cleaning corrupted corpora to restore high-quality QA retrieval. This paper outlines a promising direction for improving the accuracy and efficiency of contradiction retrieval in large-scale text corpora.
翻訳日:2024-06-18 21:01:13 公開日:2024-06-15
# DIET:シークエンシャルレコメンデーションにおける非互換ネットワークのためのカスタマイズスライミング

DIET: Customized Slimming for Incompatible Networks in Sequential Recommendation ( http://arxiv.org/abs/2406.08804v2 )

ライセンス: Link先を確認
Kairui Fu, Shengyu Zhang, Zheqi Lv, Jingyuan Chen, Jiwei Li, (参考訳) モバイルエッジの継続的な改善により、レコメンダシステムは、頻繁なモバイル要求によるネットワークの混雑を軽減するために、エッジにモデルをデプロイし始める。 いくつかの研究はエッジ側とリアルタイムデータの近接を利用して、エッジ固有のモデルを作成するように微調整している。 その大きな進歩にもかかわらず、これらの手法は、モデルを最新の状態に保つために、相当量の最先端の計算資源と頻繁なネットワーク転送を必要とする。 前者はエッジ上の他のプロセスを破壊して計算資源を取得し、後者はネットワーク帯域を消費し、ユーザの満足度は低下する。 これらの課題に対応するために、不適合なneTworks(DIET)のためのカスタマイズされたslImmingフレームワークを提案する。 DIETは、すべてのデバイスに同じ一般的なバックボーン(潜在的に特定のエッジと互換性がない)をデプロイする。 パーソナライズにおける頻繁な帯域使用量とストレージ使用量を最小化するために、DIETは過去のインタラクションに基づいてエッジごとに特定のサブネットを調整し、効率よく転送するために非互換ネットワーク内でスリム化サブネット(ダイエット)を生成する。 また、層間関係を考慮に入れ、推論時間を経験的に短縮し、より適切な食事を得る。 さらに、ネットワーク内の繰り返しモジュールを探索し、ネットワーク全体を表現するためにパラメータの単一層を利用するよりストレージ効率のよいフレームワークDIETINGを提案する。 4つの最先端データセットと2つの広く利用されているモデルによる実験は、我々のフレームワークの送信と保存における推奨と効率の優れた精度を示す。

Due to the continuously improving capabilities of mobile edges, recommender systems start to deploy models on edges to alleviate network congestion caused by frequent mobile requests. Several studies have leveraged the proximity of edge-side to real-time data, fine-tuning them to create edge-specific models. Despite their significant progress, these methods require substantial on-edge computational resources and frequent network transfers to keep the model up to date. The former may disrupt other processes on the edge to acquire computational resources, while the latter consumes network bandwidth, leading to a decrease in user satisfaction. In response to these challenges, we propose a customizeD slImming framework for incompatiblE neTworks(DIET). DIET deploys the same generic backbone (potentially incompatible for a specific edge) to all devices. To minimize frequent bandwidth usage and storage consumption in personalization, DIET tailors specific subnets for each edge based on its past interactions, learning to generate slimming subnets(diets) within incompatible networks for efficient transfer. It also takes the inter-layer relationships into account, empirically reducing inference time while obtaining more suitable diets. We further explore the repeated modules within networks and propose a more storage-efficient framework, DIETING, which utilizes a single layer of parameters to represent the entire network, achieving comparably excellent performance. The experiments across four state-of-the-art datasets and two widely used models demonstrate the superior accuracy in recommendation and efficiency in transmission and storage of our framework.
翻訳日:2024-06-18 12:44:32 公開日:2024-06-15
# 医療における機械学習の公平性に関するチュートリアル

A tutorial on fairness in machine learning in healthcare ( http://arxiv.org/abs/2406.09307v2 )

ライセンス: Link先を確認
Jianhui Gao, Benson Chou, Zachary R. McCaw, Hilary Thurston, Paul Varghese, Chuan Hong, Jessica Gronsbell, (参考訳) $\textbf{OBJECTIVE}$: 機械学習(ML)アルゴリズムがすべての患者グループの中で安全かつ効果的であることを保証する。 本チュートリアルの目的は,臨床応用と実践に焦点をあて,医療情報化コミュニティをML内の公平性の共通概念に導入することである。 $\textbf{TARGET AUDIENCE}$: 様々な医療アプリケーションでフェアネスのギャップが生じるにつれて、このチュートリアルは、最新の臨床データを利用する研究者や臨床医に、事前の知識を仮定することなく、フェアネスの理解を提供するように設計されている。 $\textbf{SCOPE}$: 医療におけるモデルが不公平である理由、フェアネスの定量化に使用されるメトリクスの要約と比較、進行中の研究の議論など、MLにおけるフェアネスを定義するための基本的な概念と方法について説明する。 本稿では、電子健康記録データセットにおける死亡予測のケーススタディを通じて導入された公平性について述べる。 最後に,総合的なグループフェアネス評価のためのユーザフレンドリーなRパッケージを提供することにより,研究者や臨床医が自身のML作業におけるフェアネスを評価することができる。

$\textbf{OBJECTIVE}$: Ensuring that machine learning (ML) algorithms are safe and effective within all patient groups, and do not disadvantage particular patients, is essential to clinical decision making and preventing the reinforcement of existing healthcare inequities. The objective of this tutorial is to introduce the medical informatics community to the common notions of fairness within ML, focusing on clinical applications and implementation in practice. $\textbf{TARGET AUDIENCE}$: As gaps in fairness arise in a variety of healthcare applications, this tutorial is designed to provide an understanding of fairness, without assuming prior knowledge, to researchers and clinicians who make use of modern clinical data. $\textbf{SCOPE}$: We describe the fundamental concepts and methods used to define fairness in ML, including an overview of why models in healthcare may be unfair, a summary and comparison of the metrics used to quantify fairness, and a discussion of some ongoing research. We illustrate some of the fairness methods introduced through a case study of mortality prediction in a publicly available electronic health record dataset. Finally, we provide a user-friendly R package for comprehensive group fairness evaluation, enabling researchers and clinicians to assess fairness in their own ML work.
翻訳日:2024-06-18 12:44:32 公開日:2024-06-15